Detección de Redes Sociales en las Webs

Este proyecto surgió ante la necesidad de descargar el peso de la Encuesta sobre la Sociedad de la Información a Empresas (ESIE) para los encuestados. En particular, se centra en una de las preguntas del cuestionario, que indaga sobre el acceso a redes sociales en la web.

Mediante el uso de técnicas de scraping, se ha logrado identificar dicha pregunta de manera automatizada. Los resultados obtenidos demuestran que estas técnicas son efectivas para la detección y el análisis de este tipo de información.

El desarrollo de la programación se ha realizado íntegramente en Python.

Para cada empresa, se accede a su URL correspondiente y, mediante técnicas de scraping, se navega tanto por la página principal como por los enlaces disponibles. Durante este proceso, se identifican y extraen las redes sociales asociadas.

Desarrollo realizado con la colaboración de la Universidad del País Vasco (Facultad de Informática).

La evaluación se ha realizado comparando los resultados obtenidos por el scraping con lo recogido en la encuesta ESIE en la variable de presencia de redes sociales en las webs de las empresas. Se ha realizado la evaluación del proyecto con lo contestado en las encuestas de dos años consecutivos (2022 y 2023).

Exactitud (Accuracy):

Mide la proporción de predicciones correctas (verdaderos positivos y verdaderos negativos) sobre el total de predicciones.

Exactitud (Accuracy) = TP + TN / (TP + TN + FP + FN)

La precisión es de un 83 % en 2022.

La precisión es de un 85 % en 2023.

Sensitivity (Sensibilidad):

Verdaderos positivos perfectamente identificados.

Sensitivity (Sensibilidad) = TP / (TP + FN)

La sensibilidad es de un 78 % en 2022.

La sensibilidad es de un 81 % en 2023.

Especificidad:

Verdaderos negativos perfectamente identificados.

Specificity = TN / (TN + FP)

La especificidad es de un 95 % en 2022.

La especificidad es de un 96 % en 2023.

Valor Predictivo Positivo(VPP):

Proporción de los que el modelo predice positivos y realmente son positivos.

Specificity = TN / (TN + FP)

La VPP es de un 97 % en 2022.

La VPP es de un 98 % en 2023.

Cuando predice que tiene redes sociales, hay un 98%de probabilidad de que la predicción sea correcta.

Valor Predictivo Negativo(VPN):

Proporción de los que el modelo predice negativos y realmente son negativos.

Valor Predictivo Negativo (VPN) = TN / (TN + FN)

La VPN es de un 64 % en 2022.

La VPN es de un 66 % en 2023.



  1. Capacidad para identificar verdaderos positivos: El modelo muestra una sensibilidad del 80%, lo que indica una alta capacidad para detectar casos positivos.
  2. Alta exactitud general.
  3. Excelente en identificar verdaderos negativos: La especificidad de 95% es notablemente alta.
  4. Confirmación precisa de redes sociales: Un valor VPP de 98% significa que cuando el modelo predice que una página web tiene integraciones de redes sociales, hay un 98% de probabilidad de que esta predicción sea correcta.
  5. Rendimiento robusto: El modelo destaca por su alta precisión, excelente especificidad y un excepcional valor predictivo positivo.



Su feedback.   Ayúdenos a adaptar nuestra web a sus necesidades

¿Cómo valora usted la información de esta página?
Muy útil
Útil
Poco útil
Nada útil
¿Tiene alguna sugerencia que hacer?
Si, tengo
Enviar
AENOR AENOR

Eustat - Euskal Estatistika Erakundea - Instituto Vasco de Estadística

Eustat es el organismo público que desarrolla, produce y difunde información estadística oficial de la C.A. de Euskadi

c/Donostia - San Sebastián, 1
01010 Vitoria-Gasteiz
Tfno: (+34) 945017500
Fax: (+34) 945017501
informacion@eustat.eus