Este proyecto surgió ante la necesidad de descargar el peso de la Encuesta sobre la Sociedad de la Información a Empresas (ESIE) para los encuestados. En particular, se centra en una de las preguntas del cuestionario, que indaga sobre el acceso a redes sociales en la web.
Mediante el uso de técnicas de scraping, se ha logrado identificar dicha pregunta de manera automatizada. Los resultados obtenidos demuestran que estas técnicas son efectivas para la detección y el análisis de este tipo de información.
Para cada empresa, se accede a su URL correspondiente y, mediante técnicas de scraping, se navega tanto por la página principal como por los enlaces disponibles. Durante este proceso, se identifican y extraen las redes sociales asociadas.

Desarrollo realizado con la colaboración de la Universidad del País Vasco (Facultad de Informática).
La evaluación se ha realizado comparando los resultados obtenidos por el scraping con lo recogido en la encuesta ESIE en la variable de presencia de redes sociales en las webs de las empresas. Se ha realizado la evaluación del proyecto con lo contestado en las encuestas de dos años consecutivos (2022 y 2023).
Exactitud (Accuracy):
Mide la proporción de predicciones correctas (verdaderos positivos y verdaderos negativos) sobre el total de predicciones.
Exactitud (Accuracy) = TP + TN / (TP + TN + FP + FN)
La precisión es de un 83 % en 2022.
La precisión es de un 85 % en 2023.
Sensitivity (Sensibilidad):
Verdaderos positivos perfectamente identificados.
Sensitivity (Sensibilidad) = TP / (TP + FN)
La sensibilidad es de un 78 % en 2022.
La sensibilidad es de un 81 % en 2023.
Especificidad:
Verdaderos negativos perfectamente identificados.
Specificity = TN / (TN + FP)
La especificidad es de un 95 % en 2022.
La especificidad es de un 96 % en 2023.
Valor Predictivo Positivo(VPP):
Proporción de los que el modelo predice positivos y realmente son positivos.
Specificity = TN / (TN + FP)
La VPP es de un 97 % en 2022.
La VPP es de un 98 % en 2023.
Cuando predice que tiene redes sociales, hay un 98%de probabilidad de que la predicción sea correcta.
Valor Predictivo Negativo(VPN):
Proporción de los que el modelo predice negativos y realmente son negativos.
Valor Predictivo Negativo (VPN) = TN / (TN + FN)
La VPN es de un 64 % en 2022.
La VPN es de un 66 % en 2023.