Este proyecto ya no está hosteado. Funcionó desde febrero 2016 hasta febrero 2017.
fedecarles.pythonanywhere.com
Este sitio "lee" la sección de política de los principales sitios de noticias de Argentina y realiza un simple análisis de sentimiento.
En primer lugar, se detectan las entidades mencionadas. Estas entidades pueden ser personas, lugares geográficos, países, instutuciones gubernamentales, compañias, etc.
Luego, sobre cada oración donde se encuentra una (1) entidad mencionada, se buscan las palabras asociadas, que fueron previamente clasificadas como positivas o negativas (con valores de 1 y -1 respectivamente). Dicha clasificación se hizo de forma mixta, utilizando métodos automáticos para la mayoría, pero con revisiones manuales.
Por último se computa el sentimiento para cada entidad y cada día, como la media de la suma de las palabras asociadas positivas y negativas.
Este modelo también se conoce como "bolsa de palabras", es relativamente simple y su extensión es limitada. Su principal limitación es que no permite detectar correctamente polaridades más sofisticadas. Por ejemplo, si una oración dice "Buenos Aires no es una buena ciudad...", el modelo identificaría "buena", como una palabra positiva, aunque el significado de la oración es claramente negativo. Del mismo modo, los valores asigandos a las palabas asociadas están sujetos a interpretaciones diferentes.
Aun con estos problemas, el modelo de bolsa de palabras puede proporcionar un buen punto de partida para hacer análisis de sentimiento más sofisticados, lo cual me anoto como tarea pendiente.
Este sitio está inspirado en Sentdex y en los tutoriales de Python Programming. Excelente recurso para aprender Python.
Las herramientas utilizadas son:
- Python 2.7 + Flask para el web framework.
- Bootstrap
- Pygal para los gráficos.
Los sitios de noticias analizados por ahora son los siguientes, aunque la idea es seguir añadiendo más: