# Clasificación de Tweets con relación a temas financieros   


Asesor Principal: 
- Daniel Montegro

Autores:
- Laura Gonzalez 
- Ana Lucia Agredo
- Edwin Cuy



## Introducción

Las noticias de hoy tambien suceden en las redes sociales, desde perfiles personales e institucionales (canales digitales) se hacen anuncios y declaraciones que interactúan instantáneamente con un gran número de usuarios, fenomeno que hace que su analisis se haya vuelto parte del ejercicio periodístico cotidiano.

El uso de twitter ha ido aumentando exponencialmente desde su creación. Esta red social se ha convertido en una fuente de información de todo el mundo, desde noticias de ultima hora hasta opiniones personales. Se puede utilizar como herramienta de investigación de mercado, para identificar nuevas demandas y hábitos de consumo, tambien es util como fuente de información sobre lo que la gente está pensando sobre su país y sus instituciones.
En este proyecto se propone un acercamiento a los temas economicos mas importantes en Colombia a partir del analisis de tweets en cierto periodo de tiempo.

## Descripción de Problema

Se requiere establecer clusters a partir de datos proporcionados por una red social (Twitter) relacionados con el área de las finanzas de tal forma que se pueda etablecer un criterio de desición o de evaluación del interés de la gente en ésta área. Todo esto haciendo uso de técnicas de baja mediana y alta complejidad para así realizar una comparación entre los diferentes algoritmos y llegar al modelo más acertado.

## Fuente de Datos

Los datos serán obtenidos de twitter utilizando la interfaz de programación de aplicaciones (API), que permite
a las personas crear software que se integre con la aplicación. En este caso se realizó la creación de un
código en el lenguaje computacional Python que funcionará con la Standard Search API v1.1.

Teniendo en cuenta los siguientes parámetros:

- *q* : Consulta de búsqueda (query) codificada en URL de 500 caracteres como máximo, incluidos los operadores. Las consultas también pueden estar limitadas por la complejidad
- *geocode* : Retorna los tweets de usuarios ubicados dentro de un radio determinado de la latitud/longitud dada. La ubicación se toma preferentemente de la API de geoetiquetado, pero recurrirá a su perfil de Twitter. El valor del par ́ametro se especifica por ”latitud, longitud, radio ”
- *lang* : Restringe los tweets de un idioma brindado, teniendo en cuenta el código ISO 639-1
- *since* : Retorna los tweets creados después ́es de la fecha dada YYYY-MM-DD
- *until* : Retorna los tweets creados antes de la fecha dada YYYY-MM-DD
- *include_entities* : Se incluyen entidades si el campo es Verdadero

Para esto es necesario crear una cuenta de la Plataforma de Desarrollo de Twitter con acceso elevado y costo gratuito que brindará los códigos de autorización en este caso “Consumer Key” y “ Consumer Secret” son las credenciales fundamentales mientras el “Access Token” y “Access secret” permiten realizar acciones en nombre de otro usuario, pues estos últimos especıfican la cuenta de Twitter desde la cual se está haciendo el requerimiento.

## Procesamiento ETL

Preprocesamiento de Texto

Este proceso consiste en transformar los textos en un formato limpio y coherente que pueda introducirse en un modelo para su posterior análisis y aprendizaje, lo anterior teniendo en cuenta que los textos provenientes del lenguaje natural no estan estructurados y presentan ruido.[6]

Las técnicas de preprocesamiento de textos pueden ser generales para que sean aplicables a diferentes clases de texto o pueden ser especializadas para una tarea concreta. El tratamiento de comentarios de redes sociales es diferente al dado en documentos científicos que cuentan con fórmulas y símbolos matemáticos. Teniendo en cuenta que los pasos como la segmentación de frases, la tokenización, la corrección ortográfica y la lematización son comunes en su uso.[6]

“Rompen la voz y el texto en pequeños trozos, lo reconstruyen lo analizan y lo procesan para traer
los datos más relevantes”[7]

Pipeline clásico de técnicas de NLP:

A continuación, se muestran los pasos que se realizan en procesamiento del lenguaje natural que permite facilitar el análisis de datos no estructurados como en el caso de estudio.

- Segmentación por Oración: En el caso de tener párrafos, es preferible proceder una oración a la vez, lo cual disminuye la complejidad y simplifica el proceso.[7]

- Tokenización de Palabras: Proceso donde se rompen las frases u oraciones en unidades más pequeñas conocidas como tokens. Este es un paso fundamental porque el significado de la palabra se interpreta fácilmente mediante el análisis de las palabras en el texto.

- Part of Speech: Se refiere a la identificación de los tokens como sustantivos, pronombres, verbos, adjetivos, etc. Esto permite en caso de ser necesario identificar cuáles son artículos y posteriormente realizar su eliminación.[5]

- Lematización del Texto: Esto permite entender que las palabras se utilizan para los mismos conceptos cuando hay varias palabras en las frases que tienen las mismas palabras base. Por lo cual en este paso se va al nivel de la raíz para encontrar la forma base de todas las palabras disponibles.[6]

- Identificación de las Stopwords: Las stop-words son aquellas palabras de uso común en un idioma por lo cual se realiza una eliminación de estas palabras que permite centrarse en aquellas que son importantes.

## Exploración de los datos

Se propone un análisis exploratorio de los datos a partir del preprocesamiento para verificar cuales son las
palabras que más se repiten y se deben considerar como stopwords, de igual forma tener una primera visión
de los mensajes relacionados con el tema:

- Tokenización, identificación de los tokens más repetidos y palabras únicas
- Representación de las palabras con mayores frecuencias por medio de un wordcloud
- Histogramas de longitud de tweets
- Segmentación por oración para obtener el número de frases por tweet
- Identificación de palabras sinónimas
- Uso del corrector ortográfico language-tool-python para estandarizar tweets y encontrar el número de errores por tweet

## Técnicas de modelación propuestas

Las técnicas  utilizadas para cumplir el objetivo son básicamente 3 aumentando en el nivel de dificultad según su orden:

- K-means : 

Este algoritmo permite crear clusters mediante las caracterísiticas de los objetivos y teniendo en cuenta un parámetro de distancia, es decir, el define que un objeto pertenece o no a cierto grupo dependiente de la distancia geometrica que exista entre el objeto y los otros objetos que lo rodean.
- LDA:  

En este algoritmo con un enfoque bayesiano basicamente trata de identificar la distribución de probabilidad conjunta de las variables del objeto y a partir de estas asignar pesos probabilisticos para cada objeto. De esta forma se conoce los objetos que son más probables que pertenezcan a cierto cluster, sin embargo a diferencia del algoritmo K-means, en este algoritmo un objeto puede pertenecer a más de un cluster, es decir, se tiene un sistema difuso. 

- Transformers

Este modelo busca el entendimiento de lenguaje natural mediante redes neuronales en general recurrentes, este tipo de algoritmos recibe una gran cantidad de texto (al ser redes neuronales el parametro de cantidad de datos es de vital importancia para la exactitud del modelo)  y proporciona como salida una serie de vectores numéricos que caracterizan el lenguaje y lo deja mucho más manipulable.

 

## Conocimientos requeridos para el desarrollo del proyecto


- Python: nivel intermedio
- Modelos no supervisados
- Procesamiento de lenguaje natural

## Resultados Esperados

- Encontrar los diferentes tópicos en los tweet del momento sobre economia mediante un modelo de clusterización LDA
- Comparar este modelo con tecnicas modernas de clusterización, transformers (Opcional)  

## Tiempo de desarrollo del proyecto

6 semanas