# Análisis y clasificación de texto

### Caso: Plebiscito en Colombia

## Contenido

* [Recolección de tweets](#Recolección-de-tweets)
    - [Búsqueda de tweets por usuario](#Búsqueda-de-tweets-por-usuario)
    - [Búsqueda de tweets por palabra clave](#Búsqueda-de-tweets-por-palabra-clave)


* [Análisis exploratorio](#Análisis-exploratorio)


* [Modelo para la clasificación de tweets](#Modelo-para-la-clasificación-de-tweets)
    - [Datos de entrenamiento y prueba](#Datos-de-entrenamiento-y-prueba)
    - [Selección del modelo de clasificación](#Selección-del-modelo-de-clasificación)
    - [Matriz de confusión](#Matriz-de-confusión)
    
 
* [Resultados](#Resultados)

### Recolección de tweets

<hr />

Para la recolección de tweets se utilizó la librería `Twitter` de python, la cual permite crear una conexión directa a la API de esa red social. A través de dicha librería se desarrolló un algoritmo que permitió descargar información tomando en cuenta dos peticiones: a) búsqueda de tweets por usuario y b) búsqueda de tweets por palabra clave.

#### Búsqueda de tweets por usuario

Para esta primera petición, utilizando el método `user_timeline`, se recolectó información de 28 cuentas de twitter. Estas cuentas fueron elegidas por _tratarse de personajes políticos y cuentas oficiales de gobierno que en su momento publicaron información relevante sobre el proceso de paz en Colombia y con relación al plebiscito_.

Una vez descargados los tweets de cada cuenta, se establecieron dos criterios que permitieron definir el contexto de cada publicación; por un lado, se realizó una búsqueda de palabras clave asociadas al **plebiscito**, tales como: _plebiscito, acuerdos, conflicto, farc, víctimas, firma, habana, negociación_, y por otro, se tomaron en cuenta las publicaciones realizadas durante el periodo que comprende las fechas del 23 de junio al 24 de noviembre de 2016.

La implementación de estos criterios dio como resultado una base de datos de 7.240 tweets, los cuales se distribuyeron del siguiente modo:

        +-----------------+--------------------+
        | Usuario         |   Número de tweets |
        +=================+====================+
        | AlvaroUribeVel  |               1095 |
        +-----------------+--------------------+
        | ComisionadoPaz  |                870 |
        +-----------------+--------------------+
        | ClaudiaLopez    |                613 |
        +-----------------+--------------------+
        | EquipoPazGob    |                495 |
        +-----------------+--------------------+
        | mluciaramirez   |                463 |
        +-----------------+--------------------+
        | JuanManSantos   |                457 |
        +-----------------+--------------------+
        | JERobledo       |                353 |
        +-----------------+--------------------+
        | RoyBarreras     |                299 |
        +-----------------+--------------------+
        | ELN_Paz         |                280 |
        +-----------------+--------------------+
        | FARC_EPaz       |                278 |
        +-----------------+--------------------+
        | piedadcordoba   |                270 |
        +-----------------+--------------------+
        | jflafaurie      |                248 |
        +-----------------+--------------------+
        | FARC_EPueblo    |                219 |
        +-----------------+--------------------+
        | JSantrich_FARC  |                199 |
        +-----------------+--------------------+
        | Yadira_FARC     |                183 |
        +-----------------+--------------------+
        | IvanMarquezFARC |                179 |
        +-----------------+--------------------+
        | HoracioSerpa    |                166 |
        +-----------------+--------------------+
        | RafaelPardo     |                148 |
        +-----------------+--------------------+
        | TimoFARC        |                 74 |
        +-----------------+--------------------+
        | petrogustavo    |                 69 |
        +-----------------+--------------------+
        | sergio_fajardo  |                 53 |
        +-----------------+--------------------+
        | Rodrigo_Lara_   |                 45 |
        +-----------------+--------------------+
        | EnriquePenalosa |                 40 |
        +-----------------+--------------------+
        | angelamrobledo  |                 38 |
        +-----------------+--------------------+
        | BruceMacMaster  |                 32 |
        +-----------------+--------------------+
        | Tanja_FARC      |                 32 |
        +-----------------+--------------------+
        | German_Vargas   |                 28 |
        +-----------------+--------------------+
        | luisfandrade    |                 14 |
        +-----------------+--------------------+
        
El usuario con mayor número de tweets, de acuerdo a los criterios definidos anteriormente, fue @AlvaroUribeVel (1.095 tweets) y la cuenta con menor número de tweets fue @luisfandrade (14 tweets).

La frecuencia de publicaciones por parte de esas 28 cuentas y durante el periodo descrito se muestra en el siguiente gráfico:

<p style='text-align: center; font-size: 16px;'>Frecuencia de publicaciones</p>
<img src='img/freqs_profiles_publicaciones.png' />

#### Búsqueda de tweets por palabra clave

Una segunda petición para la recolección de tweets fue la búsqueda de datos por palabra clave, aplicando el método `search.tweets`. Esta descarga se delimitó a la búsqueda de tweets que contenían la palabra **plebiscito**.

Para este conjunto de datos se obtuvieron las siguientes estadísticas:

        +------------------+------------+
        | Atributo         | Valor      |
        +==================+============+
        | Idioma           | español    |
        +------------------+------------+
        | Fecha inicial    | 2016-07-17 |
        +------------------+------------+
        | Fecha final      | 2016-10-24 |
        +------------------+------------+
        | Total tweets     | 753777     |
        +------------------+------------+
        | Tweets únicos    | 210189     |
        +------------------+------------+
        | Total usuarios   | 201062     |
        +------------------+------------+
        | Usuarios activos | 82618      |
        +------------------+------------+

El atributo _tweets únicos_ hace referencia al número de registros en la base de datos que no incluyen retweets. Asimismo, el atributo _usuarios activos_ hace referencia al número de cuentas únicas en ese conjunto de datos que no incluye retweets.

La frecuencia de publicaciones se describe en el siguiente gráfico:

<p style='text-align: center; font-size: 16px;'>Frecuencia de publicaciones</p>
<img src='img/freqs_query_publicaciones.png' />

### Análisis exploratorio

Al consolidar las dos peticiones de datos (por usuario y por palabra clave), se obtuvó una base de 761.017 tweets (incluyendo retweets), la cual comprende el periodo con fecha del 23 de junio al 24 de noviembre de 2016.

El siguiente gráfico muestra el comportamiento de las publicaciones en ese periodo:

<p style='text-align: center; font-size: 16px;'>Frecuencia de publicaciones 23 de Junio - 24 de noviembre 2016</p>
<img src='img/freqs_data_publicaciones.png' />
<hr />

Como se observa en el gráfico, el mayor volumen de datos se concentra durante los días de la votación del plebiscito, siendo el 2 de octubre el día con más publicaciones.

<p style='text-align: center; font-size: 16px;'>Frecuencia de publicaciones 01 al 05 de octubre 2016</p>
<img src='img/freqs_data_zoom_publicaciones.png' />
<hr />

Al observar la distribución de palabras en cada tweet, encontramos que la mayoría de las publicaciones fueron redactadas en promedio con 20 palabras. Esta información será relevante posteriormente al analizar cómo se distribuyen los tweets de acuerdo a la clasificación _Positivo_ y _Negativo_. En un contexto general, el rango de palabras utilizadas en un tweet es de 15 a 25 palabras en esta muestra de datos.

<p style='text-align: center; font-size: 16px;'>Frecuencia de palabras</p>
<img src='img/word_distribution_unique_tweets.png' />
<hr />


#### `Publicaciones por usuario`

La frecuencia de publicaciones por usuario, tomando en cuenta tweets y retweets, se observa en el siguiente gráfico.

<p style='text-align: center; font-size: 16px;'>Frecuencia de usuarios (tweets y retweets)</p>
<img src='img/screen_name_distribution_all.png' />
<hr />

Por otro lado, la distribución de publicaciones por usuario cambia si consideramos únicamente los tweets únicos (sin retweets).

<p style='text-align: center; font-size: 16px;'>Frecuencia de usuarios (solo tweets)</p>
<img src='img/screen_name_distribution_only_tweets.png' />
<hr />


#### `Hashtags`

<p style='text-align: center; font-size: 16px;'>Frecuencia de hashtags (tweets y retweets)</p>
<img src='img/hashtags_distribution_all.png' />
<hr />

<p style='text-align: center; font-size: 16px;'>Frecuencia de hashtags (solo tweets)</p>
<img src='img/hashtags_distribution_only_tweets.png' />
<hr />


#### `Menciones`

Para el análisis de las menciones hechas en las publicaciones, se tomaron en cuenta únicamente los tweets únicos. El siguiente gráfico muestra la distribución de estos datos.

<p style='text-align: center; font-size: 16px;'>Frecuencia de menciones (solo tweets)</p>
<img src='img/mentions_distribution_only_tweets.png' />
<hr />

### Modelo para la clasificación de tweets

De la base de datos, se seleccionaron 2.447 tweets de manera aleatoria para ser clasificados manualmente en dos clases: Positivo y Negativo; esto, con base en la posición ideológica de dicho tweet con relación al contexto del plebiscito, es decir, en donde _positivo_ describe una votación o tendencia al Sí, y _negativo_ una votación o tendencia al No.

Durante este ejercicio de clasificación supervisado, se identificó en esa muestra de datos, documentos que no pertenecían al caso de estudio (también conocidos como _spammers_), los cuales fueron eliminados de la base para garantizar una clasificación mucho más robusta y acorde al tema de investigación.

Al finalizar el ejercicio de clasificación, se obtuvó una base de 1.658 registros con dos atributos: 1) tweet y 2) polaridad o sentimiento. Esta base se distribuye en 645 documentos clasificados como _Positivo_ y 1.013 documentos clasificados como _Negativo_.

<p style='text-align: center; font-size: 16px;'>Clasificación supervisado de tweets</p>
<img src='img/polarity_grouped.png' />

#### Datos de entrenamiento y prueba

El conjunto de datos de entrenamiento y prueba se construyó de manera aleatoria y se tomó como parámetro un 80% de datos de entrenamiento y 20% para prueba.

Este nuevo conjunto de datos quedó del siguiente modo:

- Entrenamiento: 1.326 tweets
- Prueba: 332 tweets

En este sentido, el modelo de clasificación automático inició un proceso de aprendizaje con 1.326 documentos, de los cuales, 810 son clasificados como Negativos y 516 como Positivos. Para este procedimiento, se eligió un parámetro de división estratificado, el cual devuelve un conjunto de datos de entrenamiento y prueba que cuentan con la misma proporción de documentos clasificados como *Negativo* y *Positivo* con relación a la base inicial de documentos.

El siguiente gráfico muestra la proporción de clases en el conjunto de datos de entrenamiento.

<p style='text-align: center; font-size: 16px;'>Polaridad en el conjunto de datos de entrenamiento</p>
<img src='img/polarity_grouped_train.png' />

#### Selección del modelo de clasificación

Para la selección del modelo de clasificación, se implementaron dos algoritmos de machine learning: Naive Bayes Multinomial y Naive Bayes Bernoulli, los cuales fueron evaluados con base en cuatro criterios: 1) Mejor calificación durante el entrenamiento, 2) Puntuación de precisión, 3) Recuerdo y 4) Calificación F1.

Ambos algoritmos se entrenaron con la misma información y el mismo número de documentos clasificados como *Negativo* y como *Positivo*. Asimismo, para ambos algoritmos se realizó una búsqueda de grilla para elegir el mejor modelo, utilizando como parámetros una distribución de diversos valores y una validación cruzada de 15 pliegues.

De acuerdo con la fase de entrenamiento, el algoritmo Naive Bayes Multinomial obtuvo una calificación de 0.7511, utilizando un *alpha* de 0.07, mientras que Naive Bayes Bernoulli, obtuvo una calificación de 0.7564, utilizando un *alpha* de 1.0.

        +-----------------+----------------------+--------+
        | Modelo          |   Mejor calificación |  Alpha |
        +=================+======================+========+
        | MultinomialNB   |   0.751131221719457  |  0.07  |
        +-----------------+----------------------+--------+
        | BernoulliNB     |   0.756410256410256  |  1.00  |
        +-----------------+----------------------+--------+

Durante la fase de prueba, la puntuación de precisión fue la siguiente:

        +-----------------+----------------------+
        | Modelo          |   Mejor calificación |
        +=================+======================+
        | MultinomialNB   |   0.7710843373493976 |
        +-----------------+----------------------+
        | BernoulliNB     |   0.7801204819277109 |
        +-----------------+----------------------+

<p style='text-align: center; font-size: 16px;'>Precisión durante entrenamiento y mejor calificación en prueba</p>
<img src='img/precision_training_accuracy_test.png' />

Con base en estos resultados, el modelo Naive Bayes Bernoulli tuvo mayor precisión al momento de predecir los documentos en el conjunto de datos de prueba. No obstante, es importante considerar otras métricas que indican el desempeño de cada modelo.

#### Matriz de confusión

                          +----------------------+
                          |       PREDICCIÓN     |
        +=================+======================+
        |                 |   |    N   |    P    |
        +=================+======================+
        | CLASE           | N |   TN   |   FP    |
        | OBSERVADA       +----------------------+
        |                 | P |   FN   |   TP    |
        +-----------------+----------------------+
        
        - TN: True Negative
        - FP: False Positive
        - FN: False Negative
        - TP: True Positive

Una matriz de confusión es una métrica que permite observar el desempeño de un modelo basado en el aprendizaje supervisado. De acuerdo con los resultados en la fase de prueba, el modelo Naive Bayes Multinomial obtuvo la siguiente matriz:

                          +----------------------+
                          |       PREDICCIÓN     |
        +=================+======================+
        |                 |   |    N   |    P    |
        +=================+======================+
        | CLASE           | N |  178   |   25    |
        | OBSERVADA       +----------------------+
        |                 | P |   51   |   78    |
        +-----------------+----------------------+

Mientras que el modelo Naive Bayes Bernoulli obtuvo la siguiente:

                          +----------------------+
                          |       PREDICCIÓN     |
        +=================+======================+
        |                 |   |    N   |    P    |
        +=================+======================+
        | CLASE           | N |  176   |   27    |
        | OBSERVADA       +----------------------+
        |                 | P |   46   |   83    |
        +-----------------+----------------------+
        
Las diferencias en la calificación de predicción y precisión son mínimas en ambos modelos. Si observamos el reporte de clasificación, encontramos también este patrón para métricas como _recall_ y _f1-score_. Si consideramos el promedio micro, el cual agrega las contribuciones de todas las clases (_polaridad de cada documento_) para obtener una métrica promedio, encontramos que la diferencia para cada estadístico es de 0.1.

<p style='text-align: center; font-size: 16px;'>Precisión, Recall y F1 Score: Promedio micro</p>
<img src='img/precision_recall_f1score_by_model_micro.png' />

De igual modo, el promedio macro, el cual calcula una métrica promedio de manera independiente para cada clase, muestra diferencias mínimas.

<p style='text-align: center; font-size: 16px;'>Precisión, Recall y F1 Score: Promedio macro</p>
<img src='img/precision_recall_f1score_by_model_macro.png' />

<br />
Ambos algoritmos tuvieron un mejor desempeño en la predicción de la clase _Negativo_, con relación a la clase _Positivo_.

<p style='text-align: center; font-size: 16px;'>Recall y F1 Score Multinomial</p>
<img src='img/precision_recall_f1score_multinomial.png' />

<p style='text-align: center; font-size: 16px;'>Recall y F1 Score Bernoulli</p>
<img src='img/precision_recall_f1score_bernoulli.png' />

### Resultados

De acuerdo con los estadísticos obtenidos en el desarrollo del modelo de clasificación, encontramos que el modelo Naive Bayes Bernoulli tuvo un mejor desempeño en la base de datos de prueba. Con base en este desempeño, se decidió aplicar el modelo de Bernoulli al resto de los datos.

Como se mencionó al inicio, la base de datos consiste en 761.017 tweets (incluyendo retweets) publicados entre el 23 de junio y el 24 de noviembre de 2016.

Al aplicar el modelo, la clasificación arrojó los siguientes resultados.

<p style='text-align: center; font-size: 16px;'>Frecuencia de publicaciones según clasificación</p>
<img src='img/results_polarity_classification.png' />
<br />

Como se observa en el gráfico, el modelo predijo las siguientes frecuencias:

        +-----------------------+
        |  Clase  |  Frecuencia |
        +=========+=============+
        |    N    |   537.748   |
        +---------+-------------+
        |    P    |   223.269   |
        +---------+-------------+

Además de la clasificación _(N | P)_, el modelo arroja la probabilidad de que un determinado tweet pertenezca a una u otra clase. De acuerdo con nuestros datos, el modelo indica que una gran parte de las publicaciones tienen una baja probabilidad de pertenecer a la clase _Positivo_. Es decir, 503.787 tweets tienen una probabilidad menor al .40 de pertenecer a la clase _Positivo_, mientras que 356.668 tienen una probabilidad menor al .20.

En el siguiente gráfico observamos esa distribución de probabilidades. 

<p style='text-align: center; font-size: 16px;'>Probabilidad según clasificación</p>
<img src='img/results_polarity_index_hist.png' />
<br />

Si tomamos en cuenta las fechas de publicación por día y calculamos el promedio de cada probabilidad de pertenecer a una clase, observamos que a mitad del mes de julio, las publicaciones tienden a ser de clase _Negativo_. Con base en este comportamiento y de acuerdo a la clasificación de nuestro modelo, podemos inferir que la campaña del **No al plebiscito** registró un mayor número de publicaciones durante el mes de agosto y septiembre.

<p style='text-align: center; font-size: 16px;'>Probabilidad promedio de pertenecer a una clase por día de publicación</p>
<img src='img/results_polarity_index_mean_by_date.png' />
<br />

Asimismo, si comparamos el número de publicaciones clasificados como _Negativo_ y _Positivo_ según al día de publicación, encontramos que existe una mayor frecuencia de tweets de clase _Negativo_. 

<p style='text-align: center; font-size: 16px;'>Probabilidad promedio de pertenecer a una clase por día de publicación</p>
<img src='img/results_polarity_frequency_by_class.png' />
<br />