# TFM : Inferencia de noticias de Donald Trump en modelos de predicción de valores en Dow Jones

# Autor : Luis Morales Alcalá

## Parte 1: Análisis y limpieza de dataset de entrenamiento

Para el desarrollo de este TFM voy a basarme en el dataset "Sentiment140" como dataset para el entrenamiento de mi modelo. Este dataset fue creado por la universidad de Stanford.

A continuación presento un enlace donde se puede encontrar más información sobre el mismo:
http://help.sentiment140.com/for-students/<br><br>
El dataset se puede descargar del siguiente enlace.<br>
http://cs.stanford.edu/people/alecmgo/trainingandtestdata.zip

El formato del dataset es el siguiente:

El archivo es un CSV con los emoticonos ya eliminados, dispone de 6 campos:

0 - Polaridad del tweet (0 = negativo, 2 = neutral, 4 = positivo)<br>
1 - el id del tweet (2087)<br>
2 - Fecha del tweet (Sat May 16 23:58:44 UTC 2009)<br>
3 - La query (lyx).Si no hay query, entonces el valor es NO_QUERY.<br>
4 -El usuario que realizó el tweet (robotickilldozr)<br>
5 - Texto del tweet (Lyx is cool)<br>


Una vez entrenado y validado se procederá a realizar un análisis en profundidad del dataset del presidente Donald Trump.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd  
import numpy as np

plt.style.use('fivethirtyeight')
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

In [None]:
cols = ['sentimiento','id','fecha','query_string','user','mensaje']

In [None]:
df_inicial = pd.read_csv("./training.1600000.processed.noemoticon.csv",header=None, names=cols,encoding='cp1252')

## 1. Análisis descriptivo de los datos

In [None]:
df_inicial.head()

In [None]:
df_inicial.info()

In [None]:
df_inicial.sentimiento.value_counts()

El dataset contiene 1,6 millones de entradas que se encuentran balanceadas en dos tipos de sentimiento, negativo y positivo. En el dataset a pesar de que se indica que existe una clase neutral, como se puede observar no existe. Se destaca que no existen valores nulos por lo que en esta fase no será necesario aplicar ningún tipo de tratamiento del conjunto de datos al respecto.

Proceso a eliminar las categorías que no necesarias para la tarea que voy a acometer, para la tarea de clasificación de sentinmiento no es relevante información relativa a la fecha, id del mensaje, ni usuario ni si el mensaje a sido utilizado en una query

In [None]:
df_inicial.drop(['id','fecha','query_string','user'],axis=1,inplace=True)

In [None]:
df_inicial.head()

A continuación paso a mostrar los 8 primeros mesajes con sentimiento negativo y positivo.

Negativo:

In [None]:
df_inicial[df_inicial.sentimiento==0].head(8)

Positivo:

In [None]:
df_inicial[df_inicial.sentimiento==4].head(8)

In [None]:
df_inicial[df_inicial.sentimiento == 4].index

Se observa que el dataset presenta perfectamente divididos los mensajes clasificados como positivos y los negativos por del 0 --> 799999 los negativos y el resto los positivos.

In [None]:
df_inicial['sentimiento'] = df_inicial['sentimiento'].map({0: 0, 4: 1})

In [None]:
df_inicial.sentimiento.value_counts()

In [None]:
plt.pie(df_inicial.sentimiento.value_counts(), labels=["Sentimiento negativo", "Sentimiento positivo"], autopct="%0.1f %%")
plt.axis("equal")
plt.show()

Voy a proceder a realizar un análisis del tamaño de la columna mensaje para verificar la diversidad de la muestra

In [None]:
df_inicial['longitud'] = [len(t) for t in df_inicial.mensaje]
df_inicial

In [None]:
print ("El mensaje con mayor longitud es de: "+str(df_inicial['longitud'].max())+" caracteres")

In [None]:
fig, ax = plt.subplots(figsize=(7, 7))
plt.boxplot(df_inicial.longitud)
plt.show()

## 2.Preprocesamiento de los mensajes

A continuanción se presenta una muestra de ejemplo del tratamiento que tendrá que ser realizado al conjunto de los mensajes del dataset, para ello he identificado varios ejemplos de mensajes que presentan ciertas características específicas que son necesarias eliminar en esta fase de preprocesamiento para que posteriormente el modelo sea capaz de realizar unaclasificación lo más precisa posible.

### 2.1 Tratamiento de las menciones @

Este tipo de funcionalidad de la red social permite que otro usuario mencione y ofrezca información relativa al mensaje original, por lo que no aporta valor en la construciión del modelo, al disponer ya del mensaje original.

In [None]:
df_inicial.mensaje[600]

In [None]:
import re as patternToDelete
patternToDelete.sub(r'@[A-Za-z0-9]+','',df_inicial.mensaje[600])

### 2.2 Tratamiento de código Html existente en los mensajes

Procedo a decodificar el texto html existente para lo que me apoyo en la funcion BeautifulSoup

In [None]:
df_inicial.mensaje[119]

In [None]:
from bs4 import BeautifulSoup
out = BeautifulSoup(df_inicial.mensaje[119], 'lxml')
print (out.get_text())

Como se puede observar una vez realizada la conversión se eliminan los textos del tipo '&quot','&amp'.

### 2.3 limpieza de links en los mensajes

In [None]:
df_inicial.mensaje[170]

In [None]:
patternToDelete.sub('https?://[A-Za-z0-9./]+','',df_inicial.mensaje[170])

### 2.4 Eliminación de hashtags y números

Siguiendo la misma filosofia que en los puntos anteriores, procedo a eliminar símbolos que entiendo que no son necesarios para el análisis de sentimiento como es el caso de la #

In [None]:
df_inicial.mensaje[190]

In [None]:
patternToDelete.sub("[^a-zA-Z]", " ",df_inicial.mensaje[190])

## 3.Limpieza de datos

Una vez mostradas las cuatro tareas anteriores en las que se realiza un tratamiento de limpieza de los datos, se procede a la creación de una función que será ejecutada sobre el conjunto total de los datos.
Esta función realizará las siguientes tareas de limpieza de los mensajes.

1.Souping.<br>
2.Eliminación del BOM.<br>
3.Eliminación de direcciones http y www así como eliminación del ID de Twitter.<br>
4.Conversión en minúsculas.<br>
5.Manejo de las contracciones en las negaciones.<br>
6.Eliminación de números y caracteres especiales.<br>
7.Join y tokenización para eliminación de espacios en blanco.<br>
8.Eliminación de emojis.

In [None]:
from nltk.tokenize import WordPunctTokenizer
tok = WordPunctTokenizer()

WordPunctTokenizer, esta función tokeniza una secuencia de caraceres alfanuméricos y no alfanuméricos

In [None]:
import emoji
def give_emoji_free_text(text):
    allchars = [str for str in text.decode('utf-8')]
    emoji_list = [c for c in allchars if c in emoji.UNICODE_EMOJI]
    clean_text = ' '.join([str for str in text.decode('utf-8').split() if not any(i in str for i in emoji_list)])
    return clean_text

In [None]:
patternToDelete1 = r'@[A-Za-z0-9_]+'
patternToDelete2 = r'https?://[^ ]+'
patron = r'|'.join((patternToDelete1, patternToDelete2))
www_pat = r'www.[^ ]+'
negations_dic = {"isn't":"is not", "aren't":"are not", "wasn't":"was not", "weren't":"were not",
                "haven't":"have not","hasn't":"has not","hadn't":"had not","won't":"will not",
                "wouldn't":"would not", "don't":"do not", "doesn't":"does not","didn't":"did not",
                "can't":"can not","couldn't":"could not","shouldn't":"should not","mightn't":"might not",
                "mustn't":"must not"}
patronNegacion = patternToDelete.compile(r'\b(' + '|'.join(negations_dic.keys()) + r')\b')

def limpieza_tweets(mensaje):
    out = BeautifulSoup(mensaje, 'lxml')
    out_souped = out.get_text()
    try:
        bom_borrado = out_souped.decode("utf-8-sig").replace(u"\ufffd", "?")
    except:
        bom_borrado = out_souped
    emoji_borrado = give_emoji_free_text(bom_borrado.encode('utf8'))
    mensajeAux = patternToDelete.sub(patron, '', emoji_borrado)  
    mensajeAux = patternToDelete.sub(www_pat, '', mensajeAux)
    lmensajeAux_lower_case = mensajeAux.lower()
    neg_handled = patronNegacion.sub(lambda x: negations_dic[x.group()], lmensajeAux_lower_case)
    mensajeSoloLetras = patternToDelete.sub("[^a-zA-Z]", " ", neg_handled)
    # During the letters_only process two lines above, it has created unnecessay white spaces,
    # I will tokenize and join together to remove unneccessary white spaces
    words = [x for x  in tok.tokenize(mensajeSoloLetras) if len(x) > 1]
    return (" ".join(words)).strip()


In [None]:
%%time
print ("Limpiando y parseando todos los tweets...\n")
tweetsLimpios = []
i=0
while i < len(df_inicial):
    if( (i+1)%100000 == 0 ):
        print ("Tweets número %d de %d han sido procesados" % ( i+1, len(df_inicial) ))                                                                    
    tweetsLimpios.append(limpieza_tweets(df_inicial['mensaje'][i]))
    i += 1

Realizo un análisis de los datos procesados

Procedo a guardar los mensajes limpios

In [None]:
tweetsLimpiosDF = pd.DataFrame(tweetsLimpios,columns=['mensaje'])
tweetsLimpiosDF['sentimiento'] = df_inicial.sentimiento
tweetsLimpiosDF.head()

In [None]:
tweetsLimpiosDF.to_csv('tweetsLimpios.csv',encoding='utf-8')

El tamaño de este nuevo csv una vez se ha aplicado la limpieza de los mensajes es de la mitad del tamaño original

In [None]:
tweetsLimpiosDF.info()