<img style="float: left;;" src='Figures/alinco.png' /></a>

# Modulo I: Preprocesamiento de Tweets para el Análisis de Sentimientos

## Configuración

Realizaremos un análisis de sentimientos de tweets usando el paquete [Kit de herramientas de lenguaje natural (NLTK)] (http://www.nltk.org/howto/twitter.html), una biblioteca Python de código abierto para el procesamiento del lenguaje natural. 

Para este ejercicio, usaremos un conjunto de datos de Twitter que vienen con NLTK. Este conjunto de datos se ha anotado manualmente y sirve como base para desarrollar algunos modelos rápidamente. Vamos a importarlos ahora, así como algunas otras bibliotecas que usaremos.

## Acerca del conjunto de datos de Twitter

El conjunto de datos de muestra de NLTK se divide en tweets positivos y negativos. Contiene 5000 tweets positivos y 5000 tweets negativos exactamente. La intención es tener un conjunto de datos equilibrado. Eso no refleja las distribuciones reales de clases positivas y negativas en la base de datos que tiene Twitter. Es solo porque los conjuntos de datos equilibrados simplifican el diseño de la mayoría de los métodos computacionales que se requieren para el análisis de sentimientos. 

Para descargar los datos hay que hacer lo siguiente:

In [2]:

# nltk.download('twitter_samples')

Podemos cargar los campos de texto de los tweets positivos y negativos usando el método `strings ()` del módulo como este:

A continuación, imprimiremos un informe con la cantidad de tweets positivos y negativos. También es fundamental conocer la estructura de datos de los conjuntos de datos

Number of positive tweets:  5000
Number of negative tweets:  5000

The type of all_positive_tweets is:  <class 'list'>
The type of a tweet entry is:  <class 'str'>



Podemos ver que los datos se almacenan en una lista y, como era de esperar, los tweets individuales se almacenan como cadenas.

Puede hacer un informe más atractivo visualmente utilizando la biblioteca [pyplot] de Matplotlib (https://matplotlib.org/tutorials/introductory/pyplot.html). Veamos cómo crear un [gráfico circular] (https://matplotlib.org/3.2.1/gallery/pie_and_polar_charts/pie_features.html#sphx-glr-gallery-pie-and-polar-charts-pie-features- py) para mostrar la misma información que la anterior. 

## Exploración de los textos

Antes que nada, podemos imprimir un par de tweets del conjunto de datos para ver cómo se ven. Comprender los datos es responsable del 80% del éxito o fracaso en los proyectos de ciencia de datos. Podemos utilizar este tiempo para observar aspectos que nos gustaría considerar al preprocesar nuestros datos.

A continuación, imprimiremos un tweet positivo aleatorio y un tweet negativo aleatorio. 

Una observación que puede tener es la presencia de [emoticones] (https://en.wikipedia.org/wiki/Emoticon) y URL en muchos de los tweets. Esta información será útil en los próximos pasos.

## Procesar previamente el texto para el análisis de sentimientos

El preprocesamiento de datos es uno de los pasos críticos en cualquier proyecto de aprendizaje automático. Incluye limpiar y formatear los datos antes de introducirlos en un algoritmo de aprendizaje automático. Para NLP, los pasos de preprocesamiento se componen de las siguientes tareas:

* Tokenizando la cadena
* Minúsculas
* Eliminación de stopwords
* Stemming,lematización



### Eliminar hipervínculos, marcas y estilos de Twitter

Dado que tenemos un conjunto de datos de Twitter, nos gustaría eliminar algunas subcadenas de uso común en la plataforma, como el hashtag, las marcas de retweet y los hipervínculos. Usaremos la biblioteca [re](https://docs.python.org/3/library/re.html) para realizar operaciones de expresión regular en nuestro tweet. Definiremos nuestro patrón de búsqueda y usaremos el método `sub ()` para eliminar coincidencias sustituyéndolo con un carácter vacío (es decir, `` '' ``)

### Tokenizar la cadena

Tokenizar significa dividir las cadenas en palabras individuales sin espacios en blanco ni tabulaciones. En este mismo paso, también convertiremos cada palabra de la cadena a minúsculas. El módulo [tokenize](https://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.casual) de NLTK nos permite hacer esto fácilmente:

### Remover stopwords y signos de puntuación

El siguiente paso es eliminar los stopwords y signos de puntuación.


Es hora de limpiar nuestro tweet tokenizado!


Tenga en cuenta que las palabras **happy** y **sunny** en esta lista están escritas correctamente.

### Stemming

es el proceso de convertir una palabra a su forma más general, o raíz. Esto ayuda a reducir el tamaño de nuestro vocabulario.

Considerando las siguientes palabras: 
 * **learn**
 * **learn**ing
 * **learn**ed
 * **learn**t
 
Todas estas palabras se derivan de su raíz común **aprender**. Sin embargo, en algunos casos, el proceso de derivación produce palabras que no tienen la ortografía correcta de la palabra raíz. Por ejemplo, **happi** y **sunni**. Por ejemplo, podemos observar el conjunto de palabras que componen las diferentes formas de `happy`:

 * **happ**y
 * **happi**ness
 * **happi**er

Podemos ver que el prefijo **happi** se usa más comúnmente. No podemos elegir **happ** porque es la raíz de palabras no relacionadas como **happen**.

 
NLTK tiene diferentes módulos para derivar y usaremos el módulo [PorterStemmer](https://www.nltk.org/api/nltk.stem.html#module-nltk.stem.porter)  que implementa el algoritmo [Porter Stemming Algorithm](https://tartarus.org/martin/PorterStemmer/). 


[92m
['beautiful', 'sunflowers', 'sunny', 'friday', 'morning', ':)', 'sunflowers', 'favourites', 'happy', 'friday', '…']
[94m
stemmed words:
['beauti', 'sunflow', 'sunni', 'friday', 'morn', ':)', 'sunflow', 'favourit', 'happi', 'friday', '…']


Ahora tenemos un conjunto de palabras que podemos incorporar a la siguiente etapa de nuestro proyecto de aprendizaje automático.

## process_tweet()

Como se muestra arriba, el preprocesamiento consta de varios pasos antes de llegar a la lista final de palabras. Sin embargo, podemos  utilizar la función `process_tweet (tweet)` disponible en _utils.py_. 

Para obtener el mismo resultado que en las celdas de código anteriores, solo necesitará llamar a la función `process_tweet ()`. Hagámoslo en la siguiente celda.