<img src="mioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura Data preprocessing</center>

# Worksheet S7: Clasificación de textos

## Objetivos

El objetivo de este worksheet es que aprendas más herramientas para el trabajo con textos. Entre otros:

* Más funciones de NLTK
* Modelo Bag of Words
* TF-IDF

## Carga de datos

Como otras veces vamos a importar los datos de un fichero csv, utilizaremos la función read_csv que nos proporciona la libreria de pandas para cargar una base de datos de usuarios. El dataset en cuestión consiste en tweets procedentes del debate de los candidatos a presidencia de EEUU en 2016. Los tweets están etiquetados en sentimiento positivo y negativo.

In [2]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random

random.seed(1234)

pd.set_option('display.max_colwidth', 175) # incrementamos ancho de output
df = pd.read_csv("./data/gop_tweets_train.csv")
df.head()

Unnamed: 0,sentiment,text
0,Positive,RT @ScottWalker: Didn't catch the full #GOPdebate last night. Here are some of Scott's best lines in 90 seconds. #Walker16 http://t.co/ZSfF…
1,Positive,RT @DanScavino: #GOPDebate w/ @realDonaldTrump delivered the highest ratings in the history of presidential debates. #Trump2016 http://t.co…
2,Positive,"RT @GregAbbott_TX: @TedCruz: ""On my first day I will rescind every illegal executive action taken by Barack Obama."" #GOPDebate @FoxNews"
3,Negative,RT @NancyOsborne180: Last night's debate proved it! #GOPDebate #BATsAsk @BadassTeachersA #TBATs https://t.co/G2gGjY1bJD
4,Negative,@JGreenDC @realDonaldTrump In all fairness #BillClinton owns that phrase.#GOPDebate


Una vez cargados los datos debemos inspeccionarlos, antes de empezar nuestro análisis.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8627 entries, 0 to 8626
Data columns (total 2 columns):
sentiment    8627 non-null object
text         8627 non-null object
dtypes: object(2)
memory usage: 134.9+ KB


In [4]:
df['sentiment'].value_counts()

Negative    6853
Positive    1774
Name: sentiment, dtype: int64

## NLTK

Hay dos funciones muy importantes en NLTK que no vimos en la anterior sesión. En esta les vamos a dar un vistazo: POS y Stemming.

In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag

In [6]:
df['text'][1]

'RT @DanScavino: #GOPDebate w/ @realDonaldTrump delivered the highest ratings in the history of presidential debates. #Trump2016 http://t.co…'

In [7]:
palabras = word_tokenize(df['text'][1])
print(palabras)

['RT', '@', 'DanScavino', ':', '#', 'GOPDebate', 'w/', '@', 'realDonaldTrump', 'delivered', 'the', 'highest', 'ratings', 'in', 'the', 'history', 'of', 'presidential', 'debates', '.', '#', 'Trump2016', 'http', ':', '//t.co…']


NLTK también dispone de un tokenizador especialmente pensado para documentos de twitter.

In [8]:
from nltk.tokenize import TweetTokenizer
palabras = TweetTokenizer().tokenize(df['text'][1])
print(palabras)

['RT', '@DanScavino', ':', '#GOPDebate', 'w', '/', '@realDonaldTrump', 'delivered', 'the', 'highest', 'ratings', 'in', 'the', 'history', 'of', 'presidential', 'debates', '.', '#Trump2016', 'http://t.co…']


Como se puede observar, es capaz de detectar algunas convenciones de la famosa red social que nos facilitan la tarea: las _@menciones_ a usuarios y los _#hashtags_ ya no aparecen separados de sus respectivos caracteres identificativos. Las abreviaturas también son consideradas como una única palabra.

### Parts of Speech (POS): Identificación de palabras
Una vez separado el texto en palabras, podemos analizar el significado de cada una de ellas de una forma más especifica. Para ello existe la técnica llamada _parts of speech_ que no es más que identificar el tipo de cada palabra dentro de la gramática de un idioma. NLTK dispone de una herramienta de _parts of speech_ que las cataloga las palabras (Adjetivo, Verbo, etc..). Puedes consultar en https://cs.nyu.edu/grishman/jet/guide/PennPOS.html los tipos de tipos de palabras que existen.

Para realizar la identificación de tipos de palabras en NLTK, usaremos la función `pos_tag`:

In [9]:
pos = pos_tag(palabras)
print(pos)

[('RT', 'NNP'), ('@DanScavino', 'NN'), (':', ':'), ('#GOPDebate', 'NN'), ('w', 'NN'), ('/', 'NNP'), ('@realDonaldTrump', 'NN'), ('delivered', 'VBD'), ('the', 'DT'), ('highest', 'JJS'), ('ratings', 'NNS'), ('in', 'IN'), ('the', 'DT'), ('history', 'NN'), ('of', 'IN'), ('presidential', 'JJ'), ('debates', 'NNS'), ('.', '.'), ('#Trump2016', 'CD'), ('http://t.co…', 'NN')]


Esto es útil, por si nos queremos quedar con todos los **adjetivos** de un texto, lo podemos hacer de la siguiente manera:

In [10]:
for pos in pos_tag(palabras):
    if pos[1].startswith('JJ'):
        print(pos)

('highest', 'JJS')
('presidential', 'JJ')


## Stemmización
La stemmización es un proceso que nos permite obtener la raíz de las palabras de manera que podamos comparar independiente de sus formas verbales o sus derivaciones. Los algoritmos de stemmización son heurísticos, es decir, producen un resultado aproximado. No existen algoritmos de stemmización perfectos, pues el lenguaje es algo vivo. Hay que tener en cuenta que **el resultado de aplicar stemming puede no ser una palabra existente sino su raiz**.

Para poder realizar una stemmización con NLTK haremos uso del stemmizador `SnowballStemmer` que instanciaremos de la siguiente manera:

In [11]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("english")

Por ejemplo la raíz de 'habló' y la de 'hablar' es la misma: 'habl'

In [17]:
stemmer.stem("learning")

'learn'

In [18]:
stemmer.stem("learned")

'learn'

Gracias a esta técnica, podemos refinar aún más el análisis de frecuencia:

In [13]:
palabras_stem = []
for palabra in palabras:
    palabras_stem.append(stemmer.stem(palabra))
    
print(palabras_stem)

['rt', '@danscavino', ':', '#gopdeb', 'w', '/', '@realdonaldtrump', 'deliv', 'the', 'highest', 'rate', 'in', 'the', 'histori', 'of', 'presidenti', 'debat', '.', '#trump2016', 'http://t.co…']


Ambas, son técnicas cruciales para reducir dimensionalidad en el siguiente paso.

## Lemmatización

La lematización es otra de las técnicas que consiguen reducir la dimensionalidad del problema, esta vez **buscando obtener palabras que sí formen parte del idioma**. Como desventaja, suele ser más lento que el de stemming, así que su uso dependerá del problema en el que estemos trabajando.

Es una técnica que depende mucho del etiquetado POS, pues gracias a esto podremos identificar mejor esta palabra dentro del vocabulario y realizar la transformación.

In [22]:
from nltk.stem import WordNetLemmatizer 
lemmatizer = WordNetLemmatizer()

'learned'

In [34]:
print("Learning: ", lemmatizer.lemmatize("learning"))
print("Learned: ", lemmatizer.lemmatize("learned"))
print("Learning (POS): ", lemmatizer.lemmatize("learning", pos='v'))
print("Learned (POS): ", lemmatizer.lemmatize("learned", pos='v'))

Learning:  learning
Learned:  learned
Learning (POS):  learn
Learned (POS):  learn


Si observamos un caso más interesante:

In [35]:
print("Better (stem): ", stemmer.stem("better"))
print("Better :", lemmatizer.lemmatize("better"))
print("Better (POS):", lemmatizer.lemmatize("better", pos ="a"))

Better (stem):  better
Better : better
Better (POS): good


## Clasificación de texto con Bag of Words

_Bag of Words_ es una de las técnicas más utilizadas e intuitivas en clasificación de texto. Un uso habitual sería el de identificar si un email es un mensaje de SPAM o no. _Bag of Words_ no es más que enumerar la incidencia de aparición de cada palabra en cada documento. Con esto, construimos una matriz documento-término donde los documentos serán las filas y los términos - que pueden ser palabras o tokens formados por varias palabras - aparecen representados.

Supongamos que tenemos los siguientes documentos:
* "Mario y Súper Mario me enseñaron binary search"
* "Me flipa binary search"

Obtenemos la bolsa de palabras:
* "Mario", "y", "Súper", "me", "enseñaron", "binary", "search", "flipa"

Y la matriz documento-término:
![image.png](attachment:image.png)

In [14]:
from sklearn.feature_extraction.text import CountVectorizer
documentos = [
    'Mario y Súper Mario me enseñaron binary search',
    'Me flipa binary search',
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documentos)
print(vectorizer.get_feature_names())

['binary', 'enseñaron', 'flipa', 'mario', 'me', 'search', 'súper']


Ahora construiremos la matriz con SKLearn gracias a CountVectorizer. CountVectorizer nos convierte el datataset de documentos _(en este caso la columna "text")_ . CountVectorizer es una herramienta muy potente y con muchas opciones que podéis encontrar en la documentación de SKLearn: 

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

**Recuerda que para que CountVectorizer se capaz de construir la matriz, deberemos pasare como argumento una lista de elementos, donde cada elemento de dicha lista será un documento del dataset.**  

In [15]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer(tokenizer = TweetTokenizer().tokenize)
X_train_counts = count_vect.fit_transform(df['text'])
X_train_counts.shape

(8627, 14098)

Como vemos, la matriz resultante tiene filas 8627 y 14098 columnas. Esto es, tenemos tantas filas como documentos o tweets teníamos previamente, y tantas columnas como términos ha extraído sklearn. Hay que tener en cuenta que a sklearn podemos indicarle qué toma como término. En nuestro caso es una palabra, pero podrían ser dos si lo especificamos con el parámetro ```ngram_range``` a nuestro ```CountVectorizer```. Podemos ver qué palabras se han obtenido de la siguiente forma:

In [16]:
print(count_vect.get_feature_names())

['!', '"', '#', '##foxnewsdebate', '#13', '#15', '#16', '#1stplace', '#2016', '#2016debate', '#2016election', '#22aday', '#2ndlook', '#30days', '#467', '#4thamendment', '#abc', '#ableg', '#abortion', '#abortionismurder', '#actoflove', '#actonclimate', '#affordablecareact', '#afriendindeed', '#afroways', '#ainf', '#alcoholpoisoning', '#alittlesidestep', '#alllivesmatter', '#alreadyglad', '#alzillinois', '#amayanabo_cover', '#amen', '#america', '#americans', '#americanvoters', '#americaonpoint', '#americasgotfailent', '#americasgottalent', '#americasmostcorruptgovernor', '#amirhekmati', '#amirite', '#andwon', '#answer', '#antichoice', '#antiwhites', '#anyonebut', '#anyonebuthillary', '#appeasement', '#apstats', '#areyoukiddingmewiththis', '#argument', '#arrogant', '#asian', '#askingforafriend', '#assaultweapon', '#asshat', '#asshole', '#assimilation', '#astounding', '#atheist', '#atlanticcity', '#auspol', '#awepra', '#awkord', '#babykiller', '#backasswards', '#backfiring', '#badassbiden'

Ahora entrenaremos nuestro clasificador. Para ello, le daremos nuestra matriz documento-término, donde cada fila es un documento y además, la clase que conocemos de ese documento.

In [17]:
from sklearn.svm import LinearSVC
clf = LinearSVC(max_iter=1500).fit(X_train_counts, df['sentiment'])

Finalmente vamos a evaluar este clasificador con datos que no hemos visto previamente. Tenemos otro archivo llamado "spam_test" que contiene otros mensajes de SPAM que NO ha visto nuestro clasificador. Vamos pues a pedirle a nuestro clasificador que viendo la matriz documento-término de estos mensajes de test, intente averiguar si es spam o no.

In [18]:
# leemos el archivo de texto test
df_test = pd.read_csv("./data/gop_tweets_test.csv")

# matriz documento-término de mensajes test
X_test_counts = count_vect.transform(df_test['text'])

# generamos las predicciones con la matriz
predicted = clf.predict(X_test_counts)

Finalmente, evaluamos nuestro clasificador:

In [19]:
print("Accuracy: {:.2f}%".format(np.mean(predicted == df_test['sentiment'])))

Accuracy: 0.85%


### TF-IDF

Tf-Idf es una técnica que se aplica a la matriz de documentos-términos. Significa _"term frequency - inverse document frequency"_ y es una técnica que especifica cómo de importante es un término dentro de una colección de documentos. A su vez, está formada por dos técnicas diferentes que son las siguientes:

* **Term frequency**: que **recompensa** aquellas palabras que aparecen a menudo en **un documento**.
* **Inverse document frequency**: que **penaliza** aquellas palabras que aparecen a menudo en **una colección de documentos**.

Intuitivamente, buscará los términos más importantes para identificar un documento dentro de una colección de documentos. Hará que aumente el valor ponderado del término dentro de un documento, pero disminuirá su valor si este término es común en muchos documentos. A mayor importancia, más alto es el valor en el resultado final.

Suele ir de la mano con Bag of Words. Esta vez lo haremos con un pipeline. Una herramienta de scikit-learn que nos hace más cómodo establecer etapas de preprocesado y entrenado.

In [20]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer

text_clf = Pipeline([('vect', CountVectorizer(tokenizer = TweetTokenizer().tokenize)),
                     ('tfidf', TfidfTransformer(use_idf = True, smooth_idf=True)),
                     ('clf', LinearSVC())])

In [21]:
text_clf.fit(df['text'], df['sentiment'])

Pipeline(memory=None,
     steps=[('vect', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip...ax_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0))])

In [22]:
predicted = text_clf.predict(df_test['text'])

In [23]:
print("Accuracy: {:.2f}%".format(np.mean(predicted == df_test['sentiment'])))

Accuracy: 0.87%


**Ojo**: Hay que hacer uso de TF-IDF con precaución.

Uno de los problemas que tiene TF-IDF es que es agnóstico a las clases de cada documento. Si un término aparece en muchos documentos del dataset, la parte IDF (inverse document frequency) haría que esta palabra perdiese mucho peso dentro del Bag of Words. Sin embargo, habría un caso en el que esto no sería deseable. ¿Sabrías decir cuál?

### Capturar el contexto con N-grams

Como tal, Bag of Words destruye toda relación entre términos del texto porque trata cada palabra como unidad de información. Sin embargo, esto puede intentar solventarse: no contaremos palabras como unidad, sino parejas de palabras. Por ejemplo, para el documento:

* "Mario y Súper Mario me enseñaron binary search"

Obtendríamos también los tags ["Mario y", "y Súper", "Súper Mario", "Mario me", "me enseñaron", "enseñaron binary", "binary search"]. No sólo eso, sino que se pueden aplicar rangos de n-grams. Por ejemplo, considerar todos los tokens por separado y además, considerar parejas de tokens dentro del corpus.

In [25]:
ngram_vectorizer = CountVectorizer(ngram_range=(1, 2))
ngram_vectorizer.fit(['Mario y Súper Mario me enseñaron binary search'])
ngram_vectorizer.get_feature_names()

['binary',
 'binary search',
 'enseñaron',
 'enseñaron binary',
 'mario',
 'mario me',
 'mario súper',
 'me',
 'me enseñaron',
 'search',
 'súper',
 'súper mario']

## Quizz

* De nuevo: ¿Crees que el procesamiento de lenguaje natural (PLN) es una tarea fácil o díficil para un ordenador?
* ¿Cuales crees que son los principales problemas de trabajar con Bag of Words y matrices documento-término?
* ¿Cuál crees que es ese caso en el que TF-IDF afectaría a nuestro Accuracy?
* ¿Qué te parece la técnica de N-grams para capturar contexto?