# Ejercicio: análisis morfológico y aplicación a opiniones sobre películas

<img src="img/drama.png" style="width:400px;height:400px;">

En este ejercicio vamos a utilizar críticas escritas en [IMDB](http://www.imdb.com/) para tratar de extraer automáticamente la opinión expresada, positiva o negativa, de un texto. Para ello utilizamos algunas técnicas técnicas de análisis morfológico del texto.

El objetivo del ejercicio es construir un sistema que dado el texto en inglés de una crítica sea capaz de estimar si esa crítica expresa una opinión positiva o negativa. Empezaremos construyendo un clasificador de opinión sencillo, para ir introduciendo características cada vez más complicadas e ir mejorando nuestros resultados.

## Instrucciones

A lo largo de este cuaderno encontrarás celdas vacías que tendrás que rellenar con tu propio código. Sigue las instrucciones del cuaderno y presta especial atención a los siguientes iconos:

<table>
<tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">Deberás responder a la pregunta indicada con el código o contestación que escribas en la celda inferior.</td></tr>
 <tr><td width="80"><img src="img/exclamation.png" style="width:auto;height:auto"></td><td style="text-align:left">Esto es una pista u observación que te puede ayudar a resolver la práctica.</td></tr>
 <tr><td width="80"><img src="img/pro.png" style="width:auto;height:auto"></td><td style="text-align:left">Este es un ejercicio avanzado y voluntario que puedes realizar si quieres profundar más sobre el tema. Te animamos a intentarlo para aprender más ¡Ánimo!</td></tr>
</table>

Para evitar problemas de compatibilidad y de paquetes no instalados, se recomienda ejecutar este notebook bajo uno de los [entornos recomendados de Text Mining](https://github.com/albarji/teaching-environments/tree/master/textmining).

Adicionalmente si necesitas consultar la ayuda de cualquier función python puedes colocar el cursor de escritura sobre el nombre de la misma y pulsar Mayúsculas+Shift para que aparezca un recuadro con sus detalles. Ten en cuenta que esto únicamente funciona en las celdas de código.

¡Adelante!

## Preliminares

En primer lugar vamos a fijar la semilla aleatoria para que los resultados sean reproducibles entre diferentes ejecuciones del notebook.

In [1]:
import numpy as np
np.random.seed(12345)

## Carga y preparación de datos

Los datos que usaremos en esta práctica son un conjunto preparado de los datos empleados en el artículo

    Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011).
    
y consisten en críticas de películas escritas en la web en inglés IMDB. Se han tomado aquellas críticas con una puntuación mayor a 7 como **opiniones positivas**, mientras que aquellas con puntuación menor a 4 se han tomado como **opiniones negativas**.

Los datos están todos contenidos en el fichero *data/data.csv*, en formato CSV separado por tabuladores. El fichero contiene únicamente dos columnas, la primera de ellas indicando el tipo de opinión (1 = opinión positiva, 0 = opinión negativa) y la segunda de ellas el texto de la crítica.

<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
      Carga en un Dataframe de Pandas los datos del fichero <i>data/data.csv</i>. Analiza los primeros registros del Dataframe. ¿Parecen coherentes los valores de opinión con el texto?
  </td>
 </tr> 
</table>

In [2]:
####### INSERT YOUR CODE HERE
import pandas as pd
data = pd.read_csv("./data/data.csv", sep='\t')
data.head()

Unnamed: 0,sentiment,text
0,0,I simply cant understand why all these relics ...
1,1,Director Raoul Walsh was like the Michael Bay ...
2,1,It could have been a better film. It does drag...
3,1,It is very hard to rate this film. As entertai...
4,1,I've read some terrible things about this film...


<table>
 <tr>
  <tr><td width="80"><img src="img/pro.png" style="width:auto;height:auto"></td><td style="text-align:left">
    El fichero cargado arriba es una versión reducida del conjunto completo de datos. Si quieres optar por usar todos los datos para esta práctica puedes cargar el fichero <i>data/datafull.csv.gz</i>. Ten en cuenta que los tiempos de cálculo serán mucho mayores, aunque a cambio podrás conseguir mejores resultados de clasificación.
  </td>
 </tr> 
</table>

In [3]:
####### INSERT YOUR CODE HERE
#data = pd.read_csv("./data/datafull.csv", sep='\t')
#data.head()

Ahora vamos a preparar dos listas de índices, que nos indiquen qué parte de los datos vamos a usar para entrenamiento y qué parte para test.

<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Genera dos listas, una conteniendo los índices de la primera mitad de las filas del DataFrame de datos (índices de train), y otra conteniendo los índices de la otra mitad (índices de test).
  </td>
 </tr> 
</table>

In [4]:
####### INSERT YOUR CODE HERE
import math
nrows = data.shape[0]
splitpoint = math.floor(nrows * 0.50)
trainidx = list(range(splitpoint))
testidx = list(range(splitpoint, len(data)))

## Modelo inicial

Para poder valorar si las técnicas avanzadas que vamos a emplear aportan algo de utilidad a este problema, vamos a empezar con una solución muy sencilla basada en bag of words, estimando la precisión de clasificación que podemos obtener con ella y usando este valor como referencia.

<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Utilizando lo que has aprendido en la práctica anterior, construye un sistema de clasificación basado en unigramas de palabras que aprenda de los datos de entrenamiento, y calcula el error de estimación en test del mismo. Como modelo de clasificación utiliza una SVM lineal, con sus parámetros por defecto. No realices ningún proceso de búsqueda para optimizar los parámetros del modelo (tipo GridSearchCV).
  </td>
 </tr> 
</table>

In [5]:
####### INSERT YOUR CODE HERE
from sklearn.pipeline import Pipeline
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import GridSearchCV

pipeline = Pipeline([
    ('vectorizer', CountVectorizer()),
    ('classifier', LinearSVC())
    ]
)

params = {
    'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100, 1000],
    'vectorizer__analyzer' : ['word'],
    'vectorizer__ngram_range' : [(1, 1), (1,2), (1,3)]
}

model = GridSearchCV(pipeline, params, n_jobs = 7)

model.fit(data["text"][trainidx].values, data["sentiment"][trainidx])
model.score(data["text"][testidx].values, data["sentiment"][testidx])

# 0.80 con datos pequeños
# 0.88544 con datos grandes

0.8

<table>
 <tr>
  <tr><td width="80"><img src="img/exclamation.png" style="width:auto;height:auto"></td><td style="text-align:left">
    El nivel de precisión que has obtenido, ¿crees que sería adecuado para una aplicación real? ¿Piensas que puede mejorarse?
  </td>
 </tr> 
</table>

## Análisis morfosintático con spaCy

En entornos donde existe mucho texto expresado de forma natural lo habitual es que una palabra aparezca con diversas conjugaciones y formas, sin que el significado final del texto cambie demasiado (salvo matices que discutiremos más adelante). En estos casos un paso de preprocesamiento habitual es convertir las palabras a lemas, o eliminar categorías morfológicas que aportan poca información. Para esto es imprescindible realizar un **análisis morfosintáctico** del texto, lo cual podemos hacer fácilmente para diversos idiomas utilizando la librería **spaCy**.

In [6]:
import spacy

spaCy utiliza modelos morfosintácticos específicos para cada idioma. Por defecto la librería no incluye ningún modelo, pero podemos instalarlo de manera sencilla con comandos a python. La siguiente línea ejecuta un comando de sistema para instalar el modelo de spaCy para el idioma inglés.

In [7]:
!python -m spacy download en_core_web_lg --user

Collecting en-core-web-lg==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.3.0/en_core_web_lg-3.3.0-py3-none-any.whl (400.7 MB)
     -----------                          123.9/400.7 MB 611.1 kB/s eta 0:07:33


ERROR: Wheel 'en-core-web-lg' located at C:\Users\agoni\AppData\Local\Temp\pip-unpack-u418ta8m\en_core_web_lg-3.3.0-py3-none-any.whl is invalid.


<table>
 <tr>
  <tr><td width="80"><img src="img/exclamation.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Si el comando anterior produce un error relacionado con la falta de permisos, deberás ejecutarlo desde una terminal de Anaconda lanzada con permisos de administrador.
  </td>
 </tr> 
</table>

Una vez obtenido el modelo, podemos cargarlo en memoria con

In [8]:
nlp = spacy.load('en_core_web_lg')

y analizar una frase de ejemplo de la siguiente manera

In [9]:
frase = "They killed the man with a gun."
doc = nlp(frase)

In [10]:
frase = "The black cat sat peacefully on the mat."
doc = nlp(frase)

**doc** es ahora una versión de la frase que contiene toda la información morfológica y sintáctica extraída por el analizador. Podemos iterar sobre cada uno de los tokens de la frase de la siguiente forma

In [11]:
for token in doc:
    print("Token:", token)

Token: The
Token: black
Token: cat
Token: sat
Token: peacefully
Token: on
Token: the
Token: mat
Token: .


Igualmente podemos acceder a cada uno de los tokens por su posición en la frase

In [12]:
print(doc[2])

cat


Pero lo más interesante son los diferentes campos con información extra que contiene cada token. Campos como
* *texto*: texto original
* *lemma_*: lema
* *pos_*: Part of Speech (categoría morfológica) simple
* *tag_*: categoría morfológica detallada
* *shape_*: patrón de mayúsculas/minúsculas
* *is_alpha*: si el token se componente de caracteres alfabéticos
* *is_stop*: si el token ha sido detectado como una stopword
* *head*: token padre en el árbol de dependencia
* *dep_*: relación sintáctica con el token padre
* etc...

Por ejemplo, vamos a imprimir toda esta información para el primer token de la frase

In [13]:
token = doc[0]
print("Texto:", token.text)
print("Lema:", token.lemma_)
print("POS:", token.pos_)
print("Tag:", token.tag_)
print("Forma:", token.shape_)
print("Es alpha:", token.is_alpha)
print("Es stopword:", token.is_stop)
print("Token padre:", token.head)
print("Relación sintáctica:", token.dep_)

Texto: The
Lema: the
POS: DET
Tag: DT
Forma: Xxx
Es alpha: True
Es stopword: True
Token padre: cat
Relación sintáctica: det


Podemos hacer esto con toda la frase y mostrarlo como una tabla (DataFrame) para mayor claridad

In [14]:
pd.DataFrame(
    columns=["token", "lema", "POS", "tag", "shap", "isalpha", "isstop", "padre", "dep"],
    data=[[token.text, token.lemma_, token.pos_, token.tag_,
          token.shape_, token.is_alpha, token.is_stop, token.head, token.dep_]
          for token in doc]
)

Unnamed: 0,token,lema,POS,tag,shap,isalpha,isstop,padre,dep
0,The,the,DET,DT,Xxx,True,True,cat,det
1,black,black,ADJ,JJ,xxxx,True,False,cat,amod
2,cat,cat,NOUN,NN,xxx,True,False,sat,nsubj
3,sat,sit,VERB,VBD,xxx,True,False,sat,ROOT
4,peacefully,peacefully,ADV,RB,xxxx,True,False,sat,advmod
5,on,on,ADP,IN,xx,True,True,sat,prep
6,the,the,DET,DT,xxx,True,True,mat,det
7,mat,mat,NOUN,NN,xxx,True,False,on,pobj
8,.,.,PUNCT,.,.,False,False,sat,punct


También podemos visualizar el árbol sintático de dependencias usando la utilidad **displaCy**

In [15]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True)

Como hemos visto, el análisis morfosintáctico de spaCy nos proporciona mucha información, pero también puede ser costoso de realizar cuando tenemos gran cantidad de textos. Si no necesitamos de todos los componentes del análisis, podemos acelerar el tiempo de cálculo desactivando algunos elementos del proceso. Por ejemplo, cargando de nuevo el modelo de la siguiente forma

In [16]:
nlpfast = spacy.load('en_core_web_lg', disable=['ner', 'parser'])

Con esto tenemos un analizador morfosintáctico que no realiza detección de entidades (`ner`) ni análisis del árbol sintáctico de dependencias (`parser`), pero que a cambio ejecuta a mayor velocidad, como podemos comprobar en las siguientes dos celdas.

In [17]:
%%time
for _ in range(10):
    nlp("The black cat sat peacefully on the mat.")

CPU times: total: 125 ms
Wall time: 142 ms


In [18]:
%%time
for _ in range(10):
    nlpfast("The black cat sat peacefully on the mat.")

CPU times: total: 31.2 ms
Wall time: 77.2 ms


Visto el funcionamiento de spaCy, vamos a pasar a ejecutar el análisis morfosintáctico para cada texto de nuestros datos.

<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Crea una nueva columna en el DataFrame de datos que contenga una versión analizada con spaCy del texto correspondiente. Es suficiente con que apliques el objeto <b>nlp</b> a cada texto y guardes el resultado.
  </td>
 </tr> 
</table>

In [19]:
####### INSERT YOUR CODE HERE
def addanalyzed(df):
    analyzed = [nlp(text) for text in df["text"]]
    df["analyzed"] = pd.Series(analyzed, index = df.index)
    
addanalyzed(data)
data.head()

Unnamed: 0,sentiment,text,analyzed
0,0,I simply cant understand why all these relics ...,"(I, simply, ca, nt, understand, why, all, thes..."
1,1,Director Raoul Walsh was like the Michael Bay ...,"(Director, Raoul, Walsh, was, like, the, Micha..."
2,1,It could have been a better film. It does drag...,"(It, could, have, been, a, better, film, ., It..."
3,1,It is very hard to rate this film. As entertai...,"(It, is, very, hard, to, rate, this, film, ., ..."
4,1,I've read some terrible things about this film...,"(I, 've, read, some, terrible, things, about, ..."


## Filtrado por morfología

Vamos a sacar partido a la información morfológica que nos proporciona spaCy para mejorar el modelo predictivo. Para ello realizaremos dos operaciones:

* Filtrar los textos para quedarnos solo con aquellas palabras de las categorías morfológicas con más carga de emoción.
* Filtrar los textos para no incluir palabras stopwords.
* Sustituir cada token por su lema, para así reducir el tamaño del vocabulario y simplificar el problema.

<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Crea una nueva columna en el DataFrame de datos que contenga una versión modificado del texto con únicamente los lemas de aquellos tokens cuyas etiquetas POS sean de clase <b>nombre</b>, <b>verbo</b>, <b>adjetivo</b> o <b>adverbio</b>.
  </td>
 </tr> 
</table>

### pos_ tag list

- ADJ: adjective, e.g. big, old, green, incomprehensible, first
- ADP: adposition, e.g. in, to, during
- ADV: adverb, e.g. very, tomorrow, down, where, there
- AUX: auxiliary, e.g. is, has (done), will (do), should (do)
- CONJ: conjunction, e.g. and, or, but
- CCONJ: coordinating conjunction, e.g. and, or, but
- DET: determiner, e.g. a, an, the
- INTJ: interjection, e.g. psst, ouch, bravo, hello
- NOUN: noun, e.g. girl, cat, tree, air, beauty
- NUM: numeral, e.g. 1, 2017, one, seventy-seven, IV, MMXIV
- PART: particle, e.g. ’s, not,
- PRON: pronoun, e.g I, you, he, she, myself, themselves, somebody
- PROPN: proper noun, e.g. Mary, John, London, NATO, HBO
- PUNCT: punctuation, e.g. ., (, ), ?
- SCONJ: subordinating conjunction, e.g. if, while, that
- SYM: symbol, e.g. $, %, §, ©, +, −, ×, ÷, =, :), 😝
- VERB: verb, e.g. run, runs, running, eat, ate, eating
- X: other, e.g. sfpksdpsxmsa
- SPACE: space, e.g.

In [20]:
####### INSERT YOUR CODE HERE
def addposfilter(df):
    posfilter = [" ".join([token.lemma_ for token in text 
                           if token.pos_ in {"NOUN", "VERB", "ADJ", "ADV"} and not token.is_stop]) 
                 for text in df["analyzed"]]
    df["posfilter"] = pd.Series(posfilter, index = df.index)
    
addposfilter(data)
data.head()

Unnamed: 0,sentiment,text,analyzed,posfilter
0,0,I simply cant understand why all these relics ...,"(I, simply, ca, nt, understand, why, all, thes...",simply understand relic era refuse let clearly...
1,1,Director Raoul Walsh was like the Michael Bay ...,"(Director, Raoul, Walsh, was, like, the, Micha...",year mean positive way definitely be bay hater...
2,1,It could have been a better film. It does drag...,"(It, could, have, been, a, better, film, ., It...",well film drag point central story shift compl...
3,1,It is very hard to rate this film. As entertai...,"(It, is, very, hard, to, rate, this, film, ., ...",hard rate film entertainment value 21st centur...
4,1,I've read some terrible things about this film...,"(I, 've, read, some, terrible, things, about, ...",read terrible thing film prepare bad confusing...


<table>
 <tr>
  <tr><td width="80"><img src="img/question.png" style="width:auto;height:auto"></td><td style="text-align:left">
    Repite los pasos que realizaste en el caso del modelo inicial (al inicio de esta práctica) para construir un nuevo modelo, esta vez basado en los textos que has preparados en lugar de los textos originales. Mide el nivel de score sobre el conjunto de test, ¿has conseguido alguna mejora en precisión? ¿Y en tiempos de entrenamiento?
  </td>
 </tr> 
</table>

In [21]:
####### INSERT YOUR CODE HERE
pipeline = Pipeline([
    ('vectorizer', CountVectorizer()),
    ('classifier', LinearSVC())
    ]
)

params = {
    'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100, 1000],
    'vectorizer__analyzer' : ['word'],
    'vectorizer__ngram_range' : [(1, 1), (1,2), (1,3)]
}

model = GridSearchCV(pipeline, params, n_jobs = 7)
model.fit(data["posfilter"][trainidx].values, data["sentiment"][trainidx])
model.score(data["posfilter"][testidx].values, data["sentiment"][testidx])

# Best small: 0.8088  (lemmas, filter stopwords)
# Small: 0.8056 (lemmas, filter stopwords, filter pos NOUN VERB ADJ ADV)

0.808

## Spacy con transformers

Documentación útil:
- Pipeline spacy: https://spacy.io/usage/spacy-101#pipelines
- Se permite usar transformers a partir de spacy 3.0: https://spacy.io/usage/v3#features-transformers
- Plantilla para crear configuración para entrenar pipeline de spacy: https://spacy.io/usage/training#quickstart
- Modelos de spacy: https://spacy.io/usage/models
- Modelos de spacy subidos al repositorio de huggingface: https://huggingface.co/models?library=spacy&sort=downloads
- Librería necesaria para usar spacy con transformers: https://github.com/explosion/spacy-transformers#-documentation

A continuación, dejo un ejemplo con un modelo transformer usando spacy en idioma inglés: https://huggingface.co/spacy/en_core_web_trf?text=My+name+is+Sarah+and+I+live+in+London

In [3]:
!pip install https://huggingface.co/spacy/en_core_web_trf/resolve/main/en_core_web_trf-any-py3-none-any.whl --user

Collecting en-core-web-trf==any
  Downloading https://huggingface.co/spacy/en_core_web_trf/resolve/main/en_core_web_trf-any-py3-none-any.whl (460.3 MB)
     -------------------------------------- 460.3/460.3 MB 2.4 MB/s eta 0:00:00
Collecting blis<0.8.0,>=0.7.8
  Downloading blis-0.7.9-cp38-cp38-win_amd64.whl (7.0 MB)
     ---------------------------------------- 7.0/7.0 MB 10.4 MB/s eta 0:00:00
Installing collected packages: blis
Successfully installed blis-0.7.9


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
en-core-web-lg 3.3.0 requires spacy<3.4.0,>=3.3.0.dev0, but you have spacy 3.4.1 which is incompatible.


In [1]:
# Using spacy.load().
import spacy
nlp = spacy.load("en_core_web_trf")
# fast 
#nlpfast = spacy.load('en_core_web_trf', disable=['ner'])

frase = "The black cat sat peacefully on the mat."
doc = nlp(frase)
# fast
#doc = nlpfast(frase)




A continuación, podemos ver los pesos del modelo transformer:

In [2]:
doc._.trf_data

TransformerData(wordpieces=WordpieceBatch(strings=[['<s>', 'The', 'Ġblack', 'Ġcat', 'Ġsat', 'Ġpeacefully', 'Ġon', 'Ġthe', 'Ġmat', '.', '</s>']], input_ids=array([[    0,   133,   909,  4758,  4005, 17061,    15,     5,  7821,
            4,     2]]), attention_mask=array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32), lengths=[11], token_type_ids=None), model_output=ModelOutput([('last_hidden_state', array([[[-0.27488506,  0.09796198, -1.8045633 , ...,  0.8744784 ,
          0.60974526, -0.2559871 ],
        [-0.711131  , -0.28686467,  0.44341055, ..., -1.3029665 ,
         -0.49502856, -1.1373456 ],
        [ 0.5758208 ,  0.8377642 ,  0.25092873, ...,  2.373052  ,
          0.36393455,  0.5141425 ],
        ...,
        [-0.17567575, -1.285404  ,  0.13782468, ...,  0.01760009,
          0.42984828,  0.7407291 ],
        [-0.51406217, -0.68828785, -1.2210158 , ...,  0.41192687,
          0.57110304,  0.182773  ],
        [-0.27524173,  0.09897848, -1.8029516 , ...,  0.8

In [11]:
token = doc[0]
print("Texto:", token.text)
print("Lema:", token.lemma_)
print("POS:", token.pos_)
print("Tag:", token.tag_)
print("Forma:", token.shape_)
print("Es alpha:", token.is_alpha)
print("Es stopword:", token.is_stop)
print("Token padre:", token.head)
print("Relación sintáctica:", token.dep_)

Texto: The
Lema: the
POS: DET
Tag: DT
Forma: Xxx
Es alpha: True
Es stopword: True
Token padre: cat
Relación sintáctica: det


In [12]:
import pandas as pd
pd.DataFrame(
    columns=["token", "lema", "POS", "tag", "shap", "isalpha", "isstop", "padre", "dep"],
    data=[[token.text, token.lemma_, token.pos_, token.tag_,
          token.shape_, token.is_alpha, token.is_stop, token.head, token.dep_]
          for token in doc]
)

Unnamed: 0,token,lema,POS,tag,shap,isalpha,isstop,padre,dep
0,The,the,DET,DT,Xxx,True,True,cat,det
1,black,black,ADJ,JJ,xxxx,True,False,cat,amod
2,cat,cat,NOUN,NN,xxx,True,False,sat,nsubj
3,sat,sit,VERB,VBD,xxx,True,False,sat,ROOT
4,peacefully,peacefully,ADV,RB,xxxx,True,False,sat,advmod
5,on,on,ADP,IN,xx,True,True,sat,prep
6,the,the,DET,DT,xxx,True,True,mat,det
7,mat,mat,NOUN,NN,xxx,True,False,on,pobj
8,.,.,PUNCT,.,.,False,False,sat,punct


In [3]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True)