## **Actividad 1: Modelos de lenguaje y extracción de entidades**
## Álvaro Payo

### **1. Importar librerías y datos**

In [None]:
#Importación de librerías

import spacy
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

nlp = spacy.load('es_core_news_lg')  

In [None]:
#Lectura del primer fichero: hotel.csv 

hotel = pd.read_csv('hotel.csv')
print(hotel.head())
print(hotel.shape)
print(hotel.columns)

                                                text  label
0  Es un gran hotel; el mejor de Asunción. Buenas...      3
1  hola. no suelo criticar jamas lo que paso pero...      3
2  Escogi meses antes de mi boda una habitacion p...      3
3  Voy a se Lo mas equitativo posible; porque soy...      3
4  Esta es una experiencia de septiembre de 2016;...      3
(200, 2)
Index(['text', 'label'], dtype='object')


El fichero hotel está compuesto por doscientas filas y dos columnas: text y label.

In [None]:
#Lectura del segundo fichero: esp.txt 

esp = open("esp.txt", "r").read()
print(esp)

Cuando los cines parecen recuperar su músculo, llega a las salas de España la película "Los Estados Unidos contra Billie Holiday", el desalentador retrato del director Lee Daniels sobre la persecución del Gobierno Federal de Estados Unidos a la gran cantante de jazz desde 1947 hasta su muerte en 1959 a la edad de 44 años. El título de la cinta toma como referencia una frase de la artista, que ingresó en prisión durante un año por un cargo de posesión de narcóticos en el apogeo de su carrera: El caso se llama "Los Estados Unidos de América contra Billie Holiday". Está basado en un capítulo del libro "Tras el grito"



### **2. Modelos de lenguaje**

In [None]:
docs = hotel.iloc[:,0] 
categs = hotel.iloc[:,-1] 

Separo los documentos y sus categorías (docs y categs son series de Pandas).
Hay que separar las categorías de los documentos para usar estos últimos y obtener la matriz BOW o Tf-idf.

In [None]:
print("Hotel es tipo: ", type(hotel))
print("Docs es tipo: ", type(docs))
print("Categs es tipo: ", type(categs))

Hotel es tipo:  <class 'pandas.core.frame.DataFrame'>
Docs es tipo:  <class 'pandas.core.series.Series'>
Categs es tipo:  <class 'pandas.core.series.Series'>


Imprimo los tipos de datos que tengo hasta el momento. Tenemos un Data Frame, que es el archivo original; y dos series, que son los documentos y las categorías.

### **2.1 Obtención de las matrices BOW y Tf-idf**

### 2.1.1 Bow (Bag Of Words)

El modelo BOW es el modelo más simple de las representaciones de documentos en un espacio vectorial. No tiene en cuenta ni el orden ni la secuencia de los términos, simplemente incorpora la frecuencia con la que aparece un término en un documento.

In [None]:
#En primer lugar, tokenizo los documentos y los convierto en matriz BOW

from sklearn.feature_extraction.text import CountVectorizer
BOW_vec = CountVectorizer(max_features = 20) #20 tokens más frecuentes 

BOW = BOW_vec.fit_transform(docs)
print(type(BOW))
print(BOW)

<class 'scipy.sparse._csr.csr_matrix'>
  (0, 6)	5
  (0, 18)	3
  (0, 8)	2
  (0, 4)	7
  (0, 1)	1
  (0, 9)	2
  (0, 7)	1
  (0, 13)	1
  (0, 19)	2
  (0, 5)	2
  (0, 17)	2
  (0, 15)	1
  (0, 11)	1
  (1, 6)	4
  (1, 18)	4
  (1, 8)	4
  (1, 4)	11
  (1, 1)	17
  (1, 9)	19
  (1, 13)	2
  (1, 19)	2
  (1, 5)	8
  (1, 17)	16
  (1, 15)	2
  (1, 11)	4
  :	:
  (196, 3)	1
  (197, 1)	4
  (197, 7)	1
  (197, 13)	5
  (197, 16)	1
  (197, 3)	1
  (198, 6)	1
  (198, 8)	1
  (198, 4)	3
  (198, 1)	3
  (198, 9)	4
  (198, 17)	3
  (198, 11)	1
  (198, 2)	2
  (198, 0)	1
  (198, 12)	1
  (199, 6)	1
  (199, 8)	1
  (199, 4)	1
  (199, 1)	2
  (199, 9)	5
  (199, 17)	1
  (199, 12)	1
  (199, 10)	1
  (199, 16)	1


In [None]:
#Conversión de la matriz BOW a densa

BOW_densa = BOW.todense() 
print(type(BOW_densa))
print(BOW_densa)

<class 'numpy.matrix'>
[[ 0  1  0 ...  2  3  2]
 [ 4 17  4 ... 16  4  2]
 [ 0  4  0 ...  3  0  1]
 ...
 [ 0  4  0 ...  0  0  0]
 [ 1  3  2 ...  3  0  0]
 [ 0  2  0 ...  1  0  0]]


In [None]:
#Visualización de la matriz BOW

#Obtengo el vocabulario para poner las etiquetas de las columnas.
vocab_BOW = BOW_vec.get_feature_names()

#Y construyo un dataframe para mostrar el resultado: por cada documento las ocurrencias de cada token.
pd.DataFrame(BOW.toarray(), columns=vocab_BOW)



Unnamed: 0,con,de,del,desayuno,el,en,es,excelente,hotel,la,las,lo,los,muy,no,para,personal,que,un,una
0,0,1,0,0,7,2,5,1,2,2,0,1,0,1,0,1,0,2,3,2
1,4,17,4,0,11,8,4,0,4,19,5,4,3,2,6,2,1,16,4,2
2,0,4,0,0,2,1,0,0,1,1,1,0,0,1,0,1,0,3,0,1
3,0,2,0,0,1,1,1,0,0,3,0,1,0,0,0,0,0,2,1,1
4,5,20,6,0,16,7,1,0,6,25,4,5,2,2,14,8,2,34,5,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,1,1,0,0,0,1,0,1,0,0,0,0,1,3,0,0,2,0,0,0
196,2,6,3,1,6,1,1,3,1,6,0,3,1,0,0,2,2,4,1,3
197,0,4,0,1,0,0,0,1,0,0,0,0,0,5,0,0,1,0,0,0
198,1,3,2,0,3,0,1,0,1,4,0,1,1,0,0,0,0,3,0,0


Cada fila representa un documento, y cada columna un término del vocabulario. Las columnas que aparecen son los 20 términos que más se repiten en el texto.

Cada elemento de la matriz representa la frecuencia con que el término aparece en dicho documento.

### 2.1.2 Tf-idf (Term Frecuency – Inverse Document Frecuency)

El modelo Tf-idf intenta resolver los inconvenientes del modelo BOW introduciendo un **factor de normalización**, ya que así los términos más específicos que aparecen con menos frecuencia no pierden importancia ante los términos que aparecen muy frecuentemente.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfifd_vec = TfidfVectorizer(max_features = 20)
TFIDF = tfifd_vec.fit_transform(docs)

In [None]:
#Visualización de la matriz Tf-idf

#Obtengo el vocabulario para poner las etiquetas de las columnas.
vocab_tfidf = tfifd_vec.get_feature_names()

#Y construyo un dataframe para mostrar el resultado: por cada documento las ocurrencias de cada token.
pd.DataFrame(TFIDF.toarray(), columns = vocab_tfidf)



Unnamed: 0,con,de,del,desayuno,el,en,es,excelente,hotel,la,las,lo,los,muy,no,para,personal,que,un,una
0,0.000000,0.081406,0.000000,0.000000,0.590522,0.177638,0.510090,0.125227,0.190191,0.163641,0.000000,0.133650,0.000000,0.087000,0.000000,0.135470,0.000000,0.201811,0.334947,0.278525
1,0.139741,0.415572,0.145796,0.000000,0.278658,0.213371,0.122540,0.000000,0.114225,0.466826,0.195419,0.160535,0.118024,0.052250,0.261945,0.081360,0.038330,0.484814,0.134108,0.083638
2,0.000000,0.582945,0.000000,0.000000,0.302050,0.159007,0.000000,0.000000,0.170244,0.146478,0.233006,0.000000,0.000000,0.155751,0.000000,0.242523,0.000000,0.541935,0.000000,0.249313
3,0.000000,0.361696,0.000000,0.000000,0.187411,0.197316,0.226639,0.000000,0.000000,0.545305,0.000000,0.296912,0.000000,0.000000,0.000000,0.000000,0.000000,0.448335,0.248035,0.309379
4,0.107597,0.301157,0.134711,0.000000,0.249669,0.115003,0.018871,0.000000,0.105540,0.378362,0.096299,0.123608,0.048467,0.032185,0.376490,0.200465,0.047222,0.634601,0.103260,0.154558
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,0.264004,0.184733,0.000000,0.000000,0.000000,0.201555,0.000000,0.284173,0.000000,0.000000,0.000000,0.000000,0.297299,0.592280,0.000000,0.000000,0.579323,0.000000,0.000000,0.000000
196,0.174738,0.366811,0.273465,0.094044,0.380122,0.066702,0.076614,0.282132,0.071416,0.368677,0.000000,0.301110,0.098388,0.000000,0.000000,0.203472,0.191720,0.303116,0.083847,0.313754
197,0.000000,0.556064,0.000000,0.213848,0.000000,0.000000,0.000000,0.213848,0.000000,0.000000,0.000000,0.000000,0.000000,0.742843,0.000000,0.000000,0.217978,0.000000,0.000000,0.000000
198,0.173546,0.364307,0.362131,0.000000,0.377528,0.000000,0.152183,0.000000,0.141857,0.488214,0.000000,0.199370,0.195433,0.000000,0.000000,0.000000,0.000000,0.451571,0.000000,0.000000


Cada fila representa un documento, y cada columna un término del vocabulario. Las columnas que aparecen son los 20 términos que más se repiten en el texto.
  
  * Cuando un término aparece en muchos documentos, su valor se acerca a 0.
  * Cuando un término tiene una frecuencia alta en un documento, y baja en el resto de documentos, obtiene un peso alto.

### **3. Extracción de entidades**

Aunque aún estamos lejos de poder analizar e interpretar un texto 
sin restricciones con fines genéricos, la extracción de entidades permite acotar el alcance de los trabajos y obtener resultados muy positivos.

Consiste en un subproceso de la extracción de información de un texto en lenguaje natural, con el objetivo de identificar términos con los que se designan determinadas entidades y clasificarlas (personas, organizaciones, lugares, fechas...)

In [None]:
#Ejecución de la pipeline de análisis

docum_analizado = nlp(esp)

In [None]:
#Obtención de entidades

ents_tagged = [(ent.text, ent.label_) for ent in docum_analizado.ents]

pd.DataFrame(ents_tagged, columns = ['Entidad', 'Tipo']).T

Unnamed: 0,0,1,2,3,4,5,6,7,8
Entidad,España,Los Estados Unidos,Billie Holiday,Lee Daniels,Gobierno Federal,Estados Unidos,El título de la cinta,Los Estados Unidos de América,Billie Holiday
Tipo,LOC,LOC,MISC,PER,LOC,LOC,MISC,LOC,MISC


In [None]:
# Entidades en el texto

from spacy import displacy
for sent in docum_analizado.sents:
    displacy.render(sent, style='ent', jupyter=True, options={'distance': 110,'arrow_stroke': 2,'arrow_width': 8})



Del documento analizado han salido ocho entidades, las cuales se dividen en tres tipos: Lugares (LOC), personas (PER) y otras entidades (MISC).

Respecto a las entidades de lugar (LOC), la de "Gobierno Federal" debería estar clasificada como organización (ORG) en vez de como lugar. El resto hacen referencia a países, por lo que las dejaría como están.

Respecto a las entidades de persona (PER), solo está clasificada como tal "Lee Daniels". En mi opinión, "Billie Holiday" también debería clasificarse como tal y no como MISC.

Por último, respecto a las otras entidades (MISC), "El título de la cinta" debería ser la única clasificada como tal, porque como ya he dicho antes, "Billie Holiday" debería clasificarse como persona. 

Estos cambios los considero necesarios ya que son bastante claros y pueden alterar la clasificación y la extracción de entidades.