# ACTIVIDAD 1:
## CATEGORÍAS GRAMATICALES Y EXTRACCIÓN DE ENTIDADES

***

### JOSE LÓPEZ GALDÓN

***

#### Guión de la actividad

1. En esta actividad se le facilitan dos ficheros de texto, uno en español y otro en inglés. Son los ficheros **esp.txt** e **ing.txt**.

2. Lea estos ficheros desde un programa Python, y realice las labores de pre-procesamiento habituales: división en frases, división en palabras y conversión a las formas normales. Utilice los frameworks que prefiera, se sugiere **NLTK** o **spaCy**.

3. Realice un análisis morfológico (*POS, Part of Speech*) de los términos incluidos. 

4. Por último, extraiga entidades de los textos anteriores

5. Una vez realizados todos los análisis, liste en pantalla las anotaciones obtenidas: frases, palabras, categoría gramatical del análisis morfológico, y entidades extraídas: localizaciones, organizaciones y personas.

6. Comente las diferencias entre los resultados obtenidos en español y en inglés. ¿Hay diferencias entre utilizar **NLTK** y **spaCy**?


***

#### Librerías
Comenzamos cargando las librerías necesarias para este ejercicio:

In [1]:
# Importamos NLTK
import nltk, re, pprint
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer

# Importamos spaCy
import spacy
from spacy import displacy

# Importamos pandas
import pandas as pd

# Visualizar DF
from IPython.display import display, HTML

#### Carga de ficheros

Continuamos el ejercicio cargando ambos ficheros, tal y como nos indica la primera pregunta...

In [2]:
# Cargamos los ficheros con NLTK
# Primero el fichero español
esp_NLTK = open("esp.txt", "r", encoding="utf8").read()
print(esp_NLTK)

# En segundo lugar, el fichero en inglés
eng_NLTK = open("ing.txt","r", encoding="utf8").read()
print(eng_NLTK)

Cuando los cines parecen recuperar su músculo, llega a las salas de España la película "Los Estados Unidos contra Billie Holiday", el desalentador retrato del director Lee Daniels sobre la persecución del Gobierno Federal de Estados Unidos a la gran cantante de jazz desde 1947 hasta su muerte en 1959 a la edad de 44 años. El título de la cinta toma como referencia una frase de la artista, que ingresó en prisión durante un año por un cargo de posesión de narcóticos en el apogeo de su carrera: El caso se llama "Los Estados Unidos de América contra Billie Holiday". Está basado en un capítulo del libro "Tras el grito"

This week, a Filipino woman was attacked in Midtown Manhattan during broad daylight. This assault came on the heels of the Atlanta-area shooting in which six women of Asian descent were killed and amid reports of rising crime against Asians. One group, Stop AAPI Hate, received nearly 3,800 accounts of incidents nationally between March 19, 2020, and Feb. 28. The poet and aut

In [3]:
# Cargamos los ficheros con spaCy, para ello deberemos cargar los idiomas
nlp_es = spacy.load('es_core_news_md')
nlp_eng = spacy.load('en_core_web_md')

# Primero el fichero español
esp_spacy = open("esp.txt", "r", encoding="utf8").read()
print(esp_spacy)

# En segundo lugar, el fichero en inglés
eng_spacy = open("ing.txt","r", encoding="utf8").read()
print(eng_spacy)

Cuando los cines parecen recuperar su músculo, llega a las salas de España la película "Los Estados Unidos contra Billie Holiday", el desalentador retrato del director Lee Daniels sobre la persecución del Gobierno Federal de Estados Unidos a la gran cantante de jazz desde 1947 hasta su muerte en 1959 a la edad de 44 años. El título de la cinta toma como referencia una frase de la artista, que ingresó en prisión durante un año por un cargo de posesión de narcóticos en el apogeo de su carrera: El caso se llama "Los Estados Unidos de América contra Billie Holiday". Está basado en un capítulo del libro "Tras el grito"

This week, a Filipino woman was attacked in Midtown Manhattan during broad daylight. This assault came on the heels of the Atlanta-area shooting in which six women of Asian descent were killed and amid reports of rising crime against Asians. One group, Stop AAPI Hate, received nearly 3,800 accounts of incidents nationally between March 19, 2020, and Feb. 28. The poet and aut

Vemos que ambos ficheros se cargan perfectamente con las dos librerías, sin embargo, la lectura con spacy ha sido más lenta... Uno de los motivos que expliquen esto es que hemos tenido que cargar los idiomas...

***

#### Pre-procesamiento

División en frases, división en palabras y conversión a las formas normales

##### División en frases

In [4]:
# División en frases con NLTK (español)
print("División en frases del documento en español")
sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

sents = sent_tokenizer.tokenize(esp_NLTK)
for sent in sents:
    print(sent)

División en frases del documento en español
Cuando los cines parecen recuperar su músculo, llega a las salas de España la película "Los Estados Unidos contra Billie Holiday", el desalentador retrato del director Lee Daniels sobre la persecución del Gobierno Federal de Estados Unidos a la gran cantante de jazz desde 1947 hasta su muerte en 1959 a la edad de 44 años.
El título de la cinta toma como referencia una frase de la artista, que ingresó en prisión durante un año por un cargo de posesión de narcóticos en el apogeo de su carrera: El caso se llama "Los Estados Unidos de América contra Billie Holiday".
Está basado en un capítulo del libro "Tras el grito"


In [5]:
# División en frases con NLTK (inglés)   
print("División en frases del documento en inglés")
sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

sents = sent_tokenizer.tokenize(eng_NLTK)
for sent in sents:
    print(sent)

División en frases del documento en inglés
This week, a Filipino woman was attacked in Midtown Manhattan during broad daylight.
This assault came on the heels of the Atlanta-area shooting in which six women of Asian descent were killed and amid reports of rising crime against Asians.
One group, Stop AAPI Hate, received nearly 3,800 accounts of incidents nationally between March 19, 2020, and Feb. 28.
The poet and author Cathy Park Hong notes that these events have set off outrage in the Asian-American community.
Her essay collection “Minor Feelings: An Asian-American Reckoning” wrestles with how discrimination against Asians is often left out in conversations about race in the United States.
“We have also been victims to systemic racism throughout history,” Ms. Hong says, “but we have been conditioned to pretend that it doesn’t exist, to minimize it.”


En ambos casos, separa correctamente por frases (a partir del signo puntuación ".")

In [6]:
# División en frases SPACY
# Ejecutamos la pipeline de análisis
docum_analizado = nlp_es(esp_spacy)
docum_analyzed = nlp_eng(eng_spacy)

# Imprimimos frases
for sent in docum_analizado.sents:
    print(sent.text)
    
for sent_eng in docum_analyzed.sents:
    print(sent_eng.text)

Cuando los cines parecen recuperar su músculo, llega a las salas de España la película "Los Estados Unidos contra Billie Holiday", el desalentador retrato del director Lee Daniels sobre la persecución del Gobierno Federal de Estados Unidos a la gran cantante de jazz desde 1947 hasta su muerte en 1959 a la edad de 44 años.
El título de la cinta toma como referencia una frase de la artista, que ingresó en prisión durante un año por un cargo de posesión de narcóticos en el apogeo de su carrera: El caso se llama "Los Estados Unidos de América contra Billie Holiday".
Está basado en un capítulo del libro "Tras el grito"

This week, a Filipino woman was attacked in Midtown Manhattan during broad daylight.
This assault came on the heels of the Atlanta-area shooting in which six women of Asian descent were killed and amid reports of rising crime against Asians.
One group, Stop AAPI Hate, received nearly 3,800 accounts of incidents nationally between March 19, 2020, and Feb. 28.
The poet and aut

Al igual que con NLTK separa correctamente por frases ambos idiomas.

##### División por palabras (tokennización)

In [7]:
# Tokennización en español con NLTK
print("Tokens texto español")
tokens_esp = nltk.word_tokenize(esp_NLTK)

# Imprimimos los primeros 15 tokes para ver si lo realiza correctamente
print(tokens_esp[:15])

Tokens texto español
['Cuando', 'los', 'cines', 'parecen', 'recuperar', 'su', 'músculo', ',', 'llega', 'a', 'las', 'salas', 'de', 'España', 'la']


In [8]:
# Tokennización en inglés con NLTK
print("Tokens texto inglés")
tokens_eng = nltk.word_tokenize(eng_NLTK)

# Imprimimos los primeros 15 tokes para ver si lo realiza correctamente
print(tokens_eng[:15])

Tokens texto inglés
['This', 'week', ',', 'a', 'Filipino', 'woman', 'was', 'attacked', 'in', 'Midtown', 'Manhattan', 'during', 'broad', 'daylight', '.']


Parece que ambos casos detecta bien los tokens...

##### Lematiazación (división por formas normales o canónicas)

In [9]:
# Lematización con NLTK en español
print("")
print("Lemas en español")
print("")
wordnet_lemmatizer = WordNetLemmatizer()
for token in tokens_esp:
    print(wordnet_lemmatizer.lemmatize(token, pos="v"))


Lemas en español

Cuando
los
cines
parecen
recuperar
su
músculo
,
llega
a
las
salas
de
España
la
película
``
Los
Estados
Unidos
contra
Billie
Holiday
''
,
el
desalentador
retrato
del
director
Lee
Daniels
sobre
la
persecución
del
Gobierno
Federal
de
Estados
Unidos
a
la
gran
cantante
de
jazz
desde
1947
hasta
su
muerte
en
1959
a
la
edad
de
44
años
.
El
título
de
la
cinta
toma
como
referencia
una
frase
de
la
artista
,
que
ingresó
en
prisión
durante
un
año
por
un
cargo
de
posesión
de
narcóticos
en
el
apogeo
de
su
carrera
:
El
caso
se
llama
``
Los
Estados
Unidos
de
América
contra
Billie
Holiday
''
.
Está
basado
en
un
capítulo
del
libro
``
Tras
el
grito
''


In [10]:
# Lematización con NLTK en español
print("")
print("Lemas en inglés")
print("")
wordnet_lemmatizer = WordNetLemmatizer()
for token in tokens_eng:
    print(wordnet_lemmatizer.lemmatize(token, pos="v"))


Lemas en inglés

This
week
,
a
Filipino
woman
be
attack
in
Midtown
Manhattan
during
broad
daylight
.
This
assault
come
on
the
heel
of
the
Atlanta-area
shoot
in
which
six
women
of
Asian
descent
be
kill
and
amid
report
of
rise
crime
against
Asians
.
One
group
,
Stop
AAPI
Hate
,
receive
nearly
3,800
account
of
incidents
nationally
between
March
19
,
2020
,
and
Feb.
28
.
The
poet
and
author
Cathy
Park
Hong
note
that
these
events
have
set
off
outrage
in
the
Asian-American
community
.
Her
essay
collection
“
Minor
Feelings
:
An
Asian-American
Reckoning
”
wrestle
with
how
discrimination
against
Asians
be
often
leave
out
in
conversations
about
race
in
the
United
States
.
“
We
have
also
be
victims
to
systemic
racism
throughout
history
,
”
Ms.
Hong
say
,
“
but
we
have
be
condition
to
pretend
that
it
doesn
’
t
exist
,
to
minimize
it
.
”


Como podemos obeservar la lematización en inglés se realiza correctamente, ya que cambia a las formas canónicas o normales, como es el caso del verbo *be*. Sin embargo, en español no parece funcionar correctamente, ya que mantiene las formas verbales origninales...

***

#### Análisis morfológico

POS, *Part of Speech*

In [11]:
# Imprimimos tokens, formas canónicas y entidades reconocidas para el documento en español

# POS tagging with Spacy 
spacy_pos_tagged_esp = [(palabra.text, palabra.lemma_, palabra.pos_) for palabra in docum_analizado]
POS_esp_df = pd.DataFrame(spacy_pos_tagged_esp, columns = ['Palabra', 'Forma Canónica', 'POS']).T

# Imprimimos el DF completo
display(HTML(POS_esp_df.to_html()))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123
Palabra,Cuando,los,cines,parecen,recuperar,su,músculo,",",llega,a,las,salas,de,España,la,película,"""",Los,Estados,Unidos,contra,Billie,Holiday,"""",",",el,desalentador,retrato,del,director,Lee,Daniels,sobre,la,persecución,del,Gobierno,Federal,de,Estados,Unidos,a,la,gran,cantante,de,jazz,desde,1947,hasta,su,muerte,en,1959,a,la,edad,de,44,años,.,El,título,de,la,cinta,toma,como,referencia,una,frase,de,la,artista,",",que,ingresó,en,prisión,durante,un,año,por,un,cargo,de,posesión,de,narcóticos,en,el,apogeo,de,su,carrera,:,El,caso,se,llama,"""",Los,Estados,Unidos,de,América,contra,Billie,Holiday,"""",.,Está,basado,en,un,capítulo,del,libro,"""",Tras,el,grito,"""",\n
Forma Canónica,cuando,el,cine,parecer,recuperar,su,músculo,",",llegar,a,el,sala,de,España,el,película,"""",el,Estados,Unidos,contra,Billie,Holiday,"""",",",el,desalentador,retrato,del,director,Lee,Daniels,sobre,el,persecución,del,Gobierno,Federal,de,Estados,Unidos,a,el,gran,cantante,de,jazz,desde,1947,hasta,su,muerte,en,1959,a,el,edad,de,44,año,.,el,título,de,el,cinta,tomar,como,referencia,uno,frase,de,el,artista,",",que,ingresar,en,prisión,durante,uno,año,por,uno,cargo,de,posesión,de,narcótico,en,el,apogeo,de,su,carrera,:,el,caso,él,llamar,"""",el,Estados,Unidos,de,América,contra,Billie,Holiday,"""",.,estar,basado,en,uno,capítulo,del,libro,"""",Tras,el,grito,"""",\n
POS,SCONJ,DET,NOUN,VERB,VERB,DET,NOUN,PUNCT,VERB,ADP,DET,NOUN,ADP,PROPN,DET,NOUN,PUNCT,DET,PROPN,PROPN,ADP,PROPN,PROPN,PUNCT,PUNCT,DET,ADJ,NOUN,ADP,NOUN,PROPN,PROPN,ADP,DET,NOUN,ADP,PROPN,PROPN,ADP,PROPN,PROPN,ADP,DET,ADJ,NOUN,ADP,NOUN,ADP,NOUN,ADP,DET,NOUN,ADP,NOUN,ADP,DET,NOUN,ADP,NUM,NOUN,PUNCT,DET,NOUN,ADP,DET,NOUN,VERB,SCONJ,NOUN,DET,NOUN,ADP,DET,NOUN,PUNCT,PRON,VERB,ADP,NOUN,ADP,DET,NOUN,ADP,DET,NOUN,ADP,NOUN,ADP,NOUN,ADP,DET,NOUN,ADP,DET,NOUN,PUNCT,DET,NOUN,PRON,VERB,PUNCT,DET,PROPN,PROPN,ADP,PROPN,ADP,PROPN,PROPN,PUNCT,PUNCT,AUX,ADJ,ADP,DET,NOUN,ADP,NOUN,PUNCT,ADP,DET,NOUN,PUNCT,SPACE


In [12]:
# Imprimimos tokens, formas canónicas y entidades reconocidas para el documento en inglés

# POS tagging with Spacy 
spacy_eng_pos_tg = [(word.text, word.lemma_, word.pos_) for word in docum_analyzed]
POS_eng_df = pd.DataFrame(spacy_eng_pos_tg, columns=['Palabra', 'Forma Canónica', 'POS']).T

# Imprimimos el DF completo
display(HTML(POS_eng_df.to_html()))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152,153,154,155,156,157,158
Palabra,This,week,",",a,Filipino,woman,was,attacked,in,Midtown,Manhattan,during,broad,daylight,.,This,assault,came,on,the,heels,of,the,Atlanta,-,area,shooting,in,which,six,women,of,Asian,descent,were,killed,and,amid,reports,of,rising,crime,against,Asians,.,One,group,",",Stop,AAPI,Hate,",",received,nearly,3800,accounts,of,incidents,nationally,between,March,19,",",2020,",",and,Feb.,28,.,The,poet,and,author,Cathy,Park,Hong,notes,that,these,events,have,set,off,outrage,in,the,Asian,-,American,community,.,Her,essay,collection,“,Minor,Feelings,:,An,Asian,-,American,Reckoning,”,wrestles,with,how,discrimination,against,Asians,is,often,left,out,in,conversations,about,race,in,the,United,States,.,“,We,have,also,been,victims,to,systemic,racism,throughout,history,",",”,Ms.,Hong,says,",",“,but,we,have,been,conditioned,to,pretend,that,it,does,n’t,exist,",",to,minimize,it,.,”
Forma Canónica,this,week,",",a,filipino,woman,be,attack,in,Midtown,Manhattan,during,broad,daylight,.,this,assault,come,on,the,heel,of,the,Atlanta,-,area,shooting,in,which,six,woman,of,asian,descent,be,kill,and,amid,report,of,rise,crime,against,Asians,.,one,group,",",stop,AAPI,hate,",",receive,nearly,3800,account,of,incident,nationally,between,March,19,",",2020,",",and,Feb.,28,.,the,poet,and,author,Cathy,Park,Hong,note,that,these,event,have,set,off,outrage,in,the,asian,-,american,community,.,her,essay,collection,"""",minor,feeling,:,an,asian,-,american,reckoning,"""",wrestle,with,how,discrimination,against,Asians,be,often,leave,out,in,conversation,about,race,in,the,United,States,.,"""",we,have,also,be,victim,to,systemic,racism,throughout,history,",","""",Ms.,Hong,say,",","""",but,we,have,be,condition,to,pretend,that,it,do,n’t,exist,",",to,minimize,it,.,""""
POS,DET,NOUN,PUNCT,DET,ADJ,NOUN,AUX,VERB,ADP,PROPN,PROPN,ADP,ADJ,NOUN,PUNCT,DET,NOUN,VERB,ADP,DET,NOUN,ADP,DET,PROPN,PUNCT,NOUN,NOUN,ADP,DET,NUM,NOUN,ADP,ADJ,NOUN,AUX,VERB,CCONJ,ADP,NOUN,ADP,VERB,NOUN,ADP,PROPN,PUNCT,NUM,NOUN,PUNCT,VERB,PROPN,NOUN,PUNCT,VERB,ADV,NUM,NOUN,ADP,NOUN,ADV,ADP,PROPN,NUM,PUNCT,NUM,PUNCT,CCONJ,PROPN,NUM,PUNCT,DET,NOUN,CCONJ,NOUN,PROPN,PROPN,PROPN,VERB,SCONJ,DET,NOUN,AUX,VERB,ADP,NOUN,ADP,DET,ADJ,PUNCT,ADJ,NOUN,PUNCT,PRON,NOUN,NOUN,PUNCT,ADJ,NOUN,PUNCT,DET,ADJ,PUNCT,ADJ,NOUN,PUNCT,VERB,ADP,ADV,NOUN,ADP,PROPN,AUX,ADV,VERB,ADP,ADP,NOUN,ADP,NOUN,ADP,DET,PROPN,PROPN,PUNCT,PUNCT,PRON,AUX,ADV,VERB,NOUN,ADP,ADJ,NOUN,ADP,NOUN,PUNCT,PUNCT,PROPN,PROPN,VERB,PUNCT,PUNCT,CCONJ,PRON,AUX,AUX,VERB,PART,VERB,SCONJ,PRON,AUX,PART,VERB,PUNCT,PART,VERB,PRON,PUNCT,PUNCT


Con SpaCy hemos realizado el POS y la obtención por palabras y formas canónicas, a diferencia de NLTK vemos como si realiza correctamente la transformación de las formas canónicas, por lo que en este aspecto es mejor spaCy...

***

#### Extracción de entidades

In [13]:
# Imprimimos las entidades en español

ents_tagged_esp = [(ent.text, ent.label_) for ent in docum_analizado.ents]
pd.DataFrame(ents_tagged_esp, columns=['Entidad', 'Tipo']).T

Unnamed: 0,0,1,2,3,4,5,6,7,8
Entidad,España,Los Estados Unidos,Billie Holiday,Lee Daniels,Gobierno Federal de Estados Unidos,El título de la cinta,Los Estados Unidos,América,Billie Holiday
Tipo,LOC,LOC,MISC,PER,LOC,MISC,LOC,LOC,MISC


In [14]:
# Imprimimos las entidades en inglés

ents_tagged_eng = [(ent.text, ent.label_) for ent in docum_analyzed.ents]
pd.DataFrame(ents_tagged_eng, columns=['Entidad', 'Tipo']).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
Entidad,This week,Filipino,Midtown Manhattan,Atlanta,six,Asian,Asians,One,"nearly 3,800","between March 19, 2020",Feb. 28,Cathy Park Hong,Asian,Minor Feelings: An Asian-American Reckoning,Asians,the United States,Hong
Tipo,DATE,NORP,GPE,GPE,CARDINAL,NORP,NORP,CARDINAL,CARDINAL,DATE,DATE,PERSON,NORP,WORK_OF_ART,NORP,GPE,PERSON


Parece que el texto en inglés contiene más entidades que el texto en castellano...

In [15]:
# Entidades en el texto español

for sent in docum_analizado.sents:
    displacy.render(sent, style='ent', jupyter=True, options={'distance': 110,'arrow_stroke': 2,'arrow_width': 8})



In [16]:
# Entidades en el texto en inglés

for sent in docum_analyzed.sents:
    displacy.render(sent, style='ent', jupyter=True, options={'distance': 110,'arrow_stroke': 2,'arrow_width': 8})

Como podemos observar, el texto en inglés no nos da ningún tipo de error y detecta correctamente todas las entidades... Sin embargo, en el texto en español obtenemos un error y no reconoce las fechas como **DATE**.

***

#### ¿Hay diferencias entre utilizar `NLTK` y `spaCy`?

Como hemos comentado a lo largo de estos ejercicos existen diferencias entre ambas librerías y entre los idiomas... En cuanto a los idiomas, ambas librerías funcionan perfectamente en Inglés. Sin embargo, en Español dan algunos problemas, por ejemplo:

- En NLTK, no realiza la transformación de formas canónicas
- En spaCy no detecta todas las entidades del texto, como es el caso de las fechas o cardinales

A pesar de esto, la librería de spaCy funciona mejor en español que NLTK, por lo tanto, será nuestra preferencia a la hora de analizar textos en español.

***