# spaCy: una libreria *open source* para NLP en Python

spaCy está diseñado para realizar las tareas de NLP más comunes en la industria de manera fácil, ágil y versatil. Para esta actividad veremos cuatro funcionalidades de la librería:
1. Part of Speech Tagger: etiqueta la función gramatical a cada palabra
2. Dependency Parser: divide los elementos de la oración mediante dependencias sintácticas 
3. Named entity recognition: reconocimiento de entidades de conocimiento público
4. Similitud textual: computa la similitud de contenido de varios textos

In [1]:
!pip install -U spacy  # instalamos la última version de spaCy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy
  Downloading spacy-3.3.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.2 MB)
[K     |████████████████████████████████| 6.2 MB 4.9 MB/s 
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[K     |████████████████████████████████| 10.1 MB 25.8 MB/s 
Collecting pathy>=0.3.5
  Downloading pathy-0.6.1-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 1.5 MB/s 
Collecting spacy-legacy<3.1.0,>=3.0.9
  Downloading spacy_legacy-3.0.9-py2.py3-none-any.whl (20 kB)
Collecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.1-py3-none-any.whl (27 kB)
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
[K     |████████████████████████████████| 181 kB 40.8 MB/s 
Collecting thinc<8.1.0,>=8.0.14
  Downloading thinc-8.0.16-cp37-cp37m-manylinu

In [1]:
!python -m spacy info # podemos ver la versión más actualizada aquí

[1m

spaCy version    3.3.0                         
Location         /usr/local/lib/python3.7/dist-packages/spacy
Platform         Linux-5.4.188+-x86_64-with-Ubuntu-18.04-bionic
Python version   3.7.13                        
Pipelines                                      



In [2]:
# ahora debemos debemos descargar uno de los modelos pre-entrenados para español. Aquí instalamos el más pequeño.
# Si deseas otro módelo puedes utilizar uno de estos: https://spacy.io/models/es
!python -m spacy download es_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.3.0/es_core_news_sm-3.3.0-py3-none-any.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 5.5 MB/s 
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.3.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [3]:
import spacy # importamos el módulo 

In [4]:
nlp = spacy.load("es_core_news_sm") # asignamos el modelo a una variable

In [7]:
doc = nlp(u'Mateo está en su casa y está en clase.') # hacemos una prueba de tokenización
for token in doc: # imprimimos cada token en cada línea
    print(token)

Mateo
está
en
su
casa
y
está
en
clase
.


## 1. Part of Speech Tagging

Para esta primera actividad vamos a etiquetar cada palabra de la oración con su función gramatical. Esto se llama [Part of Speech Tagging](https://spacy.io/usage/linguistic-features) y es una de las tareas de NLP más comunes en la industria.

In [10]:
# para obtener esta información de la oración ejecutamos el siguiente código
doc2 = nlp(u'La segunda vez que fui al otro lado del charco fue para visitar a un amigo en españa') # oración tomada del corpus UpperBeginner.txt
for token in doc2: 
    print("\t".join( (token.text, token.lemma_, token.tag_) ) )

La	el	DET
segunda	segundo	ADJ
vez	vez	NOUN
que	que	PRON
fui	ir	AUX
al	al	ADP
otro	otro	DET
lado	lado	NOUN
del	del	ADP
charco	charco	NOUN
fue	ser	AUX
para	para	ADP
visitar	visitar	VERB
a	a	ADP
un	uno	DET
amigo	amigo	NOUN
en	en	ADP
españa	españa	PROPN


Lo primero que vemos en la tabla de arriba es el token mismo. Luego, el lema y, por último, la etiqueta con la función gramatical dentrode la oración. ¿Puedes decifrar cada etiqueta?

Puedes encontrar más funcionalidades e información [aquí](https://spacy.io/usage/linguistic-features)

## 2. Dependency Parse

Similar al *POS Tagger*, spaCy también nos muestra la relación sintactica de cada palabra dentro de la oración mediante una gramática de dependencias (Dependency Grammar). En la *dependency grammar* la estructura sintáctica de una oración se describe mediante un conjunto de arcos binarios que contienen las relaciones gramaticales entre las palabras. 

In [15]:
doc3 = nlp(u'Andrea Nett pone la sal del Himalaya en la mesa grande')
print ("{:<15} | {:<8} | {:<15} | {:<20}".format('Token','Relación','Cabeza', 'Dependencia'))
print ("-" * 70)

for token in doc3:
  # Print the token, dependency nature, head and all dependents of the token
  print ("{:<15} | {:<8} | {:<15} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str([child for child in token.children])))

Token           | Relación | Cabeza          | Dependencia         
----------------------------------------------------------------------
Andrea          | nsubj    | pone            | [Nett]              
Nett            | flat     | Andrea          | []                  
pone            | ROOT     | pone            | [Andrea, sal, mesa] 
la              | det      | sal             | []                  
sal             | obj      | pone            | [la, Himalaya]      
del             | case     | Himalaya        | []                  
Himalaya        | nmod     | sal             | [del]               
en              | case     | mesa            | []                  
la              | det      | mesa            | []                  
mesa            | obl      | pone            | [en, la, grande]    
grande          | amod     | mesa            | []                  


En la primera columna vemos el texto. Luego, vemos su relación de dependencia con el token de la tercera columna. Luego vemos la principal categoria gramatical del *head*. Por último, se muestran los *hijos* de cada palabra (donde sea acertado). 

Estas relaciones sintáticas las podemos ver gráficamente:



In [16]:
from spacy import displacy # importamos el módulo gráfico de spaCy.

In [17]:
displacy.render(doc3, style='dep', jupyter=True, options={"distance": 85}) # ejecutamos este código. Nota la opción 'dep'.

## 3. Named Entity recognition

Como su nombre lo indica, en *Named Entity Recognition* le pedimos a spaCy que reconozca entidades, lugares, personas, fechas, etc., que son de conocimiento público. SpaCy encontrará tantas entidades como estén disponibles en el modelo de español que cargamos a la memoria. 

In [28]:
doc4 = nlp(u'En los años de 2006 yo estaba en vacaciones en Florida con mi familia') # oración adicional

In [29]:
for ent in doc4.ents: # hacemos un for loop para que imprima la siguiente información
    print(ent.text, ent.start_char, ent.end_char, ent.label_) # 1. entidad, 2. número de caracter de inicio, 3. número de caracter final, 4. etiqueta

Florida 47 54 LOC


In [27]:
displacy.render(doc4, style='ent', jupyter=True) # visualización!

## 4. Similitud textual

Aquí computaremos la similitud en contexto de dos o más textos. El programa va a convertir las palabras en vectores o representaciones númericas. Luego, va a modelar la probabilidad de que dos textos aparezcan en ambos contextos.  

In [30]:
# Debemos descargar el modelo mediano de español. Este modelo es más grande y útil para esta actividad.
!python -m spacy download es_core_news_md
nlp2 = spacy.load("es_core_news_md")

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-md==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.3.0/es_core_news_md-3.3.0-py3-none-any.whl (42.3 MB)
[K     |████████████████████████████████| 42.3 MB 2.9 MB/s 
Installing collected packages: es-core-news-md
Successfully installed es-core-news-md-3.3.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')


In [33]:
# escribimos oraciones o pegamos un texto entre las comillas
texto1 = nlp2("Me gustan las hamburguesas y las papas fritas.")
texto2 = nlp2("Los perros calientes son comidas rápidas.")

In [34]:
# Computamos la similitud de los dos documentos
print(texto1, "<->", texto2, texto1.similarity(texto2))

Me gustan las hamburguesas y las papas fritas. <-> Los perros calientes son comidas rápidas. 0.4402628376724563


En este caso las dos oraciones tienen una similitud de 36%. También podemos evaluar la similitud de dos palabras o frases.

En este caso, la cuenta de los tokens de la oración empieza desde cero (0). 

In [35]:
# Similaritud de tokens y frases
hamburguesas = texto1[3]
papas_fritas = texto1[6:8]
print(hamburguesas, "<->", papas_fritas, hamburguesas.similarity(papas_fritas))

hamburguesas <-> papas fritas 0.7660989165306091


## *Ahora tú!*

Practica lo que aprendiste con diferentes oraciones de tu ensayo sobre Gabriel García Marquez. 

### Part of Speech Tagging ⚡

In [36]:
texto3 = nlp(u'Donald Trump y Joseph Biden estaban los canidades de presidente de Los Estados Unidos en el elección de 2020.') # COMPLETAR
for token in texto3: # COMPLETAR
    print("\t".join( (token.text, token.lemma_, token.tag_) ) )

Donald	Donald	PROPN
Trump	Trump	PROPN
y	y	CCONJ
Joseph	Joseph	PROPN
Biden	Biden	PROPN
estaban	estar	VERB
los	el	DET
canidades	canidad	NOUN
de	de	ADP
presidente	presidente	NOUN
de	de	ADP
Los	el	DET
Estados	Estados	PROPN
Unidos	Unidos	PROPN
en	en	ADP
el	el	DET
elección	elección	NOUN
de	de	ADP
2020	2020	NOUN
.	.	PUNCT


¿Puedes decifrar cada etiqueta? Puedes encontrar la descripción de cada etiqueta [aquí](https://github.com/explosion/spaCy/blob/master/spacy/glossary.py)

### Dependency Parser ⚡

In [None]:
??? = nlp(u'???') #COMPLETAR
print ("{:<15} | {:<8} | {:<15} | {:<20}".format('Token','Relación','Cabeza', 'Dependencia'))
print ("-" * 70)

for token in ???: #COMPLETAR
  print ("{:<15} | {:<8} | {:<15} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str([child for child in token.children])))

In [None]:
displacy.render(???, style='dep', jupyter=True, options={"distance": 100}) # COMPLETAR

### Named Entity Recognition ⚡

In [None]:
??? = nlp(u'???') # COMPLETAR

In [None]:
displacy.render(???, style='ent', jupyter=True) # COMPLETAR

¿El programa reconoció correctamente todas las entidades de tu oración?

### Similitud Textual ⚡

In [None]:
??? = nlp2("???") #COMPLETAR
??? = nlp2("???") #COMPLETAR

In [None]:
print(???, "<->", ???, ???.similarity(???)) #COMPLETAR

Hemos concluido nuestra clase de spaCy con 4 de tareas comunes que se realizan en NLP. ¿Cuál te ha gustado más? ¿Cuál te serviría para tu trabajo e investigación?