# spaCy: una libreria *open source* para NLP en Python

spaCy está diseñado para realizar las tareas de NLP más comunes en la industria de manera fácil, ágil y versatil. Para esta actividad veremos cuatro funcionalidades de la librería:
1. Part of Speech Tagger: etiqueta la función gramatical a cada palabra
2. Dependency Parser: divide los elementos de la oración mediante dependencias sintácticas 
3. Named entity recognition: reconocimiento de entidades de conocimiento público
4. Similitud textual: computa la similitud de contenido de varios textos

In [None]:
!pip install -U spacy  # instalamos la última version de spaCy

In [1]:
!python -m spacy info # podemos ver la versión más actualizada aquí

[1m

spaCy version    3.3.0                         
Location         /usr/local/lib/python3.7/dist-packages/spacy
Platform         Linux-5.4.188+-x86_64-with-Ubuntu-18.04-bionic
Python version   3.7.13                        
Pipelines                                      



In [None]:
# ahora debemos debemos descargar uno de los modelos pre-entrenados para español. Aquí instalamos el más pequeño.
# Si deseas otro módelo puedes utilizar uno de estos: https://spacy.io/models/es
!python -m spacy download es_core_news_sm

In [3]:
import spacy # importamos el módulo 

In [4]:
nlp = spacy.load("es_core_news_sm") # asignamos el modelo a una variable

In [5]:
doc = nlp(u'Yo vivo es Alanta, Georgia.') # hacemos una prueba de tokenización
for token in doc: # imprimimos cada token en cada línea
    print(token)

Yo
vivo
es
Alanta
,
Georgia
.


## 1. Part of Speech Tagging

Para esta primera actividad vamos a etiquetar cada palabra de la oración con su función gramatical. Esto se llama [Part of Speech Tagging](https://spacy.io/usage/linguistic-features) y es una de las tareas de NLP más comunes en la industria.

In [None]:
# para obtener esta información de la oración ejecutamos el siguiente código
doc2 = nlp(u'Sobre el verano mi familia y yo hicieron un viaje para visitar mis parientes en Nueva Jersey.') # oración tomada del corpus UpperBeginner.txt
for token in doc2: 
    print("\t".join( (token.text, token.lemma_, token.tag_) ) )

Lo primero que vemos en la tabla de arriba es el token mismo. Luego, el lema y, por último, la etiqueta con la función gramatical dentrode la oración. ¿Puedes decifrar cada etiqueta?

Puedes encontrar más funcionalidades e información [aquí](https://spacy.io/usage/linguistic-features)

## 2. Dependency Parse

Similar al *POS Tagger*, spaCy también nos muestra la relación sintactica de cada palabra dentro de la oración mediante una gramática de dependencias (Dependency Grammar). En la *dependency grammar* la estructura sintáctica de una oración se describe mediante un conjunto de arcos binarios que contienen las relaciones gramaticales entre las palabras. 

In [7]:
doc3 = nlp(u'Hay muchas mujeres y hombres en los Estados Unidos.')
print ("{:<15} | {:<8} | {:<15} | {:<20}".format('Token','Relación','Cabeza', 'Dependencia'))
print ("-" * 70)

for token in doc3:
  # Print the token, dependency nature, head and all dependents of the token
  print ("{:<15} | {:<8} | {:<15} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str([child for child in token.children])))

Token           | Relación | Cabeza          | Dependencia         
----------------------------------------------------------------------
Hay             | ROOT     | Hay             | [mujeres, Estados, .]
muchas          | det      | mujeres         | []                  
mujeres         | obj      | Hay             | [muchas, hombres]   
y               | cc       | hombres         | []                  
hombres         | conj     | mujeres         | [y]                 
en              | case     | Estados         | []                  
los             | det      | Estados         | []                  
Estados         | obl      | Hay             | [en, los, Unidos]   
Unidos          | flat     | Estados         | []                  
.               | punct    | Hay             | []                  


En la primera columna vemos el texto. Luego, vemos su relación de dependencia con el token de la tercera columna. Luego vemos la principal categoria gramatical del *head*. Por último, se muestran los *hijos* de cada palabra (donde sea acertado). 

Estas relaciones sintáticas las podemos ver gráficamente:



In [8]:
from spacy import displacy # importamos el módulo gráfico de spaCy.

In [30]:
displacy.render(doc3, style='dep', jupyter=True, options={"distance": 100}) # ejecutamos este código. Nota la opción 'dep'.

## 3. Named Entity recognition

Como su nombre lo indica, en *Named Entity Recognition* le pedimos a spaCy que reconozca entidades, lugares, personas, fechas, etc., que son de conocimiento público. SpaCy encontrará tantas entidades como estén disponibles en el modelo de español que cargamos a la memoria. 

In [10]:
doc4 = nlp(u'Apple y Samsung son rivales en Estados Unidos desde la Superbowl el 15 de febrero de 2007.') # oración adicional

In [11]:
for ent in doc4.ents: # hacemos un for loop para que imprima la siguiente información
    print(ent.text, ent.start_char, ent.end_char, ent.label_) # 1. entidad, 2. número de caracter de inicio, 3. número de caracter final, 4. etiqueta

Apple 0 5 ORG
Samsung 8 15 ORG
en Estados Unidos 28 45 LOC
Superbowl 55 64 LOC


In [13]:
displacy.render(doc4, style='ent', jupyter=True) # visualización!

## 4. Similitud textual

Aquí computaremos la similitud en contexto de dos o más textos. El programa va a convertir las palabras en vectores o representaciones númericas. Luego, va a modelar la probabilidad de que dos textos aparezcan en ambos contextos.  

In [18]:
# Debemos descargar el modelo mediano de español. Este modelo es más grande y útil para esta actividad.
!python -m spacy download es_core_news_md
nlp2 = spacy.load("es_core_news_md")

In [21]:
# escribimos oraciones o pegamos un texto entre las comillas
doc1 = nlp2("Me gustan las hamburguesas y las papas fritas.")
doc2 = nlp2("Los perros calientes son deliciosos también.")

In [22]:
# Computamos la similitud de los dos documentos
print(doc1, "<->", doc2, doc1.similarity(doc2))

Me gustan las hamburguesas y las papas fritas. <-> Los perros calientes son deliciosos también. 0.36784409318370614


En este caso las dos oraciones tienen una similitud de 36%. También podemos evaluar la similitud de dos palabras o frases.

En este caso, la cuenta de los tokens de la oración empieza desde cero (0). 

In [29]:
# Similaritud de tokens y frases
hamburguesas = doc1[3]
papas_fritas = doc1[6:8]
print(hamburguesas, "<->", papas_fritas, hamburguesas.similarity(papas_fritas))

hamburguesas <-> papas fritas 0.7660989165306091


## *Ahora tú!*

Practica lo que aprendiste con diferentes oraciones de tu ensayo sobre Gabriel García Marquez. 

### Part of Speech Tagging ⚡

In [None]:
??? = nlp(u'???') # COMPLETAR
for token in ???: # COMPLETAR
    print("\t".join( (token.text, token.lemma_, token.tag_) ) )

¿Puedes decifrar cada etiqueta? Puedes encontrar la descripción de cada etiqueta [aquí](https://github.com/explosion/spaCy/blob/master/spacy/glossary.py)

### Dependency Parser ⚡

In [None]:
??? = nlp(u'???') #COMPLETAR
print ("{:<15} | {:<8} | {:<15} | {:<20}".format('Token','Relación','Cabeza', 'Dependencia'))
print ("-" * 70)

for token in ???: #COMPLETAR
  print ("{:<15} | {:<8} | {:<15} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str([child for child in token.children])))

In [None]:
displacy.render(???, style='dep', jupyter=True, options={"distance": 100}) # COMPLETAR

### Named Entity Recognition ⚡

In [None]:
??? = nlp(u'???') # COMPLETAR

In [None]:
displacy.render(???, style='ent', jupyter=True) # COMPLETAR

¿El programa reconoció correctamente todas las entidades de tu oración?

### Similitud Textual ⚡

In [None]:
??? = nlp2("???") #COMPLETAR
??? = nlp2("???") #COMPLETAR

In [None]:
print(???, "<->", ???, ???.similarity(???)) #COMPLETAR

Hemos concluido nuestra clase de spaCy con 4 de tareas comunes que se realizan en NLP. ¿Cuál te ha gustado más? ¿Cuál te serviría para tu trabajo e investigación?