In [1]:
# install the requirements
# !pip install spacy
# !python -m spacy download es_core_news_md
# !python -m spacy download en_core_web_md

# `spacy`: el *Ruby on Rails* del PLN

[spacy](http://www.spacy.io/) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de *NLP* y de *deep learning*](https://spacy.io/usage/facts-figures#section-other-libraries). 

Tiene modelos entrenados en varios idiomas y permite realizar las [típicas tareas](https://spacy.io/usage/facts-figures) de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Una vez instalados los modelos, podemos importarlos fácilmente:

In [2]:
import spacy

# cargamos el modelo entrenado en español
nlp = spacy.load("es_core_news_md")

In [3]:
texto = """España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018."""

# y procesamos el texto
doc = nlp(texto)

## Procesando oraciones, palabras y entidades

Podemos iterar fácilmente sobre la lista de oraciones y recorrer los tokens para acceder a su información morfo-sintáctica:

In [4]:
for sentence in doc.sents:
    print("Oración: {}".format(sentence))
    for token in sentence:
        print(
            "{}/{} => etiqueta {}/{} y dependencia {}".format(
                token, token.lemma_, token.pos_, token.tag_, token.dep_
            )
        )

Oración: España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 

España/España => etiqueta PROPN/PROPN y dependencia nsubj
incumple/incumplir => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia ROOT
la/lo => etiqueta DET/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art y dependencia det
regla/reglar => etiqueta NOUN/NOUN__Gender=Fem|Number=Sing y dependencia obj
del/del => etiqueta ADP/ADP__AdpType=Preppron y dependencia case
déficit/déficit => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
del/del => etiqueta ADP/ADP__AdpType=Preppron y dependencia case
euro/euro => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
y/y => etiqueta CCONJ/CCONJ y dependencia cc
queda/quedo => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia conj
como/comer => etiqueta SCONJ/SCONJ y dependencia mark
único/único => etiqueta ADJ/ADJ__Gender=Masc|Number

El elemeno `doc` tiene una propiedad `.ents` que permite acceder a las entidades nombradas que hayan sido localizadas:

In [5]:
print(doc.ents)

for entity in doc.ents:
    print("{} es de tipo {}".format(entity, entity.label_))

(España, Bruselas, España, Eurozona, El Gobierno, Tratado de Maastricht)
España es de tipo LOC
Bruselas es de tipo LOC
España es de tipo LOC
Eurozona es de tipo ORG
El Gobierno es de tipo LOC
Tratado de Maastricht es de tipo MISC


## Visualizando árboles de dependencias y entidades

Podemos acceder al árbol completo a través del método `.print_tree()`:

In [6]:
doc.to_json()

{'text': 'España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. \nEspaña no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que \nsuspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario \ndel Tratado de Maastricht y obtiene así más margen de gasto en 2018.',
 'ents': [{'start': 0, 'end': 6, 'label': 'LOC'},
  {'start': 89, 'end': 97, 'label': 'LOC'},
  {'start': 100, 'end': 106, 'label': 'LOC'},
  {'start': 193, 'end': 201, 'label': 'ORG'},
  {'start': 241, 'end': 252, 'label': 'LOC'},
  {'start': 321, 'end': 342, 'label': 'MISC'}],
 'sents': [{'start': 0, 'end': 100},
  {'start': 100, 'end': 240},
  {'start': 241, 'end': 385}],
 'tokens': [{'id': 0,
   'start': 0,
   'end': 6,
   'pos': 'PROPN',
   'tag': 'PROPN',
   'dep': 'nsubj',
   'head': 1},
  {'id': 1,
   'start': 7,
   'end': 15,
   'pos': 'VERB',
   'tag': 'VERB__Mood=Ind|Number=Sing|Pe

Pero también se puede dibujar el grafo con las dependencias:

In [7]:
from spacy import displacy

displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


O el de las entidades:

In [8]:
from spacy import displacy

displacy.serve(doc, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [9]:
texto = """Los ciudadanos españoles son conscientes de que esa salida de Reino Unido no será gratuita. Literalmente. Uno de cada tres teme que el Brexit le cueste caro a la economía española: el 36,9% prevé consecuencias «muy negativas» para sus bolsillos."""
doc = nlp(texto)
displacy.serve(doc, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


In [10]:
nlp_en = spacy.load("en_core_web_md")

In [11]:
text = """A trade war between the world’s two largest economies officially began on Friday morning as the Trump 
administration followed through with its threat to impose tariffs on $34 billion worth of Chinese products, a 
significant escalation of a fight that could hurt companies and consumers in both the United States and China."""
doc = nlp_en(text)
displacy.serve(doc, style="ent")


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## Similitud semántica entre palabras, frases y documentos

spaCy permite [calcular la similitud semántica](https://spacy.io/usage/vectors-similarity) entre cualquier par de objetos de tipo `Doc`, `Span` o `Token`. 

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [12]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

cats vs dogs 0.83117634
research vs development 0.5828718
cats vs development 0.104666404


In [13]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

perros vs gatos 0.87088835
investigación vs desarrollo 0.69238174
perros vs desarrollo 0.016273146


In [14]:
token1.vector.shape

(300,)

In [15]:
print(token1.vector)

[ 4.1870e+00  2.9879e+00 -4.7788e-01  7.1432e-03  1.4423e+00 -6.2299e-01
 -3.7585e+00 -4.1798e-01  1.9699e+00  3.7113e+00 -1.0867e+00  3.4953e-01
  2.3197e+00  1.4713e+00 -1.8833e+00  8.7245e-02 -2.0503e+00 -2.3009e+00
  2.4353e-01 -3.9290e+00  1.6590e-01 -2.4178e-01  6.5346e-01  2.4065e+00
 -1.3074e+00 -2.6448e+00  8.2543e-01 -3.2517e-01  2.1029e-01  2.9923e+00
 -2.2777e+00  3.9615e+00  1.0714e+00  4.9930e-02 -6.9514e-01 -6.6236e-01
 -8.9033e-01 -6.8197e-01  1.3586e+00  1.3103e-04 -1.1174e+00  2.2623e+00
 -4.9142e+00  5.3017e-01 -2.1343e+00 -1.6264e+00 -2.5723e-01  1.1757e+00
  1.3982e+00  1.3306e+00  2.1556e+00  9.7813e-01  4.0708e-02 -2.2519e-01
 -1.9099e+00 -3.1959e-01  1.3120e+00  1.0037e+00 -1.3192e+00  1.3133e+00
  2.1475e-02  1.3223e+00  1.2912e+00 -2.2622e+00  2.1667e-01  7.8707e-01
  2.0105e+00 -3.1540e+00 -2.3959e+00 -1.3868e+00  1.9939e+00  2.0524e+00
 -1.5997e+00 -1.3165e+00 -1.3275e+00 -9.5451e-01  1.2380e+00  1.1141e+00
 -3.1573e+00 -3.8136e+00 -1.6776e-01  3.4885e-01  1