# `spacy`: el *Ruby on Rails* del PLN

[spacy](http://www.spacy.io/) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de *NLP* y de *deep learning*](https://spacy.io/usage/facts-figures#section-other-libraries). 

Tiene modelos entrenados en varios idiomas y permite realizar las [típicas tareas](https://spacy.io/usage/facts-figures) de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Veamos cómo funciona. Lo primero es instalar algunos modelos, en inglés y español. Desde la línea de comandos, ejecuta:

In [None]:
#!python3 -m spacy download en
#!sudo python3 -m spacy download es

In [None]:
import spacy

nlp = spacy.load("es")

Una vez instalados los modelos, podemos importarlos fácilmente:

In [None]:
import spacy

# cargamos el modelo entrenado en español
nlp = spacy.load("es")

texto = """España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018."""

# y procesamos el texto
doc = nlp(texto)

## Procesando oraciones, palabras y entidades

Podemos iterar fácilmente sobre la lista de oraciones y recorrer los tokens para acceder a su información morfo-sintáctica:

In [None]:
for sentence in doc.sents:
    print("Oración: {}".format(sentence))
    for token in sentence:
        print("{}/{} => etiqueta {}/{} y dependencia {}".format(token, token.lemma_, token.pos_, token.tag_, token.dep_))

El elemeno `doc` tiene una propiedad `.ents` que permite acceder a las entidades nombradas que hayan sido localizadas:

In [None]:
print(doc.ents)

for entity in doc.ents:
    print("{} es de tipo {}".format(entity, entity.label_))

## Visualizando árboles de dependencias y entidades

Podemos acceder al árbol completo a través del método `.print_tree()`:

In [None]:
doc.print_tree()

Pero también se puede dibujar el grafo con las dependencias:

In [None]:
from spacy import displacy
displacy.serve(doc, style="dep")

O el de las entidades:

In [None]:
from spacy import displacy
displacy.serve(doc, style="ent")

In [None]:
texto = """Los ciudadanos españoles son conscientes de que esa salida de Reino Unido no será gratuita. Literalmente. Uno de cada tres teme que el Brexit le cueste caro a la economía española: el 36,9% prevé consecuencias «muy negativas» para sus bolsillos."""
doc = nlp(texto)
displacy.serve(doc, style="ent")

In [None]:
nlp_en = spacy.load("en")
text = '''A trade war between the world’s two largest economies officially began on Friday morning as the Trump administration followed through with its threat to impose tariffs on $34 billion worth of Chinese products, a significant escalation of a fight that could hurt companies and consumers in both the United States and China.'''
doc = nlp_en(text)
displacy.serve(doc, style='ent')

## Similitud semántica entre palabras, frases y documentos

spaCy permite [calcular la similitud semántica](https://spacy.io/usage/vectors-similarity) entre cualquier par de objetos de tipo `Doc`, `Span` o `Token`. 

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [None]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

In [None]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))