# `spacy`: el *Ruby on Rails* del PLN

[spacy](http://www.spacy.io/) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de *NLP* y de *deep learning*](https://spacy.io/usage/facts-figures#section-other-libraries). 

Tiene modelos entrenados en varios idiomas y permite realizar las [típicas tareas](https://spacy.io/usage/facts-figures) de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Veamos cómo funciona. Lo primero es instalar algunos modelos, en inglés y español. Desde la línea de comandos, ejecuta:

In [None]:
python -m spacy download es
#!sudo python3 -m spacy download es

In [1]:
import spacy

nlp = spacy.load('es')

Una vez instalados los modelos, podemos importarlos fácilmente:

In [3]:
import spacy

# cargamos el modelo entrenado en español
nlp = spacy.load('es')

texto = '''España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018.'''

# y procesamos el texto
doc = nlp(texto)

## Procesando oraciones, palabras y entidades

Podemos iterar fácilmente sobre la lista de oraciones y recorrer los tokens para acceder a su información morfo-sintáctica:

In [4]:
for sentence in doc.sents:
    print('Oración: {}'.format(sentence))
    for token in sentence:
        print("{}/{}' => etiqueta {}/{} y dependencia {}".format(token, token.lemma_, token.pos_, token.tag_, token.dep_))

Oración: España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 

España/España' => etiqueta PROPN/PROPN___ y dependencia nsubj
incumple/incumplir' => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia ROOT
la/lo' => etiqueta DET/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art y dependencia det
regla/reglar' => etiqueta NOUN/NOUN__Gender=Fem|Number=Sing y dependencia obj
del/del' => etiqueta ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y dependencia case
déficit/déficit' => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
del/del' => etiqueta ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y dependencia case
euro/euro' => etiqueta NOUN/NOUN__Gender=Masc|Number=Sing y dependencia nmod
y/y' => etiqueta CONJ/CCONJ___ y dependencia cc
queda/quedo' => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia conj
como/comer' => etiqueta SCONJ/SCONJ___ y d

El elemeno `doc` tiene una propiedad `.ents` que permite acceder a las entidades nombradas que hayan sido localizadas:

In [6]:
for entity in doc.ents:
    print('{} es de tipo {}'.format(entity, entity.label_))

España es de tipo PER
Bruselas es de tipo LOC

 es de tipo ORG
España es de tipo LOC
Eurozona es de tipo LOC

 es de tipo ORG
El Gobierno es de tipo MISC

 es de tipo ORG
Tratado de Maastricht es de tipo MISC


## Visualizando árboles de dependencias y entidades

Podemos acceder al árbol completo a través del método `.print_tree()`:

In [None]:
doc.print_tree()

Pero también se puede dibujar el grafo con las dependencias:

In [7]:
from spacy import displacy
displacy.serve(doc, style='dep')


[93m    Serving on port 5000...[0m
    Using the 'dep' visualizer



213.98.131.186 - - [23/Mar/2019 11:46:53] "GET / HTTP/1.1" 200 51265
213.98.131.186 - - [23/Mar/2019 11:46:53] "GET /favicon.ico HTTP/1.1" 200 51265



    Shutting down server on port 5000.



O el de las entidades:

In [8]:
from spacy import displacy
displacy.serve(doc, style='ent')


[93m    Serving on port 5000...[0m
    Using the 'ent' visualizer



213.98.131.186 - - [23/Mar/2019 11:47:54] "GET / HTTP/1.1" 200 4263



    Shutting down server on port 5000.



In [None]:
nlp_en = spacy.load("en")
text = 

In [None]:
texto = """Pablo Casado negoció el pasado 5 de julio de 2016 su título de máster en la URJC."""
doc = nlp(texto)
displacy.serve(doc, style='ent')

In [9]:
nlp_en = spacy.load('en')
text = '''A trade war between the world’s two largest economies officially began on Friday morning as the Trump administration followed through with its threat to impose tariffs on $34 billion worth of Chinese products, a significant escalation of a fight that could hurt companies and consumers in both the United States and China.'''
doc = nlp_en(text)
displacy.serve(doc, style='ent')


[93m    Serving on port 5000...[0m
    Using the 'ent' visualizer



213.98.131.186 - - [23/Mar/2019 11:49:42] "GET / HTTP/1.1" 200 3822



    Shutting down server on port 5000.



## Similitud semántica entre palabras, frases y documentos

spaCy permite [calcular la similitud semántica](https://spacy.io/usage/vectors-similarity) entre cualquier par de objetos de tipo `Doc`, `Span` o `Token`. 

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [10]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

cats vs dogs 0.48946518
research vs development 0.66385657
cats vs development 0.12199358


In [2]:
!pip3 install -U spacy

Collecting spacy
[33m  Cache entry deserialization failed, entry ignored[0m
  Downloading https://files.pythonhosted.org/packages/24/91/958a2429968bc47bc5c8c210d4962a5f97f3c6935a05a3a0902fd5359b93/spacy-2.1.2-cp36-cp36m-manylinux1_x86_64.whl (27.7MB)
[K    100% |████████████████████████████████| 27.7MB 39kB/s  eta 0:00:01   18% |█████▉                          | 5.0MB 29.1MB/s eta 0:00:01    36% |███████████▊                    | 10.1MB 30.1MB/s eta 0:00:01    59% |███████████████████             | 16.4MB 27.5MB/s eta 0:00:01    89% |████████████████████████████▋   | 24.7MB 22.5MB/s eta 0:00:01    93% |██████████████████████████████  | 25.9MB 27.0MB/s eta 0:00:01
[?25hCollecting plac<1.0.0,>=0.9.6 (from spacy)
[33m  Cache entry deserialization failed, entry ignored[0m
[33m  Cache entry deserialization failed, entry ignored[0m
  Downloading https://files.pythonhosted.org/packages/9e/9b/62c60d2f5bc135d2aa1d8c8a86aaf84edb719a59c7f11a4316259e61a298/plac-0.9.6-py2.py3-none-any.whl
C

In [18]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

perros vs gatos 0.63729906
investigación vs desarrollo 0.25863796
perros vs desarrollo 0.20336218
