# `spacy`: el *Ruby on Rails* del PLN

[spacy](http://www.spacy.io/) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de *NLP* y de *deep learning*](https://spacy.io/usage/facts-figures#section-other-libraries). 

Tiene modelos entrenados en varios idiomas y permite realizar las [típicas tareas](https://spacy.io/usage/facts-figures) de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Veamos cómo funciona. Lo primero es instalar algunos modelos, en inglés y español. Desde la línea de comandos, ejecuta:

In [1]:
#!python3 -m spacy download en
#!sudo python3 -m spacy download es


[93m    Linking successful[0m
    /home/victor/.virtualenvs/ds/lib/python3.6/site-packages/en_core_web_sm
    -->
    /home/victor/.virtualenvs/ds/lib/python3.6/site-packages/spacy/data/en

    You can now load the model via spacy.load('en')

[sudo] contraseña para victor: 


In [1]:
import spacy

nlp = spacy.load('es')

Una vez instalados los modelos, podemos importarlos fácilmente:

In [5]:
import spacy

# cargamos el modelo entrenado en español
nlp = spacy.load('es')

texto = '''España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018.'''

texto2 = """Luciano Benetton (Treviso, 1935) se presenta a la cita con una camisa blanca impoluta, 
sus perennes pantalones color crema y sus inconfundibles gafas ovaladas. A sus 83 años se encuentra 
en espléndida forma."""

# y procesamos el texto
doc = nlp(texto)

doc2 = nlp(texto2)


## Procesando oraciones, palabras y entidades

Podemos iterar fácilmente sobre la lista de oraciones y recorrer los tokens para acceder a su información morfo-sintáctica:

In [6]:
for sentence in doc2.sents:
    print('Oración: {}'.format(sentence))
    for token in sentence:
        print("{}/{}' => etiqueta {}/{} y dependencia {}".format(token, token.lemma_, token.pos_, token.tag_, token.dep_))

Oración: Luciano Benetton (Treviso, 1935) se presenta a la cita con una camisa blanca impoluta, 
sus perennes pantalones color crema y sus inconfundibles gafas ovaladas.
Luciano/Luciano' => etiqueta PROPN/PROPN___ y dependencia nsubj
Benetton/Benetton' => etiqueta PROPN/PROPN___ y dependencia flat
(/(' => etiqueta PUNCT/PUNCT__PunctSide=Ini|PunctType=Brck y dependencia punct
Treviso/Treviso' => etiqueta PROPN/PROPN___ y dependencia flat
,/,' => etiqueta PUNCT/PUNCT__PunctType=Comm y dependencia punct
1935/1935' => etiqueta NOUN/NOUN__AdvType=Tim y dependencia appos
)/)' => etiqueta PUNCT/PUNCT__PunctSide=Fin|PunctType=Brck y dependencia punct
se/se' => etiqueta PRON/PRON__Person=3 y dependencia obj
presenta/presentar' => etiqueta VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y dependencia ROOT
a/a' => etiqueta ADP/ADP__AdpType=Prep y dependencia case
la/lo' => etiqueta DET/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art y dependencia det
cita/citar' => etiqueta

El elemeno `doc` tiene una propiedad `.ents` que permite acceder a las entidades nombradas que hayan sido localizadas:

In [8]:
for entity in doc.ents:
    print('{} es de tipo {}'.format(entity, entity.label_))
    

for entity in doc2.ents:
    print('{} es de tipo {}'.format(entity, entity.label_))    
    

España es de tipo PER
Bruselas es de tipo LOC

 es de tipo ORG
España es de tipo LOC
Eurozona es de tipo LOC

 es de tipo ORG
El Gobierno es de tipo MISC

 es de tipo ORG
Tratado de Maastricht es de tipo MISC
Luciano Benetton es de tipo PER
Treviso es de tipo LOC

 es de tipo ORG
A sus 83 años es de tipo MISC

 es de tipo ORG


## Visualizando árboles de dependencias y entidades

Podemos acceder al árbol completo a través del método `.print_tree()`:

In [9]:
doc2.print_tree()

[{'word': 'presenta',
  'lemma': 'presentar',
  'NE': '',
  'POS_fine': 'VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
  'POS_coarse': 'VERB',
  'arc': 'ROOT',
  'modifiers': [{'word': 'Luciano Benetton',
    'lemma': 'Luciano Benetton',
    'NE': 'PER',
    'POS_fine': 'PROPN___',
    'POS_coarse': 'PROPN',
    'arc': 'nsubj',
    'modifiers': [{'word': 'Treviso',
      'lemma': 'Treviso',
      'NE': 'LOC',
      'POS_fine': 'PROPN___',
      'POS_coarse': 'PROPN',
      'arc': 'flat',
      'modifiers': [{'word': '(',
        'lemma': '(',
        'NE': '',
        'POS_fine': 'PUNCT__PunctSide=Ini|PunctType=Brck',
        'POS_coarse': 'PUNCT',
        'arc': 'punct',
        'modifiers': []},
       {'word': '1935',
        'lemma': '1935',
        'NE': '',
        'POS_fine': 'NOUN__AdvType=Tim',
        'POS_coarse': 'NOUN',
        'arc': 'appos',
        'modifiers': [{'word': ',',
          'lemma': ',',
          'NE': '',
          'POS_fine': 'PUNCT__Punct

Pero también se puede dibujar el grafo con las dependencias:

In [10]:
from spacy import displacy
displacy.serve(doc2, style='dep')


[93m    Serving on port 5000...[0m
    Using the 'dep' visualizer



127.0.0.1 - - [02/Mar/2019 10:24:01] "GET / HTTP/1.1" 200 26332
127.0.0.1 - - [02/Mar/2019 10:24:02] "GET /favicon.ico HTTP/1.1" 200 26332



    Shutting down server on port 5000.



O el de las entidades:

In [13]:
from spacy import displacy
displacy.serve(doc, style='ent')


[93m    Serving on port 5000...[0m
    Using the 'ent' visualizer



127.0.0.1 - - [02/Mar/2019 10:26:06] "GET / HTTP/1.1" 200 4263



    Shutting down server on port 5000.



In [14]:
nlp_en = spacy.load('en')
text = '''A trade war between the world’s two largest economies officially began on Friday morning as the Trump administration followed through with its threat to impose tariffs on $34 billion worth of Chinese products, a significant escalation of a fight that could hurt companies and consumers in both the United States and China.'''
doc = nlp_en(text)
displacy.serve(doc, style='ent')


[93m    Serving on port 5000...[0m
    Using the 'ent' visualizer



127.0.0.1 - - [02/Mar/2019 10:29:01] "GET / HTTP/1.1" 200 3822



    Shutting down server on port 5000.



## Similitud semántica entre palabras, frases y documentos

spaCy permite [calcular la similitud semántica](https://spacy.io/usage/vectors-similarity) entre cualquier par de objetos de tipo `Doc`, `Span` o `Token`. 

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [15]:
# analizamos algunas colocaciones en inglés
token1, _, token2 = nlp_en("cats and dogs")
token3, _, token4 = nlp_en("research and development")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

cats vs dogs 0.48946518
research vs development 0.66385657
cats vs development 0.12199358


In [16]:
# ¿qué tal funciona en español?
token1, _, token2 = nlp("perros y gatos")
token3, _, token4 = nlp("investigación y desarrollo")

# medimos la similitud semántica entre algunos pares
print(token1, "vs", token2, token1.similarity(token2))
print(token3, "vs", token4, token3.similarity(token4))
print(token1, "vs", token4, token1.similarity(token4))

perros vs gatos 0.63729906
investigación vs desarrollo 0.25863796
perros vs desarrollo 0.20336218
