# `spacy`: el *Ruby on Rails* del PLN

[spacy](http://www.spacy.io/) es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con [otras librerías de *NLP* y de *deep learning*](https://spacy.io/usage/facts-figures#section-other-libraries). 

Tiene modelos entrenados en varios idiomas y permite realizar las [típicas tareas](https://spacy.io/usage/facts-figures) de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Veamos cómo funciona. Lo primero es instalar algunos modelos, en inglés y español. Desde la línea de comandos, ejecuta:

In [None]:
!python3 -m spacy download en
!python3 -m spacy download es

Una vez instalados los modelos, podemos importarlos fácilmente:

In [1]:
import spacy

# cargamos el modelo entrenado en español
nlp = spacy.load('es')

texto = '''España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 
España no aprobará finalmente la regla europa del déficit y se quedará como único país de la Eurozona que 
suspende y sigue bajo vigilancia. El Gobierno se salta finalmente el requisito de saneamiento presupuestario 
del Tratado de Maastricht y obtiene así más margen de gasto en 2018.'''

# y procesamos el texto
doc = nlp(texto)

## Procesando oraciones, palabras y entidades

Podemos iterar fácilmente sobre la lista de oraciones y recorrer los tokens para acceder a su información morfo-sintáctica:

In [2]:
for sentence in doc.sents:
    print('Oración: {}'.format(sentence))
    for token in sentence:
        print("{} con lema '{}', tiene la categoría gramatical {}/{} y la dependencia {}".format(token, token.lemma_, token.pos_, token.tag_, token.dep_))

Oración: España incumple la regla del déficit del euro y queda como único país bajo el control de Bruselas. 

España con lema 'España', tiene la categoría gramatical PROPN/PROPN___ y la dependencia nsubj
incumple con lema 'incumplir', tiene la categoría gramatical VERB/VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin y la dependencia ROOT
la con lema 'lo', tiene la categoría gramatical DET/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art y la dependencia det
regla con lema 'reglar', tiene la categoría gramatical NOUN/NOUN__Gender=Fem|Number=Sing y la dependencia obj
del con lema 'del', tiene la categoría gramatical ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y la dependencia case
déficit con lema 'déficit', tiene la categoría gramatical NOUN/NOUN__Gender=Masc|Number=Sing y la dependencia nmod
del con lema 'del', tiene la categoría gramatical ADP/ADP__AdpType=Preppron|Gender=Masc|Number=Sing y la dependencia case
euro con lema 'euro', tiene la categoría gramatical 

El elemeno `doc` tiene una propiedad `.ents` que permite acceder a las entidades nombradas que hayan sido localizadas:

In [3]:
print(doc.ents)

for entity in doc.ents:
    print('{} es de tipo {}'.format(entity, entity.label_))

(España, Bruselas, 
, España, Eurozona, 
, El Gobierno, 
, Tratado de Maastricht)
España es de tipo PER
Bruselas es de tipo LOC

 es de tipo ORG
España es de tipo LOC
Eurozona es de tipo LOC

 es de tipo ORG
El Gobierno es de tipo MISC

 es de tipo ORG
Tratado de Maastricht es de tipo MISC


## Visualizando árboles de dependencias y entidades

Podemos acceder al árbol completo a través del método `.print_tree()`:

In [4]:
doc.print_tree()

  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)
  "__main__", mod_spec)


[{'NE': '',
  'POS_coarse': 'VERB',
  'POS_fine': 'VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
  'arc': 'ROOT',
  'lemma': 'incumplir',
  'modifiers': [{'NE': 'PER',
    'POS_coarse': 'PROPN',
    'POS_fine': 'PROPN___',
    'arc': 'nsubj',
    'lemma': 'España',
    'modifiers': [],
    'word': 'España'},
   {'NE': '',
    'POS_coarse': 'NOUN',
    'POS_fine': 'NOUN__Gender=Fem|Number=Sing',
    'arc': 'obj',
    'lemma': 'reglar',
    'modifiers': [{'NE': '',
      'POS_coarse': 'DET',
      'POS_fine': 'DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art',
      'arc': 'det',
      'lemma': 'lo',
      'modifiers': [],
      'word': 'la'},
     {'NE': '',
      'POS_coarse': 'NOUN',
      'POS_fine': 'NOUN__Gender=Masc|Number=Sing',
      'arc': 'nmod',
      'lemma': 'déficit',
      'modifiers': [{'NE': '',
        'POS_coarse': 'ADP',
        'POS_fine': 'ADP__AdpType=Preppron|Gender=Masc|Number=Sing',
        'arc': 'case',
        'lemma': 'del',
        'mo

Pero también se puede dibujar el grafo con las dependencias:

In [5]:
from spacy import displacy
displacy.serve(doc, style='dep')


[93m    Serving on port 5000...[0m
    Using the 'dep' visualizer


    Shutting down server on port 5000.



O el de las entidades:

In [6]:
from spacy import displacy
displacy.serve(doc, style='ent')


[93m    Serving on port 5000...[0m
    Using the 'ent' visualizer


    Shutting down server on port 5000.

