# _Sandbox_ de NLP con spaCy
Este _notebook_ les brinda un entorno de prueba para explorar algunas de las capacidades de spaCy como plataforma de _Natural Language Processing_. La idea es que puedan interactuar directamente con este tipo de tecnología para que se vayan con una idea más concreta. 

**Importante:** Recuerden que esto es una demo, puede haber algunas formas más complejas de trabajar y también puede haber desarrollos futuros que mejoren por sobre lo que pueden explorar en este _notebook_.

---

### Instrucciones previas
Para poder ejecutar este código, vamos a asegurarnos primero que Google Colab tiene instalado spaCy y vamos a requerirle que descargue el modelo español de tamaño mediano (pueden consultar instrucciones de instalación de spaCy [en este link](https://spacy.io/usage)).

Es necesario entonces ejecutar la siguiente celda de código (Shift+Enter cuando la celda se encuentra seleccionada, o el ícono de _play_ a la izquierda de la celda). Si la celda se ejecuta correctamente podemos ignorar la salida. Si no cambian nada de esta celda, no debería haber problemas!

In [None]:
!pip install spacy -U
!python -m spacy download es_core_news_md
import spacy
import warnings


from spacy import displacy


warnings.filterwarnings('ignore')
nlp = spacy.load("es_core_news_md")

## Análisis básico
Una vez que tenemos listo el modelo de NLP, para procesar un texto tenemos que generar un "documento":

In [None]:
doc = nlp("""
Podemos darle a spaCy un montón de texto. Recuerden que para que Python pueda interpretar
correctamente el texto, tienen que escribirlo entre las triples comillas dobles. Es decir,
mientras no eliminen la primer y última línea de esta celda, todo debería funcionar correctamente.
""")

Una vez que tenemos el "objeto documento", podemos hacerle consultas. Por ejemplo, podemos ver cuántas entidades ha podido detectar:

In [None]:
for entidad in doc.ents:
    print(f"Entidad: '{entidad}' de tipo {entidad.label_}")

O podemos verificar, por ejemplo, cada uno de los verbos en la oración:

In [None]:
for token in doc:
    if token.pos_ == "VERB":
        print(f"Verbo: {token}")
    if token.pos_ == "AUX":
        print(f"Aux. : {token}")

## Análisis con `displacy`
Esta forma de trabajar es un poco trabajosa y se presta más a un perfil de programación. Para ver de manera más gráfica el análisis que realiza spaCy podemos utilizar las funciones del módulo `displacy` que forman parte de la librería.

Por ejemplo, partiendo el documento en oraciones, podemos ver el arbol de dependencias entre las palabras del texto analizado:

In [None]:
displacy.render(list(doc.sents), style="dep", jupyter=True)

`displacy` también nos permite visualizar las entidades de manera más simple:

In [None]:
displacy.render(doc, style="ent", jupyter=True)

Y con un poco de trabajo, también se puede utilizar `displacy` para ver cada palabra de acuerdo al _part of speech_ ([ver referencia online](https://universaldependencies.org/docs/u/pos/)):

In [None]:
matches = []
all_ents = set()

for token in doc:
    match = {}
    match["start"] = token.idx
    match["end"]   = token.idx + len(token)
    match["label"] = token.pos_
    if token.pos_ != "SPACE":
        matches.append(match)
        all_ents.add(token.pos_)
    
sentence = [{
    "text": doc.text,
    "ents": matches
}]

# acá definimos los colores para las etiquetas
options = {
    "ents": list(all_ents),
    "colors": {
        #"ADP": "yellow",
        #"VERB": "#0f0",
        #"AUX": "#0a0",
    }
}

displacy.render(sentence, style="ent", manual=True, options=options, jupyter=True)