# Que es spaCy?

spaCy es un ejemplo de un magnífico proyecto open-source para NLP. Aqui teneís el link [spaCy](https://spacy.io/)

Que gracia tiene? Hay unas cuantas comparativas que dan ellos ([aquí](https://spacy.io/usage/facts-figures) las teneis), pero realmente lo mejor de la librería es su filosofia, que se adecua bastante a la filosofía KeepCoding, a una filosofía que aquellos que desarrollamos producto nos es muy familiar. Una forma de hacer. Es decir, si hay 5 o 6 algoritmos que solucionan un problema, te damos el problema solucionado con un algoritmo. Y solo uno. Y no tenemos que preocupar-nos por nada de los intringulis de este. Además es rápida. Es de las pocas librerías que esta implementada en Cython, y eso ayuda.

![](https://i.imgur.com/nD7ut2U.jpg)

Que features linguísticas nos ofrece spaCy?

![](https://i.imgur.com/lGcL6lx.jpg)

Es decir, de spaCy podremos sacar siempre que querramos tokens, Parts-of-Speech, el dependency parser, e incluso viene con un entity recognizer incorporado. Además tambien viene con word embeddings que veremos en unas sesiones más adelante.

Ahora Veremos que son todas estas features, y que uso pueden tener.

## Librerías e installs

In [0]:
!pip install spacy

In [0]:
!python -m spacy download es_core_news_md

In [0]:
!python -m spacy download en_core_web_md

In [0]:
import spacy

nlp = spacy.load('es_core_news_md')

In [0]:
from spacy import displacy # Solo usado para visualizar datos.

# Tokenizing

Una de las técnicas más usadas en cualquier proceso de NLP es tokenizar. Hay distintos tipos de tokenización posible, pero básicamente usaremos palabras como tokens, almenos con spaCy. Más adelante veremos otros tipos de tokens que no son palabras, y que nos son muy útiles para solucionar algunos problemas.

Ejemplo: 

## Part of Speech tagging

### Que son? 

![](https://d1e4pidl3fu268.cloudfront.net/5e4905a9-5518-44a0-83ea-6286aa16ac9e/partsofspeech.crop_634x476_51,0.preview.png)

### Más importante, para que nos sirven?

Más adelante veremos que hay tareas en las que nos interesa saber si una palabra esta actuando de una manera u de otra, y es ahí donde querremos usar PoS. Por poner un ejemplo más práctico. Si estamos buscando nombres propios en una frase, y por lo que sea vamos a buscar en textos de internet, en los cuales los nombres propios no tienen porque empezar en Mayúscula, una forma de eliminar ruido, es buscando directamente sólo en esas palabras que esten taggeadas como Nombre. 

Las PoS tienen muchísimas utilidades, como por ejemplo, sabemos que un verbo puede definir una relación entre entidades.

> David es profesor

Podríamos hacer un algoritmo que mirara verbos entre otras entidades, como nombres o adjetivos, y que fuera el verbo quien decidiera que relación tienen esas entidades. Eso se suele hacer para crear bases de datos de grafos, donde cada nodo es una entidad, y entre entidades hay relaciones.

![](https://i.imgur.com/sMQO1pX.jpg)

Vamos a ver algún ejemplo con spacy.





## Entity Recognition

Este es quizás uno de las aplicaciones más usadas para minear texto en web. Básicamente el objetivo trata de localizar en el texto posibles entidades que nos sean relevantes. Es decir, si estamos montando un servicio de viajes donde queremos ofrecer al usuario varias posiblidades en un viaje, pero queremos automatizar todo el proceso, podríamos empezar por scrapear todos los posts en alguna web que pueda contenter esta información y mirar de extraer información relevante. Que información sería relevante? Bueno, quizas nombres de ciudades. Quizás nombres de resutarantes. O de personas famosas que hayan nacido en un lugar. Toda esta información, son los Named Entity Recognizers, es decir sistemas de reconocimiento de nombres, quienes nos la proporcionan. spaCy tiene uno incorporado, y nosotrs montaremos otro en la siguiente sesión.

De momento veremos que nos puede ofrecer spaCy. 

## Chunks de nombres

Basicamente son trozos de la frase que solo contienen nombres. No los usaremos a menudo como features para clasificar, pero siempre los podemos tener presentes por si queremos extraer algun tipo de concepto de una frase. La diferencia con las demás features que estamos viendo, es que aquí sólo estamos partiendo las frases, no estamos asignando labels a ninguna parte. 

# Árbol de dependencias (Dependency Parser)

Los arboles de dependencia son fantásticos. Son aquellos olvidados de cuándo íbamos al colegio, el análisis morfosintáctico ese. En cualquier caso, los árboles de dependencias nos ofrecen una información muy interesante.

Quizás a diferencia de anteriores que nos ofrecen features muy claras para montar clasificadores, estos nos ofrecen features parar relacionar palabras.

Ahora veremos un ejemplo. No implementaremos de 0 como generar estos árboles, solo veremos ahora como podríamos usarlos. No los implementaremos porque actualmente spaCy por ejemplo, ya ofrece unos magníficos resultados, y no vale la pena, a menos que no seamos investigadores, a seguir desarrollando esto.

Es muy interesante usar estos arboles, sobretodo en una época en dónde hacer keyword matching ya no es suficiente. Con esto podemos potenciar las búsquedas y asignar relaciones a los distintos conceptos que aparecen en una query.

Veamos un ejemplo.

In [0]:
from nltk import Tree
def __tok_format(tok):
    """
    Used in print tree.
    No need to call from outside
    :param tok:
    :return:
    """
    return "_".join([tok.orth_, tok.tag_])


def __to_nltk_tree(node):
    """
    Used in print_tree
    No need to call from outside
    :param node:
    :return:
    """
    if node.n_lefts + node.n_rights > 0:
        return Tree(__tok_format(node), [__to_nltk_tree(child) for child in node.children])
    else:
        return __tok_format(node)


def print_tree(doc):
    """
    prints the dependency parsing tree using the nltk function
    :param doc: spacy doc, basically parsed sentences
    """
    [__to_nltk_tree(sent.root).pretty_print() if len(sent) > 1 else print(sent) for sent in doc.sents]

In [0]:
document = 'el barca juega contra el alaves'
doc_t = nlp(document)
print('text ---- dep relation ----- parent\n')
print_tree(doc_t)

text ---- dep relation ----- parent

                  juega_VERB__Mood=                                   
                   Ind|Number=Sing|                                   
                   Person=3|Tense=                                    
                    Pres|VerbForm=                                    
                         Fin                                          
         _________________|________________                            
 barca_NOUN__Numb                   alaves_NOUN__Gen                  
     er=Sing                        der=Masc|Number=                  
        |                                 Sing                        
        |                  ________________|_________________          
el_DET__Definite=  contra_ADP__AdpT                  el_DET__Definite=
 Def|Gender=Masc|      ype=Prep                       Def|Gender=Masc|
   Number=Sing|                                         Number=Sing|  
   PronType=Art                       

# Lemmas

Los lemmas son las formas base de las palabras. En muchos sistemas de búsqueda, lo normal era lemmatizar la query entrante, y luego tirar la búsqueda. La verdad es que con el tiempo y Deep Learning, ha surgido algo de debate sobre si es necesario, y sobre si mejora nuestros sistemas el hecho de lemmatizar o no. Nosotros usaremos el lemmatizer base de spaCy para esta función, y no implementaremos nada de ello, dado que la mayoría de lemmatizadores estan basados en sistemas de reglas altamente curados.

Ejemplo: 

In [0]:
[t.lemma_ for t in doc_t]

['el', 'barca', 'jugar', 'contra', 'el', 'alaves']