# 03 - Conceptos para el Procesamiento del Lenguaje Natural con spaCy

* ***spaCy*** es una librería de código abierto en python para el Procesamiento del Lenguaje natural que posee modelos entrenados para varios idiomas, entre ellos el Español.


* Es una librería pensada para funcionar en entornos productivos y es una librería con mejor rendimiento que **NLTK**.


* Dispone de una web y de una documentación muy buena, incluso se pueden ejecutar ciertos ejemplos en la propia web: https://spacy.io/


* Dispone también de un curso online (https://course.spacy.io/) bastante interesante.


* Entre otras cosas con ***spaCy*** podemos hacer:
    1. Tokenización
    2. Lematización
    3. Detección de Stop Words
    4. Part of Speech (PoS)
    5. Named Entity Recognition (NER)


* ***spaCy*** puede ser instalado tanto con "pip" como con "conda" de la siguiente manera respectivamente:

```
>> pip install spacy
>> conda install spacy
```


* Como se ha comentado anteriormente la ventaja que tiene ***spaCy*** frente a ***NLTK*** en lo que a idiomas se refiere es que permite trabajar con varior idiomas gracias a los modelos que tiene entrenados.


* En particular para el Español ***spaCy*** tiene entrenados dos modelos (con Redes Neuronales Convolucionales según su documentación) de pequeño y mediano tamaño con los corpus de **AnCora** (http://clic.ub.edu/corpus/es/ancora) y **WikiNER**.


* Estos dos modelos de pequeño y mediano tamaño los podemos encontrar en la web de ***spaCy*** (https://spacy.io/models/es) y son los siguiente:
    - es_core_news_md (93 MiB)
    - es_core_news_sm (35 MiB)


* ***spaCy*** hace uso de estos modelos y tienen que ser descargados, para ello debemos de abrir un terminal en python y ejecutar lo siguiente para descargar el modelo en Español (*NOTA: los que uséis conda, tener activado el entorno*).


```
>> python3 -m spacy download es
```


<img src="./imgs/005_spacy_es_download.png" style="width: 500px;"/>


<hr>


# spaCy - Arquitectura:

* ***spaCy*** utiliza dos tipos de estructuras (objetos) llamados **Doc** y **Vocab**:
<span></span><br><br>
    - ***Doc***: Este objeto esta formado por una secuencia de Tokens (objetos de la clase ***Token***).
<span></span><br><br>
    - ***Vocab***: Este objeto posee un conjunto de Look-up tables (tablas de consulta) que hacen que la información común esté disponible en todos los documentos (Lemas, Stop Words, PoS, etc.).

<img src="./imgs/006_spacy_architecture.png" style="width: 600px;"/>


* Una forma sencilla de trabajar con ***spaCy*** es:
    1. Cargar un modelo de lenguaje (por ejemplo el Español)
    2. Dado un texto plano, crear un objeto de la clase "Doc" y pasarle el texto plano. El texto ya quedará tokenizado dentro del objeto "Doc".
    3. Trabajar sobre las palabras del documento.

<hr>



# Ejemplos con spaCy


## -Tokenización


* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.


* Pasos:
    1. Importar la librería.
    2. Cargar un modelo de lenguaje (el Español).
    3. Crear un documento (de la clase "Doc") pasándole un texto plano.
    4. El objeto de la clase "Doc" ya esta tokenizado por palabras y podemos iterar sobre él.

In [1]:
import spacy
nlp = spacy.load('es_core_news_sm')
doc = nlp("Un radar multa a Mariano. Rajoy por caminar demasiado rápido")
print('Tipo de dato: ' + str(type(doc)))
print([w.text for w in doc])

Tipo de dato: <class 'spacy.tokens.doc.Doc'>
['Un', 'radar', 'multa', 'a', 'Mariano', '.', 'Rajoy', 'por', 'caminar', 'demasiado', 'rápido']


## -Segmentación


* La ***segmentación*** divide las cadenas de texto en frases o párrafos.


* Para la segmentación en spaCy hay que usar un componente llamado "**sentencier**" que divide los textos por simbolos como puntos, interrogantes, etc.

In [2]:
sentencizer = nlp.create_pipe("sentencizer")
nlp.add_pipe(sentencizer)
doc = nlp("Frase numero 1. Frase número 2? Frase 3")
print([s.text for s in doc.sents])

['Frase numero 1.', 'Frase número 2?', 'Frase 3']


## -Stemming

* ***Funcionalidad no disponoble en spaCy***

## -Lematización


* Proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* ***spaCy*** hace una lematización muy buena en Español.


* Los objetos de la clase ***Token*** tienen la propiedad (o atributo) ***lema_*** que nos devuelve el lema del token (o la palabra).

In [3]:
doc = nlp("Unos radares multan a Mariano Rajoy por ir caminando demasiados rápidos")
for word in doc:  
    print(word.text + ' - ' + word.lemma_)

Unos - Unos
radares - radar
multan - multar
a - a
Mariano - Mariano
Rajoy - Rajoy
por - por
ir - ir
caminando - caminar
demasiados - demasiar
rápidos - rápido


## -Stop words

* Son las palabras que no aportan nada al significado de la frase.


* spaCy dispone de más de 500 stop words en Español.


* Veamos a continuación las Stop Words en Español.

In [4]:
stopwords = spacy.lang.es.stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords)))
print('Stop words: ' + str(list(stopwords)))

Número de stop words: 551
Stop words: ['llevar', 'un', 'muy', 'sí', 'tambien', 'raras', 'junto', 'último', 'ciertas', 'acuerdo', 'fuera', 'tenido', 'tres', 'aun', 'ningún', 'mismas', 'tengo', 'anterior', 'esta', 'algún', 'ademas', 'usted', 'tendrán', 'cuántas', 'buenos', 'dieron', 'deben', 'luego', 'fueron', 'sabeis', 'ninguno', 'ellas', 'dan', 'aqui', 'usas', 'dio', 'fui', 'podeis', 'mencionó', 'tendrá', 'hubo', 'esto', 'puedo', 'ejemplo', 'alrededor', 'parte', 'pero', 'quiénes', 'horas', 'segundo', 'hacerlo', 'alguna', 'ese', 'ha', 'donde', 'vez', 'las', 'encuentra', 'así', 'intentais', 'vuestra', 'aquéllas', 'ampleamos', 'con', 'otras', 'bastante', 'claro', 'hicieron', 'ultimo', 'sigue', 'consigues', 'ésas', 'ésa', 'entre', 'estamos', 'adelante', 'ex', 'mía', 'propios', 'tiempo', 'eres', 'añadió', 'da', 'ciertos', 'mías', 'dicen', 'teneis', 'vosotros', 'cuántos', 'hizo', 'ya', 'peor', 'enseguida', 'general', 'mayor', 'va', 'sera', 'trabajamos', 'varias', 'algunas', 'serán', 'tanto',

* Los objetos de la clase ***Token*** tienen la propiedad ***is_stop*** que devuelve en Boolean indicando si el token es o no una stop word; es decir, si el ***Token*** (o palabra) esta dentro de la lista antes mostrada.


* Veamos a continuación como obtener las stop words de una frase con spaCy:

In [5]:
doc = nlp("Un radar multa a Mariano. Rajoy por caminar demasiado rápido")
for word in doc:
    if word.is_stop:
        print(word)

Un
por
demasiado


## -Part of Speech (PoS)

* En ***spaCy*** el PoS lo divide en 3 tipos de tags que son:
    1. **pos**: etiqueta simple de alto nivel (verbo, nombre, adjetivo, etc).
    2. **tag**: etiqueta con más nivel de detalle que el pos.
    3. **dep**: dependencia sintáctica para ver la relación entre tokens.


* Estos 3 tipos son propiedades de la clase ***Token***:

In [6]:
doc = nlp("Un radar multa a Mariano Rajoy con 300€ por caminar demasiado rápido")
pos = [[tk.text, tk.pos_, tk.tag_, tk.dep_] for tk in doc]

import pandas as pd
pd.DataFrame(pos, columns=["Text", "PoS", "TAG", "DEP"])

Unnamed: 0,Text,PoS,TAG,DEP
0,Un,DET,DET__Definite=Ind|Gender=Masc|Number=Sing|Pron...,det
1,radar,NOUN,NOUN__Gender=Masc|Number=Sing,ROOT
2,multa,ADJ,ADJ__Number=Sing,amod
3,a,ADP,ADP__AdpType=Prep,case
4,Mariano,PROPN,PROPN___,nmod
5,Rajoy,PROPN,PROPN___,flat
6,con,ADP,ADP__AdpType=Prep,case
7,300,NUM,NUM__NumForm=Digit,nummod
8,€,NUM,NUM__NumForm=Digit,nmod
9,por,ADP,ADP__AdpType=Prep,mark


## -Named Entity Recognition (NER)

* Named Entity Recognition (Reconocimiento de Entidades Nombradas) es una tarea de extracción de información que busca localizar y clasificar en categorías predefinidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades, las entidades nombradas encontradas en un texto.

In [7]:
doc = nlp("Leo Messi jugador del FC Barcelona marco 34 en La Liga 2017-18")
for entity in doc.ents:  
    print(entity.text + ' - ' + entity.label_ + ' - ' + str(spacy.explain(entity.label_)))

Leo Messi - PER - Named person or family.
FC Barcelona - ORG - Companies, agencies, institutions, etc.
La Liga 2017 - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art



<hr>


# -Resumen

* Una vez creado el documento a partir del texto plano, tenemos ese texto tokenizado.


* Los objetos de la clase ***Token*** tienen una serie de propiedades que permiten obtener mucha información relativa a los tokens (o palabras).


* Haciendo un resumen de lo visto anteriormente podemos obtener la siguiente información de las palabras de un texto:

In [8]:
import spacy
import pandas as pd

nlp = spacy.load('es_core_news_sm')
doc = nlp("Un radar multa a Mariano Rajoy con 300€ por caminar demasiado rápido")

result = [[tk.text, tk.lemma_, tk.pos_, tk.tag_, tk.dep_, tk.shape_, tk.is_alpha, tk.is_stop] for tk in doc]
pd.DataFrame(result, columns=["Text", "Lema", "PoS", "TAG", "DEP", "Shape", "Alpha", "is Stop word"])

Unnamed: 0,Text,Lema,PoS,TAG,DEP,Shape,Alpha,is Stop word
0,Un,Un,DET,DET__Definite=Ind|Gender=Masc|Number=Sing|Pron...,det,Xx,True,True
1,radar,radar,NOUN,NOUN__Gender=Masc|Number=Sing,ROOT,xxxx,True,False
2,multa,multar,ADJ,ADJ__Number=Sing,amod,xxxx,True,False
3,a,a,ADP,ADP__AdpType=Prep,case,x,True,False
4,Mariano,Mariano,PROPN,PROPN___,nmod,Xxxxx,True,False
5,Rajoy,Rajoy,PROPN,PROPN___,flat,Xxxxx,True,False
6,con,con,ADP,ADP__AdpType=Prep,case,xxx,True,True
7,300,300,NUM,NUM__NumForm=Digit,nummod,ddd,False,False
8,€,€,NUM,NUM__NumForm=Digit,nmod,€,False,False
9,por,por,ADP,ADP__AdpType=Prep,mark,xxx,True,True


#### Para más información visitar el siguiente enlace: https://spacy.io/usage/spacy-101#annotations