# Como usar SpaCy en Español

Inicalmente se instala según las indicaciones dadas en https://spacy.io/

In [1]:
import spacy

Se descargan los dos modelos de SpaCy en español

In [None]:
#!python -m spacy download es_core_news_md

In [None]:
#!python -m spacy download es_core_news_sm

Se crea una instancia con el modelo

In [2]:
nlp = spacy.load('es_core_news_md')

## Tokenization

In [17]:
texto = nlp('Hola Mundo!')
for token in  texto:
    print('"{}"'.format(token))

"Hola"
"Mundo"
"!"


Se puede obtener el string del token directamente o a través de su atributo text

In [15]:
texto = nlp('Hola Mundo!')
for token in  texto:
    print('"{}"'.format(token.text))

"Hola"
"Mundo"
"!"


Con el atributo idx se puede obtener la posicion inicial del token en el texto original

In [19]:
texto = nlp('Hola Mundo!')
for token in  texto:
    print('El token es"{}" y su posición inicial es {}'.format(token.text, token.idx))

El token es"Hola" y su posición inicial es 0
El token es"Mundo" y su posición inicial es 5
El token es"!" y su posición inicial es 10


cada token tiene otros atributos como:
<ol>
<li>text:  valor del string</li>
<li>idx:  posición</li>
<li>is_punt: Boolean para determinar si es un signo de puntuación</li>
<li>is_space: Boolean para determinar si es un espacio en blanco (adicional al normal)</li>
<li>shape: Caracteristicas de mayuscula, minuscula</li>
<li>pos: part of speech</li>
<li>tag:</li>
</ol>

In [34]:
texto = nlp("Esta es una prueba de SpaCy hecha en  español por Edwin Villarraga!!")
for token in texto:
    print('-Token: {}\n-Posición: {}\n-puntuación: {}\n-espacio: {}\n-forma: {}\n-POS: {}\n-tag: {}\n'.format(
    token.text,
    token.idx,   
    token.is_punct,
    token.is_space,
    token.shape_,
    token.pos_,
    token.tag_
    ))

-Token: Esta
-Posición: 0
-puntuación: False
-espacio: False
-forma: Xxxx
-POS: PRON
-tag: PRON__Gender=Fem|Number=Sing|PronType=Dem

-Token: es
-Posición: 5
-puntuación: False
-espacio: False
-forma: xx
-POS: AUX
-tag: AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin

-Token: una
-Posición: 8
-puntuación: False
-espacio: False
-forma: xxx
-POS: DET
-tag: DET__Definite=Ind|Gender=Fem|Number=Sing|PronType=Art

-Token: prueba
-Posición: 12
-puntuación: False
-espacio: False
-forma: xxxx
-POS: NOUN
-tag: NOUN__Gender=Fem|Number=Sing

-Token: de
-Posición: 19
-puntuación: False
-espacio: False
-forma: xx
-POS: ADP
-tag: ADP__AdpType=Prep

-Token: SpaCy
-Posición: 22
-puntuación: False
-espacio: False
-forma: XxxXx
-POS: NOUN
-tag: NOUN__Gender=Masc|Number=Sing

-Token: hecha
-Posición: 28
-puntuación: False
-espacio: False
-forma: xxxx
-POS: ADJ
-tag: ADJ__Gender=Fem|Number=Sing|VerbForm=Part

-Token: en
-Posición: 34
-puntuación: False
-espacio: False
-forma: xx
-POS: ADP
-tag: 

## Dividir en Frases (Sentences)

In [36]:
texto = nlp("Xiaomi empezó izando el estandarte de los precios casi imbatibles para sus smartphones de gama alta y, aunque con salvedades, sigue manteniéndolos en una línea que queda bastante por debajo que los de otros fabricantes con móviles de una misma línea. Y en esa estrategia está el subdividir su línea Mi para democratizarla e introducir móviles de gama media puramente, y esa apuesta la ponemos a prueba de nuevo en el análisis del Xiaomi Mi 9 SE.")

In [47]:
i=0
for frase in texto.sents:
    print ("Sentence {}:  {}".format(i,frase))
    i+=1

Sentence 0:  Xiaomi empezó izando el estandarte de los precios casi imbatibles para sus smartphones de gama alta y, aunque con salvedades, sigue manteniéndolos en una línea que queda bastante por debajo que los de otros fabricantes con móviles de una misma línea.
Sentence 1:  Y en esa estrategia está el subdividir su línea Mi para democratizarla e introducir móviles de gama media puramente, y esa apuesta la ponemos a prueba de nuevo en el análisis del Xiaomi Mi 9 SE.


## POS - Part of Speech Tagging

In [51]:
texto = nlp("La siguiente semana viajaré a Colombia")
print([(token.text, token.pos_) for token in texto])

[('La', 'DET'), ('siguiente', 'ADJ'), ('semana', 'NOUN'), ('viajaré', 'VERB'), ('a', 'ADP'), ('Colombia', 'PROPN')]


## NER - Name Entity Recognition

In [53]:
texto = nlp("La siguiente semana Luis viajará a Colombia")
for ent in texto.ents:
    print(ent.text, ent.label_)

Luis PER
Colombia LOC


El siguiente es el listado de entidades que utiliza SpaCy

In [69]:
texto = nlp(u"El juez David Quintero, a las 10 a.m., en la Corte Suprema de Justicia, ordenó la captura con un 95% de probabilidad, y se ejecutó el siguiente día")
for ent in texto.ents:
    print(ent.text, ent.label_)

David Quintero PER
Corte Suprema de Justicia LOC


In [70]:
print([(token.text, token.pos_) for token in texto])

[('El', 'DET'), ('juez', 'NOUN'), ('David', 'PROPN'), ('Quintero', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('las', 'DET'), ('10', 'NUM'), ('a.m', 'ADJ'), ('.', 'PUNCT'), (',', 'PUNCT'), ('en', 'ADP'), ('la', 'DET'), ('Corte', 'PROPN'), ('Suprema', 'PROPN'), ('de', 'ADP'), ('Justicia', 'PROPN'), (',', 'PUNCT'), ('ordenó', 'VERB'), ('la', 'DET'), ('captura', 'NOUN'), ('con', 'ADP'), ('un', 'DET'), ('95', 'NUM'), ('%', 'SYM'), ('de', 'ADP'), ('probabilidad', 'NOUN'), (',', 'PUNCT'), ('y', 'CONJ'), ('se', 'PRON'), ('ejecutó', 'VERB'), ('el', 'DET'), ('siguiente', 'ADJ'), ('día', 'NOUN')]


En ingles los modelos son más robustos y permitiría identificar las horas, fechas, porcentajes...

Con el uso del displacy se puede tener una mejor visualización de las entidades reconocidas

In [71]:
from spacy import displacy

displacy.render(texto, style='ent', jupyter=True)

## Chunking

Detecta automaticamente noun-phrases

In [88]:
texto = nlp(u'El Periodico acaba de publicar un interesante artículo sobre la construcción en Medellín' )
for chunk in texto.noun_chunks:
    print(chunk.text," - ", chunk.label_," - ", chunk.root.text)

El Periodico  -  NP  -  Periodico
un interesante artículo  -  NP  -  artículo
la construcción  -  NP  -  construcción
Medellín  -  NP  -  Medellín


## Dependency Parsing

In [85]:
texto = nlp('El Periodico acaba de publicar un interesante artículo sobre la construcción en Medellín')
 
for token in texto:
    print("{0}/{1} <--{2}-- {3}/{4}".format(token.text, 
        token.tag_, 
        token.dep_,
        token.head.text, 
        token.head.tag_))

El/DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art <--det-- Periodico/PROPN___
Periodico/PROPN___ <--nsubj-- publicar/VERB__VerbForm=Inf
acaba/AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin <--aux-- publicar/VERB__VerbForm=Inf
de/ADP__AdpType=Prep <--mark-- publicar/VERB__VerbForm=Inf
publicar/VERB__VerbForm=Inf <--ROOT-- publicar/VERB__VerbForm=Inf
un/DET__Definite=Ind|Gender=Masc|Number=Sing|PronType=Art <--det-- artículo/NOUN__Gender=Masc|Number=Sing
interesante/ADJ__Number=Sing <--amod-- artículo/NOUN__Gender=Masc|Number=Sing
artículo/NOUN__Gender=Masc|Number=Sing <--obj-- publicar/VERB__VerbForm=Inf
sobre/ADP__AdpType=Prep <--case-- construcción/NOUN__Gender=Fem|Number=Sing
la/DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art <--det-- construcción/NOUN__Gender=Fem|Number=Sing
construcción/NOUN__Gender=Fem|Number=Sing <--nmod-- artículo/NOUN__Gender=Masc|Number=Sing
en/ADP__AdpType=Prep <--case-- Medellín/PROPN___
Medellín/PROPN___ <--nmod-- construcción/NOUN

## Lemmatization

In [3]:
texto = "El Periodico acaba de publicar un interesante artículo sobre la construcción en Medellín"

In [10]:
for token in nlp(texto):
    print("TOKEN: {} -------->\t\t-LEMA: {}\t\t-POS: {}".format(token.text, token.lemma_, token.pos_))

TOKEN: El -------->		-LEMA: El		-POS: DET
TOKEN: Periodico -------->		-LEMA: Periodico		-POS: PROPN
TOKEN: acaba -------->		-LEMA: acabar		-POS: AUX
TOKEN: de -------->		-LEMA: de		-POS: ADP
TOKEN: publicar -------->		-LEMA: publicar		-POS: VERB
TOKEN: un -------->		-LEMA: uno		-POS: DET
TOKEN: interesante -------->		-LEMA: interesante		-POS: ADJ
TOKEN: artículo -------->		-LEMA: artículo		-POS: NOUN
TOKEN: sobre -------->		-LEMA: sobrar		-POS: ADP
TOKEN: la -------->		-LEMA: lo		-POS: DET
TOKEN: construcción -------->		-LEMA: construcción		-POS: NOUN
TOKEN: en -------->		-LEMA: en		-POS: ADP
TOKEN: Medellín -------->		-LEMA: Medellín		-POS: PROPN
