In [6]:
import spacy
spacy.__version__

'3.3.1'

# spaCy

spaCy es una librería de código abierto para el procesamiento avanzado del lenguaje natural; incluye __[modelos ya entrenados en varios idiomas](https://spacy.io/usage/models)__, incluido el __[idioma español](https://spacy.io/models/es)__, que facilitan la extracción de características del texto que dependen del contexto.

Puede __[instalar spaCy](https://spacy.io/usage)__ con este comando:

<code>conda install -c conda-forge spacy</code>


Una vez instalado spaCy puede descargar el modelo de lenguaje más apropiado a sus requerimientos de la siguiente manera

<code>python -m spacy download es_core_news_md</code>


Es recomendable ejecutar el comando anterior desde un consola con privilegios de administrador para evitar este tipo de errores: ```ERROR: Could not install packages due to an OSError: [WinError 5] Acceso denegado```:

# El flujo de procesamiento de texto (pipeline)


Para facilitar el procesamient de texto, spaCy crea objetos contenedores que representan elementos como oraciones y palabras. Estos objetos, a su vez, tienen atributos que representan características lingüísticas, como la categoría gramatical (part-of-speech).

El pipeline de procesamiento es un serie de funciones aplicadas el Doc para aumentar atributos como etiquetas __[POS](https://es.wikipedia.org/wiki/Etiquetado_gramatical)__, etiquetas de dependencia sintáctica o etiquetas __[NER](https://es.wikipedia.org/wiki/Reconocimiento_de_entidades_nombradas)__


In [7]:
texto = "La ciudad de Sucre es la capital de Bolivia. La ciudad de La Paz está a 3600 metros sobre el nivel del mar. Microsoft fue multado por práctica monopólicas"
texto

'La ciudad de Sucre es la capital de Bolivia. La ciudad de La Paz está a 3600 metros sobre el nivel del mar. Microsoft fue multado por práctica monopólicas'

In [8]:
from spacy.lang.es import Spanish
nlp = Spanish()
print(nlp.pipe_names)
print(nlp.pipeline)

[]
[]


In [9]:
doc = nlp(texto)
for token in doc:
    # Get the token text, part-of-speech tag and dependency label
    token_text = token.text
    is_punct = token.is_punct
    token_pos = token.pos_
    token_dep = token.dep_
    # This is for formatting only
    print('{:<12}{:<5}{:<10}{:<10}'.format(token_text, is_punct, token_pos, token_dep))

La          0                        
ciudad      0                        
de          0                        
Sucre       0                        
es          0                        
la          0                        
capital     0                        
de          0                        
Bolivia     0                        
.           1                        
La          0                        
ciudad      0                        
de          0                        
La          0                        
Paz         0                        
está        0                        
a           0                        
3600        0                        
metros      0                        
sobre       0                        
el          0                        
nivel       0                        
del         0                        
mar         0                        
.           1                        
Microsoft   0                        
fue         

In [None]:
# si no haces el spacy.load no podras separar por sentencias

In [13]:
doc = nlp("Q.E.P.D nuestro querido amigo. Nuestro más sentido pésame a la familia.")
for sent in doc.sents:
    print(sent.text)

Q.E.P.D nuestro querido amigo.
Nuestro más sentido pésame a la familia.


## Anotaciones agregadas por el pipeline de procesamiento

In [14]:
#Cargar el modelo del idioma español
nlp = spacy.load("es_core_news_md")
print(nlp.pipe_names)
print(nlp.pipeline)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']
[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x0000020D1C0A4FA0>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x0000020D1C0A4E20>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x0000020D1BE40F90>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x0000020D1C09CAC0>), ('lemmatizer', <spacy.lang.es.lemmatizer.SpanishLemmatizer object at 0x0000020D1BE7BE80>), ('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x0000020D1C0F0120>)]


### Lemma, categoría gramatical y dependencias sintáctica

In [15]:
#Tokenize the text and apply each pipeline component in order.
doc = nlp(texto)
for token in doc:
    # Get the token text, part-of-speech tag
    token_text = token.text
    is_punct = token.is_punct
    token_lemma = token.lemma_
    token_pos = token.pos_
    token_dep = token.dep_
    ent_type = token.ent_type_
    print('{:<14}{:<5}{:<12}{:<10}{:<10}{:<10}'.format(token_text, is_punct, token_lemma, token_pos, token_dep, ent_type))

La            0    el          DET       det                 
ciudad        0    ciudad      NOUN      nsubj               
de            0    de          ADP       case                
Sucre         0    Sucre       PROPN     nmod      LOC       
es            0    ser         AUX       cop                 
la            0    el          DET       det                 
capital       0    capital     NOUN      ROOT                
de            0    de          ADP       case                
Bolivia       0    Bolivia     PROPN     nmod      LOC       
.             1    .           PUNCT     punct     LOC       
La            0    el          DET       det       LOC       
ciudad        0    ciudad      NOUN      nsubj     LOC       
de            0    de          ADP       case      LOC       
La            0    el          DET       det       LOC       
Paz           0    Paz         PROPN     nmod      LOC       
está          0    estar       AUX       cop                 
a       

In [16]:
spacy.explain('ORG')

'Companies, agencies, institutions, etc.'

### El componente 'parser' permite segmentar a nivel de oraciones.

In [17]:
doc = nlp("Q.E.P.D nuestro querido amigo. Nuestro más sentido pésame a la familia.")
for sent in doc.sents:
    print(sent.text)

Q.E.P.D nuestro querido amigo.
Nuestro más sentido pésame a la familia.


### El componente 'parser' permite identificar sintagmas nominales.

In [18]:
list(doc.noun_chunks)

[nuestro querido amigo, Nuestro más sentido, la familia]

## Lematización
La __[lematización](https://es.wikipedia.org/wiki/Lematizaci%C3%B3n)__ es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra. Es decir, el lema de una palabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singular para sustantivos, masculino singular para adjetivos, infinitivo para verbos. Por ejemplo, decir es el lema de dije, pero también de diré o dijéramos; guapo es el lema de guapas; mesa es el lema de mesas.

**La lematización facilita la búsqueda de palabras porque evita tener que tomar en cuenta las variaciones de ciertas palabras al momento de realizar búsquedas**. Por ejemplo, en lugar de que tener que buscar "viajando" o "viajaba" sólo tenemos que buscar "viajar". 

**Referencias**

- __[Spacy - Lemmatization](https://spacy.io/usage/linguistic-features#lemmatization)__
- __[NLP-03 Lemmatization and Stemming using spaCy](https://medium.com/mlearning-ai/nlp-03-lemmatization-and-stemming-using-spacy-b2829becceca)__

*Otras referencias*
- __[How to build a Lemmatizer](https://medium.com/analytics-vidhya/how-to-build-a-lemmatizer-7aeff7a1208c)__
- __[How to solve Spanish lemmatization problems with SpaCy?](https://stackoverflow.com/questions/60534999/how-to-solve-spanish-lemmatization-problems-with-spacy)__
- __[spacy-spanish-lemmatizer](https://github.com/pablodms/spacy-spanish-lemmatizer)__


In [19]:
doc = nlp(u'Estoy viajando a Cochabamba')
for token in doc:
  print(f"{token.text} (lemma: {token.lemma_})")


Estoy (lemma: estar)
viajando (lemma: viajar)
a (lemma: a)
Cochabamba (lemma: Cochabamba)


### Agregar un caso especial 

In [20]:

nlp.get_pipe('attribute_ruler').add([[{"TEXT":"Cocha"}]],{"LEMMA":"Cochabamba"})

doc = nlp(u'Estoy viajando a Cocha')

for token in doc:
  print(f"{token.text} (lemma: {token.lemma_})")

Estoy (lemma: estar)
viajando (lemma: viajar)
a (lemma: a)
Cocha (lemma: Cochabamba)


## Ejercicio

Encontrar en el siguiente texto todas las oraciones en las se habla de ```pasear``` y ```perro```

```
Esos gatos duermen mucho. Los gatos pasean cada Sábado por la mañana. A los perros les gusta pasear en el parque. Mi amigo gana unas monedas paseando los perros de sus vecinos.
```

In [21]:
text = "Esos gatos duermen mucho. Los gatos pasean cada Sábado por la mañana. A los perros les gusta pasear en el parque. Mi amigo gana unas monedas paseando los perros de sus vecinos."

In [22]:
doc = nlp(text)
doc

Esos gatos duermen mucho. Los gatos pasean cada Sábado por la mañana. A los perros les gusta pasear en el parque. Mi amigo gana unas monedas paseando los perros de sus vecinos.

In [62]:
#magister
def verificarLemmas(sent):
    lemas = ["pasear","perro"]
    doc = nlp(sent.text)
    for token in doc:
        if token.lemma_ in lemas:
            return True
    return False

In [63]:
#magister
[verificarLemmas(sentence) for sentence in doc.sents]

[False, True, True, True]

In [56]:
pasear = []
perros =[]
for sentence in doc.sents:
    print(sentence)
    for token in sentence:
        if(token.lemma_ == "pasear"):
            pasear.append(sentence)
        if(token.lemma_ == "perro"):
            perros.append(sentence)

Esos gatos duermen mucho.
Los gatos pasean cada Sábado por la mañana.
A los perros les gusta pasear en el parque.
Mi amigo gana unas monedas paseando los perros de sus vecinos.


In [57]:
pasear

[Los gatos pasean cada Sábado por la mañana.,
 A los perros les gusta pasear en el parque.,
 Mi amigo gana unas monedas paseando los perros de sus vecinos.]

In [58]:
perros

[A los perros les gusta pasear en el parque.,
 Mi amigo gana unas monedas paseando los perros de sus vecinos.]

## Referencias


- __[Natural Language Processing With spaCy in Python](https://realpython.com/natural-language-processing-spacy-python/)__
- __[Token - Spacy](https://spacy.io/api/token)__
