# Preprocesamientos utilizando la libreria spaCy

## Tokenización, Stop-Words y Lematización

Cargaremos la librería de NLP spaCy (https://spacy.io/) y los modelos para procesar textos en español.

<code>pip install -U spacy</code>

<code>python -m spacy download es_core_news_sm</code>

In [72]:
import spacy

nlp = spacy.load("es_core_news_sm")
print(spacy.__version__)

3.0.6


In [66]:
doc = nlp(u"Joe Biden es el presidente de Estados Unidos.")

<img src="pipeline.png"></img>

In [67]:
for token in doc:
    print(token.text, token.is_stop, token.lemma_)
    #Stop word: "palabras gramaticales que no llevan un sentido importante"

Joe False Joe
Biden False Biden
es True ser
el True el
presidente True presidente
de True de
Estados False Estados
Unidos False Unidos
. False .


El concepto de 'stop words' no tiene una definición objetiva. Una palabra 'stop words' depende mucho del caso de uso. Habitualmente se trata de una lista de palabras gramaticales tales como "es", "el", "la", "quiere", etc.

In [68]:
my_stop_words = [u'presidente']
for stopword in my_stop_words:
    lexeme = nlp.vocab[stopword]
    lexeme.is_stop = True
    
my_non_stop_words = [u'Estados']
for nonstopword in my_non_stop_words:
    lexeme = nlp.vocab[nonstopword]
    lexeme.is_stop = False

In [69]:
for token in doc:
    print(token.text, token.is_stop, token.lemma_)

Joe False Joe
Biden False Biden
es True ser
el True el
presidente True presidente
de True de
Estados False Estados
Unidos False Unidos
. False .


## Clasificación de la categoría gramatical de las palabras (Part Of Speach tagging)

In [70]:
for token in doc:
    print(token.text, token.pos_)

Joe PROPN
Biden PROPN
es AUX
el DET
presidente NOUN
de ADP
Estados PROPN
Unidos PROPN
. PUNCT


## Reconocimiento de los nombres de entidades (NER)

In [71]:
doc = nlp(u'Amazon tiene oficinas en todos los paises de America del Sur.')

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Amazon 0 6 PER
America del Sur 45 60 LOC


Por defecto, spaCy utiliza define varios tipos de entidades entre los cuales:
- PERSON: personas
- ORG: organizaciones, empresas, instituciones, etc.
- GPE: paises, ciudades, regiones.
- LOC: lugares geografícos que no son paises, ciudades o regiones.
- PRODUCT: productos
- EVENT: eventos

Otros preprocesamientos posibles en el paquete spaCy: https://spacy.io/usage/linguistic-features
- Dependency parsing
- Sentence segmentation
- Rule-based matching