<a href="https://colab.research.google.com/github/Viny2030/NLP/blob/main/3_Normalizacionspacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 03 - Conceptos para el Procesamiento del Lenguaje Natural con spaCy

* ***spaCy*** es una librería de código abierto en python para el Procesamiento del Lenguaje natural que posee modelos entrenados para varios idiomas, entre ellos el Español.


* Es una librería pensada para funcionar en entornos productivos y es una librería con mejor rendimiento que **NLTK**.


* Dispone de una web y de una documentación muy buena, incluso se pueden ejecutar ciertos ejemplos en la propia web: https://spacy.io/


* Dispone también de un curso online (https://course.spacy.io/) bastante interesante.


* Entre otras cosas con ***spaCy*** podemos hacer:
    1. Tokenización
    2. Lematización
    3. Detección de Stop Words
    4. Part of Speech (PoS)
    5. Named Entity Recognition (NER)


* ***spaCy*** puede ser instalado tanto con "pip" como con "conda" de la siguiente manera respectivamente:

```
>> pip install spacy
>> conda install spacy
```


* Como se ha comentado anteriormente la ventaja que tiene ***spaCy*** frente a ***NLTK*** en lo que a idiomas se refiere es que permite trabajar con varior idiomas gracias a los modelos que tiene entrenados.


* En particular para el Español ***spaCy*** tiene entrenados dos modelos (con Redes Neuronales Convolucionales según su documentación) de pequeño y mediano tamaño con los corpus de **AnCora** (http://clic.ub.edu/corpus/es/ancora) y **WikiNER**.


* Estos dos modelos de pequeño y mediano tamaño los podemos encontrar en la web de ***spaCy*** (https://spacy.io/models/es) y son los siguiente:
    - es_core_news_md (93 MiB)
    - es_core_news_sm (35 MiB)


* ***spaCy*** hace uso de estos modelos y tienen que ser descargados, para ello debemos de abrir un terminal en python y ejecutar lo siguiente para descargar el modelo en Español (*NOTA: los que uséis conda, tener activado el entorno*).


```
>> python3 -m spacy download es
```


<img src="./imgs/005_spacy_es_download.png" style="width: 500px;"/>





In [1]:
!pip install spacy



<hr>


# spaCy - Arquitectura:

* ***spaCy*** utiliza dos tipos de estructuras (objetos) llamados **Doc** y **Vocab**:
<span></span><br><br>
    - ***Doc***: Este objeto esta formado por una secuencia de Tokens (objetos de la clase ***Token***).
<span></span><br><br>
    - ***Vocab***: Este objeto posee un conjunto de Look-up tables (tablas de consulta) que hacen que la información común esté disponible en todos los documentos (Lemas, Stop Words, PoS, etc.).

<img src="./imgs/006_spacy_architecture.png" style="width: 600px;"/>


* Una forma sencilla de trabajar con ***spaCy*** es:
    1. Cargar un modelo de lenguaje (por ejemplo el Español)
    2. Dado un texto plano, crear un objeto de la clase "Doc" y pasarle el texto plano. El texto ya quedará tokenizado dentro del objeto "Doc".
    3. Trabajar sobre las palabras del documento.

<hr>



# Ejemplos con spaCy

## -Tokenización


* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.


* Pasos:
    1. Importar la librería.
    2. Cargar un modelo de lenguaje (el Español).
    3. Crear un documento (de la clase "Doc") pasándole un texto plano.
    4. El objeto de la clase "Doc" ya esta tokenizado por palabras y podemos iterar sobre él.

In [2]:
!pip install es_core_news_sm

Collecting es_core_news_sm
  Downloading es_core_news_sm-3.1.0-py3-none-any.whl.metadata (1.9 kB)
Collecting spacy<3.2.0,>=3.1.0 (from es_core_news_sm)
  Downloading spacy-3.1.7-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (17 kB)
Collecting thinc<8.1.0,>=8.0.12 (from spacy<3.2.0,>=3.1.0->es_core_news_sm)
  Downloading thinc-8.0.17-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (14 kB)
Collecting wasabi<1.1.0,>=0.8.1 (from spacy<3.2.0,>=3.1.0->es_core_news_sm)
  Downloading wasabi-0.10.1-py3-none-any.whl.metadata (28 kB)
Collecting typer<0.5.0,>=0.3.0 (from spacy<3.2.0,>=3.1.0->es_core_news_sm)
  Downloading typer-0.4.2-py3-none-any.whl.metadata (12 kB)
Collecting pathy>=0.3.5 (from spacy<3.2.0,>=3.1.0->es_core_news_sm)
  Downloading pathy-0.11.0-py3-none-any.whl.metadata (16 kB)
Collecting smart-open<7.0.0,>=5.2.1 (from spacy<3.2.0,>=3.1.0->es_core_news_sm)
  Downloading smart_open-6.4.0-py3-none-any.whl.metadata (21 kB)
Collecting pydantic!

In [3]:
!spacy validate

2024-12-14 23:15:08.917101: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-12-14 23:15:08.943485: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-12-14 23:15:08.952698: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-12-14 23:15:08.973233: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[

In [9]:
import spacy
nlp = spacy.load('es_core_news_sm')
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")

print('Tipo de dato: ' + str(type(doc1)))
print([w.text for w in doc1])


Tipo de dato: <class 'spacy.tokens.doc.Doc'>
['Jane', 'bought', 'me', 'these', 'books', '.', '\n', 'Jane', 'bought', 'a', 'book', 'for', 'me', '.', '\n', 'She', 'dropped', 'a', 'line', 'to', 'him', '.', 'Thank', 'you', '.', '\n', 'She', 'sleeps', '.', '\n', 'I', 'sleep', 'a', 'lot', '.', '\n', 'I', 'was', 'born', 'in', 'Madrid', '.', '\n', 'the', 'cat', 'was', 'chased', 'by', 'the', 'dog', '.', '\n', 'I', 'was', 'born', 'in', 'Madrid', 'during', '1995', '.', '\n', 'Out', 'of', 'all', 'this', ',', 'something', 'good', 'will', 'come', '.', '\n', 'Susan', 'left', 'after', 'the', 'rehearsal', '.', 'She', 'did', 'it', 'well', '.', '\n', 'She', 'sleeps', 'during', 'the', 'morning', ',', 'but', 'she', 'sleeps', '.']


In [10]:

for token in doc1:
    print(token.text)

Jane
bought
me
these
books
.


Jane
bought
a
book
for
me
.


She
dropped
a
line
to
him
.
Thank
you
.


She
sleeps
.


I
sleep
a
lot
.


I
was
born
in
Madrid
.


the
cat
was
chased
by
the
dog
.


I
was
born
in
Madrid
during
1995
.


Out
of
all
this
,
something
good
will
come
.


Susan
left
after
the
rehearsal
.
She
did
it
well
.


She
sleeps
during
the
morning
,
but
she
sleeps
.


In [11]:
import spacy
nlp = spacy.load('es_core_news_sm')
doc = nlp("Las multas de transito en la Ciudad de Buenos Aires son onerosas")
print('Tipo de dato: ' + str(type(doc)))
print([w.text for w in doc])

Tipo de dato: <class 'spacy.tokens.doc.Doc'>
['Las', 'multas', 'de', 'transito', 'en', 'la', 'Ciudad', 'de', 'Buenos', 'Aires', 'son', 'onerosas']


## -Segmentación


* La ***segmentación*** divide las cadenas de texto en frases o párrafos.


* Para la segmentación en spaCy hay que usar un componente llamado "**sentencier**" que divide los textos por simbolos como puntos, interrogantes, etc.

In [13]:
from spacy.pipeline import Sentencizer
sentencizer = Sentencizer()
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")
print([s.text for s in doc1.sents])

['Jane bought me these books.', '\n', 'Jane bought a book for me.', '\n', 'She dropped a line to him.', 'Thank you.', '\n', 'She sleeps.', '\nI sleep a lot.', '\n', 'I was born in Madrid.', '\n', 'the cat was chased by the dog.', '\n', 'I was born in Madrid during 1995.', '\n', 'Out of all this , something good will come.', '\n', 'Susan left after the rehearsal.', 'She did it well.', '\nShe sleeps during the morning, but she sleeps.']


In [12]:
from spacy.pipeline import Sentencizer
sentencizer = Sentencizer()
doc = nlp("Frase numero 1. Frase número 2? Frase 3")
print([s.text for s in doc.sents])

['Frase numero 1.', 'Frase número 2?', 'Frase 3']


## -Lematización


* Proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* ***spaCy*** hace una lematización muy buena en Español.


* Los objetos de la clase ***Token*** tienen la propiedad (o atributo) ***lema_*** que nos devuelve el lema del token (o la palabra).

In [15]:
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")
for word in doc1:
    print(word.text + ' - ' + word.lemma_)

Jane - Jane
bought - bought
me - yo
these - these
books - books
. - .

 - 

Jane - Jane
bought - bought
a - a
book - book
for - for
me - yo
. - .

 - 

She - she
dropped - dropped
a - a
line - line
to - to
him - him
. - .
Thank - Thank
you - you
. - .

 - 

She - she
sleeps - sleeps
. - .

 - 

I - I
sleep - sleep
a - a
lot - lot
. - .

 - 

I - i
was - was
born - born
in - in
Madrid - Madrid
. - .

 - 

the - the
cat - cat
was - was
chased - chased
by - by
the - the
dog - dog
. - .

 - 

I - i
was - was
born - born
in - in
Madrid - Madrid
during - during
1995 - 1995
. - .

 - 

Out - Out
of - of
all - all
this - this
, - ,
something - something
good - good
will - will
come - come
. - .

 - 

Susan - Susan
left - left
after - after
the - the
rehearsal - rehearsal
. - .
She - She
did - did
it - it
well - well
. - .

 - 

She - she
sleeps - sleeps
during - during
the - the
morning - morning
, - ,
but - but
she - she
sleeps - sleeps
. - .


## -Stop words

* Son las palabras que no aportan nada al significado de la frase.


* spaCy dispone de más de 500 stop words en Español.


* Veamos a continuación las Stop Words en Español.

In [20]:
import spacy
from spacy.lang.en import stop_words

stopwords1 = stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords1)))
print('Stop words: ' + str(list(stopwords1)))

Número de stop words: 326
Stop words: ['beyond', 'with', 'part', 'indeed', 'now', 'while', 'thereby', '’s', 'below', 'where', 'latterly', 'a', 'well', '‘m', 'nowhere', 'per', 'around', 'formerly', 'wherever', 'put', 'onto', 'cannot', 'under', 'we', 'along', 'before', 'not', 'it', 'nothing', 'towards', 'that', 'me', 'n‘t', 'most', 'from', '’re', 'name', 'thence', 'six', 'may', 'will', 'three', 'everyone', '‘ll', 'became', 'thereafter', 'myself', 'either', 'ca', 'or', 'show', 'elsewhere', 'who', 'until', 'am', 'have', 'himself', 'becoming', 'however', 'she', 'such', 'here', 'mostly', 'nor', 'something', 'twelve', 'already', 'so', 'really', 'thereupon', 'alone', 'might', 'seeming', 'always', 'former', 'own', 'again', 'see', 'what', 'by', 'more', 'call', 'hundred', 'anyone', 'whatever', 'take', 'why', 'many', 'those', 'our', 'therefore', 'other', 'thru', 'much', 'yet', 'fifty', "'ve", 'could', 'very', 'even', 'never', 'was', 'without', 'still', 'side', 'few', 'he', 'there', 'two', 'quite',

In [16]:
stopwords = spacy.lang.es.stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords)))
print('Stop words: ' + str(list(stopwords)))

Número de stop words: 551
Stop words: ['después', 'detras', 'adelante', 'solamente', 'poder', 'tenemos', 'entonces', 'cuántos', 'él', 'propios', 'las', 'mencionó', 'que', 'han', 'podeis', 'aquéllas', 'sólo', 'conocer', 'ser', 'sola', 'cuenta', 'esas', 'mismo', 'nos', 'emplear', 'usted', 'le', 'puede', 'poner', 'ellas', 'cerca', 'quiénes', 'su', 'demás', 'dónde', 'ellos', 'delante', 'estan', 'momento', 'ésas', 'poco', 'largo', 'nuestro', 'fuera', 'mios', 'última', 'desde', 'todo', 'me', 'consideró', 'usar', 'empleais', 'pais', 'bajo', 'cinco', 'otros', 'solas', 'valor', 'cada', 'hacia', 'solo', 'intentamos', 'podria', 'ese', 'unas', 'uso', 'sigue', 'alrededor', 'ver', 'final', 'haceis', 'sabe', 'aquellas', 'mas', 'total', 'todas', 'ésa', 'través', 'pesar', 'añadió', 'podrán', 'buena', 'últimos', 'mi', 'mucha', 'ninguno', 'dado', 'manera', 'hay', 'muchos', 'contigo', 'tuvo', 'nadie', 'consiguen', 'fui', 'proximo', 'serán', 'voy', 'hacemos', 'será', 'luego', 'para', 'verdadera', 'mucho', 

* Los objetos de la clase ***Token*** tienen la propiedad ***is_stop*** que devuelve en Boolean indicando si el token es o no una stop word; es decir, si el ***Token*** (o palabra) esta dentro de la lista antes mostrada.


* Veamos a continuación como obtener las stop words de una frase con spaCy:

In [21]:
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")
for word in doc1:
    if word.is_stop:
        print(word)

me
me


In [19]:
doc = nlp("Las multas de transito en la Ciudad de Buenos Aires son onerosas")
for word in doc:
    if word.is_stop:
        print(word)

Las
de
en
la
de
Buenos
son


## -Part of Speech (PoS)

* En ***spaCy*** el PoS lo divide en 3 tipos de tags que son:
    1. **pos**: etiqueta simple de alto nivel (verbo, nombre, adjetivo, etc).
    2. **tag**: etiqueta con más nivel de detalle que el pos.
    3. **dep**: dependencia sintáctica para ver la relación entre tokens.


* Estos 3 tipos son propiedades de la clase ***Token***:

In [24]:
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")
for word in doc1:
    print(word.text + ' - ' + word.pos_ + ' - ' + word.tag_ + ' - ' + word.dep_)
pos = [[tk.text, tk.pos_, tk.tag_, tk.dep_] for tk in doc1]

import pandas as pd
pd.DataFrame(pos, columns=["Text", "PoS", "TAG", "DEP"])

Jane - PROPN - PROPN - nsubj
bought - PROPN - PROPN - flat
me - PRON - PRON - obj
these - VERB - VERB - ROOT
books - VERB - VERB - obj
. - PUNCT - PUNCT - punct

 - SPACE - SPACE - ROOT
Jane - PROPN - PROPN - ROOT
bought - PROPN - PROPN - flat
a - ADP - ADP - case
book - PROPN - PROPN - nmod
for - PROPN - PROPN - flat
me - PRON - PRON - flat
. - PUNCT - PUNCT - punct

 - SPACE - SPACE - ROOT
She - ADP - ADP - ROOT
dropped - NOUN - NOUN - fixed
a - ADP - ADP - advmod
line - NOUN - NOUN - fixed
to - ADP - ADP - obj
him - PROPN - PROPN - nmod
. - PUNCT - PUNCT - punct
Thank - PROPN - PROPN - ROOT
you - PROPN - PROPN - flat
. - PUNCT - PUNCT - punct

 - SPACE - SPACE - ROOT
She - ADP - ADP - ROOT
sleeps - PROPN - PROPN - flat
. - PUNCT - PUNCT - punct

 - SPACE - SPACE - ROOT
I - CCONJ - CCONJ - obl
sleep - NOUN - NOUN - flat
a - ADP - ADP - case
lot - PROPN - PROPN - nmod
. - PUNCT - PUNCT - punct

 - SPACE - SPACE - ROOT
I - CCONJ - CCONJ - ROOT
was - PROPN - PROPN - flat
born - PROPN - 

Unnamed: 0,Text,PoS,TAG,DEP
0,Jane,PROPN,PROPN,nsubj
1,bought,PROPN,PROPN,flat
2,me,PRON,PRON,obj
3,these,VERB,VERB,ROOT
4,books,VERB,VERB,obj
...,...,...,...,...
89,",",PUNCT,PUNCT,punct
90,but,ADP,ADP,appos
91,she,ADP,ADP,case
92,sleeps,PROPN,PROPN,amod


In [22]:
doc = nlp("Las multas de transito en la Ciudad de Buenos Aires son onerosas")
pos = [[tk.text, tk.pos_, tk.tag_, tk.dep_] for tk in doc]

import pandas as pd
pd.DataFrame(pos, columns=["Text", "PoS", "TAG", "DEP"])

Unnamed: 0,Text,PoS,TAG,DEP
0,Las,DET,DET,det
1,multas,NOUN,NOUN,nsubj
2,de,ADP,ADP,case
3,transito,NOUN,NOUN,nmod
4,en,ADP,ADP,case
5,la,DET,DET,det
6,Ciudad,PROPN,PROPN,nmod
7,de,ADP,ADP,case
8,Buenos,PROPN,PROPN,flat
9,Aires,PROPN,PROPN,flat


## -Named Entity Recognition (NER)

* Named Entity Recognition (Reconocimiento de Entidades Nombradas) es una tarea de extracción de información que busca localizar y clasificar en categorías predefinidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades, las entidades nombradas encontradas en un texto.

In [26]:
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")
for entity in doc1.ents:
    print(entity.text + ' - ' + entity.label_ + ' - ' + str(spacy.explain(entity.label_)))

Jane bought - PER - Named person or family.
Jane - PER - Named person or family.
She - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
line to him - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
Thank you - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
She - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
I - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
I - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
the cat was chased by the dog - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
I - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
Out of all this - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art
good will come - MISC - Miscellaneous entities, e.g. events, na

In [25]:
doc = nlp("Leo Messi es el mejor jugador del Mundo y todo el planeta Tierra")
for entity in doc.ents:
    print(entity.text + ' - ' + entity.label_ + ' - ' + str(spacy.explain(entity.label_)))

Leo Messi - PER - Named person or family.
Mundo - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art



<hr>


# -Resumen

* Una vez creado el documento a partir del texto plano, tenemos ese texto tokenizado.


* Los objetos de la clase ***Token*** tienen una serie de propiedades que permiten obtener mucha información relativa a los tokens (o palabras).


* Haciendo un resumen de lo visto anteriormente podemos obtener la siguiente información de las palabras de un texto:

In [28]:
import spacy
import pandas as pd

nlp = spacy.load('es_core_news_sm')
doc1 = nlp("Jane bought me these books.\nJane bought a book for me.\nShe dropped a line to him. Thank you.\nShe sleeps.\nI sleep a lot.\nI was born in Madrid.\nthe cat was chased by the dog.\nI was born in Madrid during 1995.\nOut of all this , something good will come.\nSusan left after the rehearsal. She did it well.\nShe sleeps during the morning, but she sleeps.")

result = [[tk.text, tk.lemma_, tk.pos_, tk.tag_, tk.dep_, tk.shape_, tk.is_alpha, tk.is_stop] for tk in doc1]
pd.DataFrame(result, columns=["Text", "Lema", "PoS", "TAG", "DEP", "Shape", "Alpha", "is Stop word"])

Unnamed: 0,Text,Lema,PoS,TAG,DEP,Shape,Alpha,is Stop word
0,Jane,Jane,PROPN,PROPN,nsubj,Xxxx,True,False
1,bought,bought,PROPN,PROPN,flat,xxxx,True,False
2,me,yo,PRON,PRON,obj,xx,True,True
3,these,these,VERB,VERB,ROOT,xxxx,True,False
4,books,books,VERB,VERB,obj,xxxx,True,False
...,...,...,...,...,...,...,...,...
89,",",",",PUNCT,PUNCT,punct,",",False,False
90,but,but,ADP,ADP,appos,xxx,True,False
91,she,she,ADP,ADP,case,xxx,True,False
92,sleeps,sleeps,PROPN,PROPN,amod,xxxx,True,False


In [27]:
import spacy
import pandas as pd

nlp = spacy.load('es_core_news_sm')
doc = nlp("Las multas de transito en la Ciudad de Buenos Aires son onerosas")

result = [[tk.text, tk.lemma_, tk.pos_, tk.tag_, tk.dep_, tk.shape_, tk.is_alpha, tk.is_stop] for tk in doc]
pd.DataFrame(result, columns=["Text", "Lema", "PoS", "TAG", "DEP", "Shape", "Alpha", "is Stop word"])

Unnamed: 0,Text,Lema,PoS,TAG,DEP,Shape,Alpha,is Stop word
0,Las,el,DET,DET,det,Xxx,True,True
1,multas,multa,NOUN,NOUN,nsubj,xxxx,True,False
2,de,de,ADP,ADP,case,xx,True,True
3,transito,transito,NOUN,NOUN,nmod,xxxx,True,False
4,en,en,ADP,ADP,case,xx,True,True
5,la,el,DET,DET,det,xx,True,True
6,Ciudad,Ciudad,PROPN,PROPN,nmod,Xxxxx,True,False
7,de,de,ADP,ADP,case,xx,True,True
8,Buenos,Buenos,PROPN,PROPN,flat,Xxxxx,True,True
9,Aires,Aires,PROPN,PROPN,flat,Xxxxx,True,False


# 04 - Preprocesamiento de textos (Normalización)

* Antes de procesar los texto con cualquier algoritmo de aprendizaje automático (supervisado o no supervisado) es necesario realizar un preporcesamiento con el objetivo de limpiar, normalizar y estructurar el texto.


* Para ello se propone el siguiente framework:


<img src="./imgs/007_framework_preprocesamiento_texto.png" style="width: 500px;"/>


* Los pasos propuestos en este framework pueden abordarse en el orden que se quiera e incluso alguno de estas etapas no sería necesario realizarse en función de como tengamos los textos.


* Definamos a continuación lo que hay que realizar en cada uno de estos pasos:


1.- ***Eliminación de ruido***:

   * Este paso tiene como objetivo eliminar todos aquellos símbolos o caracteres que no aportan nada en el significado de las frases (ojo no confundir con las stop-words), como por ejemplo etiquetas HTML (para el caso del scraping), parseos de XML, JSON, etc.
    
2.- ***Tokenización***:
   * Este paso tiene como objetivo dividir las cadenas de texto del documento en piezas más pequeñas o tokens.
   * Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
       * ***Segmentation***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
       * ***Tokenization***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.
    
3.- ***Normalización***:

   * La normalización es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:
        * Convertir todo el texto en mayúscula o minúsculas
        * Eliminar, puntos, comas, comillas, etc.
        * Convertir los números a su equivalente a palabras
        * Quitar las Stop-words
        * etc.
        
<hr>

## Ejemplo de Preprocesamiento de Texto.


* Aunque no hay una norma o guía de como realizar una normalización de texto ya que esta depende del problema a resolver y de la naturaleza del texto, vamos a mostrar a continuación algunas operaciones más o menos comúnes para la tokenización y normalización de los textos.


* Si bien este ejemplo esta hecho utilizando la librería de ***spaCy*** (ya que lo vamos a aplicar sobre un texto en Español) puede realizarse tambien con la librería de ***NLTK*** e incluso determinadas funcionalidades de tratamiento de strings lo podemos hacer con otras librerías.


* En el siguiente ejemplo vamos a tokenizar y normalizar un texto:
    1. Transformar un texto en tokens
    2. Eliminar los tokens que son signos (puntuación, exclamación, etc.)
    3. Eliminar las palabras que tienen menos de 'N' caracteres
    4. Eliminar las palabras que son Stop Words
    5. Pasar el texto a minúsculas
    6. Lematización
    
    
* **Nota**: *la normalización de texto que se va a codificar a continuación puede codificarse de forma más optimizada sin la necesidad de recorrer tantas veces la lista de tokens. Ya que este es un ejemplo con fines didácticos, este se centra en los conceptos y no en la optimización*

In [29]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [30]:
def get_tokens(text):
    """
    Función que dado un texto devuelve una lista con las palabras del texto no vacias
    """
    doc = nlp(text)
    return [word.text.strip() for word in doc if len(word.text.strip()) > 0]

In [31]:
def remove_punctuation(words):
    """
    Función que dada una lista de palabras, elimina los signos de puntuación
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_punct]

In [32]:
def remove_short_words(words, num_chars):
    """
    Función que dada una lista de palabras y un número mínimo de caracteres que tienen que tener
    las palabras, elimina todas las palabras que tengan menos caracteres que los indicados
    """
    return [word for word in words if len(word) > num_chars]

In [33]:
def remove_stop_words(words):
    """
    Función que dada una lista de palabras, elimina las Stop Words
    """
    doc = nlp(" ".join(words))
    return [word.text for word in doc if not word.is_stop]

In [34]:
def to_lowercase(words):
    """
    Función que dada una lista de palabras, las transforma a minúsculas
    """
    return [word.lower() for word in words]

In [35]:
def lemmatizer(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    doc = nlp(" ".join(words))
    return [word.lemma_ for word in doc]

In [36]:
def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_lowercase(words)
    words = lemmatizer(words)
    return words

#### Pasamos a tokenizar y normalizar el siguiente texto usando la función de normalización realizada

In [37]:
raw = """Fernando Alonso ha vuelto a sacar petróleo de la carrera, saliendo 13º y acabando 7º un
         gran premio que ha coronado adelantando en pista a Sebastian Vettel, líder del Mundial.
         Aunque no ha querido sacar pecho por ello: "Su coche estaba tocado, tenía problemas de dirección,
         estaban en clara desventaja e iba perdiendo cada vez más, vi que en la recta iba a ser imposible
         adelantarle incluso con el DRS no conseguía pillarle así que como se abría mucho pensé que en la
         primera curva que pudiera lo intentaba por dentro y a la primera salió bien y creo que hay que
         estar contentos, séptimos otra vez, sumando puntos en las tres carreras", ha señalado."""
print(normalize(raw))

['fernando', 'alonso', 'vuelto', 'sacar', 'petróleo', 'carrera', 'salir', 'acabar', 'premio', 'coronado', 'adelantar', 'pista', 'sebastian', 'vettel', 'líder', 'mundial', 'querido', 'sacar', 'pecho', 'coche', 'tocado', 'problema', 'dirección', 'claro', 'desventaja', 'perder', 'recta', 'imposible', 'adelantar él', 'conseguir', 'pillar él', 'aber', 'pensar', 'curvo', 'poder', 'intentar', 'salir', 'contento', 'séptimo', 'sumar', 'punto', 'carrera', 'señalado']


#### En este ejemplo podemos ver como reducimos las palabras (tokens) del texto original, quedandonos con lo importante y normalizado
#### Pasamos de 128 tokens del texto original a 44 tokens tras la normalización

In [38]:
print('Número de tokens del texto original: ' + str(len(get_tokens(raw))))
print('Número de tokens distintos del texto original: ' + str(len(set(get_tokens(raw)))))
print('Número de tokens tras la normalización: ' + str(len(normalize(raw))))
print('Número de tokens distintos tras la normalización: ' + str(len(set(normalize(raw)))))

Número de tokens del texto original: 128
Número de tokens distintos del texto original: 91
Número de tokens tras la normalización: 43
Número de tokens distintos tras la normalización: 40


<hr>


# Bonus Track - Tratamiento de Strings


## Codificación de Caracteres (Unicode)


* Uno de los quebraderos de cabeza que se tiene a la hora de trabajar con python (sobre todo con python 2.X) es el tema de la ***codificación de los textos (Strings)***.


* En un principio los ordenadores se diseñaron para utilizar el alfabeto ingles (que entre otras cosas no tiene ni acentos ni letras como la "ñ" para el Español) y por ese motivo se definió la codificación ***ASCII*** (***A***merican ***S***tandard ***C***ode for ***I***nformation ***I***nterchange) definido con 128 caracteres (7 bits para representar los 2<sup>7</sup> = 128 caracteres).


<img src="./imgs/019_ASCII.png" style="width: 500px;"/>


* Dado que en el resto de lenguas en el mundo hay muchos más caracteres, se definió una nueva codificación de caracteres denominada como ***UNICODE*** que representa alrededor de 110.000 caracteres.


* Por tanto para poder trabajar con Strings (codificados de diferente manera) se debería hacer lo siguiente:

    1. ¿Cual es la codificación de mi fichero original?
    2. **Decode**: Paso el string de mi fichero a Unicode (cambio de codificación)
    3. Realizo las operaciones que sean necesarias sobre los strings codificados en **Unicode**
    4. **Encode**: Escribo de **Unicode** a otra **codificación** el string con el que he trabajado

<img src="./imgs/008_Unicode_Decode_Encode.png" style="width: 500px;"/>


<hr>


## Operaciones con Strings


* Muchas veces tenemos que realizar operaciones de transforación sobre palabras o textos. A continuación se muestran algunas de las funciones más útiles para trabajar con strings:

|Nombre Función|Funcionalidad|
|---|---|
|[s.find(t)](#M1)|index of first instance of string t inside s (-1 if not found)|
|[s.rfind(t)](#M2)|index of last instance of string t inside s (-1 if not found)|
|[s.index(t)](#M3)|like s.find(t) except it raises ValueError if not found|
|[s.rindex(t)](#M4)|like s.rfind(t) except it raises ValueError if not found|
|[s.join(text)](#M5)|combine the words of the text into a string using s as the glue|
|[s.split(t)](#M6)|split s into a list wherever a t is found (whitespace by default)|
|[s.splitlines()](#M7)|split s into a list of strings, one per line|
|[s.lower()](#M8)|a lowercased version of the string s|
|[s.upper()](#M9)|an uppercased version of the string s|
|[s.title()](#M10)|a titlecased version of the string s|
|[s.strip()](#M11)|a copy of s without leading or trailing whitespace|
|[s.replace(t, u)](#M12)|replace instances of t with u inside s|

<hr>


### <a name="M1">s.find(t)</a>


* Encuentra la posición (indice) del string que se pasa como parámetro empezando a contar desde la izquierda.


* Si no encuentra el string, devuelve valor -1.

In [39]:
s = 'Ricardo Moya'
s.find('Moya')

8

In [41]:
s.find('a')

3

In [42]:
s.find('e')

-1

<hr>


### <a name="M2">s.rfind(t)</a>


* Hace lo mismo que "s.find(t)" pero empezando a contar desde la derecha.

In [43]:
s.rfind('a')

11

In [44]:
s.rfind('Moya')

8

<hr>


### <a name="M3">s.index(t)</a>


* Hace lo mismo que "s.find(t)", con la única diferencia que devuelve un error (en vez de un -1) si no encuentra el string que se pasa como parámetro.

In [45]:
s.index('Moya')

8

In [46]:
s.index('a')

3

In [47]:
s.index('e') # Devuelve un error

ValueError: substring not found

<hr>


### <a name="M4">s.rindex(t)


* Hace lo mismo que "s.index(t)" pero empezando a contar desde la derecha.

In [48]:
s.rindex('a')

11

In [49]:
s.rfind('Moya')

8

<hr>


### <a name="M5">separador.join(text)</a>


* Une cada letra del string que se le pasa como parámetro con el separador.

In [50]:
'-'.join(s)

'R-i-c-a-r-d-o- -M-o-y-a'

* Esta es una función muy utilizada para formar una cadena de texto con separador (por ejemplo un espacio en blanco) a partir de una lista o tupla:

In [51]:
lista = ["Un", "radar", "multa", "a", "Mariano", "Rajoy", "por", "caminar", "demasiado", "rapido"]
' '.join(lista)

'Un radar multa a Mariano Rajoy por caminar demasiado rapido'

<hr>


### <a name="M6">s.split(t)</a>


* Divide el String "***s***" en una lista siempre que encuentre un separador "***t***".


* Por defecto el separador es el espacio en blanco.

In [52]:
texto = "Las multas de trasntito en la Ciudad de Buenos Aires son onerosas"
texto.split(' ')

['Las',
 'multas',
 'de',
 'trasntito',
 'en',
 'la',
 'Ciudad',
 'de',
 'Buenos',
 'Aires',
 'son',
 'onerosas']

<hr>


### <a name="M7">s.splitlines()</a>


* Divide un String "***s***" en una lista siempre que encuentre un salto de linea (\n).

In [53]:
texto = """ linea 1\nlinea 2
linea 3
"""

texto.splitlines()

[' linea 1', 'linea 2', 'linea 3']

<hr>


### <a name="M8">s.lower()</a>


* Transforma un String "***s***" a minúsculas.

In [54]:
s = "MiNuSCuLaS"
s.lower()

'minusculas'

<hr>


### <a name="M9">s.upper()</a>


* Transforma un String "***s***" a mayúsculas.

In [55]:
s = "mAyUscUlAs"
s.upper()

'MAYUSCULAS'

<hr>


### <a name="M10">s.title()</a>


* Transforma el String "***s***" en formato título; es decir, pone la primera letra de cada palabra de String en mayúsculas y el resto en minúsculas.

In [56]:
s = "rIcArdO mOyA"
s.title()

'Ricardo Moya'

<hr>


### <a name="M11">s.strip()</a>


* Elimina los espacios en blanco y caracteres espaciales que hay tanto a la decrecha como a la izquierda del String "***s***".


* Existen también las variantes de:
    - s.rstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la derecha del string.
    - s.lstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la izquierda del string.

In [57]:
s = "   \tRicardo Moya  \t  "
s.strip()

'Ricardo Moya'

In [58]:
s.rstrip()

'   \tRicardo Moya'

In [59]:
s.lstrip()

'Ricardo Moya  \t  '

<hr>


### <a name="M12">s.replace(t, u)</a>


* Dado un String "***s***" sustituye cada aparición "***t***" por "***u***", pasandose "***t***" y "***u***" como parámetro.

In [61]:
s = "Las multas de transito en la Ciudad de Buenos Aires son onerosas"
s.replace("la Ciudad de Buenos Aires", "Cordoba")

'Las multas de transito en Cordoba son onerosas'