# 18 • Herramientas de texto

En este notebook se revisará distintas herramientas para modificar, limpiar, preprocesar texto en Python.

## Contenido
1. Strings como lista de caracteres
2. Preproceso de texto
3. Regular expressions (*Regex*)
4. spaCy
5. Referencias  

## 1. Strings como lista de caracteres
Anteriormente ya habían trabajado con strings, sin embargo, podemos tratar a un string como una lista de caracteres. Para esto, podemos utilziar los [métodos para *strings* que tiene Python](https://docs.python.org/3/library/stdtypes.html#string-methods).

In [1]:
texto = "Mi viLLano faVorito"

# También se puede declarar así:
# texto = str("Mi villano favorito")

In [2]:
# Un string es una cadena de caracteres y al imprimirlo con un loop regresa un carácter por renglón
for i in texto:
    print(i)

M
i
 
v
i
L
L
a
n
o
 
f
a
V
o
r
i
t
o


Existen algunas funciones propias de los *strings* que nos ayudarán para trabajar con textos, como:
- **lower**, pone la cadena en minúsculas
- **upper**, pone la cadena en mayúsculas
- **title**, pone en mayúscula la primera letra de cada palabra de un enunciado
- **replace**, para sustituir algún texto
- **rfind**, encuentra dentro de una cadena dónde inicia un texto de nuestro interés
- **rspilt**, separa un enunciado en palabras (*tokens*)

In [3]:
# lower
texto.lower()

'mi villano favorito'

In [4]:
# upper
texto.upper()

'MI VILLANO FAVORITO'

In [5]:
# title
texto.title()

'Mi Villano Favorito'

In [6]:
# replace
texto.replace("viLLano", "marciano")

'Mi marciano faVorito'

In [7]:
# rfind
texto.rfind("villano") # no está este string entonces devuelve -1

-1

In [8]:
# rfind
texto.rfind("viLLano") # no está este string entonces devuelve >0

3

In [9]:
# split
texto.lower().rsplit()

['mi', 'villano', 'favorito']

## 2. Preproceso de texto
Usualmente la información en formato de texto se encuentra desordenada y sin estructura. Para poder realizar un mejor análisis es importante "normalizar" esta información.

Existen distintas herramientas para el preproceso de datos que podemos utilizar para obtener una base de datos limpia, entre las que se encuentran: utilizar letras minúscula, lematización (usar la raíz de la palabra), separa un enunciado en *tokens*, remover puntuación y *stopwords*, entre otras.

In [10]:
# load libraries
import pandas as pd
import numpy as np
import snscrape.modules.twitter as sntwitter

### Base de datos inicial (raw)
En este caso se consultaron 1,000 tweets con el hashtag #ElINENoSeToca

In [11]:
%%time

# Parámetros
tweets_list_ine = []
maxTweets_ine = 1_000
date_initial = "2022-10-01"

# Get tweets
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('#ElINENoSeToca').get_items()): # se puede añadir esto --> since:'+date_initial
        if i>maxTweets_ine-1:
            break
        tweets_list_ine.append([tweet.user.username, tweet.date, tweet.content])
        
# Pandas dataframe con tweets que mencionen el hashtag #ElINENoSeToca
column_names = ("username","date","tweet")
df = pd.DataFrame(tweets_list_ine, columns=column_names)
# df['day'] = df['date'].dt.strftime('%Y-%m-%d')

CPU times: user 524 ms, sys: 56.6 ms, total: 580 ms
Wall time: 34.6 s


In [12]:
# así se ve la base de datos
df

Unnamed: 0,username,date,tweet
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ..."
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ..."
...,...,...,...
995,FedericoPabloG,2022-11-17 04:47:41+00:00,@esnoticiaalesal Hay tanta maldad en el nalgas...
996,Carlos39664896,2022-11-17 04:47:40+00:00,Para que marchen con más enjundia (acompañada ...
997,AB_cpt,2022-11-17 04:47:29+00:00,Como les dolió enormemente la marcha del Domin...
998,Benitez_Bere,2022-11-17 04:47:11+00:00,#ElINENoSeToca https://t.co/7cgFCU9Ku4


In [13]:
# descripción general de los datos
df.describe()

  df.describe()


Unnamed: 0,username,date,tweet
count,1000,1000,1000
unique,567,983,988
top,EugeniaLaraG1,2022-11-17 17:05:28+00:00,@jmvalerapiedras @PRI_Nacional @cdeprihidalgo ...
freq,28,3,7
first,,2022-11-17 04:46:44+00:00,
last,,2022-11-17 17:50:46+00:00,


In [14]:
# identificación de valores únicos por variable
df.nunique()

username    567
date        983
tweet       988
dtype: int64

### Eliminar signos de puntuación
Aquí se eliminan los signos de puntuación con excepción de `#` y `@` para poder identificar los hashtags y las cuentas.

In [15]:
#library that contains punctuation
import string
signos_puntuacion = string.punctuation
signos_puntuacion = signos_puntuacion.replace("#", "")  # quitar '#' de hashtags 
signos_puntuacion = signos_puntuacion.replace("@", "")  # quitar '@' de cuentas
signos_puntuacion

'!"$%&\'()*+,-./:;<=>?[\\]^_`{|}~'

In [16]:
#defining the function to remove punctuation
def remove_punctuation(text):
    punctuationfree="".join([i for i in text if i not in signos_puntuacion])
    return punctuationfree

#storing the puntuation free text
df['tweet_clean'] = df['tweet'].apply(lambda x:remove_punctuation(x))
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,En serio somos eso los que queremos un México ...
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...",Con todo para defender la democracia rueda de...
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,¡Muy buenos días ☀️\n\nLes comparto👇🏻 mi “Vide...
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,#ElINENoSeToca 61 de mexicanos aprueba organiz...
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...",Los tiranos ya movilizan a sus huestes vamos a...


### Textos en minúsculas
Parte de la normalización es poner todos los textos en minúsculas (o mayúsculas), esto puede servir posteriormente por ejemplo para hacer un conteo de palabras.

⚠️ _**Nota**: Al hacer esto existe el riesgo que se pierda información contextual; por ejemplo, dentro de un tweet cuando alguien escribe una palabra específica en mayúsculas y las demás en minúsculas esto conlleva un mayor importancia o aumento en tono de voz._

In [17]:
# cambiar los tweets a letras minúsculas
df['tweet_clean'] = df['tweet_clean'].apply((lambda x: x.lower()))
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,en serio somos eso los que queremos un méxico ...
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...",con todo para defender la democracia rueda de...
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,¡muy buenos días ☀️\n\nles comparto👇🏻 mi “vide...
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,#elinenosetoca 61 de mexicanos aprueba organiz...
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...",los tiranos ya movilizan a sus huestes vamos a...


### Tokenization
Aquí veremos cómo separar los enunciados (*tweets*) en *tokens* (palabras o cadenas de caracteres).

In [18]:
# getting the tokens per tweet
df['tweet_clean'] = df['tweet_clean'].apply(lambda x: x.rsplit())
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,"[en, serio, somos, eso, los, que, queremos, un..."
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...","[con, todo, para, defender, la, democracia, ru..."
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, les, comparto👇🏻, mi, ..."
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, de, mexicanos, aprueba, o..."
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...","[los, tiranos, ya, movilizan, a, sus, huestes,..."


### Eliminar *stopwords*
Las *stopwords* son palabras de uso común que no añaden un valor adicional al análisis de texto o que no tienen sentido, por lo que pueden ser eliminadas de nuestra lista de tokens.

Existen distintas maneras de obtener la lista de stopwords:  
> (1) Crear nuestra propia lista  

> (2) Buscar alguna base de datos que contenga la lista de stopwords
> - En GitHub encontré una lista de stopwords el el repositorio [Alir3z4/stop-words](https://github.com/Alir3z4/stop-words/blob/master/spanish.txt)
> - Una alternativa es una lista de Kaggle [Spanish Stopwords W2V](https://www.kaggle.com/code/mpwolke/spanish-stopwords-w2v)
> - Otra alternativa es la lista que da la página [countwordsfree.com](https://countwordsfree.com/stopwords/spanish)

> (3) Algo más estandarizado y completo es utilizar la librería de *Natural Language Toolkit* (**NLTK**), la cual tiene listas de *stopwords* en distintos idiomas, donde (además de inglés) podemos encontrar la lista de palabras en español. Para instalar este paquete así como mayor detalle de uso, revisa la página de la [librería NLTK](https://www.nltk.org/data.html).

⚠️ _**Nota**: antes de usar alguna de las opciones anteriores deberás de pensar cuál lista de stopwords se acopla mejor a tus necesidades!_

In [19]:
# (1) Crear nuestra propia lista de stopwords
stopwords_1 = ['a','ante','bajo','con','no','de','del','al','tras','bitcoin']

print("Número de stopwords en mi lista (1):", len(stopwords_1))
stopwords_1

Número de stopwords en mi lista (1): 10


['a', 'ante', 'bajo', 'con', 'no', 'de', 'del', 'al', 'tras', 'bitcoin']

In [20]:
# (2) Buscar alguna base de datos que contenga la lista de stopwords.
#     En este ejemplo bajamos la lista de GitHub
import urllib3

http = urllib3.PoolManager()
r = http.request('GET', "https://raw.githubusercontent.com/Alir3z4/stop-words/master/spanish.txt")
stopwords_2 = r.data.decode('utf-8').replace("\n"," ").rsplit()

print("Número de stopwords en mi lista (2):", len(stopwords_2))
stopwords_2[:15]

Número de stopwords en mi lista (2): 609


['a',
 'actualmente',
 'adelante',
 'además',
 'afirmó',
 'agregó',
 'ahora',
 'ahí',
 'al',
 'algo',
 'alguna',
 'algunas',
 'alguno',
 'algunos',
 'algún']

In [21]:
# (3) Uso de NLP Toolkit library

## Para instalar la librería revisa la página: https://www.nltk.org/data.html
## Nota, este proceso puede ser tardado...
# !pip install nltk
# nltk.download()

# load library
import nltk

stopwords_3 = nltk.corpus.stopwords.words('spanish')

print("Número de stopwords en de NLTK library (3):", len(stopwords_3))
stopwords_3[:15]

Número de stopwords en de NLTK library (3): 313


['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con']

**Vamos a eliminar las stopwords usando la lista que obtivimos de NLTK library (opción 3):**

In [22]:
#defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= [i for i in text if i not in stopwords_3]
    return output

#applying the stopwords function to thet tweets
df['tweet_clean'] = df['tweet_clean'].apply(lambda x:remove_stopwords(x))
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,"[serio, queremos, méxico, libre, andres, voz, ..."
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...","[defender, democracia, rueda, prensa, partido,..."
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, comparto👇🏻, “video, c..."
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, mexicanos, aprueba, organ..."
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...","[tiranos, movilizan, huestes, vamos, tener, ir..."


### Lematización
Este paso nos servirá para extraer la la raíz de las palabras, para poder "normalizar" el texto y realizar un mejor análisis. Aquí nuevamente utilizaremos la librería `NLTK`.

In [23]:
#defining the object for Lemmatization
wordnet_lemmatizer = nltk.stem.WordNetLemmatizer()

#defining the function for lemmatization
def lemmatizer(text):
    lemm_text = [wordnet_lemmatizer.lemmatize(word) for word in text]
    return lemm_text

#lemmatization of our tweets
df['tweet_clean'] = df['tweet_clean'].apply(lambda x:lemmatizer(x))
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,"[serio, queremos, méxico, libre, andres, voz, ..."
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...","[defender, democracia, rueda, prensa, partido,..."
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, comparto👇🏻, “video, c..."
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, mexicano, aprueba, organi..."
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...","[tiranos, movilizan, huestes, vamos, tener, ir..."


### Eliminar URLs
En este caso, también eliminamos las URLs.

In [24]:
def erase_urls(text):
    output = [i for i in text if i.rfind("http")==-1]
    return output

# texto.rfind("villano")
df['tweet_clean'] = df['tweet_clean'].apply(lambda x:erase_urls(x))
df.head()

Unnamed: 0,username,date,tweet,tweet_clean
0,fridasg54,2022-11-17 17:50:46+00:00,En serio somos eso los que queremos un México ...,"[serio, queremos, méxico, libre, andres, voz, ..."
1,PaulinaAguado,2022-11-17 17:50:05+00:00,"Con todo! para defender la democracia, rueda ...","[defender, democracia, rueda, prensa, partido,..."
2,NoemiLuna_Zac,2022-11-17 17:50:04+00:00,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, comparto👇🏻, “video, c..."
3,geovanni9797,2022-11-17 17:49:52+00:00,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, mexicano, aprueba, organi..."
4,smartnettec,2022-11-17 17:48:53+00:00,"Los tiranos ya movilizan a sus huestes, vamos ...","[tiranos, movilizan, huestes, vamos, tener, ir..."


### Resultado final de preproceso (BD final)
A continuación se muestran los textos iniciales en la columna "tweets", y la información preprocesada en la columna "tweet_clean", a manera de comparación.

In [25]:
df[['tweet', 'tweet_clean']]

Unnamed: 0,tweet,tweet_clean
0,En serio somos eso los que queremos un México ...,"[serio, queremos, méxico, libre, andres, voz, ..."
1,"Con todo! para defender la democracia, rueda ...","[defender, democracia, rueda, prensa, partido,..."
2,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, comparto👇🏻, “video, c..."
3,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, mexicano, aprueba, organi..."
4,"Los tiranos ya movilizan a sus huestes, vamos ...","[tiranos, movilizan, huestes, vamos, tener, ir..."
...,...,...
995,@esnoticiaalesal Hay tanta maldad en el nalgas...,"[@esnoticiaalesal, tanta, maldad, nalgas, mead..."
996,Para que marchen con más enjundia (acompañada ...,"[marchen, enjundia, acompañada, frucsi, torta,..."
997,Como les dolió enormemente la marcha del Domin...,"[dolió, enormemente, marcha, domingo, ahora, o..."
998,#ElINENoSeToca https://t.co/7cgFCU9Ku4,[#elinenosetoca]


In [26]:
print("Ejemplo de tweet...\n- original tweet:\n",df['tweet'][50],
      "\n\n- tweet clean:\n", df['tweet_clean'][50])

Ejemplo de tweet...
- original tweet:
 Para conocer más y mejor. #PulceraRosa  #ElINENoSeToca https://t.co/phghGNhSrg 

- tweet clean:
 ['conocer', 'mejor', '#pulcerarosa', '#elinenosetoca']


## 3. Regular expressions (*Regex*)
Las expresiones regulares mejor conocidas como *regex* son una herramienta que nos sirve para trabajar con texto, con el cual se pueden realizar distintas operaciones como búsqueda o reemplazo de un texto específico.

Existen distintos operadores que se utilizan en *regex*, estos son los que utilizaremos para nuestros ejemplos. 


|Operador|Descripción (_en inglés_)|
|:------:|:----------------------|
|. (punto)|In the default mode, this matches any character except a newline. If the DOTALL flag has been specified, this matches any character including a newline.|
|* (asterisco) |Causes the resulting RE to match 0 or more repetitions of the preceding RE, as many repetitions as are possible. ab* will match ‘a’, ‘ab’, or ‘a’ followed by any number of ‘b’s.|
|+ (más) |Causes the resulting RE to match 1 or more repetitions of the preceding RE. ab+ will match ‘a’ followed by any non-zero number of ‘b’s; it will not match just ‘a’.|
|[ ]| Used to indicate a set of characters. In a set:<ul><li>Characters can be listed individually, e.g. [amk] will match 'a', 'm', or 'k'.</li><li>Ranges of characters can be indicated by giving two characters and separating them by a '-', for example [a-z] will match any lowercase ASCII letter, [0-5][0-9] will match all the two-digits numbers from 00 to 59, and [0-9A-Fa-f] will match any hexadecimal digit. If - is escaped (e.g. [a\-z]) or if it’s placed as the first or last character (e.g. [-a] or [a-]), it will match a literal '-'.</li><li>Special characters lose their special meaning inside sets. For example, [(+*)] will match any of the literal characters '(', '+', '*', or ')'.</li></ul>|
|\n |line break|
|\s|space|

⚠️ Se recomienda ampliamente que revisen la página de la [librería **`re`** - *Regular expression operations*](https://docs.python.org/3/library/re.html) para identificar todos los operadores, documentación y ejemplos de como utilizar _regex_.

📌 Si les interesa practicar el uso de _regex_, les recomiendo la página de [regexr.com](https://regexr.com)

In [27]:
# load regex library
import re

In [28]:
# Extracto de canción "El amor" de Arjona, link: https://www.letras.com/arjona-ricardo/1963651/
texto = """El amor tiene firma de autor
En las causas pérdidas
El amor siempre empieza soñando
Y termina en insomnio
Es un acto profundo de fe
Que huele a mentira
El amor baila al son que le toquen
Sea Dios o el demonio
Sea Dios o el demonio

El amor es la guerra pérdida
Entre el sexo y la risa
Es la llave con que abres
El grifo del agua en los ojos
Es el tiempo más lento del mundo
Cuando va de prisa
El amor se abre paso despacio
No importa el cerrojo






El amor es la arrogancia
De aferrarse a lo imposible
Es buscar en otra parte
Lo que no encuentras en ti"""

### Encontrar un texto usando _regex_

In [29]:
# Encontrar todos los enunciados que tengan la palabra 'amor'
re.findall(r'.*[Dd]e[\sl].*', texto)

['El amor tiene firma de autor',
 'Es un acto profundo de fe',
 'El grifo del agua en los ojos',
 'Es el tiempo más lento del mundo',
 'Cuando va de prisa',
 'De aferrarse a lo imposible']

#### Sustituir una palabra, frase o cadena de caracterés por otro texto

In [30]:
# Substituir la palabra 'amor' por 'cepillo de dientes'
texto_sub = re.sub('[A|a]mor', 'CePiLLo De DieNTeS', texto)  # cambia la palabra
texto_sub = re.sub('\n+', '. ', texto_sub)  # cambia el salto de dos renglones por un punto 
texto_sub

'El CePiLLo De DieNTeS tiene firma de autor. En las causas pérdidas. El CePiLLo De DieNTeS siempre empieza soñando. Y termina en insomnio. Es un acto profundo de fe. Que huele a mentira. El CePiLLo De DieNTeS baila al son que le toquen. Sea Dios o el demonio. Sea Dios o el demonio. El CePiLLo De DieNTeS es la guerra pérdida. Entre el sexo y la risa. Es la llave con que abres. El grifo del agua en los ojos. Es el tiempo más lento del mundo. Cuando va de prisa. El CePiLLo De DieNTeS se abre paso despacio. No importa el cerrojo. El CePiLLo De DieNTeS es la arrogancia. De aferrarse a lo imposible. Es buscar en otra parte. Lo que no encuentras en ti'

### Dividir el texto en una lista de strings

In [31]:
texto # original

'El amor tiene firma de autor\nEn las causas pérdidas\nEl amor siempre empieza soñando\nY termina en insomnio\nEs un acto profundo de fe\nQue huele a mentira\nEl amor baila al son que le toquen\nSea Dios o el demonio\nSea Dios o el demonio\n\nEl amor es la guerra pérdida\nEntre el sexo y la risa\nEs la llave con que abres\nEl grifo del agua en los ojos\nEs el tiempo más lento del mundo\nCuando va de prisa\nEl amor se abre paso despacio\nNo importa el cerrojo\n\n\n\n\n\n\nEl amor es la arrogancia\nDe aferrarse a lo imposible\nEs buscar en otra parte\nLo que no encuentras en ti'

In [32]:
re.split("\n+", texto)

['El amor tiene firma de autor',
 'En las causas pérdidas',
 'El amor siempre empieza soñando',
 'Y termina en insomnio',
 'Es un acto profundo de fe',
 'Que huele a mentira',
 'El amor baila al son que le toquen',
 'Sea Dios o el demonio',
 'Sea Dios o el demonio',
 'El amor es la guerra pérdida',
 'Entre el sexo y la risa',
 'Es la llave con que abres',
 'El grifo del agua en los ojos',
 'Es el tiempo más lento del mundo',
 'Cuando va de prisa',
 'El amor se abre paso despacio',
 'No importa el cerrojo',
 'El amor es la arrogancia',
 'De aferrarse a lo imposible',
 'Es buscar en otra parte',
 'Lo que no encuentras en ti']

## 4. spaCy

In [33]:
# # Install spaCy webpage: https://spacy.io/usage
# ! conda install -c conda-forge spacy  # <-install spaCy
# ! python -m spacy download en_core_web_sm   # <-spaCy English pipeline optimized for CPU.
# ! python -m spacy download es_core_news_sm  # <-spaCy Spanish pipeline optimized for CPU.

In [34]:
# load library
import spacy

### Obtener características de cada *token*

In [35]:
# load spaCy Spanish pipeline optimized
nlp = spacy.load("es_core_news_sm")

# ejemplo
enunciado = 'Me llegó un email al correo leo234@gmail.com que dice: "OMG! El señor Carlos rompió el control\
del televisor hoy y tuve que comprar otro en www.amazon.com.mx".'

# volver el enunciado un objeto tipo NLP
doc = nlp(enunciado) #(sentences[0])
print("Enunciado:\n",doc.text,"\n")

# Para cada token (palabra/cadena) se obtienen distintas características:
# - texto
# - tag con tipo de texto: noun, verb, determinant, adverb, conjunction
# - dep: dependenxy
# - like_email: identifica si el token es un email
# - like_url: identifica si el token es una página web
list_tokens = []
for token in doc:
    list_tokens.append([token.text,token.lemma_,token.pos_,token.dep_,token.like_email,
                        token.like_url, token.head.text])

# Revisar algunas de las características de cada token
pd.DataFrame(list_tokens, columns=['text','lemma','pos','dep','is_email','is_url','next_text'])

Enunciado:
 Me llegó un email al correo leo234@gmail.com que dice: "OMG! El señor Carlos rompió el controldel televisor hoy y tuve que comprar otro en www.amazon.com.mx". 



Unnamed: 0,text,lemma,pos,dep,is_email,is_url,next_text
0,Me,yo,PRON,iobj,False,False,llegó
1,llegó,llegar,VERB,ROOT,False,False,llegó
2,un,uno,DET,det,False,False,email
3,email,email,NOUN,nsubj,False,False,llegó
4,al,al,ADP,case,False,False,correo
5,correo,correo,NOUN,obl,False,False,llegó
6,leo234@gmail.com,leo234@gmail.com,NUM,appos,True,False,correo
7,que,que,PRON,nsubj,False,False,dice
8,dice,decir,VERB,acl,False,False,correo
9,:,:,PUNCT,punct,False,False,OMG


### Preproceso con spaCy
Ejemplo de función para preproceso usando spaCy, Regex y métodos de strings, comparando resultados con el del preproceso que se vio al inicio de este Jupyter notebook.

In [36]:
def preprocess(text,
               min_token_len = 2,
               irrelevant_pos = ['PRON', 'SPACE', 'PUNCT', 'ADV', 'ADP', 'CCONJ', 'AUX', 'PRP'],
               avoid_entities = ['PERSON', 'ORG', 'LOC', 'GPE']):
    # note: Didn't use the following options in the `preprocess_comments`
    #    - 'PROPN', erase proper names, but also words as orange.
    #    - 'DET', removes the word 'no', which changes the meaning.
    """
    Function that identify sensible information, anonymize and transforms
    the data in a useful format for using with tokens.
    Parameters
    -------------
    text : (list)
        the list of text to be preprocessed
    irrelevant_pos : (list)
        a list of irrelevant 'pos' tags
    avoid_entities : (list)
        a list of entity labels to be avoided

    Returns
    -------------
    (list) list of preprocessed text

    Example
    -------------
    example = ["Hello, I'm George and I love swimming!",
                "I am a really good cook; what about you?",
                "Contact me at george23@gmail.com"]
    preprocess(example)
    (output:) ['hello love swimming', 'good cook', 'contact']
    """
    result = []
    others = ["'s", "the", "that", "this", "to", "-PRON-"]
    # comment: "-PRON-" is a lemma for "my", "your", etc.

    # function
    for sent in text:
        # <string methods>
        sent = str(sent).lower()
        
        # <regex>
        sent = re.sub(r"(F|f)acebook", "redes sociales", sent)
        sent = re.sub(r"(T|t)witter", "redes sociales", sent)
        sent = re.sub(r"(I|i)nstagram", "redes sociales", sent)
        
        result_sent = []
        
        # <spaCy>
        doc = nlp(sent)
        entities = [str(ent) for ent in doc.ents if ent.label_ in avoid_entities]
                   # This helps to detect names of persons, organization and dates
        for token in doc:            
            if (token.like_email or
                token.like_url or
                token.pos_ in irrelevant_pos or
                str(token) in entities or
                str(token.lemma_) in others or
                len(token) < min_token_len):
                continue
            else:
                result_sent.append(token.lemma_)
        result.append(result_sent)
    return result

In [37]:
# Preprocess tweets
df['tweet_spacy_preprocess'] = preprocess(df['tweet'])

In [38]:
df[['tweet','tweet_clean','tweet_spacy_preprocess']]

Unnamed: 0,tweet,tweet_clean,tweet_spacy_preprocess
0,En serio somos eso los que queremos un México ...,"[serio, queremos, méxico, libre, andres, voz, ...","[serio, el, querer, uno, méxico, libre, tu, an..."
1,"Con todo! para defender la democracia, rueda ...","[defender, democracia, rueda, prensa, partido,...","[defender, el, democracia, rueda, prensa, part..."
2,¡Muy buenos días ☀️!\n\nLes comparto👇🏻 mi “Vid...,"[¡muy, buenos, días, ☀️, comparto👇🏻, “video, c...","[buen, día, compartir, mi, video, columno, opi..."
3,#ElINENoSeToca: 61% de mexicanos aprueba organ...,"[#elinenosetoca, 61, mexicano, aprueba, organi...","[elinenosetoca, 61%, mexicano, aprobar, organi..."
4,"Los tiranos ya movilizan a sus huestes, vamos ...","[tiranos, movilizan, huestes, vamos, tener, ir...","[el, tirano, movilizar, su, huest, tener, que,..."
...,...,...,...
995,@esnoticiaalesal Hay tanta maldad en el nalgas...,"[@esnoticiaalesal, tanta, maldad, nalgas, mead...","[@esnoticiaalesal, tanto, maldad, el, nalga, m..."
996,Para que marchen con más enjundia (acompañada ...,"[marchen, enjundia, acompañada, frucsi, torta,...","[que, enjundia, acompañado, frucsi, torta, com..."
997,Como les dolió enormemente la marcha del Domin...,"[dolió, enormemente, marcha, domingo, ahora, o...","[como, doler, el, marcha, domingo, organizar, ..."
998,#ElINENoSeToca https://t.co/7cgFCU9Ku4,[#elinenosetoca],[]


## 5. Referencias
- [Python String Methods](https://docs.python.org/3/library/stdtypes.html) in Python Documentation.
- [Text Preprocessing in NLP with Python codes](https://www.analyticsvidhya.com/blog/2021/06/text-preprocessing-in-nlp-with-python-codes/) by Deepanshi, in Analytics Vidhya.
- Librería de Python [*Natural Language Toolkit* - `NLTK`](https://www.nltk.org/index.html)
- Librería de Python [*Regular expression operations* - `re`](https://docs.python.org/3/library/re.html)
- Material público del curso [DSCI 575: Advanced Machine Learning](https://github.com/UBC-MDS/DSCI_575_adv-mach-learn) de UBC MDS.
- Python script [preprocess.py](https://github.com/vcuspinera/UBC_MDS_Capstone_BCStats/blob/master/src/data/preprocess.py) del Capstone project de UBC MDS y BC Stats, por Sukriti Trehan, Karanpal Singh, Carlina Kim y Victor Cuspinera.