# Filtrado y preprocesamiento

En este notebook se realizará el filtrado y preprocesamiento de los tweets.

Se carga el archivo Excel que contiene los tweets en memoria

In [305]:
import pandas as pd

tweets_df = pd.read_csv("tweets.csv", encoding = "utf-8")

In [306]:
tweets_df.head()

Unnamed: 0,full_text,class
0,totalmente satisfecho x q resolvieron mi cons...,positivo
1,la atencion fue rapida y clara,positivo
2,me atendieron bien,positivo
3,fue muy rapido la atencion,positivo
4,por que me atendieron muy amablemente con buen...,positivo


In [307]:
tweets_df.shape

(13290, 2)

Se transforma el texto del tweet a minúsculas

In [308]:
tweets_df["text"] = tweets_df["full_text"]

In [309]:
tweets_df["text"] = tweets_df["text"].str.lower()

In [310]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,totalmente satisfecho x q resolvieron mi cons...
1,la atencion fue rapida y clara,positivo,la atencion fue rapida y clara
2,me atendieron bien,positivo,me atendieron bien
3,fue muy rapido la atencion,positivo,fue muy rapido la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atendieron muy amablemente con buen...


Mediante el uso de una expresión regular se eliminar los links y referencias a usuarios

In [311]:
import re

tweets_df["text"] = [re.sub(r"(?:\@|https?\://)\S+", "", text) for text in tweets_df["text"]]

In [312]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,totalmente satisfecho x q resolvieron mi cons...
1,la atencion fue rapida y clara,positivo,la atencion fue rapida y clara
2,me atendieron bien,positivo,me atendieron bien
3,fue muy rapido la atencion,positivo,fue muy rapido la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atendieron muy amablemente con buen...


Se reemplazan las vocales con signos diacrítos por vocales sin signos diacríticos.

In [313]:
intab = "áéíóúïü"
outtab = "aeiouiu"
trantab = str.maketrans(intab, outtab)

tweets_df["text"] = [text.translate(trantab) for text in tweets_df["text"]]

In [314]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,totalmente satisfecho x q resolvieron mi cons...
1,la atencion fue rapida y clara,positivo,la atencion fue rapida y clara
2,me atendieron bien,positivo,me atendieron bien
3,fue muy rapido la atencion,positivo,fue muy rapido la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atendieron muy amablemente con buen...


Se eliminan todos los caracteres que no estén en el alfabeto o sean espacios en blanco

In [315]:
tweets_df["text"] = tweets_df["text"].str.replace("[^a-zñ\s]", "")

In [316]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,totalmente satisfecho x q resolvieron mi cons...
1,la atencion fue rapida y clara,positivo,la atencion fue rapida y clara
2,me atendieron bien,positivo,me atendieron bien
3,fue muy rapido la atencion,positivo,fue muy rapido la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atendieron muy amablemente con buen...


Mediante el corpus en español de stop words de NLTK se eliminan estas palabras del texto de los tweets

In [317]:
#from nltk.corpus import stopwords

#stop = stopwords.words("spanish")
#tweets_df["text"] = tweets_df["text"].apply(lambda x: " ".join(x for x in x.split() if x not in stop))

In [318]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,totalmente satisfecho x q resolvieron mi cons...
1,la atencion fue rapida y clara,positivo,la atencion fue rapida y clara
2,me atendieron bien,positivo,me atendieron bien
3,fue muy rapido la atencion,positivo,fue muy rapido la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atendieron muy amablemente con buen...


Fase de stemming, se obtiene el raiz de cada una de las palabras de los textos de los tweets.

In [319]:
from nltk.stem.snowball import SnowballStemmer
st = SnowballStemmer('spanish')

tweets_df["text"] = tweets_df["text"].apply(lambda x: " ".join([st.stem(word) for word in x.split()]))

In [320]:
tweets_df.head()

Unnamed: 0,full_text,class,text
0,totalmente satisfecho x q resolvieron mi cons...,positivo,total satisfech x q resolv mi consult y x q la...
1,la atencion fue rapida y clara,positivo,la atencion fue rap y clar
2,me atendieron bien,positivo,me atend bien
3,fue muy rapido la atencion,positivo,fue muy rap la atencion
4,por que me atendieron muy amablemente con buen...,positivo,por que me atend muy amabl con buen actitud en...


Se guarda los tweets preprocesados en un Excel

In [321]:
tweets_df.to_csv("tweets_preprocessed.csv", encoding = "utf-8-sig", index = False)