## Importaciones

Primero realizaremos las importaciones de librerias necesarias para el código

In [1]:
import pandas as pd
import re
import spacy
import re
import pickle
from emot.emo_unicode import UNICODE_EMOJI # For emojis
from emot.emo_unicode import EMOTICONS_EMO # For EMOTICONS

## Data Wrangling

Posteriormente cargamos el dataset con el cual vamos a trabajar y lo tratamos

In [2]:
df = pd.read_csv("data_final.csv")

Creamos una lista con los tweets usados, de la siguiente forma

In [3]:
lista_tweets = df["Tweet"].values.tolist()

### Limpiar caracteres innecesarios

In [4]:
def limpiar(texto):
    puntuación = r'[,;.:¡!¿?@#$%&[\](){}<>~=+\-*/|\\_^`"\'—━]'
    
    
    #links
    links = r'(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)'
    texto = re.sub(links, ' ', texto)
    
    # signos de puntuación
    texto = re.sub(puntuación, ' ', texto)
    
    # dígitos [0-9]
    texto = re.sub('\d', ' ', texto)

    return texto





### Función para quitar emojis

In [5]:
# 'Emoji_Dict.p'- download link https://drive.google.com/open?id=1G1vIkkbqPBYPKHcQ8qy0G2zkoab2Qv4v
with open('Emoji_Dict.p', 'rb') as fp:
    Emoji_Dict = pickle.load(fp)
Emoji_Dict = {v: k for k, v in Emoji_Dict.items()}

def desemojizar(text):
    for emot in Emoji_Dict:
        text = re.sub(r'('+emot+')', "_".join(Emoji_Dict[emot].replace(",","").replace(":","").split()), text)
    return text

### Normalizar

In [6]:

def normalizar(texto):
    # todo a minúsculas
    texto = texto.lower()

    # tildes y diacríticas
    texto = re.sub('á', 'a', texto)
    texto = re.sub('é', 'e', texto)
    texto = re.sub('í', 'i', texto)
    texto = re.sub('ó', 'o', texto)
    texto = re.sub('ú', 'u', texto)
    texto = re.sub('ü', 'u', texto)
    texto = re.sub('ñ', 'n', texto)

    return texto

### Tokenizar

In [7]:

nlp = spacy.load('es_core_news_sm')
def tokenizar(texto):
    # IMPORTANTE: podría devolver una lista vacía
    return [tóken for tóken in texto.split()]

### Función preprocesar que ejecuta todas las anteriores 

In [8]:
def preprocesar(texto):
    texto = limpiar(texto)
    texto = desemojizar(texto)
    texto = normalizar(texto)
    texto = tokenizar(texto)

    return texto

### Ejecutamos la función

In [9]:
attributes_container = []


for i in range(len(lista_tweets)):
        if i>200:
            break
        data_procesada = preprocesar(lista_tweets[i])
        attributes_container.append(data_procesada)

        

    

In [10]:
print(attributes_container)

[['ademas', 'no', 'no', 'puedo', 'darte', 'una', 'respuesta', 'con', 'toda', 'certeza', 'musito', 'cruzandose', 'de', 'brazos', 'en', 'defensa', 'propia', 'ante', 'tan', 'extrana', 'conversacion', 'no', 'queria', 'que', 'acabase', 'pero', 'tampoco', 'le', 'producia', 'comodidad', 'pero', 'se', 'que', 'hay', 'algo', 'mas', 'poderoso', 'que', 'mis', 'poderes', 'sanadores', '›'], ['comenzare', 'a', 'aplicar', 'la', 'de', 'respuesta', 'real', 'o', 'respuesta', 'generica'], ['juanest', 'ministerio', 'tic', 'ya', 'tenemos', 'tu', 'comunicacion', 'via', 'mensaje', 'privado', 'juanest', 'queremos', 'ayudarte', 'con', 'tu', 'requerimiento', 'en', 'unos', 'momentos', 'uno', 'de', 'nuestros', 'expertos', 'estara', 'brindando', 'respuesta', 'al', 'requerimiento'], ['osvaldo', 'gimenez', 'buenas', 'noches', 'hoy', 'hace', 'exactamente', 'dias', 'que', 'estoy', 'esperando', 'una', 'respuesta', 'mas', 'amplia', 'al', 'estamos', 'trabajando', 'en', 'tu', 'caso'], ['xsparkoflight', 'black', 'es', 'la',

In [11]:
with open('lista_tweets.pickle', 'wb') as handle:  #writing bites 
    pickle.dump(attributes_container, handle, protocol=pickle.HIGHEST_PROTOCOL)