# Preprocessing Data.

En el preprocesado de los datos (transformaciones necesarias para incluir los datos en el modelo NLP, más allá de la limpieza desarrollado anteriormente), podemos diferenciar cuatro etapas básicas:
- Tokenization: consiste en convertir los textos a objetos manejables por las librerías utilizadas.


- Stop words removal: eliminamos las palabras clasificadas como *'stop words'* (palabras que aparecen comúnmente en los textos, pero que no aportan significado real en los mismos).


- Lemmatization or Stemming: en principio utilizaremos lemmatization ya que suele obtener mejores resultados, pero sería conveniente probar los dos métodos y evaluar cuál ofrece un mayor rendimiento.

Llevaremos a cabo estas transformaciones a partir de la función `preprocessing()` previamente definida en *' src / preprocessing_functions '* (la función incluye todos las trasformaciones de preprocesado.

A continuación se muestra el desarrollo de este proceso para nuestro dataset.


In [1]:
import pandas as pd

In [2]:
brand_tweets = pd.read_pickle('data/sports_equipment_brands.pkl')

In [3]:
brand_tweets.shape

(72068, 4)

In [4]:
brand_tweets.isnull().sum()

text               0
hashtags           0
brand_attribute    0
brand              0
dtype: int64

In [5]:
from src.preprocessing_functions import *

In [6]:
brand_tweets['token'] = brand_tweets.text.apply(preprocessing)

In [7]:
brand_tweets.head()

Unnamed: 0,text,hashtags,brand_attribute,brand,token
0,nobody cares about nike in russia russia is al...,[],quality,nike,"[care, nike, russia, russia, adidas]"
1,ye green nike hoodie waala two weeks pehle put...,[],quality,nike,"[ye, green, nike, hoodie, waala, week, pehle, ..."
2,nike okundaye also knowns nike twins seven sev...,"[#womengiant, #Documentwomen]",quality,nike,"[nike, okundaye, knowns, nike, twin, seven, se..."
3,day four of maxmadness air max month nike air ...,"[#maxmadness, #AirMaxMonth, #airmaxgang, #kotd...",quality,nike,"[day, maxmadness, air, max, month, nike, air, ..."
4,thank you sir,[],quality,nike,"[thank, sir]"


Exportamos los datos para proceder al análisis de sentimiento.

In [8]:
brand_tweets.to_csv('data/sports_equipment_brands_tokens.csv', index = False)

In [9]:
# Exportamos con pickle para mantener todas las propiedades del DataFrame.

brand_tweets.to_pickle('data/sports_equipment_brands_tokens.pkl')