# Preprocessing Data.

En el preprocesado de los datos (transformaciones necesarias para incluir los datos en el modelo NLP, más allá de la limpieza desarrollado anteriormente), podemos diferenciar cuatro etapas básicas:
- Tokenization: consiste en convertir los textos a objetos manejables por las librerías utilizadas.


- Stop words removal: eliminamos las palabras clasificadas como *'stop words'* (palabras que aparecen comúnmente en los textos, pero que no aportan significado real en los mismos).


- Lemmatization or Stemming: en principio utilizaremos lemmatization ya que suele obtener mejores resultados, pero sería conveniente probar los dos métodos y evaluar cuál ofrece un mayor rendimiento.

Llevaremos a cabo estas transformaciones a partir de la función `preprocessing()` previamente definida en *' src / preprocessing_functions '* (la función incluye todos las trasformaciones de preprocesado).

A continuación se muestra el desarrollo de este proceso para nuestro dataset.


In [1]:
import pandas as pd

In [2]:
brand_tweets = pd.read_pickle('data/car_brands.pkl')

In [3]:
brand_tweets.shape

(41219, 4)

In [4]:
brand_tweets.isnull().sum()

text               0
hashtags           0
brand_attribute    0
brand              0
dtype: int64

In [5]:
from src.preprocessing_functions import *

In [6]:
brand_tweets['token'] = brand_tweets.text.apply(preprocessing)

In [7]:
brand_tweets.head()

Unnamed: 0,text,hashtags,brand_attribute,brand,token
0,i was told by bmw you need to replace the batt...,[],quality,bmw,"[told, bmw, need, replace, battery, approx, yr..."
1,a new listing for bmw e two eight m five engin...,[],quality,bmw,"[new, listing, bmw, e, engine, posted, race, p..."
2,he only led a few hundert meters at the austri...,[],quality,bmw,"[led, hundert, meter, austrian, gp, blew, migh..."
3,russians making bmw seeking missiles it s over...,[],quality,bmw,"[russian, making, bmw, seeking, missile, baltic]"
4,does anyone want to hati will just get doyoung...,[],quality,bmw,"[want, hati, doyoung, fortune, selca, gt, lt, ..."


Exportamos los datos para proceder al análisis de sentimiento.

In [8]:
brand_tweets.to_csv('data/car_brands_tokens.csv', index = False)

In [9]:
# Exportamos con pickle para mantener todas las propiedades del DataFrame.

brand_tweets.to_pickle('data/car_brands_tokens.pkl')