# Data Cleaning.

In [1]:
import pandas as pd

from src.cleaning_functions import *

from src.text_functions import *

## Nike data.

In [2]:
nike = pd.read_csv('data/nike.csv')

In [3]:
nike_tw = pd.DataFrame(nike.text)

### Exploración inicial de los datos:

In [4]:
nike_tw.shape

(29804, 1)

In [5]:
nike_tw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29804 entries, 0 to 29803
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    29804 non-null  object
dtypes: object(1)
memory usage: 233.0+ KB


In [6]:
nike_tw.describe()

Unnamed: 0,text
count,29804
unique,29276
top,@whatudohazz nike
freq,59


In [7]:
nike_tw.isnull().sum()  # No existen nulos.

text    0
dtype: int64

In [8]:
nike_tw.duplicated().sum() # Encontramos 528 valores duplicados.

528

In [9]:
drop_duplicates(nike_tw) # Eliminamos los valores duplicados.

In [10]:
nike_tw.shape

(29276, 1)

### Preparing Data.

**Limpieza básica:**
- Pasamos todo a minúsculas.
- Eliminamos usuarios ('@ + user' ya que en principio el nombre de los usuarios no aporta información relevante para el modelo).
- Eliminamos urls.
- Eliminamos valores no alfabéticos: # (aunque manteniendo el texto que viene después ya que puede contener información relevante), números...

Esta limpieza se ejecutará a través de nuestra función `basic_cleaning()`.

In [11]:
nike_tw.head()

Unnamed: 0,text
0,@ZubyMusic @LPMisesCaucus Nobody cares about N...
1,@PoojaPraharaj @IndiainUkraine @PMOIndia @MEAI...
2,@DocumentWomen Nike Okundaye. Also knowns Nike...
3,Day 4 of #maxmadness #AirMaxMonth \nNike Air M...
4,@MagMr44 @soleguru @nikestore @Nike @SneakerAd...


In [12]:
nike_tw = pd.DataFrame(nike_tw.text.apply(basic_cleaning))

In [13]:
nike_tw.head()

Unnamed: 0,text
0,nobody cares about nike in russia russia is al...
1,ye green nike hoodie waala two weeks pehle put...
2,nike okundaye also knowns nike twins seven sev...
3,day four of air max month nike air max nine ze...
4,thank you sir


### Generamos subsets.

En esta primera versión de la herramienta construiremos el mapa de posicionamiento en base a dos atributos de marca (variables): calidad y precio. Estos son los dos atributos básicos más utilizados de manera general en los mapas de posicionamiento (los mapas más sofisticados introducen ya otros atributos más específicos).

Para poder completar el proceso de mapeo, lo primero que debemos hacer es dividir los datos (tweets recopilados) en dos subsets: los que hacen referencia al precio y los que hacen referencia a la calidad. Una vez subdivididos, ya podremos introducir los datos en el modelo NLP para evaluar el sentimiento en cada subset.

La subdivisión nos permite diferenciar el sentimiento de los tweets que hablan del precio, del sentimiento en torno a la calidad general de la marca en cuestión. Esto es lo que haremos en esta etapa del proceso, en este caso sobre los tweets que mencionan a Nike.

In [15]:
nike_tw['brand_attribute'] = nike_tw['text'].apply(data_groups)

In [16]:
nike_tw.head()

Unnamed: 0,text,brand_attribute
0,nobody cares about nike in russia russia is al...,quality
1,ye green nike hoodie waala two weeks pehle put...,quality
2,nike okundaye also knowns nike twins seven sev...,quality
3,day four of air max month nike air max nine ze...,quality
4,thank you sir,quality


In [17]:
nike_tw.brand_attribute.value_counts()

quality    23942
price       5334
Name: brand_attribute, dtype: int64

## Adidas data.

In [18]:
adidas = pd.read_csv('data/adidas.csv')

In [19]:
adidas_tw = pd.DataFrame(adidas.text)

### Exploración inicial de los datos:

In [20]:
adidas_tw.shape

(29816, 1)

In [21]:
adidas_tw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29816 entries, 0 to 29815
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    29816 non-null  object
dtypes: object(1)
memory usage: 233.1+ KB


In [22]:
adidas_tw.describe()

Unnamed: 0,text
count,29816
unique,29280
top,@whatudohazz nike
freq,60


In [23]:
adidas_tw.isnull().sum()  # No existen nulos.

text    0
dtype: int64

In [24]:
adidas_tw.duplicated().sum() # Encontramos 528 valores duplicados.

536

In [25]:
drop_duplicates(adidas_tw) # Eliminamos los valores duplicados.

In [26]:
adidas_tw.shape

(29280, 1)

### Preparing Data.

**Limpieza básica:**
- Pasamos todo a minúsculas.
- Eliminamos usuarios ('@ + user' ya que en principio el nombre de los usuarios no aporta información relevante para el modelo).
- Eliminamos urls.
- Eliminamos valores no alfabéticos: # (aunque manteniendo el texto que viene después ya que puede contener información relevante), números...

Esta limpieza se ejecutará a través de nuestra función `basic_cleaning()`.

In [27]:
adidas_tw.head()

Unnamed: 0,text
0,@Coop8517 Because my lad is a div he won't wea...
1,"@shirtsinthshire beside wrong nameset, its lik..."
2,@ChefLerrie @Jakjakph1 Yes dude sa Adidas webs...
3,Footlocker is solely focusing on only selling ...
4,adidas Yeezy Boost 350 Pirate Black V1 (Infant...


In [28]:
adidas_tw = pd.DataFrame(adidas_tw.text.apply(basic_cleaning))

In [29]:
adidas_tw.head()

Unnamed: 0,text
0,because my lad is a div he won t wear adidas o...
1,beside wrong nameset its like fake shirts spac...
2,yes dude sa adidas website mismo yang link sa ...
3,footlocker is solely focusing on only selling ...
4,adidas yeezy boost three five zero pirate blac...


### Generamos subsets.

En esta primera versión de la herramienta construiremos el mapa de posicionamiento en base a dos atributos de marca (variables): calidad y precio. Estos son los dos atributos básicos más utilizados de manera general en los mapas de posicionamiento (los mapas más sofisticados introducen ya otros atributos más específicos).

Para poder completar el proceso de mapeo, lo primero que debemos hacer es dividir los datos (tweets recopilados) en dos subsets: los que hacen referencia al precio y los que hacen referencia a la calidad. Una vez subdivididos, ya podremos introducir los datos en el modelo NLP para evaluar el sentimiento en cada subset.

La subdivisión nos permite diferenciar el sentimiento de los tweets que hablan del precio, del sentimiento en torno a la calidad general de la marca en cuestión. Ahora llevaremos a cabo este proceso sobre los tweets que mencionan a Adidas.

In [30]:
adidas_tw['brand_attribute'] = adidas_tw['text'].apply(data_groups)

In [31]:
adidas_tw.head()

Unnamed: 0,text,brand_attribute
0,because my lad is a div he won t wear adidas o...,quality
1,beside wrong nameset its like fake shirts spac...,quality
2,yes dude sa adidas website mismo yang link sa ...,quality
3,footlocker is solely focusing on only selling ...,quality
4,adidas yeezy boost three five zero pirate blac...,price


In [32]:
adidas_tw.brand_attribute.value_counts()

quality    23943
price       5337
Name: brand_attribute, dtype: int64