# Programa Ingenias+ Data Science

Ya dijimos previamente que un proyecto de data science tiene varias etapas:

1. Recolección de Datos
2. Exploración y Procesamiento de los datos
3. Modelado
4. Puesta en Producción

En la clase anterior, hicimos el analisis exploratorio de los datos y pudimos observar el tipo de datos que teniamos. Pudimos hacernos preguntas y ver algunos patrones. Todo ese conocimiento que adquirimos es útil para llevar a cabo la próxima parte de esta etapa: el procesamiento de los datos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

<font size=5>  🚀 Procesamiento de datos 👩🏽‍💻</font>

Una vez que visualizamos y exploramos el dataset tenemos una idea de como lucen nuestros datos. Es por eso que ahora debemos empezar a preparar nuestros datos para los siguientes pasos según lo que aprendimos de ellos y las preguntas que nos planteamos.

In [None]:
blackfriday = pd.read_csv('blackfriday.csv')

#### 1) TRANSFORMACION DE VARIABLES

- La mayoría de los algoritmos de machine learning no admiten `strings` como variables y requieren que las variables sean numericas. Por ese motivo, es necesario convertir las variables categoricas en su representación numerica. Para esto hay varias opciones que iremos viendo.

**`LabelEncoder()`**

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
test_encoder = LabelEncoder()

In [None]:
blackfriday.loc[:, 'City_Category'] = test_encoder.fit_transform(blackfriday['City_Category'])

In [None]:
blackfriday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,14.0,10.0,0,2,0,3,,,8370.0
1,1000001,P00248942,F,15.0,,0,2,0,1,6.0,14.0,15200.0
2,1000001,P00087842,,15.0,10.0,0,2,0,12,,,1422.0
3,1000001,P00085442,F,15.0,10.0,0,2,0,12,14.0,,1057.0
4,1000002,P00285442,M,60.0,16.0,2,4+,0,8,,,7969.0


**`get_dummies()`**

In [None]:
pd.get_dummies(blackfriday, columns=["Gender"])

Unnamed: 0,User_ID,Product_ID,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,Gender_F,Gender_M
0,1000001,P00069042,14.0,10.0,0,2,0,3,,,8370.0,1,0
1,1000001,P00248942,15.0,,0,2,0,1,6.0,14.0,15200.0,1,0
2,1000001,P00087842,15.0,10.0,0,2,0,12,,,1422.0,0,0
3,1000001,P00085442,15.0,10.0,0,2,0,12,14.0,,1057.0,1,0
4,1000002,P00285442,60.0,16.0,2,4+,0,8,,,7969.0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
537572,1004737,P00193542,43.0,16.0,2,1,0,1,2.0,,11664.0,0,1
537573,1004737,P00111142,37.0,16.0,2,1,0,1,15.0,16.0,19196.0,0,1
537574,1004737,P00345942,41.0,16.0,2,1,0,8,15.0,,8043.0,0,1
537575,1004737,P00285842,38.0,16.0,2,1,0,5,,,7172.0,0,1


In [None]:
pd.get_dummies(blackfriday["Gender"])

Unnamed: 0,F,M
0,1,0
1,1,0
2,0,0
3,1,0
4,0,1
...,...,...
537572,0,1
537573,0,1
537574,0,1
537575,0,1


In [None]:
blackfriday[['female', 'male']] = pd.get_dummies(blackfriday["Gender"])

In [None]:
blackfriday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,female,male
0,1000001,P00069042,F,14.0,10.0,0,2,0,3,,,8370.0,1,0
1,1000001,P00248942,F,15.0,,0,2,0,1,6.0,14.0,15200.0,1,0
2,1000001,P00087842,,15.0,10.0,0,2,0,12,,,1422.0,0,0
3,1000001,P00085442,F,15.0,10.0,0,2,0,12,14.0,,1057.0,1,0
4,1000002,P00285442,M,60.0,16.0,2,4+,0,8,,,7969.0,0,1


**`OneHotEncoder()`**

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
blackfriday['Gender'].unique()

array(['F', nan, 'M'], dtype=object)

In [None]:
gender_encoder = OneHotEncoder()

In [None]:
gender_encoder.fit_transform(blackfriday[['Gender']]).toarray()

array([[1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 1.],
       ...,
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.]])

In [None]:
gender_encoder.categories_

[array(['F', 'M', nan], dtype=object)]

In [None]:
niveles = gender_encoder.categories_[0].tolist()

In [None]:
one_hot_gender = pd.DataFrame(gender_encoder.fit_transform(blackfriday[['Gender']]).toarray(), columns=niveles)

In [None]:
one_hot_gender

In [None]:
new_df = pd.concat([blackfriday, one_hot_gender], axis=1)

In [None]:
new_df.head()

**`binning`**

In [None]:
print(blackfriday.Age.min())
print(blackfriday.Age.max())

14.0
74.0


In [None]:
bin_age = [10, 17, 70, 80]
labels = ["Adolescente", "Adulto", "Anciano"]

age_categories = pd.cut(blackfriday["Age"], bins=bin_age, labels=labels)

In [None]:
age_categories

0         Adolescente
1         Adolescente
2         Adolescente
3         Adolescente
4              Adulto
             ...     
537572         Adulto
537573         Adulto
537574         Adulto
537575         Adulto
537576         Adulto
Name: Age, Length: 537577, dtype: category
Categories (3, object): ['Adolescente' < 'Adulto' < 'Anciano']