# Programa Ingenias+ Data Science

Ya dijimos previamente que un proyecto de data science tiene varias etapas:

1. Recolección de Datos
2. Exploración y Procesamiento de los datos
3. Modelado
4. Puesta en Producción

En la clase anterior, hicimos el analisis exploratorio de los datos y pudimos observar el tipo de datos que teniamos. Pudimos hacernos preguntas y ver algunos patrones. Todo ese conocimiento que adquirimos es útil para llevar a cabo la próxima parte de esta etapa: el procesamiento de los datos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

<font size=5>  🚀 Procesamiento de datos 👩🏽‍💻</font>

Una vez que visualizamos y exploramos el dataset tenemos una idea de como lucen nuestros datos. Es por eso que ahora debemos empezar a preparar nuestros datos para los siguientes pasos según lo que aprendimos de ellos y las preguntas que nos planteamos.

In [5]:
blackfriday = pd.read_csv('https://raw.githubusercontent.com/micaelakorol21/datasets/refs/heads/main/train.csv')

#### 1) TRANSFORMACION DE VARIABLES

- La mayoría de los algoritmos de machine learning no admiten `strings` como variables y requieren que las variables sean numericas. Por ese motivo, es necesario convertir las variables categoricas en su representación numerica. Para esto hay varias opciones que iremos viendo.

**`LabelEncoder()`**

In [2]:
from sklearn.preprocessing import LabelEncoder # Con Label encoder lo que hacemos es cambiar una categoria que tenia nombre por ejemplo de ciudades en que las ponga 0,1,2,3, ect

In [3]:
test_encoder = LabelEncoder() #Ejecutamos la función

In [6]:
blackfriday.loc[:, 'City_Category'] = test_encoder.fit_transform(blackfriday['City_Category'])

In [7]:
blackfriday.head(10)

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,0,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,0,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,0,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,0,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,2,4+,0,8,,,7969
5,1000003,P00193542,M,26-35,15,0,3,0,1,2.0,,15227
6,1000004,P00184942,M,46-50,7,1,2,1,1,8.0,17.0,19215
7,1000004,P00346142,M,46-50,7,1,2,1,1,15.0,,15854
8,1000004,P0097242,M,46-50,7,1,2,1,1,16.0,,15686
9,1000005,P00274942,M,26-35,20,0,1,1,8,,,7871


**`get_dummies()`**

In [8]:
# Convierte la columna "Gender" (que contiene valores categóricos como "M" y "F") en variables dummies (también llamadas variables ficticias o indicadores binarios).
pd.get_dummies(blackfriday, columns=["Gender"])

Unnamed: 0,User_ID,Product_ID,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,Gender_F,Gender_M
0,1000001,P00069042,0-17,10,0,2,0,3,,,8370,True,False
1,1000001,P00248942,0-17,10,0,2,0,1,6.0,14.0,15200,True,False
2,1000001,P00087842,0-17,10,0,2,0,12,,,1422,True,False
3,1000001,P00085442,0-17,10,0,2,0,12,14.0,,1057,True,False
4,1000002,P00285442,55+,16,2,4+,0,8,,,7969,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
550063,1006033,P00372445,51-55,13,1,1,1,20,,,368,False,True
550064,1006035,P00375436,26-35,1,2,3,0,20,,,371,True,False
550065,1006036,P00375436,26-35,15,1,4+,1,20,,,137,True,False
550066,1006038,P00375436,55+,1,2,2,0,20,,,365,True,False


In [9]:
pd.get_dummies(blackfriday["Gender"])

Unnamed: 0,F,M
0,True,False
1,True,False
2,True,False
3,True,False
4,False,True
...,...,...
550063,False,True
550064,True,False
550065,True,False
550066,True,False


In [10]:
blackfriday[['female', 'male']] = pd.get_dummies(blackfriday["Gender"])

In [11]:
blackfriday.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,female,male
0,1000001,P00069042,F,0-17,10,0,2,0,3,,,8370,True,False
1,1000001,P00248942,F,0-17,10,0,2,0,1,6.0,14.0,15200,True,False
2,1000001,P00087842,F,0-17,10,0,2,0,12,,,1422,True,False
3,1000001,P00085442,F,0-17,10,0,2,0,12,14.0,,1057,True,False
4,1000002,P00285442,M,55+,16,2,4+,0,8,,,7969,False,True


**`OneHotEncoder()`**

In [12]:
from sklearn.preprocessing import OneHotEncoder

In [13]:
blackfriday['Gender'].unique()

array(['F', 'M'], dtype=object)

In [14]:
gender_encoder = OneHotEncoder()

In [15]:
# Aprende los valores únicos de la columna "Gender" ("F" y "M") y los convierte en variables dummy (one-hot encoding).
gender_encoder.fit_transform(blackfriday[['Gender']]).toarray()
# El resultado no se asigna automáticamente a un DataFrame, y no incluye los nombres de las nuevas columnas.
# Convierte el resultado (una matriz dispersa por defecto) en un ndarray denso de NumPy para poder visualizarlo como una tabla.

array([[1., 0.],
       [1., 0.],
       [1., 0.],
       ...,
       [1., 0.],
       [1., 0.],
       [1., 0.]])

In [17]:
# gender_encoder.categories_ te muestra las categorías únicas encontradas por el OneHotEncoder
gender_encoder.categories_

[array(['F', 'M'], dtype=object)]

In [18]:
# Convierte las categorías identificadas por el OneHotEncoder en una lista de Python. ['F', 'M']
niveles = gender_encoder.categories_[0].tolist()

In [19]:
one_hot_gender = pd.DataFrame(gender_encoder.fit_transform(blackfriday[['Gender']]).toarray(), columns=niveles)
# Transforma la columna 'Gender' usando OneHotEncoder, convirtiendo las categorías en variables binarias.
# Convierte el resultado (una matriz NumPy) en un DataFrame de pandas.
# Asigna como nombres de columna los valores de niveles, por ejemplo ['F', 'M'].

In [20]:
one_hot_gender

Unnamed: 0,F,M
0,1.0,0.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,0.0,1.0
...,...,...
550063,0.0,1.0
550064,1.0,0.0
550065,1.0,0.0
550066,1.0,0.0


In [22]:
# Concatena columnas del DataFrame original blackfriday y el DataFrame one_hot_gender
new_df = pd.concat([blackfriday, one_hot_gender], axis=1)

In [23]:
new_df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,female,male,F,M
0,1000001,P00069042,F,0-17,10,0,2,0,3,,,8370,True,False,1.0,0.0
1,1000001,P00248942,F,0-17,10,0,2,0,1,6.0,14.0,15200,True,False,1.0,0.0
2,1000001,P00087842,F,0-17,10,0,2,0,12,,,1422,True,False,1.0,0.0
3,1000001,P00085442,F,0-17,10,0,2,0,12,14.0,,1057,True,False,1.0,0.0
4,1000002,P00285442,M,55+,16,2,4+,0,8,,,7969,False,True,0.0,1.0


**`binning`**

Binning (en español, discretización) es el proceso de agrupar valores numéricos continuos en intervalos o categorías. Es decir, convertir una variable cuantitativa (como la edad o el ingreso) en una variable cualitativa (binned) que representa rangos.


In [24]:
print(blackfriday.Age.min())
print(blackfriday.Age.max())

0-17
55+


In [25]:
# Intenta convertir los valores de la columna "Age" a números. El parámetro errors='coerce' indica que:
# Si hay valores que no pueden convertirse a número (como "26-35" o "36-45"), los reemplaza con NaN.
blackfriday["Age"] = pd.to_numeric(blackfriday["Age"], errors='coerce')

In [26]:
# Itento agrupar la columna "Age" en categorías de edad usando rangos (bins)
bin_age = [10, 17, 70, 80]
labels = ["Adolescente", "Adulto", "Anciano"]

age_categories = pd.cut(blackfriday["Age"], bins=bin_age, labels=labels)

In [27]:
age_categories

Unnamed: 0,Age
0,
1,
2,
3,
4,
...,...
550063,
550064,
550065,
550066,


Genero una columna de edad con variable numerica tipo entero a partir de los segmentos originales y además agrego

In [30]:
# Paso 1: mapear los rangos a un número representativo (como el punto medio del rango)
age_map = {
    '0-17': 14,
    '18-25': 21,
    '26-35': 30,
    '36-45': 40,
    '46-50': 48,
    '51-55': 53,
    '55+': 60
}
new_df["Age_num"] = new_df["Age"].map(age_map)

In [32]:
# Paso 2: crear categorías con pd.cut
bin_age = [10, 17, 49, 80]
labels = ["Adolescente", "Adulto", "Anciano"]
new_df["Age_cat"] = pd.cut(new_df["Age_num"], bins=bin_age, labels=labels)


In [33]:
new_df.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,female,male,F,M,Age_num,Age_cat
0,1000001,P00069042,F,0-17,10,0,2,0,3,,,8370,True,False,1.0,0.0,14,Adolescente
1,1000001,P00248942,F,0-17,10,0,2,0,1,6.0,14.0,15200,True,False,1.0,0.0,14,Adolescente
2,1000001,P00087842,F,0-17,10,0,2,0,12,,,1422,True,False,1.0,0.0,14,Adolescente
3,1000001,P00085442,F,0-17,10,0,2,0,12,14.0,,1057,True,False,1.0,0.0,14,Adolescente
4,1000002,P00285442,M,55+,16,2,4+,0,8,,,7969,False,True,0.0,1.0,60,Anciano
