# Balanceo de Datos

Supongamos que tenemos un conjunto de datos sobre contrataciones laborales. Como puedes ver, las variables `edad` y `género` pueden introducir sesgos en un modelo predictivo por no estar bien balanceadas. Entonces vamos a aplicar una técnica de balanceo.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.utils import resample

In [2]:
data = pd.DataFrame({
    'edad': [22, 45, 36, 29, 58],
    'género': ['F', 'M', 'M', 'F', 'M'],
    'contratado': [1, 0, 1, 0, 1]
})
data

Unnamed: 0,edad,género,contratado
0,22,F,1
1,45,M,0
2,36,M,1
3,29,F,0
4,58,M,1


Voy a comenzar agrupando el DataFrame original por la columna `género`, lo cual va a ser útil para analizar y manejar los datos de manera separada según este atributo. Este paso es crucial cuando los datos muestran, como en este caso, que hay diferentes distribuciones o características basadas en el género, que podrían influir en el análisis o modelo final.

In [3]:
agrupado = data.groupby('género')

La agrupación ya está hecha, y si sientes curiosidad por saber lo que contiene agrupado, te lo puedo mostrar de esta manera:

In [4]:
for nombre, grupo in agrupado:
    print(nombre, grupo)

F    edad género  contratado
0    22      F           1
3    29      F           0
M    edad género  contratado
1    45      M           0
2    36      M           1
4    58      M           1


Y ahora voy a balancear los Datos. Primero voy a generar un dataframe vacío para almacenar los datos balanceados:

In [5]:
data_balanceada = pd.DataFrame()

Y a continuación voy a escribir un **loop for** que itere sobre el grupo que he creado (la variable `agrupado` con los datos agrupados por género), para crear un conjunto de datos balanceado para cada género.

In [6]:
for nombre, grupo in agrupado:
    grupo_balanceado = resample(grupo, 
                               replace=True,
                               n_samples=10,
                               random_state=123)
    data_balanceada = pd.concat([data_balanceada, grupo_balanceado])

Veamos cómo ha quedado conformado el dataframe `data_balanceada`:

In [7]:
data_balanceada

Unnamed: 0,edad,género,contratado
0,22,F,1
3,29,F,0
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
3,29,F,0
3,29,F,0
0,22,F,1


Este código ha logrado crear un conjunto de datos donde cada género está igualmente representado, mitigando los problemas potenciales causados por el desbalance en el análisis posterior o el modelado predictivo.

Este enfoque, a la hora de entrenar el modelo para hacer predicciones, va a mejorar la equidad y la precisión, permitiendo que las decisiones basadas en estos modelos sean más justas y más confiables para todos los grupos representados en los datos.