# Sesgos en Data Science

Son distorsiones sistemáticas en los datos que pueden llevar a conclusiones erróneas o injustas. Pueden aparecer desde la recolección de datos hasta en los algoritmos de modelado.

## Tipos de sesgo

- **Sesgo de selección:** los datos no son representativos de la población general.

- **Sesgo de confirmación:** cuando se buscan o interpretan los datos de una manera que confirman nuestras expectativas o creencias previas.

- **Sesgo de medición:** Emerge de errores en la recolección de datos, o en la forma en que los medimos.

## Formas de mitigación

Como regla general, mantener un análisis crítico sobre la **fuente de los datos**, sobre los **métodos de recolección**, y sobre las **técnicas de análisis** de datos a emplear.

Adicionlmente, existen 2 técnicas utilizadas ampliamente en la comunidad científica:

- Revisión por pares (peer review)

- Validación cruzada (con diferentes conjuntos de datos)

## Caso de ejemplo para combatir el desbalanceo de datos

Supongamos que tenemos un conjunto de datos sobre contrataciones laborales, donde las variables de edad y sexo podrían estar introduciendo sesgos en un modelo predictivo por no estar bien balanceadas.

In [23]:
from typing import TypeAlias

import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.utils import resample

In [11]:
# type hinting
DataFrameGroupBy: TypeAlias = pd.core.groupby.generic.DataFrameGroupBy

In [4]:
ages: list[int] = [22, 45, 36, 29, 58]
sex: list[str] = ['F', 'M', 'M', 'F', 'M']
is_hired: list[bool] = [True, False, True, False, True]

df: pd.DataFrame = pd.DataFrame({
    'Age': ages,
    'Sex': sex,
    'Hired?': is_hired
})
df.head()

Unnamed: 0,Age,Sex,Hired?
0,22,F,True
1,45,M,False
2,36,M,True
3,29,F,False
4,58,M,True


Agrupemos a `df` por la columna `Sex`, lo cual va ser bastante útil para poder analizar y manejar los datos de manera separada, según ese atributo.

Este paso es **crucial** cuando los datos muestran diferentes distribuciones o características basadas en el sexo de la persona, que podrían influir en el análisis o en el modelo final.

In [12]:
grouped_df: DataFrameGroupBy = df.groupby('Sex')
grouped_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000224C81D5700>

In [19]:
for name, group in grouped_df:
    print('Female' if name == 'F' else 'Male')
    print(group)
    print('------------------')

Female
   Age Sex  Hired?
0   22   F    True
3   29   F   False
------------------
Male
   Age Sex  Hired?
1   45   M   False
2   36   M    True
4   58   M    True
------------------


In [20]:
balanced_data: pd.DataFrame = pd.DataFrame()

In [24]:
for name, group in grouped_df:
    balanced_group = resample(
        group,
        replace=True,
        n_samples=10,
        random_state=123
    )
    balanced_data = pd.concat([balanced_data, balanced_group])

In [25]:
balanced_data

Unnamed: 0,Age,Sex,Hired?
0,22,F,True
3,29,F,False
0,22,F,True
0,22,F,True
0,22,F,True
0,22,F,True
0,22,F,True
3,29,F,False
3,29,F,False
0,22,F,True
