# Sesgos en Data Science (Ética y Privacidad)

- Sesgos de selección: cuando los datos no son representativos de la información en general 

- Sesgos de confirmación: cuando los datos confirman nuestras espectativas. 

- Sesgos de medición: emerge de errores en la recolección de datos. 


Para poder identificar estos sesgos existen dos técnicas.
 1. Revisión por pares 
 2. Validación cruzada 
 
 El balanceo de datos se realiza para evitar que los modelos predictivos tengan sesgos debido a la mala representación de ciertas variables como edad y género, lo que podría afectar la equidad y precisión de los resultados.

In [1]:
import pandas as pd 
from sklearn.model_selection import train_test_split 
from sklearn.utils import resample 

In [2]:
data = pd.DataFrame({
    'edad': [22,45,36,29,58],
    'genero': ['F','M','M','F', 'M'],
    'contratado': [1,0,1,0,1]
})
data

Unnamed: 0,edad,genero,contratado
0,22,F,1
1,45,M,0
2,36,M,1
3,29,F,0
4,58,M,1


¿Qué técnica inicial se menciona para manejar los datos de manera separada según un atributo específico?

La técnica inicial mencionada es agrupar el DataFrame original por la columna género, lo cual permite analizar y manejar los datos de manera separada según este atributo.

In [3]:
agrupado = data.groupby('genero')

In [4]:
for nombre, grupo in agrupado: 
    print(nombre, grupo)

F    edad genero  contratado
0    22      F           1
3    29      F           0
M    edad genero  contratado
1    45      M           0
2    36      M           1
4    58      M           1


In [5]:
data_balanceada = pd.DataFrame()

¿Qué se logra al iterar sobre el grupo de datos agrupados por género durante el balanceo? 

Al iterar sobre el grupo de datos agrupados por género, se logra crear un conjunto de datos balanceado para cada género, mitigando problemas potenciales causados por el desbalance.

In [6]:
for nombre, grupo in agrupado:
    grupo_balanceado = resample(grupo,
                               replace=True,#selecciona los mismos registros multiples veces 
                               n_samples=10,#Total de 10 registros
                               random_state=123)
    data_balanceada = pd.concat([data_balanceada, grupo_balanceado])

In [7]:
data_balanceada #Contiene 20 registros, 10 femeninos y 10 masculinos

Unnamed: 0,edad,genero,contratado
0,22,F,1
3,29,F,0
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
0,22,F,1
3,29,F,0
3,29,F,0
0,22,F,1
