# Equidad - Fairness - en el Aprendizaje Automático (ML) para problemas de clasificación


* En ML, un modelo es ***justo*** o ***tiene equidad*** si ***sus predicciones son independientes de un cierto conjunto de variables*** que consideramos ***sensibles*** (ejm-> genero, etnia, religión, edad, estado civil, orientación sexual, etc.)


* En problemas de clasificación, los modelos aprenden una función $h(X)$ para predecir una variable discreta $Y$, a partir de unas características conocidas $X$.


## Criterios de Equidad


* Se han definido 3 criterios de equidad (independencia, separación y suficiencia) para evaluar si un clasificador es justo; es decir, si sus predicciones no están influenciadas por alguna/s de las variables sensibles.


* Para evaluar estos 3 criterios consideraremos:

    + $X$: Conjunto de variables (características) que describen a un elemento.
    + $A$: Variable aleatoria protegida o sensible (genero, etnia, edad, etc.).
    + $h(X)$: Modelo de clasificación (función predictora).
    + $Y$: Predicción del clasificador (y_predict)
    + $T$: Target (y_true)
    

* Para ver un ejemplo de cálculo de estos criterios, usaremos el siguiente "dataset" de ejemplo donde:

    + $A -> genero$: toma los valores $\{'Hombre', 'Mujer'\}$
    + $T -> target$: es binario y toma los valores $\{0: negativo, 1: positivo\}$ 
    + $Y -> predicción$: es binario y toma los valores $\{0: negativo, 1: positivo\}$ 
    

|id|genero|T: target|Y: predicción|
|--|--|--|--|
|1|Hombre|1|1|
|2|Hombre|1|1|
|3|Mujer|0|0|
|4|Hombre|0|1|
|5|Mujer|1|0|
|6|Hombre|1|0|
|7|Hombre|1|1|
|8|Mujer|1|1|
|9|Hombre|0|0|
|10|Mujer|0|0|




### 1.- Independencia

* Decimos que las variables aleatorias $(Y,A)$ satisfacen la independencia si la variable sensible $A$ es estadísticamente independiente a la predicción $Y$.


$$P(Y=y \mid  A=a) = P(Y=y \mid  A=b)$$

#### ¿Cumple el criterio de Independencia?


* Evidentemente en cualquier caso real nunca van a ser las probabilidades iguales, por lo que hay que establecer un umbral $\epsilon$ en el que se considere que cumple o no el criterio de independencia.


* Por tanto el modelo cumple el criterio de independencia si:


$$\left | \  P(Y=y \mid  A=a) - P(Y=y \mid  A=b) \ \right | \leq  \epsilon$$


#### Ejemplo:


* *La probabilidad de ser clasificado por el algoritmo en cada uno de los grupos* $\{0: negativo, 1: positivo\}$ *es la misma para dos elementos (individuos) con características sensibles distinta*s $\{'Hombre', 'Mujer'\}$.


$$P(Y=1 \mid  A=Hombre) = P(Y=1 \mid  A=Mujer)$$


* $P(Y=1 \mid  A=Hombre) = \frac{4}{6} = \frac{4 \ predicción \ =1}{6 \ hombres} = 0.66$:

|id|genero|Y: predicción|
|--|--|--|--|
|1|Hombre|1|
|2|Hombre|1|
|4|Hombre|1|
|6|Hombre|0|
|7|Hombre|1|
|9|Hombre|0|

* $P(Y=1 \mid  A=Mujer) = \frac{1}{4} = \frac{1 \ predicción \ =1}{4 \ mujeres} = 0.25$:

|id|genero|Y: predicción|
|--|--|--|--|
|3|Mujer|0|
|5|Mujer|0|
|8|Mujer|1|
|10|Mujer|0|


* Por tanto:

$$ \frac{4}{6} \neq \frac{1}{4} \rightarrow 0.66 \neq 0.25$$



* De manera similar, podemos ver la independencia frente al target (y_true) para saber si la realidad esta sesgada:


$$P(T=t \mid  A=a) = P(T=t \mid  A=b)$$


$$P(T=1 \mid  A=Hombre) = P(T=1 \mid  A=Mujer)$$ 


$$\frac{4}{6} \neq \frac{2}{4} \rightarrow 0.66 \neq 0.5$$





### 2.- Separación


* Decimos que las variables aleatorias $(Y,A,T)$ satisfacen la separación si la variable sensible $A$ es estadisticamente independientes a la predicción $Y$ dado el valor objetivo $T$.


* "*La probabilidad de predecir un Verdadero Positivo y un Falso Positivo para cada grupo debe de ser la misma*".

$$P(Y=1 \mid T=1, A=a) = P(Y=1 \mid T=1, A=b)$$
$$P(Y=1 \mid T=0, A=a) = P(Y=1 \mid T=0, A=b)$$


* Una ligera "simplificación" de este criterio sería la de tomar solo la probablidad de Verdaderos Positivos, asumiendo que "elementos similares" deben de ser tratados por igual.

#### ¿Cumple el criterio de Separación?


* Una relajación del criterio de separación vendría dado por que la diferencia entre tasas no superase un determinado umbral $\epsilon$


$$\left | \  P(Y=1 \mid T=1, A=a) - P(Y=1 \mid T=1, A=b) \ \right | \leq  \epsilon$$



#### Ejemplo:


$$P(Y=1 \mid T=1, A=Hombre) = P(Y=1 \mid T=1, A=Mujer)$$


* $P(Y=1 \mid T=1, A=Hombre) = \frac{3}{4} = \frac{3 \ predicción \ = 1}{4 \ hombres \ target \ =1} = 0.75$:


|id|genero|T: target|Y: predicción|
|--|--|--|--|
|1|Hombre|1|1|
|2|Hombre|1|1|
|6|Hombre|1|0|
|7|Hombre|1|1|


* $P(Y=1 \mid T=1, A=Mujer) = \frac{1}{2} = \frac{1 \ predicción \ = 1}{2 \ mujeres \ target=1} = 0.5$:


|id|genero|T: target|Y: predicción|
|--|--|--|--|
|5|Mujer|1|0|
|8|Mujer|1|1|


* Por tanto:

$$ \frac{3}{4} \neq \frac{1}{2} \rightarrow 0.75 \neq 0.5$$


### 3.- Suficiencia


* Decimos que las variables aleatorias $(Y,A,T)$ satisfacen la suficiencia si la variable sensible $A$ es estadísticamente independiente al valor objetivo $T$ dada la predicción $Y$.


$$P(T=1 \mid Y=1, A=a) = P(T=1 \mid Y=1, A=b)$$


* Esto significa que la probabilidad de estar en realidad en cada uno de los grupos es la misma para dos individuos con características sensibles distintas dado que la predicción los englobe en el mismo grupo.


#### ¿Cumple el criterio de Suficiencia?


* Una relajación del criterio de suficiencia vendría dado por que la diferencia entre tasas no superase un determinado umbral $\epsilon$


$$\left | \  P(T=1 \mid Y=1, A=a) - P(T=1 \mid Y=1, A=b) \ \right | \leq  \epsilon$$


#### Ejemplo:


$$P(T=1 \mid Y=1, A=Hombre) = P(T=1 \mid Y=1, A=Mujer)$$



* $P(T=1 \mid Y=1, A=Hombre) = \frac{3}{4} = \frac{3 \ target = 1}{4 \ hombres \ prediccion \ =1} = 0.75$

|id|genero|T: target|Y: predicción|
|--|--|--|--|
|1|Hombre|1|1|
|2|Hombre|1|1|
|4|Hombre|0|1|
|7|Hombre|1|1|


* $P(T=1 \mid Y=1, A=Mujer) = \frac{1}{1} = \frac{1 \ target = 1}{1 \ Mujer \ prediccion \ =1} = 1.0$


|id|genero|T: target|Y: predicción|
|--|--|--|--|
|8|Mujer|1|1|


* Por tanto:

$$ \frac{3}{4} \neq \frac{1}{1} \rightarrow 0.75 \neq 1.0$$



<hr>

# IMPLEMENTACIÓN



In [1]:
import pandas as pd

# Definimos el Dataset de ejemplo
df_dataset = pd.DataFrame(
    {
        'Genero': ['Hombre', 'Hombre', 'Mujer', 'Hombre', 'Mujer', 'Hombre', 'Hombre', 'Mujer', 'Hombre', 'Mujer'],
        'y_true':    ['SI', 'SI', 'NO', 'NO', 'SI', 'SI', 'SI', 'SI', 'NO', 'NO'],
        'y_predict': ['SI', 'SI', 'NO', 'SI', 'NO', 'NO', 'SI', 'SI', 'NO', 'NO']}, 
    columns=['Genero', 'y_true', 'y_predict'])

df_dataset

Unnamed: 0,Genero,y_true,y_predict
0,Hombre,SI,SI
1,Hombre,SI,SI
2,Mujer,NO,NO
3,Hombre,NO,SI
4,Mujer,SI,NO
5,Hombre,SI,NO
6,Hombre,SI,SI
7,Mujer,SI,SI
8,Hombre,NO,NO
9,Mujer,NO,NO


In [45]:
from typing import Dict, List

import pandas as pd

from copy import deepcopy


OTHER = 'OTHER'

class Fairness():
    
    def __init__(self, fairness_params: Dict):
        self.fairness_params: Dict = fairness_params
            
            
    def fit_fairness(self, df_dataset: pd.DataFrame, sensitive_cols: List[str], target_col: str, predict_col: str) -> List[Dict]:
        
        predictions_values = df_dataset[predict_col].unique()
        for column in sensitive_cols:
            sensitive_values = df_dataset[column].unique()
            
            ####### TODO: implementar excepción de problema: target binario + variable binaria #######
            if (len(predictions_values) == 2 and len(sensitive_values) == 2):
                print('PROBLEMA: target binario + variable binaria')
            ####### TODO: implementar excepción de problema: target multiple + variable binaria #######
            elif(len(predictions_values) > 2 and len(sensitive_values) == 2):
                print('PROBLEMA: target multiple + variable binaria')
            ####### TODO: implementar excepción de problema: target binario + variable multiple #######
            elif(len(predictions_values) == 2 and len(sensitive_values) > 2):
                print('PROBLEMA: target multiple + variable binaria')
            ####### TODO: implementar excepción de problema: target multiple + variable multiple #######
            else:
                print('PROBLEMA: target multiple + variable multiple')
                
            for sensitive_value in sensitive_values:
                for prediction_value in predictions_values:
                    print("\n{} - {} - {}".format(column, sensitive_value, prediction_value))
                    df_process = deepcopy(df_dataset)
                    df_process.loc[df_process[column] != sensitive_value, column] = OTHER
                    df_process.loc[df_process[target_col] != prediction_value, target_col] = OTHER
                    df_process.loc[df_process[predict_col] != prediction_value, predict_col] = OTHER
                    independence = self.fit_independence(df=df_process, 
                                                         sensitive_col=column,
                                                         predict_col=predict_col,
                                                         ground_truth_label=prediction_value,
                                                         sensitive_values=[sensitive_value, OTHER])
                    print("Independence: {}\n".format(independence))
                    separation = self.fit_separation(df=df_process,
                                                     sensitive_col=column,
                                                     target_col=target_col,
                                                     predict_col=predict_col,
                                                     ground_truth_label=prediction_value,
                                                     sensitive_values=[sensitive_value, OTHER])
                    print("Separation: {}\n".format(separation))
                    sufficience = self.fit_sufficiency(df=df_process,
                                                       sensitive_col=column,
                                                       target_col=target_col,
                                                       predict_col=predict_col,
                                                       ground_truth_label=prediction_value,
                                                       sensitive_values=[sensitive_value, OTHER])
                    print("Sufficience: {}\n\n".format(sufficience))
            
            
        return [{'Sensitive_Feature': 'Genero', 'Sensitive_Value': 'Hombre', 'Target': 'SI', 
                 'Independence_score': 0.99, 'Separation_score': 0.88, 'Sufficiency_score': 0.77}, 
                {'Sensitive_Feature': 'Genero', 'Sensitive_Value': 'Hombre', 'Target': 'NO', 
                 'Independence_score': 0.91, 'Separation_score': 0.81, 'Sufficiency_score': 0.71}, 
                {'Sensitive_Feature': 'Genero', 'Sensitive_Value': 'Mujer', 'Target': 'SI', 
                 'Independence_score': 0.66, 'Separation_score': 0.55, 'Sufficiency_score': 0.44}, 
                {'Sensitive_Feature': 'Genero', 'Sensitive_Value': 'Mujer', 'Target': 'NO', 
                 'Independence_score': 0.61, 'Separation_score': 0.51, 'Sufficiency_score': 0.41}]
    
    def fit_independence(self, df: pd.DataFrame, sensitive_col: str, predict_col: str, 
                         ground_truth_label: str, sensitive_values: List[str]) -> int:
        """
        A-> Variable sensible
        Y-> Predicción
        P(Y=y∣A=a) == P(Y=y∣A=b)
        """
#         print(df)
#         print(df[df[sensitive_col]==sensitive_values[1]])
#         print(df[df[sensitive_col]==sensitive_values[1]].shape[0])
#         print(df[(df[sensitive_col]==sensitive_values[1]) & (df[predict_col]==ground_truth_label)])
#         print(df[(df[sensitive_col]==sensitive_values[1]) & (df[predict_col]==ground_truth_label)].shape[0])

        prob_a = (((df[(df[sensitive_col]==sensitive_values[0]) & 
                       (df[predict_col]==ground_truth_label)].shape[0])) / 
                  (df[df[sensitive_col]==sensitive_values[0]].shape[0]))
        prob_b = (((df[(df[sensitive_col]==sensitive_values[1]) & 
                       (df[predict_col]==ground_truth_label)].shape[0])) / 
                  (df[df[sensitive_col]==sensitive_values[1]].shape[0]))
        
        print('\tProb A = {}'.format(prob_a))
        print('\tProb B = {}'.format(prob_b))
        return abs(prob_a-prob_b)
    
    def fit_separation(self, df: pd.DataFrame, sensitive_col: str, target_col: str, predict_col: str,
                       ground_truth_label: str, sensitive_values: List[str]) -> int:
        """
        1 valor por ground_truth
        
        A-> Variable sensible
        Y-> Predicción
        T-> Target
        P(Y=1∣T=1,A=a)=P(Y=1∣T=1,A=b)
        """
        prob_a = ((df[(df[sensitive_col]==sensitive_values[0]) &
                      (df[target_col]==ground_truth_label) &
                      (df[predict_col]==ground_truth_label)]).shape[0] / 
                  (df[(df[sensitive_col]==sensitive_values[0]) &
                      (df[target_col]==ground_truth_label)]).shape[0])
        prob_b = ((df[(df[sensitive_col]==sensitive_values[1]) &
                      (df[target_col]==ground_truth_label) &
                      (df[predict_col]==ground_truth_label)]).shape[0] / 
                  (df[(df[sensitive_col]==sensitive_values[1]) &
                      (df[target_col]==ground_truth_label)]).shape[0])
        
        print('\tProb A = {}'.format(prob_a))
        print('\tProb B = {}'.format(prob_b))
        return abs(prob_a-prob_b)
    
    def fit_sufficiency(self, df: pd.DataFrame, sensitive_col: str, target_col: str, predict_col: str,
                       ground_truth_label: str, sensitive_values: List[str]) -> int:
        """
        A-> Variable sensible
        Y-> Predicción
        T-> Target
        P(T=1∣Y=1,A=a)=P(T=1∣Y=1,A=b)
        """
        prob_a = ((df[(df[sensitive_col]==sensitive_values[0]) &
                      (df[target_col]==ground_truth_label) &
                      (df[predict_col]==ground_truth_label)]).shape[0] / 
                  (df[(df[sensitive_col]==sensitive_values[0]) &
                      (df[predict_col]==ground_truth_label)]).shape[0])
        prob_b = ((df[(df[sensitive_col]==sensitive_values[1]) &
                      (df[target_col]==ground_truth_label) &
                      (df[predict_col]==ground_truth_label)]).shape[0] / 
                  (df[(df[sensitive_col]==sensitive_values[1]) &
                      (df[predict_col]==ground_truth_label)]).shape[0])
        
        print('\tProb A = {}'.format(prob_a))
        print('\tProb B = {}'.format(prob_b))
        return abs(prob_a-prob_b)
            

fairness = Fairness(fairness_params={})
fairness.fit_fairness(df_dataset=df_dataset, sensitive_cols=['Genero'], target_col='y_true', predict_col='y_predict')

PROBLEMA: target binario + variable binaria

Genero - Hombre - SI
	Prob A = 0.6666666666666666
	Prob B = 0.25
Independence: 0.41666666666666663

	Prob A = 0.75
	Prob B = 0.5
Separation: 0.25

	Prob A = 0.75
	Prob B = 1.0
Sufficience: 0.25



Genero - Hombre - NO
	Prob A = 0.3333333333333333
	Prob B = 0.75
Independence: 0.4166666666666667

	Prob A = 0.5
	Prob B = 1.0
Separation: 0.5

	Prob A = 0.5
	Prob B = 0.6666666666666666
Sufficience: 0.16666666666666663



Genero - Mujer - SI
	Prob A = 0.25
	Prob B = 0.6666666666666666
Independence: 0.41666666666666663

	Prob A = 0.5
	Prob B = 0.75
Separation: 0.25

	Prob A = 1.0
	Prob B = 0.75
Sufficience: 0.25



Genero - Mujer - NO
	Prob A = 0.75
	Prob B = 0.3333333333333333
Independence: 0.4166666666666667

	Prob A = 1.0
	Prob B = 0.5
Separation: 0.5

	Prob A = 0.6666666666666666
	Prob B = 0.5
Sufficience: 0.16666666666666663




[{'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Hombre',
  'Target': 'SI',
  'Independence_score': 0.99,
  'Separation_score': 0.88,
  'Sufficiency_score': 0.77},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Hombre',
  'Target': 'NO',
  'Independence_score': 0.91,
  'Separation_score': 0.81,
  'Sufficiency_score': 0.71},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Mujer',
  'Target': 'SI',
  'Independence_score': 0.66,
  'Separation_score': 0.55,
  'Sufficiency_score': 0.44},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Mujer',
  'Target': 'NO',
  'Independence_score': 0.61,
  'Separation_score': 0.51,
  'Sufficiency_score': 0.41}]

<hr>

# Ejemplo de aplicación real - Clasificación Binaria



## 1.- Lectura del Dataset

In [97]:
import pandas as pd

# Leemos el dataset
df = pd.read_csv('../../datasets/bodyPerformance.csv')
print('Tamaño del dataset {}'.format(df.shape))
df.sample(3)

Tamaño del dataset (13393, 12)


Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,class
9069,43.0,M,171.6,64.8,21.4,90.0,123.0,34.0,9.0,38.0,203.0,C
10757,49.0,M,178.0,76.6,16.7,88.0,135.0,49.5,18.1,36.0,170.0,B
12825,29.0,M,169.1,71.3,24.5,79.0,134.0,42.6,5.8,42.0,217.0,C


In [98]:
df['rango_edad'] = df['age'].apply(lambda x: 10 if x < 20 
                                   else (20 if (x >= 20 and x < 30) 
                                         else (30 if (x >= 30 and x < 40) 
                                               else (40 if (x >= 40 and x < 50) 
                                                     else (50 if (x >= 50 and x < 60) 
                                                           else 60)))))
df.sample(5)

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,class,rango_edad
5365,37.0,M,177.2,70.4,17.1,71.0,131.0,41.3,14.2,54.0,225.0,A,30
2106,26.0,F,162.7,51.4,22.5,57.0,106.0,22.7,15.7,40.0,191.0,B,20
3971,29.0,M,173.0,73.8,19.9,86.0,157.0,47.9,12.6,53.0,253.0,B,20
11443,63.0,F,153.6,58.2,37.7,65.0,122.0,22.4,25.0,18.0,120.0,C,60
12032,64.0,M,170.3,77.7,26.5,92.0,159.0,44.6,12.5,38.0,223.0,A,60


### Distribución del target por género

In [99]:
dfp = df.groupby(['gender', 'class'])['age'].agg({'count' : 'count'}).reset_index()
dfp['perc'] = dfp.groupby('gender')['count'].apply(lambda x: x*100/x.sum())
dfp

is deprecated and will be removed in a future version
  """Entry point for launching an IPython kernel.


Unnamed: 0,gender,class,count,perc
0,F,A,1484,30.125863
1,F,B,1185,24.056029
2,F,C,1112,22.574097
3,F,D,1145,23.244011
4,M,A,1864,22.014881
5,M,B,2162,25.534428
6,M,C,2237,26.42022
7,M,D,2204,26.030471


### Para clasificación binaria me quedo con las clases B y D

In [100]:
df = df[df['class'].isin(['B', 'D', 'A'])].rename({'class': 'y_true'}, axis=1)
print('Tamaño del dataset {}'.format(df.shape))
df.sample(5)

Tamaño del dataset (10044, 13)


Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,y_true,rango_edad
11288,23.0,M,164.3,65.9,25.3,80.0,119.0,36.9,16.6,49.0,219.0,B,20
1192,40.0,M,179.4,119.6,32.6,87.0,146.0,50.0,-2.6,37.0,164.0,D,40
4875,40.0,F,159.4,52.6,25.9,96.0,134.0,26.9,26.3,31.0,162.0,A,40
9290,25.0,M,177.3,78.0,17.3,86.0,144.0,42.5,29.0,49.0,224.0,B,20
4568,26.0,M,170.7,61.3,14.0,88.0,139.0,43.6,12.7,51.0,232.0,B,20


<hr>

## 2.- Modelo & Predicción

In [101]:
from sklearn.preprocessing import LabelEncoder

# Codificamos las variables discretas
lb_gen = LabelEncoder()
lb_y = LabelEncoder()
df['gender'] = lb_gen.fit_transform(df['gender'])
df['y_true'] = lb_y.fit_transform(df['y_true'])
df.sample(5)

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,y_true,rango_edad
7435,28.0,1,176.7,93.8,38.9,87.0,138.0,43.6,3.0,35.0,178.0,2,20
1527,26.0,0,159.3,59.4,33.8,82.0,121.0,26.6,25.3,45.0,166.0,0,20
12429,63.0,0,154.9,49.4,26.5,99.0,158.0,24.8,21.8,17.0,75.0,2,60
8516,26.0,1,174.6,72.3,24.0,67.0,125.0,43.4,16.7,48.0,243.0,1,20
12689,33.0,1,171.0,75.6,18.8,68.0,127.0,48.9,22.1,50.0,215.0,0,30


In [102]:
from sklearn.linear_model import LogisticRegression

# Creamos y entrenamos el modelo
model = LogisticRegression()
model.fit(df[df.columns[:-2]], df[df.columns[-2]])
print('Accuracy: {}'.format(model.score(df[df.columns[:-2]], df[df.columns[-2]])))

Accuracy: 0.7468140183193946


In [103]:
# Calculamos las predicciones
df['y_predict'] = model.predict(df[df.columns[:-2]])
df.sample(5)

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,y_true,rango_edad,y_predict
12447,58.0,1,175.7,81.5,24.4,98.0,156.0,41.8,18.8,36.0,210.0,1,50,1
3546,35.0,1,163.0,78.6,29.6,100.0,146.0,63.1,17.4,60.0,258.0,0,30,0
5905,46.0,0,158.1,58.5,31.9,79.0,121.0,20.7,10.6,23.0,151.0,2,40,2
7513,22.0,1,175.1,76.2,25.0,82.0,153.0,38.7,5.4,37.0,226.0,2,20,2
6912,27.0,1,174.7,73.0,20.0,65.0,100.0,43.4,6.5,35.0,202.0,2,20,2


In [104]:
# Deshacemos en LabelEncoder de la variable género, target y predicción
df['gender'] = lb_gen.inverse_transform(df['gender'])
df['y_true'] = lb_y.inverse_transform(df['y_true'])
df['y_predict'] = lb_y.inverse_transform(df['y_predict'])
df.sample(5)

  if diff:
  if diff:
  if diff:


Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,y_true,rango_edad,y_predict
10828,26.0,F,166.9,64.8,26.8,76.0,130.0,35.0,23.2,44.0,171.0,A,20,A
3278,23.0,F,157.0,56.8,33.6,85.0,120.0,26.4,24.8,48.0,165.0,B,20,A
10489,36.0,M,164.4,70.2,26.3,77.0,123.0,42.5,6.5,46.0,213.0,D,30,D
3618,22.0,M,184.3,74.5,18.6,66.0,125.0,35.4,0.6,54.0,222.0,D,20,D
11773,30.0,M,170.0,74.74,23.4,78.0,147.0,47.0,15.0,55.0,204.0,A,30,B


## 3.- Criterio de Independencia (Binario)

In [105]:
fairness = Fairness(fairness_params={})
fairness.fit_fairness(df_dataset=df, sensitive_cols=['rango_edad'], target_col='y_true', predict_col='y_predict')

PROBLEMA: target multiple + variable multiple

rango_edad - 20 - B
	Prob A = 0.21814806219540497
	Prob B = 0.25963382737576285
Independence: 0.041485765180357875

	Prob A = 0.47375886524822697
	Prob B = 0.5141972121837893
Separation: 0.040438346935562364

	Prob A = 0.7106382978723405
	Prob B = 0.6689053055742109
Sufficience: 0.041732992298129545



rango_edad - 20 - A
	Prob A = 0.4562543513576236
	Prob B = 0.35815170008718394
Independence: 0.09810265127043966

	Prob A = 0.8781565656565656
	Prob B = 0.7987528344671202
Separation: 0.07940373118944544

	Prob A = 0.7075279755849441
	Prob B = 0.6859785783836416
Sufficience: 0.021549397201302445



rango_edad - 20 - D
	Prob A = 0.32559758644697145
	Prob B = 0.3822144725370532
Independence: 0.05661688609008175

	Prob A = 0.9140684410646388
	Prob B = 0.9021632251720747
Separation: 0.011905215892564103

	Prob A = 0.8567355666429081
	Prob B = 0.8371350364963503
Sufficience: 0.019600530146557715



rango_edad - 30 - B
	Prob A = 0.2280959373470386

[{'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Hombre',
  'Target': 'SI',
  'Independence_score': 0.99,
  'Separation_score': 0.88,
  'Sufficiency_score': 0.77},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Hombre',
  'Target': 'NO',
  'Independence_score': 0.91,
  'Separation_score': 0.81,
  'Sufficiency_score': 0.71},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Mujer',
  'Target': 'SI',
  'Independence_score': 0.66,
  'Separation_score': 0.55,
  'Sufficiency_score': 0.44},
 {'Sensitive_Feature': 'Genero',
  'Sensitive_Value': 'Mujer',
  'Target': 'NO',
  'Independence_score': 0.61,
  'Separation_score': 0.51,
  'Sufficiency_score': 0.41}]