Explicación breve de impureza de Gini, ejemplo del práctico de clase:  
  
Proceso visto en clase:
1) Calcular impureza de Gini de las variables "Sex" y "Pclase".(podrian se más)
2) Primero se calcula la impureza de Gini para cada categoria de la variable a evaluar, y luego se realiza un promedio ponderado para obtener la impureza de Gini para la variable. 
   Ejemplo: "Sex"  
   $$G_{sex}=\frac{N_f \cdot G_f+N_m \cdot G_m}{N_f+N_m}$$  
   
   en donde:  
   
   $N_f$ es la cantidad de muestras pertenecientes a la *"categoría femenino"* de la variable "$Sex$"   
   $N_m$ es la cantidad de muestras pertenecientes a la *"categoría masculino"* de la variable "$Sex$"  
   $G_f$ número de Gini para la *"categoría femenino"* de la variable "$Sex$"  
   $G_m$ número de Gini para la *"categoría masculino"* de la variable "$Sex$"  
     
   si '$sex$' fuera una variable '$x$' con $n$ categorias $G_x$ gini de la variable sería: 
   $$G_{x}=\frac{1}{N_x}\displaystyle\sum_{i=1}^{n}{N_n \cdot G_n}$$ 

    en donde:  
   
   $N_x$ es la cantidad total de muestras de la variable "$x$"   
   $N_n$ es la cantidad de muestras pertenecientes a la *"categoría n"* de la variable "$x$"  
   $G_n$ número de Gini para la *"categoría n"* de la variable "$x$"  
   $G_x$ número de Gini para la variable "$x$"    
     
     
3) Fórmula de Gini: (con esta fórmula se calcula el gini de cada categoria de la variable predictora)
   $$G_n=1-\displaystyle\sum_{i=1}^{Ny} (\frac{N_i}{Ny})^2$$
     
   en donde:    
     
   $Ny$ es la cantidad de categorías de "**$y$**"  
   $N_i$ es la cantidad de muestras pertenecientes a la "categoría $i$" de "**$y$**" para la "categoria $n$" de "$x$".  
   $G_n$ es la impuereza de gini para la "categoria $n$" de "$x$".

In [17]:
import pandas as pd
import numpy as np

Función impureza de gini:  
$$fgini('\text{nombre de y variable objetivo}','\text{lista de nombres de columnas x categoricas}',df\text{ dataframe})$$

In [18]:
def fgini(y: str, xs: list, df: pd.DataFrame)-> pd.DataFrame:
    """
    Calcula la impureza de Gini para n variables predictoras en un DataFrame.

    Parámetros:
    - y: Nombre de la variable objetivo.(debe ser categórica)
    - xs: Lista de nombres de las variables predictoras.(deben ser categóricas no hace falta que esten codificadas)
    - df: DataFrame que contiene las variables objetivo y predictoras.

    Devuelve:
    - DataFrame con las impurezas de Gini para cada variable predictora.
    """
    csy = df[y].unique() # Obtiene las categorías de la variable objetivo.
    G_xs = []   # Inicializa lista para almacenar las impurezas de Gini de cada variable predictora
    
    for x in xs:                 # Iterar sobre cada variable predictora
        csx = df[x].unique()    # Obtiene las categorías únicas de la variable predictora
        G_csx =[]   # Inicializa lista para almacenar las impurezas de Gini para cada categoría de la variable predictora. 
        N_csx = []  # Inicializa lista para almacenar número total de muestras para cada categoría de la variable predictora.
        for cx in csx:  # Itera sobre cada categoría de la variable predictora.
            y_cx = df[df[x] == cx][y]   # Seleccionar las muestras correspondientes a la categoría cx de la variable predictora
            Ncx = len(y_cx) # Cuenta el número de muestras en la categoría cx
            # Cuenta la cantidad de muestras para cada categoría de la variable objetivo en la categoría cx
            cx_csy = [(y_cx == cy).sum() for cy in csy] 
            Gcx = 1 - np.sum((np.array(cx_csy) / Ncx) ** 2) # Calcular la impureza de Gini para la categoría cx de la variable predictora
            N_csx.append(Ncx)   # Almacena el número de muestras para la categoría cx
            G_csx.append(Gcx)   # Almacena la impureza de Gini para la categoría cx
        
        Nx = np.sum(N_csx)  # Calcula el número total de muestras para la variable predictora x
        Gx = np.dot(G_csx, N_csx) / Nx  # Calcula la impureza de Gini ponderada para la variable predictora x
        G_xs.append(Gx) # Almacena la impureza de Gini para la variable predictora x
    # Crear un DataFrame con los resultados y establece la variable predictora como índice
    res = pd.DataFrame({'Variable': xs, 'Impureza de Gini': G_xs}).set_index("Variable") 
    return res  # Devuelve el DataFrame con las impurezas de Gini

Para probar la función y no usar el del practico, se utiliza el siguiente:  
Ejemplo de dataframe obtenido de esta [pagina](https://www.learndatasci.com/glossary/gini-impurity/#ComputationofGiniImpurityforasimpledataset), allí se calcula manualmente variable por variable. 

In [19]:
data1 ={
    'age' : ['youth', 'youth', 'middle_age', 'senior', 'senior', 'senior','middle_age', 'youth', 'youth', 'senior', 'youth', 'middle_age','middle_age', 'senior'],
    'income' : ['high', 'high', 'high', 'medium', 'low', 'low', 'low', 'medium','low', 'medium', 'medium', 'medium', 'high', 'medium'],
    'student' : ['no','no','no','no','yes','yes','yes','no','yes','yes','yes','no','yes','no'],
    'credit_rate' : ['fair', 'excellent', 'fair', 'fair', 'fair', 'excellent', 'excellent', 'fair', 'fair', 'fair','excellent', 'excellent', 'fair', 'excellent'],
    'default' : ['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes','yes', 'yes', 'yes', 'no']
}
df1 = pd.DataFrame (data1, columns=data1.keys())
df1.head()

Unnamed: 0,age,income,student,credit_rate,default
0,youth,high,no,fair,no
1,youth,high,no,excellent,no
2,middle_age,high,no,fair,yes
3,senior,medium,no,fair,yes
4,senior,low,yes,fair,yes


"default" es la variable objetivo "y", y las demás son las predictoras.

Según los cálculos de la página, los gini de cada variable son:  
    
Gini for age is 0.343  
Gini for income is 0.440  
Gini for student is 0.367  
Gini for credit_rate is 0.429  

Cálculo con la función fgini.

In [20]:
fgini('default',['age','income','student','credit_rate'], df1)

Unnamed: 0_level_0,Impureza de Gini
Variable,Unnamed: 1_level_1
age,0.342857
income,0.440476
student,0.367347
credit_rate,0.428571


Otra forma de mostrar el resultado

In [21]:
fgini('default',['age','income','student','credit_rate'], df1).T

Variable,age,income,student,credit_rate
Impureza de Gini,0.342857,0.440476,0.367347,0.428571


queda utilizar la función para comprobar la del práctico.