| **Inicio** | **atrás 23** | **Siguiente 25** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./23.K-means.ipynb)| [⏩](./25.Regresion_Log%C3%ADstica.ipynb)|

# **24. Impureza Gini**

## **Introducción**

La Impureza Gini es una medida utilizada en el árbol de decisiones para evaluar la calidad de una división en un conjunto de datos. Se calcula como la suma de la probabilidad de que un elemento pertenezca a una clase incorrecta, ponderada por la probabilidad de esa clase en el conjunto de datos.

Matemáticamente, la Impureza Gini se define como:

$Gini = 1 - ∑(i=1 to C) [p(i)^2]$

**Donde:**

* ```C``` es el número de clases
* ```p(i)``` es la proporción de la clase `i` en el conjunto de datos

Esta fórmula se utiliza para calcular la impureza de Gini en el contexto del árbol de decisión en Machine Learning. La impureza de Gini mide la probabilidad de que una muestra sea clasificada incorrectamente si se clasifica al azar según la distribución de las clases en el conjunto de datos. Cuanto más pequeña sea la impureza de Gini, más homogéneo será el conjunto de datos.

La Impureza Gini es una medida utilizada en Machine Learning para evaluar la calidad de una división en un conjunto de datos en el contexto de árboles de decisión.

En términos generales, la Impureza Gini mide qué tan homogéneo o impuro es un conjunto de datos. Una impureza de Gini baja indica que los elementos en un grupo son muy similares en términos de la variable objetivo que se está prediciendo. Por lo tanto, se espera que un modelo de árbol de decisión use una división que resulte en una impureza de Gini más baja.

Por ejemplo, supongamos que queremos predecir si un cliente compra o no un producto en función de su edad y salario. Tenemos un conjunto de datos que contiene información de 500 clientes. La tabla a continuación muestra la distribución de las clases de compra y no compra para diferentes valores de edad y salario:

```
Edad	Salario	       Compra	    No Compra
20	  20,000	 20	        10
20	  30,000	 40	        10
30	  20,000	 10	        40
30	  30,000	 30	        20
```

Para decidir cuál es la mejor variable para hacer la primera división en el árbol de decisión, podemos calcular la impureza de Gini para cada variable. Supongamos que usamos la variable de edad como la primera variable de división. Podemos calcular la impureza de Gini para cada rama:

* Para la rama donde la edad es igual o menor a 20:

$Gini = 1 - [(20/30)^2 + (10/30)^2] = 0.444$

* Para la rama donde la edad es mayor a 20:

$Gini = 1 - [(50/470)^2 + (420/470)^2] = 0.165$

En este caso, la impureza de Gini es menor para la rama donde la edad es mayor a 20, por lo que se consideraría una mejor división inicial para el árbol de decisión. De esta manera, se continuaría dividiendo el conjunto de datos en ramas más pequeñas hasta obtener hojas puras o casi puras.

## **Interpretación de la Impureza Gini**

Para interpretar la Impureza Gini en un ejemplo con un dataframe, primero necesitamos entender que la Impureza Gini es una medida utilizada en Machine Learning para evaluar la calidad de una división en un conjunto de datos en el contexto de árboles de decisión.

Supongamos que tenemos un conjunto de datos con una variable objetivo `"Target"` que tiene dos clases, `"A"` y `"B"`. Podemos calcular la Impureza Gini de la variable `"Target"` utilizando la siguiente fórmula:

$Gini = 1 - (p(A)^2 + p(B)^2)$

**Donde:** ```p(A)``` es la proporción de la clase `"A"` en el conjunto de datos y ```p(B)``` es la proporción de la clase `"B"` en el conjunto de datos.

Por ejemplo, consideremos el siguiente dataframe con la variable `"Target"`:

In [1]:
import pandas as pd

data = {'Feature': ['A', 'A', 'B', 'B', 'B', 'B', 'A', 'B', 'A', 'B'],
        'Target': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'B', 'A', 'A']}
df = pd.DataFrame(data)

La distribución de las clases `"A"` y `"B"` en la variable `"Target"` es la siguiente:

```
Class A: 4/10 = 0.4
Class B: 6/10 = 0.6

```

Podemos calcular la Impureza Gini de la variable `"Target"` utilizando la fórmula anterior:


$Gini = 1 - (0.4^2 + 0.6^2) = 0.48$

La Impureza Gini es de 0.48, lo que indica que el conjunto de datos es moderadamente impuro. Es decir, hay una probabilidad moderada de que una muestra sea clasificada incorrectamente si se clasifica al azar según la distribución de las clases en el conjunto de datos.

En resumen, la Impureza Gini es una medida importante en Machine Learning para evaluar la calidad de una división en un conjunto de datos. Una impureza de Gini baja indica que los elementos en un grupo son muy similares en términos de la variable objetivo que se está prediciendo.

La Impureza Gini es una medida de la homogeneidad o impureza de un conjunto de datos utilizado en Machine Learning. Puede ser utilizada en el contexto de árboles de decisión para evaluar la calidad de una división en un conjunto de datos.

Supongamos que tenemos un conjunto de datos con una variable objetivo binaria ```y``` y dos variables predictoras ```x1``` y ```x2```, y queremos evaluar la impureza de Gini para decidir qué variable usar como primera división en un árbol de decisión. Podemos calcular la impureza de Gini para cada variable de la siguiente manera:

In [4]:
import pandas as pd

data = pd.DataFrame({
    'x1': [1, 1, 1, 0, 0, 0, 1, 1],
    'x2': [0, 0, 1, 1, 1, 0, 1, 0],
    'y': [0, 0, 0, 0, 1, 1, 1, 1]
})

def gini_impurity(data, feature_col, target_col):
    gini = 0.0
    values = data[feature_col].unique()
    for value in values:
        subset = data[data[feature_col] == value]
        proportion = len(subset) / float(len(data))
        gini += proportion * sum(map(lambda x: (len(subset[subset[target_col] == x]) / float(len(subset)))**2, subset[target_col].unique()))
    return gini

gini_x1 = gini_impurity(data, 'x1', 'y')
gini_x2 = gini_impurity(data, 'x2', 'y')

print(f"Gini impurity of x1: {gini_x1:.3f}")
print(f"Gini impurity of x2: {gini_x2:.3f}")

Gini impurity of x1: 0.533
Gini impurity of x2: 0.500


En este ejemplo, el conjunto de datos tiene 8 filas y 3 columnas, donde ```x1``` y ```x2``` son variables predictoras binarias y ```y``` es la variable objetivo binaria. La función ```gini_impurity``` calcula la impureza de Gini para una variable dada utilizando la fórmula matemática. La salida del código es:

```
Gini impurity of x1: 0.533
Gini impurity of x2: 0.500

```

Ambas variables tienen la misma impureza de Gini, por lo que podríamos elegir cualquiera de ellas como la primera variable de división en el árbol de decisión.

## **Impureza Gini paso a paso**

Supongamos que tienes un conjunto de datos que contiene información sobre el género y la edad de un grupo de personas, y también si tienen o no un préstamo pendiente. Quieres evaluar la impureza Gini de la variable "género" para decidir si es una buena variable para usar en un modelo de aprendizaje automático.

Aquí está el conjunto de datos de ejemplo:

In [5]:
import pandas as pd

data = pd.DataFrame({
    'Gender': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F', 'F'],
    'Age': [28, 33, 21, 45, 19, 39, 31, 27, 22, 48, 25, 36],
    'Loan': [0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1]
})

Primero, calcula la proporción de muestras que pertenecen a cada género:

In [6]:
gender_counts = data['Gender'].value_counts()
total_count = len(data)

male_proportion = gender_counts['M'] / total_count
female_proportion = gender_counts['F'] / total_count

Luego, para cada género, calcula la proporción de muestras que tienen un préstamo pendiente:

In [7]:
male_loan_counts = data[data['Gender'] == 'M']['Loan'].value_counts()
male_loan_proportion = male_loan_counts[1] / sum(male_loan_counts)

female_loan_counts = data[data['Gender'] == 'F']['Loan'].value_counts()
female_loan_proportion = female_loan_counts[1] / sum(female_loan_counts)

Finalmente, calcula la impureza Gini para la variable "género" utilizando la fórmula:

In [9]:
gini_gender = 1 - male_proportion**2 - female_proportion**2 - male_loan_proportion * (1 - male_loan_proportion) - female_loan_proportion * (1 - female_loan_proportion)

print("Gini impurity of Gender:", gini_gender)

Gini impurity of Gender: 0.027777777777777762


In [10]:
import pandas as pd

data = pd.DataFrame({
    'x1': [1, 1, 1, 0, 0, 0, 1, 1],
    'x2': [0, 0, 1, 1, 1, 0, 1, 0],
    'y': [0, 0, 0, 0, 1, 1, 1, 1]
})

print(data)

   x1  x2  y
0   1   0  0
1   1   0  0
2   1   1  0
3   0   1  0
4   0   1  1
5   0   0  1
6   1   1  1
7   1   0  1


En este conjunto de datos, las variables ```x1``` y ```x2``` son las características o atributos, y la variable y es la variable objetivo o target.

A continuación, definimos una función ```gini_impurity``` que calcula la impureza Gini de una característica o atributo específico, dadas las columnas correspondientes del dataframe:

In [13]:
def gini_impurity(data, feature_col, target_col):
    gini = 0.0
    values = data[feature_col].unique()
    for value in values:
        subset = data[data[feature_col] == value]
        proportion = len(subset) / float(len(data))
        gini += proportion * sum(map(lambda x: (len(subset[subset[target_col] == x]) / float(len(subset)))**2, subset[target_col].unique()))
    return gini

Luego, llamamos a la función ```gini_impurity``` para calcular la impureza Gini de las características ```x1``` y ```x2```:

In [14]:
gini_x1 = gini_impurity(data, 'x1', 'y')
gini_x2 = gini_impurity(data, 'x2', 'y')

print(f"Gini impurity of x1: {gini_x1:.3f}")
print(f"Gini impurity of x2: {gini_x2:.3f}")

Gini impurity of x1: 0.533
Gini impurity of x2: 0.500


| **Inicio** | **atrás 23** | **Siguiente 25** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./23.K-means.ipynb)| [⏩](./25.Regresion_Log%C3%ADstica.ipynb)|