# **Árboles de decisión usando el índice de Gini**

## **Fórmulas**

En esta sección se presenta un ejercicio cuyo objetivo es ilustrar, paso a paso, la construcción de árboles de decisión utilizando el índice de Gini como criterio de partición. Para comenzar, se introducirán las fórmulas clave necesarias para desarrollar el ejercicio de manera clara y estructurada.


1. **Índice de Gini para una clase en particular:**

   $$Gini(p) = 1 - \sum_{i=1}^n p_i^2$$

   Donde $ p_i$ es la proporción de observaciones de la clase \( i \) en el nodo.

2. **Índice de Gini para una partición (nodo con varias clases):**

   $$Gini(\text{Nodo}) = 1 - \sum_{i=1}^C \left( \frac{n_i}{N} \right)^2$$

   Donde:
   - $ C $ es el número de clases.
   - $ n_i $ es el número de observaciones de la clase \( i \) en el nodo.
   - $N$ es el número total de observaciones en el nodo.

3. **Ganancia de información para el índice de Gini :**

   $$Gini_{\text{split}} = \frac{N_{\text{1}}}{N} \cdot Gini(\text{Nodo}_{\text{1}}) + \frac{N_{\text{2}}}{N} \cdot Gini(\text{Nodo}_{\text{2}})$$

   Donde:
   - $ Gini(\text{Nodo}_{\text{1}})$ y $ Gini(\text{Nodo}_{\text{2}}) $ son los índices de Gini de las diferentes categorías perteneceintes a la clase.
   - $N_{\text{1}}$ y $N_{\text{2}}$ son las cantidades de observaciones de cada categoría.
   - $N$ es el número total de observaciones en el nodo padre.


## **Ejemplo**

Para el ejemplo, consideremos la Tabla 1, que representa una muestra de 10 observaciones. El objetivo es determinar si un individuo tiene la posibilidad de convertirse en astronauta, basándonos en las características(variables) disponibles.

<div align="center">

|  `Age`  | `Like Dogs` | `Like Gravity` | `Gonna Be an Astronaut` |
|:-------:|:-----------:|:--------------:|:-----------------------:|
|   24    |      0      |       0        |            0           |
|   30    |      1      |       1        |            1           |
|   36    |      0      |       1        |            1           |
|   36    |      0      |       0        |            0           |
|   42    |      0      |       0        |            0           |
|   44    |      1      |       1        |            1           |
|   46    |      1      |       0        |            0           |
|   47    |      1      |       1        |            1           |
|   47    |      0      |       1        |            1           |
|   51    |      1      |       1        |            0           |

*Tabla 1: Muestra de datos para determinar si un individuo será astronauta.*

</div>


En este caso, **`Gonna Be an Astronaut`** es la variable dependiente (objetivo), mientras que las demás variables son independientes (explicativas). Cabe destacar que la variable objetivo es de tipo binario, mientras que entre las variables explicativas tenemos dos de tipo binario (**`Like Dogs`** y **`Like Gravity`**) y una de tipo numérico (**`Age`**). En total, hay 10 observaciones.
El paso a seguir es encontrar el índice de Gini para cada de una de las variables explicativas.

**Nota**: Aunque el ejercicio utiliza valores binarios (0 y 1), para facilitar la explicación y mejorar la claridad, emplearemos las etiquetas **SI** y **NO**, donde **SI** representa el valor 1 y **NO** representa el valor 0.

### **Paso 1: Evaluación del cambio de impureza para cada característica (variable)**

#### **Variable 1: Age**

Nótese que esta variable es de tipo numérico. Por lo tanto, antes de calcular los índices correspondientes, es necesario definir los umbrales que representarán las condiciones o categorías que caracterizan esta variable.

Para esto, aplicaremos la siguiente fórmula (La cual está asociada a la mediana)

$$ Umbral = \frac{x_i + x_{(i+1)}}{2} $$



Así, obtenemos entonces los siguientes valores: $$27, 33, 36, 39, 43, 45, 46.5, 47, 49$$

Para calcular el índice de Gini en función de cada umbral, seguiremos una serie de pasos estructurados para determinar cuál umbral minimiza la impureza. Los pasos son los siguientes:

1. **Definir el umbral**: Seleccionar un valor que sirva como punto de partición para dividir las observaciones en dos grupos.

2. **Dividir los datos en dos grupos según el umbral**:
   - Grupo 1: Observaciones donde la edad es menor que el umbral.
   - Grupo 2: Observaciones donde la edad es mayor o igual al umbral.

3. **Contar las observaciones en cada grupo**:
   - Determinar cuántas observaciones pertenecen a cada grupo.

4. **Clasificar las observaciones por clase en cada grupo**:
   - Contar cuántas observaciones tienen la clase **SI (1)** y cuántas tienen la clase **NO (0)** en la variable objetivo binaria.

5. **Calcular el índice de Gini para cada grupo**:
   - Aplicar la fórmula del índice de Gini en cada grupo considerando las proporciones de las clases **SI** y **NO**.

6. **Calcular el índice de Gini ponderado para el umbral**:
   - Combinar los índices de Gini de ambos grupos ponderándolos por el número de observaciones en cada grupo.

Este procedimiento se aplica para cada posible umbral, y el umbral con la mayor reducción de impureza será el seleccionado para dividir los datos. Veamos a continuación el desarrollo para cada umbral. 

![TREE DECISION.png](<attachment:TREE DECISION.png>)

En este caso el umbral con el menor índice de Gini es **27**. En caso de un empate entre varios umbrales, se seleccionará el primero que alcance dicho valor. Sigamos con las demás variables.

#### **Variable 2: Like Dogs**

Ahora, continuamos con la segunda característica/variable (**`Like Dogs`**), la cual es de tipo binario. El procedimiento es similar al utilizado con la variable numérica, pero en este caso trabajamos directamente con los dos posibles valores: **SI** (1) y **NO** (0). Los pasos son los siguientes:

1. **Dividir los datos según los valores de la variable binaria**:
   - Grupo 1: Observaciones donde **`Like Dogs`** es **SI** (1).
   - Grupo 2: Observaciones donde **`Like Dogs`** es **NO** (0).

2. **Contar las observaciones en cada grupo**:
   - Determinar cuántas observaciones pertenecen a cada grupo.

3. **Clasificar las observaciones por clase en cada grupo**:
   - Contar cuántas observaciones tienen la clase objetivo **SI (1)** y cuántas tienen la clase **NO (0)** en cada grupo.

4. **Calcular el índice de Gini para cada grupo**:
   - Aplicar la fórmula del índice de Gini en cada grupo considerando las proporciones de las clases **SI** y **NO** en la variable objetivo.

5. **Calcular el índice de Gini ponderado**:
   - Combinar los índices de Gini de ambos grupos, ponderándolos por el número de observaciones en cada grupo.

6. **Seleccionar la división óptima**:
   - La división que genere el menor índice de Gini representará la partición más pura basada en la variable **`Like Dogs`**.

Con este análisis, evaluamos cómo la variable binaria **`Like Dogs`** contribuye a reducir la impureza en comparación con otras características.

![uno.png](attachment:uno.png)

#### **Variable 3: Like gravity**

Ahora, para la última variable (`Like gravity`) procedemos de la misma manera que con la anterior variable.

![dos.png](attachment:dos.png)

Después de analizar el cambio de impureza para cada variable, se observa que el menor valor corresponde a la variable **`Like Gravity`** (0,17). Por lo tanto, esta será seleccionada como nuestro nodo padre. Además, dentro de este nodo padre, identificamos un nodo puro, que se caracteriza por tener un índice de Gini igual a 0. Esto significa que, del lado de la clase **NO**, se puede establecer directamente que **`Gonna Be an Astronaut`** es igual a **NO**. Es decir, si no te gusta la gravedad, no serás astronauta.

### **Paso 2: Construcción del árbol luego de haber encontrado el nodo padre**

Para continuar con la construcción del árbol, seguimos estos pasos:

1. **Filtrar las observaciones correspondientes a la clase **SI** en la variable `Like Gravity`**:
   - Esto crea un subconjunto de datos (nodo no nulo) donde solo se consideran las observaciones en las que **`Like Gravity`** es **SI**.

2. **Repetir el proceso de partición**:
   - Aplicar los mismos pasos que en la etapa anterior: evaluar el cambio de impureza para las variables restantes y seleccionar la mejor partición para dividir aún más el nodo actual.

Este enfoque iterativo garantiza que el árbol se construya de manera óptima, dividiendo en cada nivel de acuerdo con la variable que maximice la pureza del nodo resultante.

Teniendo en cuenta lo anterior, la nueva tabla para realizar los cálculos queda de la siguiente manera:

<div align="center">

|  `Age`  | `Like Dogs` | `Gonna Be an Astronaut` |
|:-------:|:-----------:|:-----------------------:|
|   30    |      1      |            1           |
|   36    |      0      |            1           |
|   44    |      1      |            1           |
|   47    |      1      |            1           |
|   47    |      0      |            1           |
|   51    |      1      |            0           |

*Tabla 2: Muestra filtrada por observaciones donde **SI (1)** les gusta la gravedad.*

</div>


#### **Variable 1: Age**

Procedemos de manera similar al **Paso 1**, con la diferencia de que los umbrales cambian debido a que ahora trabajamos únicamente con las 6 observaciones filtradas del nodo anterior. Este ajuste garantiza que los cálculos sean específicos para el subconjunto de datos resultante y continúen optimizando la partición en función del índice de Gini.

![cuatro.png](attachment:cuatro.png)

En este caso, el umbral con el índice de Gini más bajo es `Umbral 45,5` (**0,22**)

#### **Variable 2: Like dogs**

Ahora, analizaremos la variable **`Like Dogs`** tras la filtración realizada en el nodo padre.

![tres.png](attachment:tres.png)

Nótese que el índice de Gini para esta variable es igual a **0,17**

En este paso, observamos que la variable con el menor índice de Gini es **`Like Dogs`**. Por lo tanto, esta variable se selecciona como el siguiente nodo del árbol, ya que permite una mayor reducción en la impureza del nodo actual y contribuye a una partición más pura en el árbol de decisión.


### **Paso 3: Construcción del árbol final**

Ahora, al filtrar los datos según la variable **`Like Dogs`**, observamos que solo queda una característica disponible, la cual es la **edad**. Por lo tanto, esta se convierte en el siguiente nodo del árbol. Este nodo se genera a partir de la clase **NO** de la variable **`Like Dogs`**, dado que la clase **SI** es un nodo hoja. En este caso, se define que si **te gusta la gravedad** y **te gustan los perros**, entonces **sí vas a ser astronauta**.

Finalmente, dado que el umbral con el menor índice de Gini es **45,5**, la edad se utiliza como criterio de partición. La edad menor a **45,5** se convierte en el siguiente nodo, donde ambas clases derivadas se convierten en nodos hoja:

1. **Clase SI (Nodo hoja)**:
   - Si **te gusta la gravedad**, **no te gustan los perros**, pero **tienes menos de 45,5 años**, entonces **vas a ser astronauta**.

2. **Clase NO (Nodo hoja)**:
   - Si **te gusta la gravedad**, **no te gustan los perros**, pero **tienes más de 45,5 años**, entonces **no vas a ser astronauta**.


![cinco.png](attachment:cinco.png)

Finalmente, así se completa la construcción del árbol de decisión, asegurando que cada nodo optimice la pureza en función de las variables disponibles.