# Clase Tutorial 6: Decision Trees üå≥

## 1. Introducci√≥n

Los algoritmos de √Årboles de Decisi√≥n pertenecen al tipo de algoritmos de aprendizaje supervisado, y si bien pueden ser utilizados para regresiones, son principalmente utilizados en problemas de clasificaci√≥n.  
  
Existen varios tipos de √°rboles de decisi√≥n:

- √Årboles de decisi√≥n simples:  
    - **√Årboles de clasificaci√≥n:** realizan predicciones sobre una variable **categ√≥rica**  
    - **√Årboles de regresi√≥n:** realizan predicciones sobre una variable **cont√≠nua**   
    
    
- √Årboles de decisi√≥n basados en t√©cnicas de Ensamble:
    - **Bagging** 
    - **Random Forest**  
    - **Boosting**  
        - **Gradient Boosting**
        - **ADA Boost**  
        - **XG Boost**  

### √Årboles de Decisi√≥n Simples

A este tipo de √°rboles simples se lo suele llamar **CART** (**C**lassification and **R**egression **T**rees) o bien **ACR** (**√Å**rboles de **C**lasificaci√≥n y **R**egresi√≥n)
  
A continuaci√≥n veremos un ejemplo simple de la utilizaci√≥n de √°rboles de decisi√≥n para definir a partir del peso y la altura si una persona adulta es de sexo masculino o femenino.

<img style="float: center;" src="img/Ejemplo_CART.png">

Como podemos observar, un √°rbol de decisi√≥n no es m√°s que un conjunto de reglas:
* `If Altura > 180 cm Then Hombre`
* `If Altura <= 180 cm AND Peso > 80 kg Then Hombre`
* `If Altura <= 180 cm AND Peso <= 80 kg Then Mujer`

Por supuesto existen mujeres que miden m√°s de 1,80m o mujeres que pesen m√°s de 80 kg, pero es importante recordar que los modelos predictivos no buscan ser infalibles sino que buscan poder predecir o clasificar con un determinado grado de precisi√≥n que sea aceptable para el uso que se le quiere dar.

La tarea de los algoritmos de CART es justamente definir a partir de los datos de entrada cu√°l atributo es conveniente utilizar en cada nodo del √°rbol, y cu√°l es el punto de corte √≥ptimo en dicho nodo para realizar las particiones de forma tal de lograr obtener el √°rbol de clasificaci√≥n con la mayor precisi√≥n posible.


### Ventajas y Desventajas de los √Årboles de Decisi√≥n

#### üëç Ventajas
- Son f√°ciles de interpretar, y pueden ser representados gr√°ficamente.
- Pueden capturar patrones no lineales.
- Pueden manejar datos num√©ricos y categ√≥ricos. Pueden manejar variables categ√≥ricas sin necesidad de implementar one hot encoding.
- Requieren menos preparaci√≥n de los datos. No es necesario normalizar el dataset.

#### üëé Desventajas
- No son robustos ya que son muy sensibles a los cambios en el dataset. Un peque√±o cambio del dataset, puede generar un √°rbol completamente distinto.
- Tienen tendencia a sobreajuste (overfitting).
- La precisi√≥n suele disminuir para variables continuas.
- Existen otros modelos que presentan mayor precisi√≥n.
- Los √°rboles de decisi√≥n suelen verse muy afectados por datasets que no est√©n balanceados.
- El √≥ptimo global no est√° garantizado: dado que en cada paso se busca maximizar la ganancia de informaci√≥n, esta metodolog√≠a no necesariamente puede garantizar el resultado √≥ptimo global.

## 2. Marco Te√≥rico

Un √°rbol de decisi√≥n tiene la siguiente apariencia:

<img style="float: center;" src="img/Arboles-de-decision-001.png">  

  
Un √°rbol de decisi√≥n es una estructura similar a un diagrama de flujo, es por eso que los √°rboles de decisi√≥n son f√°ciles de entender e interpretar. Los √°rboles est√°n compuestos por las siguientes partes:
- Cada **Nodo de decisi√≥n** representa una caracter√≠stica (o atributo), 
- Cada **Rama** representa una regla de decisi√≥n. 
- Cada **nodo Hoja** representa el resultado.
- Al nodo superior en un √°rbol de decisi√≥n se lo conoce como el **nodo ra√≠z**.
- Al nodo del cual se desprenden otros nodos se lo llama **nodo padre** y a los nodos que se desprenden del nodo padre se los llama **nodos hijo**
- Cada rama que no sea un nodo hoja se la puede considerar como un **sub-√°rbol**.

### ü§î ¬øC√≥mo funcionan los algoritmos de √°rboles de decisi√≥n?
La idea b√°sica detr√°s de cualquier algoritmo de √°rbol de decisi√≥n es ir particionando la poblaci√≥n inicial en poblaciones m√°s chicas que no se solapen y que sean m√°s homog√©neas que la poblaci√≥n inicial a fin de que aumenten las posibilidades de predecir la variable objetivo.

Los algoritmos CART realizan √©sto, mediante los siguientes pasos: 

1. **Seleccionar la mejor Partici√≥n**: de todos los atributos, seleccionar cu√°l es aqu√©l que divide la poblaci√≥n en segmentos m√°s peque√±os y homog√©neos (o puros) posibles. 
2. **Particionar**: Crear un nodo de decisi√≥n con ese atributo y dividir la poblaci√≥n generando nuevos nodos hijos. 
3. Repetir el proceso para cada nodo hijo de manera recursiva hasta que ocurra cualquiera de las siguientes condiciones:
    * Todos los nodos hijos sean puros
    * No queden m√°s atributos para particionar (si el nodo hoja no es puro, para predecir se utiliza la moda del nodo en el caso de variables categ√≥ricas y la media en el caso de variables num√©ricas) ¬†
    * Se aplique un m√©todo de corte preestablecido (por ejemplo indicando la profundidad m√°xima del √°rbol)

Utilizando el ejemplo anterior del √°rbol de decisi√≥n que clasifica si una persona adulta es mujer u hombre, vamos a ver con un dataset ficticio c√≥mo son los pasos del algoritmo CART para seleccionar con qu√© features comenzar a particionar la poblaci√≥n en cada nodo de manera que estas particiones sean lo m√°s puras posible. Veremos tambi√©n que el algoritmo se dice que es voraz o avaro ("greedy") en el sentido que en cada paso que da busca obtener la mejor partici√≥n posible en ese nodo, sin ser estas particiones necesariamente la mejores cuando uno mira el √°rbol en todo su conjunto.

In [1]:
import pandas as pd
import numpy as np
from IPython.display import Image

In [3]:
df=pd.read_csv("Data/ejemploCART.csv")
display(df.head())
print()
pd.DataFrame(df.dtypes,columns=['dtypes'])

Unnamed: 0,Pelo corto,Peso,Estatura,Sexo
0,False,78,181,M
1,True,82,182,M
2,False,75,162,M
3,False,65,167,M
4,False,85,182,H





Unnamed: 0,dtypes
Pelo corto,bool
Peso,int64
Estatura,int64
Sexo,object


In [4]:
# Trasformamos columnas continuas (Peso y Estatura) a variables categoricas.
df["Peso"]=df["Peso"].apply(lambda x: x>80)
df["Estatura"]=df["Estatura"].apply(lambda x: x>180)
df['Sexo']= df.Sexo.astype('category') # Convertimos a categorical
display(df.head(3))
print()
pd.DataFrame(df.dtypes,columns=['dtypes'])

Unnamed: 0,Pelo corto,Peso,Estatura,Sexo
0,False,False,True,M
1,True,True,True,M
2,False,False,False,M





Unnamed: 0,dtypes
Pelo corto,bool
Peso,bool
Estatura,bool
Sexo,category


In [5]:
df.groupby(['Sexo']).count()

Unnamed: 0_level_0,Pelo corto,Peso,Estatura
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
H,10,10,10
M,10,10,10


Vemos entonces que antes de hacer ninguna partici√≥n tenemos que la poblaci√≥n total es de 20 personas, siendo:
* 10 mujeres
* 10 hombres ¬†

Por lo que si tratamos de predecir el sexo de una persona, tenemos un 50% de probabilidad de √©xito.

A continuaci√≥n vamos a ver qu√© variable independiente (Pelo corto, Peso o Estatura) es la que logra particionar la poblaci√≥n de una manera m√°s homogenea, de manera que mejore nuestras probabilidades de predecir el sexo de la persona. 

**1. Paricionamos la poblaci√≥n por el atributo de "Peso"**

In [6]:
df_peso = df.groupby(['Peso','Sexo'])[['Sexo']].count()
df_peso = df_peso.rename(columns = {'Sexo':'Count'})
df_peso.loc[False,'p']= df_peso.loc[False,'Count'].values / df_peso.loc[False,'Count'].sum()
df_peso.loc[True,'p']= df_peso.loc[True,'Count'].values / df_peso.loc[True,'Count'].sum()
display(df_peso)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,p
Peso,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
False,H,6,0.428571
False,M,8,0.571429
True,H,4,0.666667
True,M,2,0.333333


**2. Particionamos la poblaci√≥n por el atributo de "Estatura"**

In [7]:
df_estatura = df.groupby(['Estatura','Sexo'])[['Sexo']].count()
df_estatura = df_estatura.rename(columns = {'Sexo':'Count'})
df_estatura.loc[False,'p']= df_estatura.loc[False,'Count'].values / df_estatura.loc[False,'Count'].sum()
df_estatura.loc[True,'p']= df_estatura.loc[True,'Count'].values / df_estatura.loc[True,'Count'].sum()
display(df_estatura)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,p
Estatura,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
False,H,4,0.333333
False,M,8,0.666667
True,H,6,0.75
True,M,2,0.25


**3. Particionamos la poblaci√≥n por el atributo de "Pelo Corto"**

In [8]:
df_pc = df.groupby(['Pelo corto','Sexo'])[['Sexo']].count()
df_pc = df_pc.rename(columns = {'Sexo':'Count'})
df_pc.loc[False,'p']= df_pc.loc[False,'Count'].values / df_pc.loc[False,'Count'].sum()
df_pc.loc[True,'p']= df_pc.loc[True,'Count'].values / df_pc.loc[True,'Count'].sum()
display(df_pc)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count,p
Pelo corto,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1
False,H,2,0.2
False,M,8,0.8
True,H,8,0.8
True,M,2,0.2


Luego de hacer el split utilizando todas las variables independientes, podemos comparar cu√°l es la que me permite predecir mejor si la persona es hombre o mujer:

<img style="float: center;" src="img/Split_Peso.png"> <img style="float: center;" src="img/Split_estatura.png"> <img style="float: center;" src="img/Split_PC.png">

1. Peso: los nodos hijos son casi tan heterog√©neos como la poblaci√≥n total. Es decir esta partici√≥n no est√° aumentando de forma considerable las probabilidades de mejorar la predicci√≥n.

2. Estatura: logra cierto grado de homogeneidad en los nodos hijos, con lo cual estamos en mejores condiciones de predecir el sexo de una persona luego de haber contestado a la pregunta si la persona mide m√°s de 180 cm comparado a c√≥mo estaba inicialmente antes de contestar dicha pregunta. 

3. Pelo Corto: igual al segundo, pero logrando incluso mayor homogeneidad en los nodos hijos. Probabilidad aumenta de 50% por adivinar el sexo a 80% por contestar la pregunta si tiene pelo corto.

Observamos entonces que particionando a la poblaci√≥n seg√∫n los distintos atributos, puede aumentar la precisi√≥n en la clasificaci√≥n. Vemos tambi√©n que dicha precisi√≥n va a depender del atributo que selecionemos para realizar la partici√≥n, siendo el mejor atributo para particionar aquel que logra que los nodos hijos sean lo m√°s homog√©neos (puros) posibles. ¬†

Por lo tanto, como se mencion√≥ anteriormente, la tarea de los algoritmos de √°rboles de decisi√≥n es generar un √°rbol de decisi√≥n que permita predecir la variable dependiente de la siguiente manera:
1. Determinando cu√°l es el atributo que mejor particiona la poblaci√≥n 
2. Realizando la partici√≥n con dicho atributo
3. Repitiendo el proceso recursivamente para cada nodo hijo

Veremos a continuaci√≥n c√≥mo el algoritmo decide cu√°l es el mejor atributo para particionar en cada nodo.

### ü§î ¬øC√≥mo seleccionar la mejor partici√≥n?
Buscamos que las particiones (splits) generen nodos hijos con la menor impureza posible (o dicho de otra forma, la mayor pureza posible). Existen distintos m√©todos para evaluar la efectividad de las particiones:
- √çndice de Gini
- Test Chi-cuadrado
- Entrop√≠a / Ganancia de informaci√≥n 
- Reducci√≥n de Varianza

La selecci√≥n de criterios de decisi√≥n depender√° de si los √°rboles son de clasificaci√≥n o regresi√≥n

| |Regresi√≥n  | Clasificaci√≥n  | 
|:--|:--|:--|
|Variable dependiente|**Continua**|**Categ√≥rica**|  
|Criterio de Partici√≥n| **Reducci√≥n de Varianza**|**Inpureza de Gini** (solo particiones binarias)<br>**Chi-Cuadrado** para particiones de orden mayor a 2<br>**Entrop√≠a**|
| Valores de los nodos terminales |la **media** de las observaciones en esa regi√≥n | la **moda** de las observaciones del conjunto de entrenamiento que han ‚Äúca√≠do‚Äù en esa regi√≥n| 

### Criterio de partici√≥n de Gini
El √≠ndice de Gini se utiliza en algoritmos de √°rboles de Decisi√≥n de **clasificaci√≥n**.

S√≥lo funciona con variables objetivo (o variables dependientes) categ√≥ricas, y si bien solamente permite particiones binarias, puede ser utilizado en problemas de clasificaci√≥n multi-clase. 

El √≠ndice de Gini se mide para cada nodo de decisi√≥n como la probabilidad $P(j|t)$, que es la probabilidad de pertenecer a la clase "$j$" estando en el nodo "$t$". En otras palabras, mide la pureza del nodo.

$$
\begin{aligned}
Gini(t) = \sum_{j=1}^{n} [p(j|t))]^{2} = (p_{1}^{2}+p_{2}^{2}+...+p_{n}^{2})
\end{aligned}
$$

Por otro lado, la impureza de Gini la medimos de la siguiente manera:

$$
\begin{aligned}
Impureza\,de\,Gini(t) = 1 - Gini(t)
\end{aligned}
$$

Habiendo calculado la impureza de Gini para cada nodo hijo, podemos calcular el valor total de la impureza de Gini del nodo padre como el promedio ponderado de las impurezas de Gini para cada nodo hijo.

$$
\begin{aligned}
Impureza\,de\,Gini_{split} = \frac{1}{n}\sum_{i=1}^{k}n_{i}\cdot impureza\,de\,Gini(i)
\end{aligned}
$$

Siendo $n_{i}$ la poblaci√≥n de cada nodo hijo, y $n$ la poblaci√≥n de la sumatoria de los nodos hijos.  

Despu√©s de calcular el valor total de la impureza de Gini para el nodo padre para cada uno de los atributos, elegimos aquel atributo que tenga el valor de impureza de Gini m√°s bajo (es decir, el que consigue que los nodos hijos sean lo m√°s puros posibles). √âsto se repite recursivamente por cada nodo hijo.

Hacemos los c√°lculos para determinar la impureza de Gini para cada partici√≥n posible.

In [9]:
print("""
----------------
atributo: PESO
----------------

""")
# definimos una nueva columna que tenga la probabilidad al cuadrado.
df_peso['p2'] = df_peso['p']**2

# siguiendo la formula de Gini, calculamos la impureza de Gini para cada nodo hijo 
imp_gini_false = 1 - df_peso.loc[False,'p2'].sum()
imp_gini_true  = 1 - df_peso.loc[True,'p2'].sum()

# creamos un dataframe con los valores de las impurezas de Gini reci√©n calculadas para cada nodo hijo.
df_gini = pd.DataFrame(index = [False,True],columns=['Impureza Gini'], data=[imp_gini_false,imp_gini_true])
display(df_gini)

# finalmente calculamos el Gini de la partici√≥n utilizando el atributo PESO, 
# como el promedio ponderado de las impurezas de Gini de los nodos hijos
Gini_split = 1/20 * ((6+8)*imp_gini_false + (4+2)*imp_gini_true)


print("\nGini split: ",Gini_split)
print()


----------------
atributo: PESO
----------------




Unnamed: 0,Impureza Gini
False,0.489796
True,0.444444



Gini split:  0.4761904761904763



In [10]:
print("""
--------------------
atributo: ESTATURA
--------------------

""")
# definimos una nueva columna que tenga la probabilidad al cuadrado.
df_estatura['p2'] = df_estatura['p']**2

# siguiendo la formula de Gini, calculamos la impureza de Gini para cada nodo hijo 
imp_gini_false = 1 - df_estatura.loc[False,'p2'].sum()
imp_gini_true  = 1 - df_estatura.loc[True,'p2'].sum()

# creamos un dataframe con los valores de las impurezas de Gini reci√©n calculadas para cada nodo hijo.
df_gini = pd.DataFrame(index = [False,True],columns=['Impureza Gini'], data=[imp_gini_false,imp_gini_true])
display(df_gini)

# finalmente calculamos el Gini de la partici√≥n utilizando el atributo ESTATURA, 
# como el promedio ponderado de las impurezas de Gini de los nodos hijos
Gini_split = 1/20 * ((6+8)*imp_gini_false + (4+2)*imp_gini_true)

print("\nGini split: ",Gini_split)
print()


--------------------
atributo: ESTATURA
--------------------




Unnamed: 0,Impureza Gini
False,0.444444
True,0.375



Gini split:  0.4236111111111111



In [11]:
print("""
----------------------
atributo: PELO CORTO
----------------------

""")
# definimos una nueva columna que tenga la probabilidad al cuadrado.
df_pc['p2'] = df_pc['p']**2

# siguiendo la formula de Gini, calculamos la impureza de Gini para cada nodo hijo 
imp_gini_false = 1 - df_pc.loc[False,'p2'].sum()
imp_gini_true  = 1 - df_pc.loc[True,'p2'].sum()

# creamos un dataframe con los valores de las impurezas de Gini reci√©n calculadas para cada nodo hijo.
df_gini = pd.DataFrame(index = [False,True],columns=['Impureza Gini'], data=[imp_gini_false,imp_gini_true])
display(df_gini)

# finalmente calculamos el Gini de la partici√≥n utilizando el atributo PELO CORTO, 
# como el promedio ponderado de las impurezas de Gini de los nodos hijos
Gini_split = 1/20 * ((6+8)*imp_gini_false + (4+2)*imp_gini_true)

print("\nGini split: ",Gini_split)
print()


----------------------
atributo: PELO CORTO
----------------------




Unnamed: 0,Impureza Gini
False,0.32
True,0.32



Gini split:  0.31999999999999984



|  | Impureza de Gini |
|--------------------|:----------------:|
| Peso > 80 kg: | 0,48 |
| Estatura > 180 cm: | 0,42 |
| Pelo Corto: | 0,32 |
  
El atributo que genera la mejor partici√≥n es **Pelo Corto**. LLegamos a la misma conclusi√≥n a la que hab√≠amos arribado anteriormente en forma intuitiva. 

### Ganancia de Informaci√≥n
La ganancia de Informaci√≥n al igual que Gini es utilizada para modelos de clasificaci√≥n. En este m√©todo se busca medir la ganancia de informaci√≥n que se obtiene luego de realizar una pregunta y para √©sto utiliza una medici√≥n de Entrop√≠a. Como ya vimos, no es lo mismo realizar una pregunta basado en un atributo que basado en otro ya que dependiendo del atributo que seleccionamos para hacer la partici√≥n, tendremos mayor o menor ganancia de informaci√≥n. Para poder profundizar en este concepto, primero repasaremos sobre el concepto de Entrop√≠a.

#### Entrop√≠a
En teor√≠a de la informaci√≥n se define Entrop√≠a como una forma de medir el grado de desorganizaci√≥n en un sistema. Es decir la Entrop√≠a busca medir qu√© tan parecidos o qu√© tan diferentes son los elementos de un sistema:
- utilizando el valor m√≠nimo de 0 para conjunto de elementos que son totalmente iguales, 
- utilizando el valor m√°ximo de 1 para los conjuntos que poseen el mayor grado de desorden posible, 
- utilizando los valores entre 0 y 1 para aquellos sistemas que presenten un grado de desorden que est√© entre los extremos recien mencionados.

<img style="float: center;" src="img/entropia2.png">

Matem√°ticamente √©sto se representa con la siguiente f√≥rmula:

$$
\begin{aligned}
Entropia = -p{_{1}}log{_{2}}(p{_{1}}) -p{_{2}}log{_{2}}(p{_{2}}) - ... -p{_{n}}log{_{2}}(p{_{n}}) = -\sum p{_{n}}log{_{2}}(p{_{n}})
\end{aligned}
$$

donde:  $p_{i}$ es la proporci√≥n de elementos de la $clase_{i}$ en el nodo.

Por otro lado, definimos a la Ganancia de Informaci√≥n como:

$$
\begin{aligned}
Ganancia\ de\ Informacion = Entropia{_{nodo\ padre}} - Suma\ ponderada\ Entropia{_{nodos\ hijos}}
\end{aligned}
$$

Con el marco te√≥rico anterior, podemos entonces volver a analizar nuestro caso ejemplo.

<img style="float: center;" src="img/peso_h.png">
<img style="float: center;" src="img/peso_h_t.png">
<img style="float: center;" src="img/estatura_h.png">
<img style="float: center;" src="img/estatura_h_t.png">
<img style="float: center;" src="img/pelo_h.png">
<img style="float: center;" src="img/pelo_h_t.png">

El atributo que genera la mejor partici√≥n es **Pelo Corto**. LLegamos a la misma conclusi√≥n a la que hab√≠amos arribado anteriormente con Gini y en forma intuitiva. 

## 3. Optimizando Performance de los √Årboles de Decisi√≥n
### ‚úÇÔ∏è Poda de √°rboles o Tree Pruning
Como mencionamos anteriormente, los algoritmos de √°rboles de decisi√≥n tienen una fuerte tendencia al sobreajuste. A fin de minimizar el sobreajuste y tambi√©n reducir la complejidad de los √°rboles de decisi√≥n se suele aplicar la t√©cnica de "poda". Esta t√©cnica b√°sicamente consiste en reducir el tama√±o del √°rbol, ya sea mediante cualquiera de las siguientes **criterios de corte**:
- Limitando la profundidad m√°xima del √°rbol (`max_depth`)
- Limitando el n√∫mero m√≠nimo de muestras requeridas en cada hoja (`min_samples_leaf`)
- Limitando el n√∫mero m√≠nimo de muestras necesarias para particionar (`min_samples_split`)

## 4. Implementaci√≥n de un √Årbol de Decisi√≥n

- Vamos a crear una clase `DecisionTree`. 
- Para esta implementaci√≥n, usaremos la Entrop√≠a como criterio de divisi√≥n. La funci√≥n `find_best_split` se basar√° en buscar las divisiones con menor entrop√≠a. Tendremos un approach "greedy" para simplificar el c√≥digo.
- Tambi√©n, creamos la clase `TreeNode` donde guardamos la informaci√≥n de los splits y la relaci√≥n con los nodos de la derecha e izquierda.
- Finalmente, la funci√≥n `create_tree`es una funci√≥n recursiva que crea el √°rbol y eventualmente frena si se cumplen los criterios para frenar. Los criterios de parada implementados fueron:
    * Profundidad m√°xima del √°rbol (`max_depth`)
    * N√∫mero m√≠nimo de muestras requeridas en cada hoja despu√©s de hacer la divisi√≥n (`min_samples_leaf`)
    * Valor m√≠nimo de ganancia de informaci√≥n (`min_information_gain`)


- Desarrollaremos un m√©todo `train` y `predict` para entrenar y predecir un valor de salida categ√≥rico respectivamente.
    * Train: Solo toma los sets de entrenamiento y comienza el proceso recursivo de `create_tree`, guardando el primer nodo del √°rbol (root)
    * Predict: Se calcula la probabilidad de que una muestra corresponda a cualquier clase. Cada hoja tiene probabilidades constantes para cada etiqueta, y esas probabilidades se aprenden en la fase de entrenamiento. Para hacer una nueva predicci√≥n, vamos a tomar la data no etiquetada y comenzar desde el nodo ra√≠z y va a seguir el camino que cumple. Esto se hace usando un bucle while que frena cuando no hay otro nodo m√°s (llega al nodo hoja). Una vez que predice las probabilidades, la funci√≥n predict retorna la clase m√°s probable.