# √Årboles de decisi√≥n

##  Cristina G√≥mez Alonso, Carlos Tessier

En este notebook utilizaremos como referencia el material de Aurelien G√©ron, sintetizado por Akranz, para explicar c√≥mo entrenar, validar y realizar predicciones con **√°rboles de decisi√≥n** utilizando el dataset *Iris* y la librer√≠a **Scikit-learn**.

El dataset *Iris* es un conjunto cl√°sico procedente del **UCI Machine Learning Repository**:
[https://archive.ics.uci.edu/ml/datasets/iris](https://archive.ics.uci.edu/ml/datasets/iris)

A continuaci√≥n revisaremos el algoritmo de entrenamiento **CART**, que es el que emplea `scikit-learn`, veremos c√≥mo **regularizar** √°rboles para evitar sobreajuste y c√≥mo utilizarlos tambi√©n en **tareas de regresi√≥n**. Para finalizar, analizaremos varias **limitaciones** de los √°rboles de decisi√≥n y en qu√© situaciones no son la mejor opci√≥n.

## ¬øQu√© son los √Årboles de Decisi√≥n?

Un √°rbol de decisi√≥n es una estructura que representa, de forma gr√°fica e interpretable, una serie de decisiones basadas en condiciones sobre las caracter√≠sticas del conjunto de datos. Es un algoritmo de **aprendizaje supervisado** muy usado, capaz de resolver tanto **clasificaci√≥n** como **regresi√≥n**, y destaca por su simplicidad e interpretabilidad.

![arbol de decisi√≥n](https://miro.medium.com/v2/resize:fit:640/format:webp/1*BEH9fghOd9iYeGu8obk3PQ.png)

Principales caracter√≠sticas de los √°rboles de decisi√≥n:

* Clasifican los datos a partir de condiciones basadas en los atributos.
* Son una t√©cnica de clasificaci√≥n muy extendida en machine learning.
* Son modelos f√°ciles de interpretar, incluso por personas no expertas.
* Tambi√©n pueden utilizarse en regresi√≥n para estimar valores num√©ricos (ventas mensuales, precio de un veh√≠culo, etc.).

M√°s informaci√≥n:

* [Wikipedia ‚Äî Decision Tree Learning](https://en.wikipedia.org/wiki/Decision_tree_learning)
* [Tutorial de Kaggle](https://www.kaggle.com/prashant111/decision-tree-classifier-tutorial)







## √çndice Gini

El √≠ndice Gini es la funci√≥n de coste utilizada por defecto para evaluar la calidad de las divisiones en un √°rbol de decisi√≥n.

Una divisi√≥n en el conjunto de datos se define por un atributo de entrada y un umbral para dicho atributo, lo que permite separar los datos de entrenamiento en dos subconjuntos.

El valor del √≠ndice Gini mide el **grado de impureza** de los nodos resultantes, es decir, cu√°n mezcladas est√°n las clases en cada subconjunto.
Una separaci√≥n perfecta produce un √≠ndice Gini de **0**, mientras que la m√°xima impureza en un problema de **dos clases** se da cuando las clases est√°n repartidas al 50 %, produciendo un valor de **0,5**.

---

## Entropy

`Entropy` es otra medida de impureza utilizada en √°rboles de decisi√≥n, basada en la **teor√≠a de la informaci√≥n**. Mientras que el √≠ndice Gini mide la probabilidad de error al clasificar un elemento al azar, `entropy` mide la **incertidumbre** del sistema.

En la pr√°ctica:

* **Gini** es **m√°s r√°pido de calcular** y por eso se usa por defecto en muchas implementaciones.
* **Entropy** es **m√°s sensible a cambios en la distribuci√≥n de las clases**.
* Ambos criterios suelen producir **√°rboles muy similares**.
* No existe un criterio universalmente mejor: la diferencia suele ser **peque√±a y dependiente del problema**.



## 1. Importaci√≥n de paquetes y dataset

Para entender los √°rboles de decisi√≥n, comencemos por construir uno y consultar sus predicciones:

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [None]:
iris = load_iris()

## 2. Divisi√≥n del dataset

In [None]:
X = iris.data [:, 2:]  # Use only petal length and petal width
y = iris.target
X.shape, y.shape

## 3. Creaci√≥n del modelo de √Årboles de decisi√≥n

In [None]:
tree_clf = DecisionTreeClassifier(max_depth=2)

## 4. Entrenamiento

In [None]:
tree_clf.fit(X, y)

## 5. Visualizaci√≥n del √°rbol de decisi√≥n

Podemos visualizar el √°rbol de decisiones utilizando el m√©todo export_graphiz() para exportar un archivo de representaci√≥n gr√°fica y luego transformarlo a png:

In [None]:
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

# Set the figure size so the tree is legible
plt.figure(figsize=(15, 10))

# Plot the tree
plot_tree(tree_clf, 
          filled=True, 
          feature_names=iris.feature_names[2:],
          class_names=iris.target_names,
          rounded=True)

plt.show()



## 8. Realizaci√≥n de predicciones ‚Äî Versi√≥n revisada para el alumnado

Para clasificar un nuevo dato con un √°rbol de decisi√≥n seguimos un proceso muy directo: empezamos en el nodo ra√≠z (la parte superior del √°rbol) y vamos respondiendo las preguntas binarias que aparecen en cada nodo. En cada paso avanzamos hacia la rama que corresponde a la condici√≥n que se cumple. Cuando llegamos a una hoja, esa hoja indica la clase final que el modelo asigna al dato.

Una ventaja importante de los √°rboles de decisi√≥n es que **apenas necesitan preparaci√≥n de datos**: no es necesario escalar ni normalizar las variables, ya que las divisiones se basan en valores umbral y no en distancias.

Cada nodo del √°rbol incluye varios atributos que ayudan a interpretar c√≥mo est√° tomando decisiones:

* **samples (muestras)**: cu√°ntas instancias del conjunto de entrenamiento llegaron hasta ese nodo.
* **value (valor)**: cu√°ntas muestras hay de cada clase dentro del nodo.
* **gini**: medida de impureza. Si un nodo tiene solo una clase, su impureza es 0 (es un nodo ‚Äúpuro‚Äù).

El √≠ndice Gini del nodo ( i ) se calcula mediante:

$
G_i = 1 - \sum_{k=1}^{n} p_{i,k}^2
$]$

donde $ p_{i,k} $ es la proporci√≥n de muestras de la clase $ k $ dentro del nodo. En nuestro caso, $ k \in {1,2,3} $.

En `scikit-learn`, los √°rboles se entrenan con el algoritmo **CART**, que siempre genera √°rboles binarios: cada nodo de decisi√≥n tiene dos ramas. Otros algoritmos cl√°sicos, como **ID3**, s√≠ pueden crear nodos con m√°s de dos hijos.

En la figura siguiente se aprecia c√≥mo un √°rbol va creando divisiones rectangulares en el espacio de caracter√≠sticas. Este comportamiento hace que los l√≠mites de decisi√≥n tengan forma de l√≠neas rectas y zonas rectangulares:

![Boundaries](https://qu4nt.github.io/sklearn-doc-es/_images/sphx_glr_plot_iris_dtc_001.png)

En general, los √°rboles de decisi√≥n:

* son **intuitivos**
* sus predicciones se pueden **interpretar f√°cilmente**
* se consideran modelos de **‚Äúcaja blanca‚Äù**

En contraste, m√©todos como **Random Forest** o las **redes neuronales profundas** se consideran modelos de **‚Äúcaja negra‚Äù**, ya que resulta mucho m√°s dif√≠cil interpretar c√≥mo llegan a sus decisiones internas.





### 8.1. Estimando las probabilidades de pertenencia a cada clase

Un √°rbol de decisi√≥n tambi√©n permite **estimar la probabilidad** de que una instancia pertenezca a cada clase. Para ello, toma la **hoja** en la que cae el dato y calcula la probabilidad como:

> proporci√≥n de muestras de esa clase
> entre el total de muestras presentes en la hoja.

En `scikit-learn`, estas probabilidades pueden consultarse con el m√©todo `predict_proba()`.

Por ejemplo, si introducimos una flor con **longitud de p√©talo = 5** y **ancho de p√©talo = 1.5**, el √°rbol puede devolver algo como:

* Clase 0 ‚Üí 0.00
* Clase 1 ‚Üí 0.90
* Clase 2 ‚Üí 0.09

Lo que significa que, seg√∫n el modelo, la clase m√°s probable es la **clase 1**.



In [None]:
tree_clf.predict_proba([[5, 1.5]])

In [None]:
tree_clf.predict([[5, 1.5]])


**Nota:** obtendremos la misma probabilidad para cualquier punto que caiga en la **misma hoja** del √°rbol. Aunque el nuevo dato est√© m√°s cerca o m√°s lejos de los l√≠mites de decisi√≥n (*decision boundaries*), la probabilidad no cambia, porque todas las muestras dentro de una misma hoja comparten la misma distribuci√≥n de clases.




## Regularizaci√≥n y sobreajuste en √Årboles de Decisi√≥n

### ¬øPor qu√© los √°rboles sobreajustan?

Los √°rboles de decisi√≥n tienden a **crecer demasiado** si no se les pone l√≠mite. Un √°rbol sin restricciones seguir√° dividi√©ndose hasta separar completamente las muestras del conjunto de entrenamiento. Esto suele producir:

* **Exactitud perfecta en entrenamiento** (accuracy = 1.0)
* **Peor rendimiento en test**, porque el √°rbol aprende ruido y particularidades del dataset, no patrones generales.

Ejemplo simple con *Iris*:

```python
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

print("Train accuracy:", clf.score(X_train, y_train))
print("Test accuracy:", clf.score(X_test, y_test))
```

Salida t√≠pica:

```
Train accuracy: 1.0
Test accuracy: 0.88
```

La diferencia entre ambos valores indica **overfitting**.

---

## ¬øC√≥mo evitar el sobreajuste?

La soluci√≥n es **controlar la complejidad del √°rbol** mediante **hiperpar√°metros de regularizaci√≥n**. 

### Ejemplo visual: √°rbol sin podar vs. √°rbol podado

En los √°rboles de decisi√≥n, **podar (pruning)** consiste en eliminar ramas que aportan poca informaci√≥n o que no mejoran la capacidad predictiva del modelo. El objetivo es obtener un √°rbol **m√°s simple**, **m√°s generalizable** y con **menor riesgo de sobreajuste**.

![ejemplo pruning](https://miro.medium.com/v2/resize:fit:720/format:webp/1*WQfd2tteLlic7-pu_FxjfQ.png)

Este ejemplo muestra claramente la diferencia entre ambos modelos:

* **√Årbol sin podar:**

  * Tiene m√°s nodos y m√°s profundidad.
  * Captura el ruido del conjunto de entrenamiento.
  * Presenta mayor varianza y tiende a sobreajustar.

* **√Årbol podado:**

  * Es m√°s peque√±o y f√°cil de interpretar.
  * Elimina ramas poco relevantes.
  * Generaliza mejor a datos nuevos.

Los **hiperpar√°metros de regularizaci√≥n** m√°s importantes son:

---

### 1. `max_depth`

L√≠mite m√°ximo de profundidad del √°rbol.

* √Årbol m√°s profundo ‚Üí m√°s complejo ‚Üí m√°s riesgo de overfitting.
* √Årbol menos profundo ‚Üí m√°s simple ‚Üí mejor generalizaci√≥n.

Ejemplo:

```python
clf = DecisionTreeClassifier(max_depth=5)
```

---

### 2. `min_samples_leaf`

N√∫mero m√≠nimo de muestras que debe haber en una hoja.

* Obliga al √°rbol a no crear hojas con muy pocos datos.
* Reduce el ruido y suaviza las predicciones.

```python
clf = DecisionTreeClassifier(min_samples_leaf=10)
```

---

### 3. `min_samples_split`

N√∫mero m√≠nimo de muestras necesarias para dividir un nodo.

* Evita divisiones innecesarias cuando hay muy pocas muestras disponibles.

```python
clf = DecisionTreeClassifier(min_samples_split=20)
```

---






## B√∫squeda autom√°tica de mejores hiperpar√°metros

Podemos usar `GridSearchCV` para probar diferentes combinaciones y elegir las que mejor funcionen:

``` python
param_grid = {
    'max_depth': [2, 3, 4, 5],
    'min_samples_leaf': [5, 10, 20],
    'min_samples_split': [10, 20, 30]
}

clf = DecisionTreeClassifier()
grid = GridSearchCV(clf, param_grid, cv=5)
grid.fit(X_train, y_train)

print(grid.best_params_)
```

Esto permite al alumnado ver de forma pr√°ctica c√≥mo mejorar un √°rbol sin adivinar los valores "a ojo".

---

## Post-pruning (poda tras el entrenamiento)

Adem√°s de limitar el crecimiento del √°rbol desde el principio (pre-pruning), tambi√©n existe la **poda posterior**, que elimina ramas poco √∫tiles una vez entrenado el √°rbol completo.

En `scikit-learn` se implementa con el par√°metro:

* **`ccp_alpha`** ‚Üí controla cu√°nto se poda el √°rbol.

Un valor m√°s alto = √°rbol m√°s peque√±o.

Ejemplo final con un `ccp_alpha` ya elegido:

``` python

clf = DecisionTreeClassifier(ccp_alpha=0.02)
clf.fit(X_train, y_train)
```

##  **Ejercicio propuesto: Crear un modelo de √Årbol de Decisi√≥n para los mismos datasets utilizados en la pr√°ctica de Regresi√≥n Log√≠stica**

El objetivo de esta actividad es que el alumnado aprenda a:

* Entrenar un **√°rbol de decisi√≥n** sobre un dataset ya preprocesado.
* Comparar su rendimiento frente al modelo de **regresi√≥n log√≠stica** visto en el notebook.
* Identificar posibles casos de **sobreajuste** y aplicar **regularizaci√≥n**.
* Interpretar las **reglas de decisi√≥n** y la **importancia de variables**.

El alumnado debe trabajar con **los mismos datasets** utilizados en el notebook:

* **Hipotiroidismo (hypothyroid.csv)** 
* **Titanic (titanic_train.csv)** 

### **PARTE 1 ‚Äì √Årbol de Decisi√≥n aplicado al dataset de Hipotiroidismo**

<div style="background-color:green;color:white">

<br>

Implementar el mismo flujo del notebook (carga ‚Üí limpieza ‚Üí transformaci√≥n ‚Üí divisi√≥n)

<br>

In [None]:
# importar dataset, preprocesar, escalar y dividir en train y test



---

<div style="background-color:green;color:white">

#### **1. Crear el modelo de √°rbol b√°sico**

<br>

#### **2. Evaluar rendimiento**

<div style="background-color:green;color:white">

Calcular:

* Accuracy
* Recall
* F1-score
* Matriz de confusi√≥n

<br>

#### **3. Detectar sobreajuste**

<div style="background-color:green;color:white">

Comprobar el score de train y test:

<br>

<div style="background-color:green;color:white">

<br>

¬øTu modelo tiene accuracy perfecto en entrenamiento pero baja en test?

<br>

#### **4. Aplicar regularizaci√≥n**

<div style="background-color:green;color:white">

<br>

Entrenar nuevos modelos cambiando:

* *max_depth*
* *min_samples_leaf*
* *min_samples_split*

Puedes usar *GridSearchCV* para probar diferentes combinaciones y elegir las que mejor funcionen


<br>


<div style="background-color:green;color:white">

<br>

Comparar rendimiento entre:

* √Årbol sin regularizaci√≥n
* √Årbol regularizado


<br>

#### **5. Interpretar importancia de variables**

<br>

<div style="background-color:green;color:white">

1. ¬øQu√© variable aparece como la m√°s influyente para detectar hipotiroidismo?
2. ¬øCoincide con lo observado con la regresi√≥n log√≠stica (coeficientes)? 

<br>

### **PARTE 2 ‚Äì √Årbol de Decisi√≥n aplicado al dataset del Titanic**

Usando exactamente el mismo preprocesamiento del notebook de regresi√≥n log√≠stica, se pide repetir el an√°lisis:





---

<div style="background-color:green;color:white">

#### **1. Crear el modelo de √°rbol b√°sico**

<br>

#### **2. Evaluar rendimiento**

<div style="background-color:green;color:white">

Calcular:

* Accuracy
* Recall
* F1-score
* Matriz de confusi√≥n

<br>

<div style="background-color:green;color:white">

<br>

1. ¬øDetecta mejor a los supervivientes que la regresi√≥n log√≠stica?
2. ¬øTiene m√°s falsos positivos?


<br>

#### **3. Aplicar regularizaci√≥n**

<div style="background-color:green;color:white">

<br>

Entrenar nuevos modelos cambiando:

* *max_depth*
* *min_samples_leaf*
* *min_samples_split*


<br>

<div style="background-color:green;color:white">

<br>

¬øEl modelo mejora en generalizaci√≥n?

¬øSe reduce el sobreajuste?


<br>

#### **4. Interpretar importancia de variables**

<br>

<div style="background-color:green;color:white">

1. ¬øQu√© variable es la m√°s determinante para sobrevivir seg√∫n el √°rbol?
2. ¬øCoincide con lo observado en la regresi√≥n log√≠stica (coeficiente de Sex_male)?


<br>

#### **5. Visualizar el √°rbol**

<br>

<div style="background-color:green;color:white">

Comparar el √°rbol de decisi√≥n del modelo sin podar y el modelo podado.


<br>

#  **Ejemplo de √Årboles de Decisi√≥n para Regresi√≥n**

Hasta ahora hemos visto que los **√°rboles de decisi√≥n** se utilizan principalmente para **clasificaci√≥n**, es decir, para predecir **categor√≠as** (por ejemplo: aprobado/suspenso, spam/no spam, enfermo/sano‚Ä¶).
Sin embargo, los √°rboles de decisi√≥n tambi√©n pueden utilizarse para **regresi√≥n**, cuando lo que se desea predecir es un **valor num√©rico continuo**, como por ejemplo:

* El **precio de una vivienda**
* El **consumo el√©ctrico**
* La **nota media de un alumno**
* La **velocidad del viento**
* El **importe de una factura**

En este caso hablamos de **√°rboles de regresi√≥n**.

---

##  ¬øQu√© diferencia a un √°rbol de regresi√≥n de uno de clasificaci√≥n?

La **estructura del √°rbol es casi id√©ntica**:

* Hay una **ra√≠z**
* Hay **nodos intermedios**
* Hay **hojas**

La diferencia principal est√° en lo que ocurre en las **hojas**:

* En **clasificaci√≥n**, cada hoja devuelve una **clase**
* En **regresi√≥n**, cada hoja devuelve un **valor num√©rico**, que suele ser:

> üîπ **la media de los valores reales de las muestras que caen en esa hoja**

Es decir, el √°rbol **no inventa valores**, simplemente **promedia los datos reales que ya existen**.

## Funcionamiento del √Årbol de Regresi√≥n

El √°rbol funciona as√≠:

1. Toma los datos de entrenamiento.
2. Prueba todas las variables y muchos posibles cortes.
3. Divide el conjunto en dos partes.
4. Repite el proceso en cada parte.
5. Se detiene cuando:

   * Se alcanza una profundidad m√°xima.
   * O hay pocas muestras en un nodo.
   * O ya no se mejora la predicci√≥n.

Cuando llega a una hoja, el valor que devuelve es:

$
\hat{y} = \text{media de los valores reales de ese grupo}
$

## Funci√≥n de Error: MSE (Error Cuadr√°tico Medio)

En clasificaci√≥n se usa **impureza (Gini o Entrop√≠a)**.
En regresi√≥n, el criterio de decisi√≥n es el **MSE (Mean Squared Error)**:

$
MSE = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i)^2
$

Donde:

* $ y_i $ es el valor real
* $ \hat{y}_i $ es el valor predicho
* $ m $ es el n√∫mero de muestras

El √°rbol intenta hacer divisiones que **minimicen este error**.

---

## Algoritmo CART aplicado a Regresi√≥n

Scikit-learn utiliza el algoritmo **CART (Classification And Regression Tree)** tanto en clasificaci√≥n como en regresi√≥n.

En regresi√≥n, el criterio de divisi√≥n es:

$
J(k,t_k) = \frac{m_{left}}{m} MSE_{left} + \frac{m_{right}}{m} MSE_{right}
$

Es decir:

* Divide los datos en dos grupos.
* Calcula el error en cada grupo.
* Elige la divisi√≥n que produce **menor error total ponderado**.

‚ö†Ô∏è Este algoritmo es:

* **Greedy (avaro)** ‚Üí solo busca la mejor divisi√≥n local.
* **No garantiza el √°rbol √≥ptimo global**.
* Encontrar el √°rbol perfecto es un problema **NP‚ÄìCompleto**.

---

## Complejidad Computacional

### Predicci√≥n

La predicci√≥n consiste en recorrer el √°rbol desde la ra√≠z hasta una hoja:

$
O(\log_2(m))
$

Ventaja clave:

‚úÖ Es **muy r√°pida**

‚úÖ No depende del n√∫mero de variables

‚úÖ Ideal para sistemas en tiempo real


###  Entrenamiento

El entrenamiento es m√°s costoso:

$
O(n \cdot m \log_2(m))
$

Donde:

* ( n ) ‚Üí n√∫mero de caracter√≠sticas
* ( m ) ‚Üí n√∫mero de muestras

Por eso:

* Con pocos datos ‚Üí entrenamiento r√°pido
* Con millones de datos ‚Üí entrenamiento lento

---

## Problema Principal: Sobreajuste (Overfitting)

Los √°rboles de decisi√≥n **aprenden con much√≠sima precisi√≥n**, pero eso tiene un problema:

> Si no se limitan, **memorizan el ruido** de los datos.

Esto provoca:

* Excelente resultado en entrenamiento
* **Mal resultado en datos nuevos**

A esto lo llamamos **sobreajuste**.

##  Par√°metros de Regularizaci√≥n

Para evitar el sobreajuste se usan estos par√°metros:

| Par√°metro           | Funci√≥n                         |
| ------------------- | ------------------------------- |
| `max_depth`         | Limita la profundidad del √°rbol |
| `min_samples_leaf`  | M√≠nimo de muestras por hoja     |
| `min_samples_split` | M√≠nimo para dividir un nodo     |
| `max_leaf_nodes`    | M√°ximo n√∫mero de hojas          |

üëâ Aumentar estos valores = menos sobreajuste
üëâ Disminuirlos = m√°s riesgo de sobreajuste

## Ejemplo Pr√°ctico Interpretado

Se genera un conjunto de datos con esta forma:

$
y = (x - 0.5)^2 + \text{ruido}
$

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt

In [None]:
# Generate noisy quadratic data
X = np.linspace(0, 1, 500)
y = (X - 0.5)**2 + np.random.randn(500) / 50.

In [None]:
plt.scatter(X, y, s=1.5, c='red')


### Entrenamos un √°rbol con `max_depth = 2`

   ‚úî Modelo simple
   
   ‚úî Buena generalizaci√≥n

In [None]:
tree_reg = DecisionTreeRegressor(max_depth=2)

In [None]:
tree_reg.fit(X[..., None], y[..., None])

Visualizaci√≥n del √°rbol

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plot_tree(
    tree_reg,
    feature_names=['X'],
    filled=True,
    rounded=True,
    fontsize=10
)
plt.show()


En este caso, el √°rbol funciona igual que en clasificaci√≥n, pero cada hoja predice un **valor num√©rico**, correspondiente al **promedio de los valores reales** de las muestras que contiene.

---

### Predicciones


In [None]:
# Predicci√≥n sobre TODOS los puntos de X
y_pred = tree_reg.predict(X.reshape(-1,1))


# Gr√°fica
plt.figure(figsize=(8,5))
plt.scatter(X, y, s=10, color='red', alpha=0.4, label='Datos reales')
plt.plot(X, y_pred, color='blue', linewidth=2, label='Predicci√≥n √°rbol')
plt.legend()
plt.show()

### Entrenamos un √°rbol sin regularizar

‚ùå Memoriza el ruido

‚ùå Sobreajuste muy fuerte

In [None]:
tree_no_reg = DecisionTreeRegressor()

tree_no_reg.fit(X[..., None], y[..., None])

# Predicci√≥n sobre TODOS los puntos de X
y_pred2 = tree_no_reg.predict(X.reshape(-1,1))


# Gr√°fica
plt.figure(figsize=(8,5))
plt.scatter(X, y, s=10, color='red', alpha=0.4, label='Datos reales')
plt.plot(X, y_pred2, color='blue', linewidth=2, label='Predicci√≥n √°rbol')
plt.legend()
plt.show()

### √Årbol con min_samples_leaf = 10

‚úÖ Modelo m√°s estable

‚úÖ Predicci√≥n m√°s realista

In [None]:
tree_reg_10 = DecisionTreeRegressor(min_samples_leaf=10)

tree_reg_10.fit(X[..., None], y[..., None])

# Predicci√≥n sobre TODOS los puntos de X
y_pred10 = tree_reg_10.predict(X.reshape(-1,1))


# Gr√°fica
plt.figure(figsize=(8,5))
plt.scatter(X, y, s=10, color='red', alpha=0.4, label='Datos reales')
plt.plot(X, y_pred10, color='blue', linewidth=2, label='Predicci√≥n √°rbol')
plt.legend()
plt.show()

## **Ejercicio propuesto: Crear un modelo de √Årbol de Decisi√≥n para Regresi√≥n y compararlo con Regresi√≥n Lineal**

El objetivo de esta actividad es que el alumnado aprenda a:

* Entrenar un **modelo de √Årbol de Decisi√≥n para Regresi√≥n (`DecisionTreeRegressor`)** sobre un dataset real.
* Comparar su rendimiento frente al modelo de **Regresi√≥n Lineal**.
* Identificar posibles casos de **sobreajuste (overfitting)**.
* Aplicar **regularizaci√≥n** en √°rboles de regresi√≥n.
* Interpretar la **importancia de las variables** en un modelo basado en √°rboles.

El alumnado trabajar√° con el **dataset del seguro m√©dico**, ya utilizado previamente para Regresi√≥n Lineal:

* **insurance.csv** (coste de seguros m√©dicos)

La variable objetivo es:

* **`charges` ‚Üí coste anual del seguro**

### **PARTE 1 ‚Äì √Årbol de Decisi√≥n aplicado al dataset del Seguro M√©dico**



Implementamos el mismo flujo del notebook (carga ‚Üí limpieza ‚Üí transformaci√≥n ‚Üí divisi√≥n)



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('data/insurance.csv')

##Converting objects labels into categorical
df[['sex', 'smoker', 'region']] = df[['sex', 'smoker', 'region']].astype('category')
df.dtypes

##Converting category labels into numerical using LabelEncoder
from sklearn.preprocessing import LabelEncoder
label = LabelEncoder()
label.fit(df.sex.drop_duplicates())
df.sex = label.transform(df.sex)
label.fit(df.smoker.drop_duplicates())
df.smoker = label.transform(df.smoker)
label.fit(df.region.drop_duplicates())
df.region = label.transform(df.region)
df.dtypes

X = df.drop(['charges'], axis = 1)
y = df['charges']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

#### **1. Crear el modelo de √Årbol de Decisi√≥n b√°sico**

<div style="background-color:green;color:white">

<br>

* Crea un modelo inicial sin regularizar:

<br>

---

<div style="background-color:green;color:white">

<br>

* Entrena el modelo con los datos de entrenamiento (*X_train*, *y_train*).
* Realiza predicciones sobre el conjunto de test.

<br>

#### **2. Evaluar el rendimiento del modelo**

<div style="background-color:green;color:white">

<br>

Calcula las siguientes m√©tricas sobre el conjunto de test:

* **MAE**
* **MSE**
* **RMSE**
* **R¬≤**

<br>

<div style="background-color:green;color:white">

<br>

Representa en un gr√°fico:

* *y_test* frente a *y_pred*

Guarda los valores obtenidos para compararlos m√°s adelante con los otros modelos.


<br>

#### **3. Detectar sobreajuste**

<div style="background-color:green;color:white">

<br>

Compara:

* El rendimiento del √°rbol en **entrenamiento**
* El rendimiento en **test**


<br>

<div style="background-color:green;color:white">

<br>

Responde:

* ¬øExiste una diferencia grande entre ambos resultados?
* ¬øIndica esto un posible sobreajuste?
* ¬øPor qu√© los √°rboles tienden a sobreajustar con facilidad?

<br>

#### **4. Aplicar regularizaci√≥n al √Årbol de Decisi√≥n**

<div style="background-color:green;color:white">

<br>
Entrena nuevos modelos **modificando hiperpar√°metros de regularizaci√≥n**, por ejemplo:

* *max_depth*
* *min_samples_leaf*
* *min_samples_split*

Puedes usar **GridSearchCV** para probar varias combinaciones y seleccionar la mejor.

<br>

<div style="background-color:green;color:white">

<br>

Comparar el rendimiento entre:

* √Årbol **sin regularizaci√≥n**
* √Årbol **regularizado**


<br>

<div style="background-color:green;color:white">

<br>


* ¬øDisminuye el sobreajuste?
* ¬øQu√© ocurre con el valor de R¬≤?
* ¬øCu√°l de los dos modelos generaliza mejor?

<br>

### **Comparaci√≥n con el modelo de Regresi√≥n Lineal**

<div style="background-color:green;color:white">

<br>

Utiliza las m√©tricas obtenidas previamente con **Regresi√≥n Lineal** y construye una tabla comparativa:

| Modelo                | MAE | RMSE | R¬≤ |
| --------------------- | --- | ---- | -- |
| Regresi√≥n Lineal      |     |      |    |
| √Årbol sin regularizar |     |      |    |
| √Årbol regularizado    |     |      |    |



Responde razonadamente:

* ¬øQu√© modelo obtiene mejor RMSE?
* ¬øQu√© modelo generaliza mejor?
* ¬øEn qu√© casos es preferible usar un √°rbol en lugar de una regresi√≥n lineal?
* ¬øQu√© modelo interpretar√≠as mejor a nivel matem√°tico?
* ¬øQu√© modelo tiene mayor capacidad de adaptaci√≥n a relaciones no lineales?

<br>