---
# Guía Árboles Regresivos

Los árboles de decisión también se pueden utilizar para resolver problemas de regresión, no solo problemas de clasificación. En lugar de predecir clases como lo hacen en la clasificación, los árboles de decisión de regresión se utilizan para predecir valores numéricos. Algunos aspectos clave sobre cómo funcionan los árboles de decisión para problemas de regresión:

- **Captura relaciones no lineales**: A diferencia de algunos modelos de regresión lineal, que asumen una relación lineal entre las características y la variable de respuesta, los árboles de regresión pueden capturar relaciones no lineales entre las características y la variable objetivo. Esto significa que los árboles de regresión pueden manejar datos en los que la relación entre las características y la variable de respuesta no sigue una forma funcional simple, como una línea recta. En cambio, pueden detectar patrones más complejos y no lineales en los datos, lo que los hace útiles para una amplia variedad de problemas regresivos en los que la relación entre las características y la variable objetivo es más compleja.

- **División de nodos**: Al igual que en los árboles de decisión para clasificación, los árboles de decisión de regresión también dividen el conjunto de datos en cada nodo en función de las características. Sin embargo, en lugar de elegir la división que maximice la pureza de la clase, se selecciona la división que minimice el error de regresión, como el error cuadrático medio (MSE) o el error absoluto medio (MAE).

- **Criterio de división**: El criterio utilizado para determinar cómo se dividen los nodos en problemas de regresión puede variar, pero los más comunes son MSE y MAE. El MSE calcula la varianza de los valores de respuesta en cada nodo y busca minimizarla al elegir la división óptima, mientras que el MAE calcula la media de las diferencias absolutas entre los valores de respuesta y sus predicciones en cada nodo.

- **Predicción en hojas**: A diferencia de los árboles de decisión para clasificación, donde las hojas representan clases, en los árboles de decisión de regresión, las hojas contienen valores numéricos que representan las predicciones. Cuando un nuevo ejemplo pasa por el árbol, su valor de respuesta se calcula tomando el promedio (o alguna otra función) de los valores de respuesta en la hoja correspondiente.

- **Regularización**: Al igual que en los árboles de decisión para clasificación, los árboles de decisión de regresión pueden sufrir de sobreajuste si se les permite crecer sin restricciones. Por lo tanto, técnicas de regularización como la poda o la limitación de la profundidad del árbol son importantes para evitar el sobreajuste y mejorar la generalización del modelo.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### Lectura de datos

En este notebook utilizaremos el dataset millas por galón. Este dataset fue utilizado previamente en un modelamiento regresivo lineal, pero en ese análisis pudimos percatarnos que algunas variables no tenían un comportamiento lineal y que, si bien es cierto que se obtuvo un modelo regresivo lineal, éste era demasiado simple para capturar las relaciones no lineales como ocurría, por ejemplo, entre la variable horsepower (caballos de fuerza) y mpg (consumo).

In [4]:
df = pd.read_csv('millas-por-galon.csv')

In [6]:
df.head()

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,model year,origin,mpg,car name
0,discrete,continuous,continuous,continuous,continuous,discrete,discrete,continuous,string
1,,,,,,,,class,meta
2,8,307.0,130.0,3504.0,12.0,70,1,18.0,chevrolet chevelle malibu
3,8,350.0,165.0,3693.0,11.5,70,1,15.0,buick skylark 320
4,8,318.0,150.0,3436.0,11.0,70,1,18.0,plymouth satellite


### Wrangling y limpieza

Realice wrangling y limpieza de los datos, recuerde que este dataset venía con algunas lineas que debían ser acomodadas. También verifique los tipos de dato de las variables, recuerde que la mayoría de ellas eran numéricas. También haga un tratamiento de los valores nulos, pues es probable que el regresor así lo requiera.

### Análisis Exploratorio y Visual

Haga un análisis univariado de la variable horsepower y mpg, posteriormente un análisis bivariado. ¿nota que la relación pareciera que no es lineal?

### Formulación del Modelo

Formule el modelo de aprendizaje con estos dos datos, recuerde que la variable objetivo es MPG (consumo).

In [10]:
X = ??
y = ??

### Validación Cruzada

Divida el set de datos para entrenamiento y test

In [11]:
# importar librería

In [12]:
# dividir set

In [None]:
# imprimir dimensiones de los nuevos sets

### Utilizar un modelamiento regresivo lineal

La estrategia a utilizar será la siguiente: Primero utilizaremos un modelo regresivo lineal y lo evaluaremos. Posteriormente, un árbol regresivo y lo evaluaremos para comparar si mejora las métricas de performance.

In [14]:
# importar libreria



In [15]:
# entrenar



In [17]:
# R-Squared


0.5659681822256184

In [18]:
# Realizar predicciones en el conjunto de prueba


In [19]:
# Calcular el error cuadrático medio (MSE)


Error cuadrático medio (MSE): 22.153237123863413


### Utilizar un regresor basado en árbol de decisión

El DecisionTreeRegressor es un modelo de aprendizaje automático que puede ser muy poderoso para el modelamiento de fenómenos de mayor complejidad, pero también puede ser propenso al sobreajuste si no se maneja adecuadamente. Aquí te explico más sobre ambos aspectos:

**Sobreajuste**

El sobreajuste ocurre cuando el modelo se ajusta demasiado a los datos de entrenamiento y captura tanto el patrón como el ruido en los datos. Como resultado, el modelo puede tener un rendimiento deficiente en datos no vistos, ya que no generaliza bien. Los árboles de decisión tienden a ser propensos al sobreajuste, especialmente si no se limita su profundidad o se utilizan pocos datos de entrenamiento. Para evitar el sobreajuste en DecisionTreeRegressor, se pueden utilizar técnicas como la poda del árbol (restringiendo su profundidad máxima o el número mínimo de muestras requeridas para dividir un nodo) y la selección de características (utilizando solo un subconjunto de características relevantes).

**Dificultad para encontrar los parámetros óptimos**

En muchos modelos de aprendizaje automático, encontrar los parámetros óptimos (o hiperparámetros) puede ser un desafío. Estos parámetros afectan al rendimiento y comportamiento del modelo, y encontrar los valores adecuados puede requerir un proceso de búsqueda. DecisionTreeRegressor tiene varios hiperparámetros, como la profundidad máxima del árbol, el número mínimo de muestras requeridas para dividir un nodo, etc. Encontrar los valores óptimos para estos hiperparámetros puede ser desafiante. ¿Cómo abordarlo? Se pueden utilizar técnicas de búsqueda de hiperparámetros, como la búsqueda en cuadrícula (Grid Search) o la búsqueda aleatoria (Random Search), para explorar diferentes combinaciones de hiperparámetros y encontrar los que maximizan el rendimiento del modelo en un conjunto de validación.


In [20]:
from sklearn.tree import DecisionTreeRegressor

In [22]:
# vamos a partir elaborando un modelo con una profundidad de 10 niveles
profundidad  = 10

In [23]:
# Crear y entrenar el modelo de árbol de regresión
tree_regressor = DecisionTreeRegressor(max_depth=profundidad, random_state=42)
tree_regressor.fit(X_train, y_train)

In [24]:
# Realizar predicciones en el conjunto de prueba
y_pred = tree_regressor.predict(X_test)

In [25]:
# R-Squared
tree_regressor.score(X_test,y_test)

0.521688623283437

In [None]:
# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio (MSE):", mse)

In [None]:
# Ordenar los datos de prueba y las predicciones
sorted_indices = np.argsort(X_test.values.flatten())
X_test_sorted = X_test.values[sorted_indices]
y_pred_sorted = y_pred[sorted_indices]

# Graficar los datos de entrenamiento y prueba
plt.scatter(X_train, y_train, color='blue', label='Training data')
plt.scatter(X_test, y_test, color='red', label='Test data')

# Graficar la línea del modelo de regresión
plt.plot(X_test_sorted, y_pred_sorted, color='green', linewidth=2, label='Regression line')

# Etiquetas y leyenda
plt.xlabel('X')
plt.ylabel('y')
plt.title('Árbol de Regresión')
plt.legend()

# Mostrar la gráfica
plt.show()

#### ¿Quién tuvo mejor desempeño?

Probablemente, si acabas de ejecutar el entrenamiento te habrás dado cuenta que DecisionTreeRegressor tuvo un desempeño inferior que el modelo lineal. Esto se debe a que utilizamos parámetros por defecto. Prueba distintos valores de **profundidad** y calcula el score en cada caso. Completa la siguiente tabla.

| Profundidad | Score |
| ----------- | ----- |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |
| ? | ? |


### Conclusiones

Elabore sus conclusiones acerca de DecisionTreeRegressor. ¿Mejora el desempeño? ¿disminuye el error? ¿Qué se podría mejorar?

In [None]:
## sus conclusiones acá




---