# Árbol de decisión para la regresión

In [None]:
import pandas as pd

penguins = pd.read_csv("../../data/penguins/penguins_regression.csv")


feature_name = "Flipper Length (mm)"
target_name = "Body Mass (g)"
data_train, target_train = penguins[[feature_name]], penguins[target_name]

In [None]:
import numpy as np

data_test = pd.DataFrame(np.arange(data_train[feature_name].min(),
                                   data_train[feature_name].max()),
                                   columns=[feature_name])

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                color="black", alpha=0.5)
_ = plt.title("Ilustración del dataset de regresión usado")

In [None]:
# Primero ilustraremos la diferencia entre un modelo lineal y un árbol de decisión.

from sklearn.linear_model import LinearRegression

linear_model = LinearRegression()
linear_model.fit(data_train, target_train)
target_predicted = linear_model.predict(data_test)

In [None]:
sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                color="black", alpha=0.5)
plt.plot(data_test[feature_name], target_predicted, label="Linear regression")
plt.legend()
_ = plt.title("Función de predicción utilizando LinearRegression")

In [None]:
ax = sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                     color="black", alpha=0.5)
plt.plot(data_test[feature_name], target_predicted, label="Linear regression",
         linestyle="--")
plt.scatter(data_test[::3], target_predicted[::3], label="Predictions",
            color="tab:orange")
plt.legend()
_ = plt.title("Función de predicción utilizando LinearRegression")

In [None]:
# Los árboles de decisión son modelos no paramétricos.
# Repetir el experimento anterior resaltará las diferencias.

from sklearn.tree import DecisionTreeRegressor

tree = DecisionTreeRegressor(max_depth=1)
tree.fit(data_train, target_train)
target_predicted = tree.predict(data_test)

In [None]:
sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                color="black", alpha=0.5)
plt.plot(data_test[feature_name], target_predicted, label="Decision tree")
plt.legend()
_ = plt.title("Función de predicción utilizando DecisionTreeRegressor")

In [None]:
# veamos la estructura del árbol para ver cuál fue el umbral que se encontró durante el entrenamiento.

from sklearn.tree import plot_tree

_, ax = plt.subplots(figsize=(8, 6))
_ = plot_tree(tree, feature_names=[feature_name], ax=ax)

> El umbral para nuestra característica (longitud de la aleta) es de 206.5 mm.
    - Los valores predichos en cada lado de la división son dos constantes: 3698.71 gy 5032.36 g.
    - Estos valores corresponden a los valores medios de las muestras de entrenamiento en cada partición.

En la clasificación, vimos que aumentar la profundidad del árbol nos permitió obtener límites de decisión más complejos.

Verifiquemos el efecto de aumentar la profundidad en una configuración de regresión:

In [None]:
tree = DecisionTreeRegressor(max_depth=3)
tree.fit(data_train, target_train)
target_predicted = tree.predict(data_test)

In [None]:
sns.scatterplot(data=penguins, x=feature_name, y=target_name,
                color="black", alpha=0.5)
plt.plot(data_test[feature_name], target_predicted, label="Decision tree")
plt.legend()
_ = plt.title("Función de predicción utilizando DecisionTreeRegressor")