#Árboles de Decisión para Regresión: Construcción de Modelos y Aplicaciones Prácticas

**Introducción**

Los modelos basados en árboles de decisión son una poderosa herramienta en el aprendizaje automático tanto para clasificación como para regresión. En el contexto de la regresión, los árboles de decisión se utilizan para predecir valores continuos dividiendo el espacio de características en regiones más pequeñas y ajustando un valor constante en cada región. Su facilidad de interpretación y flexibilidad los hacen una opción popular para muchos problemas de predicción.

 

**Teoría del Árbol de Decisión Regresor**

**Concepto Básico**

Un árbol de decisión regresor divide iterativamente el espacio de características en subconjuntos basándose en condiciones de decisión que minimizan la suma de los errores al cuadrado (SSE) en cada partición. Cada nodo interno del árbol representa una prueba en una característica, cada rama representa el resultado de la prueba y cada nodo hoja representa el valor predicho.

 



**Algoritmo de Construcción**

El proceso de construcción de un árbol de decisión regresor implica los siguientes pasos:

Seleccionar la mejor característica y punto de división: En cada nodo, el algoritmo busca la característica y el punto de división que minimicen la suma de los errores al cuadrado.
Dividir el conjunto de datos: Basándose en la mejor característica y punto de división, el conjunto de datos se divide en dos subconjuntos.
Repetir recursivamente: Este proceso se repite recursivamente para cada subconjunto hasta que se cumpla un criterio de parada (por ejemplo, una profundidad máxima del árbol o un número mínimo de muestras en un nodo).
 

**Ventajas y Desventajas**

**Ventajas**

1. **Interpretabilidad:** Los árboles de decisión son fáciles de interpretar y visualizar.
2. **Manejo de Datos no Lineales:** Pueden capturar relaciones no lineales entre las características y la variable objetivo.
3. **No Requieren Normalización:** No es necesario escalar las características antes de construir el árbol.
 

**Desventajas**

1. **Propensión al Sobreajuste:** Los árboles de decisión pueden sobreajustar fácilmente los datos, especialmente si el árbol es muy profundo.
2. **Sensibilidad a la Variabilidad en los Datos:** Pequeñas variaciones en los datos pueden resultar en un árbol completamente diferente.
3. **Poca Generalización:** A menudo tienen un rendimiento inferior en comparación con otros modelos más complejos, como los bosques aleatorios o los métodos de boosting.
 

Poda del Árbol

Para evitar el sobreajuste, se pueden aplicar técnicas de poda, que implican eliminar ramas del árbol que tienen poca importancia o que no mejoran significativamente el rendimiento del modelo. La poda puede ser:

Poda Previa: Detener el crecimiento del árbol antes de que se convierta en demasiado complejo.
Poda Posterior: Eliminar ramas de un árbol completamente desarrollado que no proporcionan información adicional.
 

Implementación en Python

Ejemplo de Uso

Supongamos que tenemos un conjunto de datos housing_prices.csv con las siguientes columnas:

* size: Tamaño de la casa en pies cuadrados.
* bedrooms: Número de habitaciones.
* price: Precio de venta de la casa.

In [4]:
#Carga de Datos y Exploración
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

data = pd.read_csv('../../data/house-prices.csv')

# Exploración de datos
print(data.head())
print(data.describe())

# Separar variables predictoras y objetivo
X = data[['SqFt', 'Bedrooms']]
y = data['Price']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# Escalado de datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Entrenamiento del modelo Árbol de Decisión
tree = DecisionTreeRegressor(random_state=0)
tree.fit(X_train, y_train)

# Realizar predicciones
y_pred = tree.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'Error Cuadrático Medio: {mse}')
print(f'R-cuadrado: {r2}')

   Home   Price  SqFt  Bedrooms  Bathrooms  Offers Brick Neighborhood
0     1  114300  1790         2          2       2    No         East
1     2  114200  2030         4          2       3    No         East
2     3  114800  1740         3          2       1    No         East
3     4   94700  1980         3          2       3    No         East
4     5  119800  2130         3          3       3    No         East
             Home          Price         SqFt    Bedrooms   Bathrooms  \
count  128.000000     128.000000   128.000000  128.000000  128.000000   
mean    64.500000  130427.343750  2000.937500    3.023438    2.445312   
std     37.094474   26868.770371   211.572431    0.725951    0.514492   
min      1.000000   69100.000000  1450.000000    2.000000    2.000000   
25%     32.750000  111325.000000  1880.000000    3.000000    2.000000   
50%     64.500000  125950.000000  2000.000000    3.000000    2.000000   
75%     96.250000  148250.000000  2140.000000    3.000000    3.000000

**Poda del Árbol**

Podemos ajustar el modelo para evitar el sobreajuste limitando la profundidad del árbol o el número mínimo de muestras en una hoja.

In [5]:
# Entrenamiento del modelo con poda
tree_pruned = DecisionTreeRegressor(max_depth=3, random_state=0)
tree_pruned.fit(X_train, y_train)

# Realizar predicciones
y_pred_pruned = tree_pruned.predict(X_test)

# Evaluar el modelo podado
mse_pruned = mean_squared_error(y_test, y_pred_pruned)
r2_pruned = r2_score(y_test, y_pred_pruned)
print(f'Error Cuadrático Medio (Podado): {mse_pruned}')
print(f'R-cuadrado (Podado): {r2_pruned}')

Error Cuadrático Medio (Podado): 624362959.2053138
R-cuadrado (Podado): -0.036149082218008166
