
# Modelos Basados en Árboles

Los modelos basados en árboles son una clase poderosa de algoritmos de machine learning que funcionan dividiendo recursivamente el espacio de entrada en regiones más pequeñas.

### Modelos incluidos:
- Árboles de decisión (Decision Trees)
- Bosques aleatorios (Random Forest)
- Gradient Boosting (XGBoost, LightGBM)

Estos modelos se usan tanto para **clasificación** como para **regresión**.

---

## ¿Por qué usar modelos basados en árboles?

- No requieren normalización de datos.
- Capturan relaciones no lineales.
- Soportan datos mixtos (numéricos y categóricos).
- Son fáciles de interpretar (especialmente los árboles simples).



## 1. Árboles de Decisión

Un **árbol de decisión** construye un modelo en forma de árbol donde cada nodo representa una pregunta (condición), y las hojas representan predicciones.

### Hiperparámetros principales:
- `max_depth`: Profundidad máxima del árbol.
- `min_samples_split`: Número mínimo de muestras para dividir un nodo.
- `min_samples_leaf`: Muestras mínimas en una hoja.
- `criterion`: Función para medir la calidad de una división (`gini`, `entropy` o `squared_error`).

### Ventajas:
- Fácil interpretación.
- Bajo costo computacional.

### Desventajas:
- Tienden al sobreajuste si no se podan.
- Alta varianza.



In [None]:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

# Datos de ejemplo
X, y = load_iris(return_X_y=True)

tree = DecisionTreeClassifier(max_depth=3, criterion='gini')
tree.fit(X, y)

plt.figure(figsize=(12, 6))
plot_tree(tree, filled=True, feature_names=load_iris().feature_names, class_names=load_iris().target_names)
plt.title("Árbol de Decisión (max_depth=3)")
plt.show()



## 2. Bosques Aleatorios (Random Forest)

Un **Random Forest** construye múltiples árboles de decisión y promedia sus predicciones para reducir la varianza.

### Hiperparámetros importantes:
- `n_estimators`: Número de árboles.
- `max_features`: Número de características consideradas en cada división.
- `bootstrap`: Si se usan muestras con reemplazo.

### Ventajas:
- Reduce el sobreajuste respecto a un solo árbol.
- Más preciso en muchos problemas.

### Desafíos:
- Menor interpretabilidad que un solo árbol.
- Más costoso computacionalmente.



In [None]:

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

rf = RandomForestClassifier(n_estimators=100, max_depth=5)
rf.fit(X_train, y_train)

y_pred = rf.predict(X_test)
print("Precisión del Random Forest:", accuracy_score(y_test, y_pred))



## 3. Gradient Boosting (XGBoost, LightGBM)

El **Gradient Boosting** construye árboles secuencialmente, cada uno intentando corregir los errores del anterior.

### Hiperparámetros clave:
- `n_estimators`: Número de árboles.
- `learning_rate`: Tasa de aprendizaje (cuánto corrige cada árbol).
- `max_depth`: Profundidad de cada árbol.
- `subsample`: Porcentaje de datos usado por árbol.

### Ventajas:
- Gran precisión si se ajustan correctamente.
- Funciona bien en datos estructurados/tabulares.

### Desafíos:
- Requiere ajuste fino de hiperparámetros.
- Mayor tiempo de entrenamiento.



In [None]:

from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3)
gb.fit(X_train, y_train)
y_pred_gb = gb.predict(X_test)

print("Precisión de Gradient Boosting:", accuracy_score(y_test, y_pred_gb))



## Consideraciones Finales

| Modelo             | Precisión | Interpretabilidad | Sobreajuste | Tiempo de entrenamiento |
|--------------------|-----------|-------------------|-------------|--------------------------|
| Árbol de decisión  | Media     | Alta              | Alto        | Bajo                     |
| Random Forest      | Alta      | Media             | Bajo        | Medio                    |
| Gradient Boosting  | Muy Alta  | Baja              | Medio       | Alto                     |

### Recomendaciones:
- Usa árboles simples si necesitas interpretabilidad.
- Usa Random Forest para buena precisión sin tanto tuning.
- Usa Boosting para máxima performance (con tuning).

---

## Ejercicio Sugerido

Entrena un Random Forest y un Gradient Boosting sobre el dataset `wine` de sklearn. Compara sus desempeños y ajusta `max_depth` y `n_estimators`.
