In [None]:
# üì¶ Imports y Configuraci√≥n
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Scikit-Learn
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, classification_report

# Configuraci√≥n Visual
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

RANDOM_STATE = 42


---

## 2. El Problema de la Varianza

### Un √°rbol solo es "inestable"
Peque√±os cambios en el dataset producen √°rboles **completamente diferentes**.

In [None]:
# Generar datos base
X, y = make_moons(n_samples=300, noise=0.25, random_state=RANDOM_STATE)

# Funci√≥n para visualizar frontera


def plot_decision_boundary(model, X, y, ax, title):
    h = 0.02
    x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
    y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contourf(xx, yy, Z, alpha=0.4, cmap='RdBu')
    ax.scatter(X[:, 0], X[:, 1], c=y, cmap='RdBu', edgecolors='k', alpha=0.8)
    ax.set_title(title)


# Entrenar 4 √°rboles en 4 subconjuntos diferentes
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

for i, ax in enumerate(axes.flat):
    # Muestreo bootstrap
    idx = np.random.choice(len(X), size=len(X), replace=True)
    X_boot, y_boot = X[idx], y[idx]

    tree = DecisionTreeClassifier(max_depth=5, random_state=i)
    tree.fit(X_boot, y_boot)

    plot_decision_boundary(tree, X, y, ax, f'√Årbol #{i+1} (Bootstrap)')

plt.suptitle('‚ö†Ô∏è 4 √Årboles, 4 Fronteras MUY Diferentes', fontsize=14)
plt.tight_layout()
plt.show()

print("üîç Observa: Cada √°rbol captura patrones diferentes.")
print("   Si promediamos sus predicciones, el 'ruido' se cancela.")


---

## 3. La Magia del Bagging

### Bootstrap Aggregating (Bagging)

```
Para cada √°rbol t = 1, 2, ..., T:
    1. Muestrear N ejemplos CON reemplazo (bootstrap)
    2. Entrenar √°rbol en ese subconjunto
    3. En cada split, usar ‚àöp features aleatorios

Predicci√≥n final = VOTACI√ìN mayoritaria (clasificaci√≥n)
                   PROMEDIO (regresi√≥n)
```

### üìê ¬øPor Qu√© Funciona?

| Concepto | Explicaci√≥n |
|----------|-------------|
| **Diversidad** | Cada √°rbol ve datos y features diferentes |
| **Decorrelaci√≥n** | Los errores de cada √°rbol son independientes |
| **Reducci√≥n Varianza** | $\sigma^2_{promedio} = \frac{\sigma^2}{n}$ |

> **üí° Analog√≠a:** Es como preguntar direcciones a 100 personas aleatorias. Algunas se equivocar√°n, pero el promedio te llevar√° al destino.

---

## 4. Random Forest en Acci√≥n

In [None]:
# Dividir datos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=RANDOM_STATE)

# Entrenar Random Forest
rf = RandomForestClassifier(
    n_estimators=100, max_depth=5, random_state=RANDOM_STATE)
rf.fit(X_train, y_train)

# Entrenar √°rbol simple para comparaci√≥n
tree_simple = DecisionTreeClassifier(max_depth=5, random_state=RANDOM_STATE)
tree_simple.fit(X_train, y_train)

# Comparar fronteras
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

plot_decision_boundary(tree_simple, X, y, axes[0],
                       f'Un Solo √Årbol\nTest Acc: {tree_simple.score(X_test, y_test):.2%}')

plot_decision_boundary(rf, X, y, axes[1],
                       f'Random Forest (100 √°rboles)\nTest Acc: {rf.score(X_test, y_test):.2%}')

plt.suptitle('√Årbol Individual vs Random Forest', fontsize=14)
plt.tight_layout()
plt.show()


In [None]:
# Comparar estabilidad con Cross-Validation
tree_scores = cross_val_score(DecisionTreeClassifier(max_depth=5, random_state=RANDOM_STATE),
                              X, y, cv=10)
rf_scores = cross_val_score(RandomForestClassifier(n_estimators=100, max_depth=5, random_state=RANDOM_STATE),
                            X, y, cv=10)

fig, ax = plt.subplots(figsize=(10, 5))
positions = [1, 2]
bp = ax.boxplot([tree_scores, rf_scores], positions=positions,
                widths=0.6, patch_artist=True)

colors = ['#FF6B6B', '#4ECDC4']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)

ax.set_xticks(positions)
ax.set_xticklabels(['√Årbol Individual', 'Random Forest'])
ax.set_ylabel('Accuracy (10-Fold CV)')
ax.set_title('Variabilidad en Rendimiento: Un √Årbol vs 100 √Årboles')
ax.axhline(y=np.mean(rf_scores), color='green', linestyle='--',
           label=f'RF Media: {np.mean(rf_scores):.3f}')
ax.legend()
plt.show()

print(
    f"üìä √Årbol Individual: {np.mean(tree_scores):.3f} ¬± {np.std(tree_scores):.3f}")
print(
    f"üìä Random Forest:    {np.mean(rf_scores):.3f} ¬± {np.std(rf_scores):.3f}")


> **üí° Pro-Tip: Estabilidad > Rendimiento Puntual**
> Un modelo que da 85% consistentemente es mejor que uno que da 80%-95% seg√∫n el d√≠a. Random Forest brilla en estabilidad.

---

## 5. Importancia de Variables

Una ventaja de Random Forest: **Feature Importance** basada en cu√°nto reduce cada variable la impureza.

In [None]:
# Generar datos con m√°s features
from sklearn.datasets import make_classification

X_multi, y_multi = make_classification(
    n_samples=500, n_features=10, n_informative=5, n_redundant=2,
    n_clusters_per_class=2, random_state=RANDOM_STATE)

feature_names = [f'Feature_{i}' for i in range(10)]

# Entrenar RF
rf_multi = RandomForestClassifier(n_estimators=100, random_state=RANDOM_STATE)
rf_multi.fit(X_multi, y_multi)

# Plot importancia
importances = rf_multi.feature_importances_
indices = np.argsort(importances)[::-1]

plt.figure(figsize=(10, 6))
plt.bar(range(10), importances[indices], color='steelblue', alpha=0.8)
plt.xticks(range(10), [feature_names[i] for i in indices], rotation=45)
plt.xlabel('Feature')
plt.ylabel('Importancia (Reducci√≥n Gini)')
plt.title('üìä Feature Importance - Random Forest')
plt.tight_layout()
plt.show()

print("üîç Las primeras 5 features fueron creadas como 'informativas'.")
print("   El modelo las identifica correctamente como las m√°s importantes.")


> **‚ö†Ô∏è Real-World Warning: Correlaci√≥n ‚â† Importancia Causal**
> Feature importance mide asociaci√≥n predictiva, NO causalidad. Una variable proxy (correlacionada con el target) puede parecer importante aunque no cause el efecto.

---

## 6. Hiperpar√°metros Clave

| Par√°metro | Descripci√≥n | Valor T√≠pico |
|-----------|-------------|---------------|
| `n_estimators` | N√∫mero de √°rboles | 100-500 (m√°s = m√°s estable) |
| `max_depth` | Profundidad de cada √°rbol | 5-15 o None |
| `max_features` | Features por split | `sqrt` (clasificaci√≥n), `log2` |
| `min_samples_leaf` | M√≠nimo en hojas | 1-5 |
| `n_jobs` | Paralelizaci√≥n | -1 (todos los cores) |

In [None]:
# Efecto del n√∫mero de √°rboles
n_trees_list = [1, 5, 10, 25, 50, 100, 200, 500]
scores = []

X_tr, X_ts, y_tr, y_ts = train_test_split(
    X, y, test_size=0.3, random_state=RANDOM_STATE)

for n_trees in n_trees_list:
    rf_temp = RandomForestClassifier(
        n_estimators=n_trees, max_depth=5, random_state=RANDOM_STATE)
    rf_temp.fit(X_tr, y_tr)
    scores.append(rf_temp.score(X_ts, y_ts))

plt.figure(figsize=(10, 5))
plt.plot(n_trees_list, scores, 'o-', linewidth=2, markersize=8)
plt.xlabel('N√∫mero de √Årboles (n_estimators)')
plt.ylabel('Accuracy en Test')
plt.title('¬øCu√°ntos √Årboles Necesitamos?')
plt.axhline(y=max(scores), color='green', linestyle='--', alpha=0.7)
plt.grid(True, alpha=0.3)
plt.show()

print("üí° Despu√©s de ~100 √°rboles, las ganancias son marginales.")
print("   M√°s √°rboles = m√°s tiempo de entrenamiento.")


> **üí° Pro-Tip: La Regla del 100**
> Para la mayor√≠a de problemas, 100 √°rboles son suficientes. Solo aumenta si tienes datos muy ruidosos o alta dimensionalidad.

---

## 7. Caso de Negocio: Predicci√≥n de Churn

Usaremos datos de Telco para predecir qu√© clientes abandonar√°n el servicio.

In [None]:
# Cargar datos (asumimos que existe telco_churn.csv)
try:
    df = pd.read_csv('../data/telco_churn.csv')
    print(f"‚úÖ Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
except FileNotFoundError:
    print("‚ö†Ô∏è Archivo no encontrado. Generando datos sint√©ticos para demostraci√≥n...")
    np.random.seed(RANDOM_STATE)
    n = 1000
    df = pd.DataFrame({
        'tenure': np.random.randint(1, 72, n),
        'MonthlyCharges': np.random.uniform(20, 100, n),
        'TotalCharges': np.random.uniform(100, 5000, n),
        'Contract_Month': np.random.binomial(1, 0.5, n),
        'PaymentMethod_Electronic': np.random.binomial(1, 0.4, n),
        'InternetService_Fiber': np.random.binomial(1, 0.35, n),
        'OnlineSecurity_No': np.random.binomial(1, 0.5, n),
        'TechSupport_No': np.random.binomial(1, 0.5, n),
    })
    # Simular Churn basado en features
    prob_churn = 0.1 + 0.3*(df['Contract_Month']) + 0.1 * \
        (df['tenure'] < 12) + 0.15*(df['OnlineSecurity_No'])
    df['Churn'] = (np.random.rand(n) < prob_churn).astype(int)
    print(f"‚úÖ Datos sint√©ticos generados: {df.shape[0]} filas")

df.head()


In [None]:
# Preparar datos
target = 'Churn' if 'Churn' in df.columns else df.columns[-1]
features = [col for col in df.columns if col !=
            target and df[col].dtype in ['int64', 'float64']]

X_churn = df[features]
y_churn = df[target]

X_tr, X_ts, y_tr, y_ts = train_test_split(X_churn, y_churn, test_size=0.3,
                                          stratify=y_churn, random_state=RANDOM_STATE)

# Entrenar Random Forest
rf_churn = RandomForestClassifier(n_estimators=100, max_depth=6,
                                  min_samples_leaf=10, random_state=RANDOM_STATE)
rf_churn.fit(X_tr, y_tr)

print(f"üìä Accuracy en Test: {rf_churn.score(X_ts, y_ts):.2%}")


In [None]:
# Feature Importance para Churn
importances = rf_churn.feature_importances_
indices = np.argsort(importances)[::-1]

plt.figure(figsize=(10, 6))
plt.barh(range(len(features)), importances[indices], color='coral')
plt.yticks(range(len(features)), [features[i] for i in indices])
plt.xlabel('Importancia (Reducci√≥n Gini)')
plt.title('üîç ¬øQu√© Variables Predicen Churn?')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()


### üß† Micro-Desaf√≠o: Interpretando Feature Importance

**Pregunta:** Seg√∫n el gr√°fico, ¬øcu√°les son las 3 variables m√°s importantes para predecir churn?

**Reflexi√≥n:** ¬øQu√© acciones de negocio podr√≠as recomendar bas√°ndote en estas variables?

---

## 8. Resumen y Siguiente Paso

### üèÜ Resumen de Logros
¬°Felicidades! En este notebook has aprendido:

1. **Bagging:** Entrenar m√∫ltiples modelos en subconjuntos bootstrap.
2. **Decorrelaci√≥n:** La aleatoriedad en features reduce la correlaci√≥n entre √°rboles.
3. **Reducci√≥n de Varianza:** El promedio de muchos √°rboles es m√°s estable que uno solo.
4. **Feature Importance:** Identificar qu√© variables son m√°s predictivas.
5. **Paralelizaci√≥n:** Los √°rboles se entrenan independientemente (escalabilidad).

### ‚úÖ Ventajas de Random Forest
- Robusto a outliers y ruido
- Poco preprocesamiento requerido
- Maneja bien desbalance de clases (con `class_weight`)
- Feature importance interpretable

### ‚ö†Ô∏è Limitaciones
- Menos interpretable que un √°rbol solo
- Puede ser lento con millones de registros
- No extrapola bien fuera del rango de datos

---

### üëâ Siguiente Paso
Random Forest promedia √°rboles independientes (paralelos). ¬øY si cada √°rbol **aprendiera de los errores del anterior**?

**Gradient Boosting:** Entrenar √°rboles secuencialmente, donde cada uno corrige los errores del anterior.

*En el siguiente notebook veremos XGBoost y LightGBM, los reyes de Kaggle.*