# Demo del Algoritmo Random Forest

Este notebook presenta una demostración completa del algoritmo Random Forest, explicando sus hiperparámetros principales y cómo afectan al rendimiento del modelo.

## ¿Qué es Random Forest?

Random Forest es un algoritmo de aprendizaje automático que combina múltiples árboles de decisión para crear un modelo más robusto y preciso. Es un método de **ensemble learning** que utiliza la técnica de **bagging** (Bootstrap Aggregating).

### Ventajas de Random Forest:
- Reduce el overfitting
- Maneja bien datos faltantes
- Proporciona importancia de características
- Es robusto a outliers
- Funciona bien con datos categóricos y numéricos


## Hiperparámetros Principales de Random Forest

### 1. **n_estimators** (número de árboles)
- **Qué hace**: Define cuántos árboles de decisión se crearán en el bosque
- **Valor por defecto**: 100
- **Efecto**: Más árboles generalmente mejoran la precisión pero aumentan el tiempo de entrenamiento

### 2. **max_depth** (profundidad máxima)
- **Qué hace**: Controla la profundidad máxima de cada árbol
- **Valor por defecto**: None (sin límite)
- **Efecto**: Limita el crecimiento del árbol para evitar overfitting

### 3. **min_samples_split** (mínimo de muestras para dividir)
- **Qué hace**: Número mínimo de muestras requeridas para dividir un nodo interno
- **Valor por defecto**: 2
- **Efecto**: Valores más altos previenen overfitting

### 4. **min_samples_leaf** (mínimo de muestras en hoja)
- **Qué hace**: Número mínimo de muestras requeridas en un nodo hoja
- **Valor por defecto**: 1
- **Efecto**: Valores más altos suavizan el modelo

### 5. **max_features** (características máximas)
- **Qué hace**: Número de características a considerar al buscar la mejor división
- **Valores comunes**: 'sqrt', 'log2', None, o un número específico
- **Efecto**: Controla la aleatoriedad y puede reducir overfitting

### 6. **bootstrap** (muestreo con reemplazo)
- **Qué hace**: Si usar muestreo bootstrap al construir árboles
- **Valor por defecto**: True
- **Efecto**: True permite diversidad entre árboles


In [None]:
# Importar las librerías necesarias
import numpy as np  # Para operaciones numéricas y arrays
import pandas as pd  # Para manipulación de datos estructurados
import matplotlib.pyplot as plt  # Para crear gráficos y visualizaciones
import seaborn as sns  # Para gráficos estadísticos más avanzados
from sklearn.datasets import make_classification  # Para generar datos sintéticos de clasificación
from sklearn.model_selection import train_test_split  # Para dividir datos en entrenamiento y prueba
from sklearn.ensemble import RandomForestClassifier  # El algoritmo Random Forest
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix  # Métricas de evaluación
from sklearn.metrics import precision_score, recall_score, f1_score  # Métricas adicionales

# Configurar el estilo de los gráficos para que se vean mejor
plt.style.use('seaborn-v0_8')  # Usar estilo seaborn para gráficos más atractivos
sns.set_palette("husl")  # Configurar paleta de colores para los gráficos

print("✅ Librerías importadas correctamente")


In [None]:
# Generar un dataset sintético para la demostración
# make_classification crea un dataset de clasificación con características controladas
X, y = make_classification(
    n_samples=1000,  # Número total de muestras (filas)
    n_features=10,   # Número de características (columnas)
    n_informative=8, # Número de características informativas (que realmente ayudan a clasificar)
    n_redundant=2,   # Número de características redundantes (correlacionadas con las informativas)
    n_classes=3,     # Número de clases diferentes
    random_state=42  # Semilla para reproducibilidad
)

# Convertir a DataFrame para mejor visualización
df = pd.DataFrame(X, columns=[f'Feature_{i+1}' for i in range(X.shape[1])])
df['target'] = y  # Agregar la variable objetivo

print("📊 Información del Dataset:")
print(f"Forma del dataset: {X.shape}")
print(f"Número de clases: {len(np.unique(y))}")
print(f"Distribución de clases: {np.bincount(y)}")
print("\n🔍 Primeras 5 filas del dataset:")
print(df.head())


In [None]:
# Dividir el dataset en conjuntos de entrenamiento y prueba
# train_test_split separa los datos de manera aleatoria pero reproducible
X_train, X_test, y_train, y_test = train_test_split(
    X, y,                    # Datos de entrada y salida
    test_size=0.2,           # 20% de los datos para prueba, 80% para entrenamiento
    random_state=42,         # Semilla para reproducibilidad
    stratify=y               # Mantener la proporción de clases en ambos conjuntos
)

print("📈 División de datos:")
print(f"Conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Conjunto de prueba: {X_test.shape[0]} muestras")
print(f"Proporción entrenamiento/prueba: {X_train.shape[0]/X_test.shape[0]:.1f}:1")

# Verificar que la distribución de clases se mantiene
print(f"\nDistribución de clases en entrenamiento: {np.bincount(y_train)}")
print(f"Distribución de clases en prueba: {np.bincount(y_test)}")


## Demostración de Hiperparámetros

Ahora vamos a entrenar diferentes modelos Random Forest con diferentes configuraciones de hiperparámetros para ver cómo afectan al rendimiento del modelo.


In [None]:
# Modelo 1: Random Forest con parámetros por defecto
print("🌲 Modelo 1: Random Forest con parámetros por defecto")
print("=" * 50)

# Crear el modelo con parámetros por defecto
rf_default = RandomForestClassifier(random_state=42)

# Entrenar el modelo con los datos de entrenamiento
rf_default.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred_default = rf_default.predict(X_test)

# Calcular métricas de rendimiento
accuracy_default = accuracy_score(y_test, y_pred_default)
precision_default = precision_score(y_test, y_pred_default, average='weighted')
recall_default = recall_score(y_test, y_pred_default, average='weighted')
f1_default = f1_score(y_test, y_pred_default, average='weighted')

print(f"📊 Métricas del modelo por defecto:")
print(f"   Accuracy: {accuracy_default:.4f}")
print(f"   Precision: {precision_default:.4f}")
print(f"   Recall: {recall_default:.4f}")
print(f"   F1-Score: {f1_default:.4f}")

# Mostrar los parámetros utilizados
print(f"\n⚙️ Parámetros utilizados:")
print(f"   n_estimators: {rf_default.n_estimators}")
print(f"   max_depth: {rf_default.max_depth}")
print(f"   min_samples_split: {rf_default.min_samples_split}")
print(f"   min_samples_leaf: {rf_default.min_samples_leaf}")
print(f"   max_features: {rf_default.max_features}")
print(f"   bootstrap: {rf_default.bootstrap}")


In [None]:
# Modelo 2: Random Forest con más árboles (n_estimators)
print("\n🌲 Modelo 2: Random Forest con más árboles (n_estimators=200)")
print("=" * 50)

# Crear el modelo con más árboles
rf_more_trees = RandomForestClassifier(
    n_estimators=200,  # Aumentar de 100 a 200 árboles
    random_state=42
)

# Entrenar el modelo
rf_more_trees.fit(X_train, y_train)

# Hacer predicciones
y_pred_more_trees = rf_more_trees.predict(X_test)

# Calcular métricas
accuracy_more_trees = accuracy_score(y_test, y_pred_more_trees)
precision_more_trees = precision_score(y_test, y_pred_more_trees, average='weighted')
recall_more_trees = recall_score(y_test, y_pred_more_trees, average='weighted')
f1_more_trees = f1_score(y_test, y_pred_more_trees, average='weighted')

print(f"📊 Métricas del modelo con más árboles:")
print(f"   Accuracy: {accuracy_more_trees:.4f}")
print(f"   Precision: {precision_more_trees:.4f}")
print(f"   Recall: {recall_more_trees:.4f}")
print(f"   F1-Score: {f1_more_trees:.4f}")

print(f"\n⚙️ Parámetros utilizados:")
print(f"   n_estimators: {rf_more_trees.n_estimators}")
print(f"   max_depth: {rf_more_trees.max_depth}")
print(f"   min_samples_split: {rf_more_trees.min_samples_split}")
print(f"   min_samples_leaf: {rf_more_trees.min_samples_leaf}")
print(f"   max_features: {rf_more_trees.max_features}")
print(f"   bootstrap: {rf_more_trees.bootstrap}")

# Comparar con el modelo anterior
print(f"\n📈 Comparación con modelo por defecto:")
print(f"   Mejora en Accuracy: {accuracy_more_trees - accuracy_default:.4f}")
print(f"   Mejora en F1-Score: {f1_more_trees - f1_default:.4f}")


In [None]:
# Modelo 3: Random Forest con profundidad limitada (max_depth)
print("\n🌲 Modelo 3: Random Forest con profundidad limitada (max_depth=5)")
print("=" * 50)

# Crear el modelo con profundidad limitada
rf_limited_depth = RandomForestClassifier(
    n_estimators=100,     # Mantener 100 árboles
    max_depth=5,          # Limitar la profundidad máxima a 5 niveles
    random_state=42
)

# Entrenar el modelo
rf_limited_depth.fit(X_train, y_train)

# Hacer predicciones
y_pred_limited_depth = rf_limited_depth.predict(X_test)

# Calcular métricas
accuracy_limited_depth = accuracy_score(y_test, y_pred_limited_depth)
precision_limited_depth = precision_score(y_test, y_pred_limited_depth, average='weighted')
recall_limited_depth = recall_score(y_test, y_pred_limited_depth, average='weighted')
f1_limited_depth = f1_score(y_test, y_pred_limited_depth, average='weighted')

print(f"📊 Métricas del modelo con profundidad limitada:")
print(f"   Accuracy: {accuracy_limited_depth:.4f}")
print(f"   Precision: {precision_limited_depth:.4f}")
print(f"   Recall: {recall_limited_depth:.4f}")
print(f"   F1-Score: {f1_limited_depth:.4f}")

print(f"\n⚙️ Parámetros utilizados:")
print(f"   n_estimators: {rf_limited_depth.n_estimators}")
print(f"   max_depth: {rf_limited_depth.max_depth}")
print(f"   min_samples_split: {rf_limited_depth.min_samples_split}")
print(f"   min_samples_leaf: {rf_limited_depth.min_samples_leaf}")
print(f"   max_features: {rf_limited_depth.max_features}")
print(f"   bootstrap: {rf_limited_depth.bootstrap}")

# Comparar con el modelo por defecto
print(f"\n📈 Comparación con modelo por defecto:")
print(f"   Cambio en Accuracy: {accuracy_limited_depth - accuracy_default:.4f}")
print(f"   Cambio en F1-Score: {f1_limited_depth - f1_default:.4f}")

print(f"\n💡 Interpretación:")
print(f"   Limitar la profundidad puede prevenir overfitting")
print(f"   pero también puede reducir la capacidad del modelo")


In [None]:
# Modelo 4: Random Forest con parámetros más restrictivos
print("\n🌲 Modelo 4: Random Forest con parámetros más restrictivos")
print("=" * 50)

# Crear el modelo con parámetros más restrictivos para prevenir overfitting
rf_restrictive = RandomForestClassifier(
    n_estimators=100,           # 100 árboles
    max_depth=3,                # Profundidad muy limitada
    min_samples_split=10,       # Requerir al menos 10 muestras para dividir
    min_samples_leaf=5,         # Requerir al menos 5 muestras en cada hoja
    max_features='sqrt',        # Usar solo sqrt(n_features) características por división
    random_state=42
)

# Entrenar el modelo
rf_restrictive.fit(X_train, y_train)

# Hacer predicciones
y_pred_restrictive = rf_restrictive.predict(X_test)

# Calcular métricas
accuracy_restrictive = accuracy_score(y_test, y_pred_restrictive)
precision_restrictive = precision_score(y_test, y_pred_restrictive, average='weighted')
recall_restrictive = recall_score(y_test, y_pred_restrictive, average='weighted')
f1_restrictive = f1_score(y_test, y_pred_restrictive, average='weighted')

print(f"📊 Métricas del modelo restrictivo:")
print(f"   Accuracy: {accuracy_restrictive:.4f}")
print(f"   Precision: {precision_restrictive:.4f}")
print(f"   Recall: {recall_restrictive:.4f}")
print(f"   F1-Score: {f1_restrictive:.4f}")

print(f"\n⚙️ Parámetros utilizados:")
print(f"   n_estimators: {rf_restrictive.n_estimators}")
print(f"   max_depth: {rf_restrictive.max_depth}")
print(f"   min_samples_split: {rf_restrictive.min_samples_split}")
print(f"   min_samples_leaf: {rf_restrictive.min_samples_leaf}")
print(f"   max_features: {rf_restrictive.max_features}")
print(f"   bootstrap: {rf_restrictive.bootstrap}")

# Comparar con el modelo por defecto
print(f"\n📈 Comparación con modelo por defecto:")
print(f"   Cambio en Accuracy: {accuracy_restrictive - accuracy_default:.4f}")
print(f"   Cambio en F1-Score: {f1_restrictive - f1_default:.4f}")

print(f"\n💡 Interpretación:")
print(f"   Parámetros restrictivos previenen overfitting")
print(f"   pero pueden hacer el modelo demasiado simple")


In [None]:
# Resumen comparativo de todos los modelos
print("📊 RESUMEN COMPARATIVO DE TODOS LOS MODELOS")
print("=" * 60)

# Crear un DataFrame con los resultados
results = pd.DataFrame({
    'Modelo': ['Por Defecto', 'Más Árboles', 'Profundidad Limitada', 'Restrictivo'],
    'Accuracy': [accuracy_default, accuracy_more_trees, accuracy_limited_depth, accuracy_restrictive],
    'Precision': [precision_default, precision_more_trees, precision_limited_depth, precision_restrictive],
    'Recall': [recall_default, recall_more_trees, recall_limited_depth, recall_restrictive],
    'F1-Score': [f1_default, f1_more_trees, f1_limited_depth, f1_restrictive]
})

# Mostrar el DataFrame con formato
print(results.round(4))

# Encontrar el mejor modelo
best_model_idx = results['F1-Score'].idxmax()
best_model_name = results.loc[best_model_idx, 'Modelo']
best_f1_score = results.loc[best_model_idx, 'F1-Score']

print(f"\n🏆 Mejor modelo: {best_model_name}")
print(f"   F1-Score: {best_f1_score:.4f}")

print(f"\n📈 Análisis de resultados:")
print(f"   • Más árboles pueden mejorar la precisión")
print(f"   • Limitar profundidad puede prevenir overfitting")
print(f"   • Parámetros restrictivos pueden ser demasiado conservadores")
print(f"   • El equilibrio entre complejidad y generalización es clave")


In [None]:
# Visualización de los resultados
fig, axes = plt.subplots(2, 2, figsize=(15, 12))  # Crear una figura con 4 subplots
fig.suptitle('Comparación de Modelos Random Forest', fontsize=16, fontweight='bold')

# Gráfico 1: Comparación de Accuracy
axes[0, 0].bar(results['Modelo'], results['Accuracy'], color='skyblue', alpha=0.7)
axes[0, 0].set_title('Accuracy por Modelo', fontweight='bold')
axes[0, 0].set_ylabel('Accuracy')
axes[0, 0].tick_params(axis='x', rotation=45)  # Rotar etiquetas del eje x para mejor legibilidad
axes[0, 0].grid(True, alpha=0.3)  # Agregar cuadrícula sutil

# Gráfico 2: Comparación de F1-Score
axes[0, 1].bar(results['Modelo'], results['F1-Score'], color='lightgreen', alpha=0.7)
axes[0, 1].set_title('F1-Score por Modelo', fontweight='bold')
axes[0, 1].set_ylabel('F1-Score')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3)

# Gráfico 3: Comparación de Precision y Recall
x_pos = np.arange(len(results['Modelo']))  # Posiciones en el eje x
width = 0.35  # Ancho de las barras

axes[1, 0].bar(x_pos - width/2, results['Precision'], width, label='Precision', alpha=0.7)
axes[1, 0].bar(x_pos + width/2, results['Recall'], width, label='Recall', alpha=0.7)
axes[1, 0].set_title('Precision vs Recall', fontweight='bold')
axes[1, 0].set_ylabel('Score')
axes[1, 0].set_xticks(x_pos)
axes[1, 0].set_xticklabels(results['Modelo'], rotation=45)
axes[1, 0].legend()  # Mostrar leyenda
axes[1, 0].grid(True, alpha=0.3)

# Gráfico 4: Heatmap de todas las métricas
metrics_data = results[['Accuracy', 'Precision', 'Recall', 'F1-Score']].T  # Transponer para el heatmap
im = axes[1, 1].imshow(metrics_data.values, cmap='YlOrRd', aspect='auto')
axes[1, 1].set_title('Heatmap de Métricas', fontweight='bold')
axes[1, 1].set_xticks(range(len(results['Modelo'])))
axes[1, 1].set_xticklabels(results['Modelo'], rotation=45)
axes[1, 1].set_yticks(range(len(metrics_data.index)))
axes[1, 1].set_yticklabels(metrics_data.index)

# Agregar valores numéricos en el heatmap
for i in range(len(metrics_data.index)):
    for j in range(len(results['Modelo'])):
        text = axes[1, 1].text(j, i, f'{metrics_data.iloc[i, j]:.3f}',
                              ha="center", va="center", color="black", fontweight='bold')

plt.tight_layout()  # Ajustar el espaciado entre subplots
plt.show()  # Mostrar el gráfico


In [None]:
# Análisis de importancia de características
print("🔍 ANÁLISIS DE IMPORTANCIA DE CARACTERÍSTICAS")
print("=" * 50)

# Usar el mejor modelo para analizar la importancia de características
best_model = rf_more_trees  # Usar el modelo con más árboles como ejemplo

# Obtener la importancia de características
feature_importance = best_model.feature_importances_

# Crear un DataFrame con la importancia de características
feature_names = [f'Feature_{i+1}' for i in range(len(feature_importance))]
importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': feature_importance
}).sort_values('Importance', ascending=False)  # Ordenar por importancia descendente

print("📊 Importancia de características (ordenadas por importancia):")
print(importance_df.round(4))

# Visualizar la importancia de características
plt.figure(figsize=(12, 8))  # Crear una nueva figura con tamaño específico
bars = plt.bar(range(len(importance_df)), importance_df['Importance'], 
               color='coral', alpha=0.7)  # Crear barras con color coral
plt.title('Importancia de Características en Random Forest', fontsize=14, fontweight='bold')
plt.xlabel('Características', fontsize=12)
plt.ylabel('Importancia', fontsize=12)
plt.xticks(range(len(importance_df)), importance_df['Feature'], rotation=45)  # Etiquetas del eje x
plt.grid(True, alpha=0.3)  # Agregar cuadrícula

# Agregar valores numéricos en las barras
for i, bar in enumerate(bars):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + 0.001,
             f'{height:.3f}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()  # Ajustar el espaciado
plt.show()  # Mostrar el gráfico

print(f"\n💡 Interpretación:")
print(f"   • Las características con mayor importancia contribuyen más a las predicciones")
print(f"   • Feature_{importance_df.iloc[0]['Feature'].split('_')[1]} es la más importante")
print(f"   • Las características con baja importancia podrían ser eliminadas")


In [None]:
# Matriz de confusión para el mejor modelo
print("📊 MATRIZ DE CONFUSIÓN DEL MEJOR MODELO")
print("=" * 50)

# Calcular la matriz de confusión para el mejor modelo
cm = confusion_matrix(y_test, y_pred_more_trees)

# Crear visualización de la matriz de confusión
plt.figure(figsize=(8, 6))  # Crear figura con tamaño específico
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',  # Crear heatmap con anotaciones
            xticklabels=[f'Clase {i}' for i in range(len(np.unique(y)))],
            yticklabels=[f'Clase {i}' for i in range(len(np.unique(y)))])
plt.title('Matriz de Confusión - Modelo con Más Árboles', fontsize=14, fontweight='bold')
plt.xlabel('Predicción', fontsize=12)
plt.ylabel('Valor Real', fontsize=12)
plt.show()  # Mostrar el gráfico

# Mostrar reporte de clasificación detallado
print("\n📋 Reporte de Clasificación Detallado:")
print(classification_report(y_test, y_pred_more_trees, 
                          target_names=[f'Clase {i}' for i in range(len(np.unique(y)))]))

# Análisis de la matriz de confusión
print(f"\n🔍 Análisis de la Matriz de Confusión:")
print(f"   • Total de predicciones correctas: {np.trace(cm)}")
print(f"   • Total de predicciones: {np.sum(cm)}")
print(f"   • Accuracy calculada: {np.trace(cm) / np.sum(cm):.4f}")

# Calcular precision, recall y F1 para cada clase
for i in range(len(np.unique(y))):
    tp = cm[i, i]  # Verdaderos positivos
    fp = cm[:, i].sum() - tp  # Falsos positivos
    fn = cm[i, :].sum() - tp  # Falsos negativos
    
    precision = tp / (tp + fp) if (tp + fp) > 0 else 0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0
    f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    print(f"   • Clase {i}: Precision={precision:.3f}, Recall={recall:.3f}, F1={f1:.3f}")


## Conclusiones y Recomendaciones

### 📊 Resumen de la Demostración

En esta demostración hemos visto cómo diferentes hiperparámetros afectan el rendimiento del algoritmo Random Forest:

1. **n_estimators**: Más árboles generalmente mejoran la precisión pero aumentan el tiempo de entrenamiento
2. **max_depth**: Limitar la profundidad previene overfitting pero puede reducir la capacidad del modelo
3. **min_samples_split/min_samples_leaf**: Parámetros restrictivos previenen overfitting pero pueden hacer el modelo demasiado simple
4. **max_features**: Controla la aleatoriedad y puede mejorar la generalización

### 🎯 Recomendaciones Prácticas

#### Para Datasets Pequeños:
- Usar `max_depth` limitado (3-5)
- Aumentar `min_samples_split` y `min_samples_leaf`
- Usar `max_features='sqrt'` o `max_features='log2'`

#### Para Datasets Grandes:
- Usar más árboles (`n_estimators=200-500`)
- Permitir mayor profundidad o usar `max_depth=None`
- Usar `max_features='sqrt'` para balancear velocidad y precisión

#### Para Prevenir Overfitting:
- Limitar `max_depth`
- Aumentar `min_samples_split` y `min_samples_leaf`
- Usar `max_features` menor que el total de características

#### Para Mejorar Precisión:
- Aumentar `n_estimators`
- Permitir mayor profundidad
- Usar `max_features=None` (todas las características)

### 🔧 Proceso de Optimización

1. **Empezar con parámetros por defecto**
2. **Identificar si hay overfitting o underfitting**
3. **Ajustar parámetros gradualmente**
4. **Usar validación cruzada para evaluar cambios**
5. **Considerar el balance entre precisión y tiempo de entrenamiento**


In [None]:
# Demostración adicional: Efecto del número de árboles en el rendimiento
print("🌲 ANÁLISIS DEL EFECTO DEL NÚMERO DE ÁRBOLES")
print("=" * 50)

# Probar diferentes números de árboles
n_trees_range = [10, 25, 50, 100, 200, 300]  # Rango de árboles a probar
accuracies = []  # Lista para almacenar accuracies
training_times = []  # Lista para almacenar tiempos de entrenamiento

print("🔄 Entrenando modelos con diferentes números de árboles...")

for n_trees in n_trees_range:
    # Crear modelo con número específico de árboles
    rf_temp = RandomForestClassifier(n_estimators=n_trees, random_state=42)
    
    # Medir tiempo de entrenamiento
    import time
    start_time = time.time()
    rf_temp.fit(X_train, y_train)  # Entrenar el modelo
    training_time = time.time() - start_time
    
    # Hacer predicciones y calcular accuracy
    y_pred_temp = rf_temp.predict(X_test)
    accuracy_temp = accuracy_score(y_test, y_pred_temp)
    
    # Almacenar resultados
    accuracies.append(accuracy_temp)
    training_times.append(training_time)
    
    print(f"   {n_trees:3d} árboles: Accuracy={accuracy_temp:.4f}, Tiempo={training_time:.3f}s")

# Crear visualización del efecto del número de árboles
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))  # Crear figura con 2 subplots lado a lado

# Gráfico 1: Accuracy vs Número de árboles
ax1.plot(n_trees_range, accuracies, 'o-', linewidth=2, markersize=8, color='blue')
ax1.set_title('Accuracy vs Número de Árboles', fontweight='bold')
ax1.set_xlabel('Número de Árboles')
ax1.set_ylabel('Accuracy')
ax1.grid(True, alpha=0.3)
ax1.set_ylim(min(accuracies) - 0.01, max(accuracies) + 0.01)  # Ajustar límites del eje y

# Gráfico 2: Tiempo de entrenamiento vs Número de árboles
ax2.plot(n_trees_range, training_times, 'o-', linewidth=2, markersize=8, color='red')
ax2.set_title('Tiempo de Entrenamiento vs Número de Árboles', fontweight='bold')
ax2.set_xlabel('Número de Árboles')
ax2.set_ylabel('Tiempo (segundos)')
ax2.grid(True, alpha=0.3)

plt.tight_layout()  # Ajustar espaciado
plt.show()  # Mostrar gráficos

# Análisis de los resultados
print(f"\n📈 Análisis de resultados:")
print(f"   • Mejor accuracy: {max(accuracies):.4f} con {n_trees_range[accuracies.index(max(accuracies))]} árboles")
print(f"   • Tiempo más rápido: {min(training_times):.3f}s con {n_trees_range[training_times.index(min(training_times))]} árboles")
print(f"   • Tiempo más lento: {max(training_times):.3f}s con {n_trees_range[training_times.index(max(training_times))]} árboles")

# Calcular la mejora marginal
print(f"\n💡 Mejora marginal:")
for i in range(1, len(n_trees_range)):
    improvement = accuracies[i] - accuracies[i-1]
    print(f"   • De {n_trees_range[i-1]} a {n_trees_range[i]} árboles: +{improvement:.4f} accuracy")
