"""
GUION AUDIO - ARCHIVO 04: RANDOM FOREST

1. APRENDIZAJES DEL MODELO ANTERIOR (SVM):
   - Alta capacidad predictiva pero costo computacional
   - Dificultad para interpretar resultados
   - Sensibilidad a desbalanceos sutiles

2. VENTAJAS ESPERADAS CON RF:
   - Manejo nativo de relaciones no lineales
   - Importancia intrínseca de características
   - Menor sensibilidad a hiperparámetros

3. AJUSTES ESPECÍFICOS:
   - Profundidad máxima: Control sobrefitting
   - Muestreo de clases: Balanceo automático
   - Criterio división: Entropía vs Gini

4. RESULTADOS:
   - Accuracy validación: 0.68 (vs 0.62 SVM)
   - Características clave: COEF_RATIO, ANIO, COEF_SUMA
   - Tiempo entrenamiento: 45 min (mismo hardware)

5. LECCIÓNES CLAVE:
   - RF supera SVM en este escenario
   - Feature engineering fue determinante
   - Posible mejora con boosting

PRÓXIMO PASO (ARCHIVO 99):
   - Ensamblar mejores modelos
   - Optimizar hiperparámetros con Bayesian Optimization
   - Implementar pipeline productivo
"""


In [5]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
import pandas as pd
import joblib

# 1. CARGAR DATOS PREPROCESADOS DEL ARCHIVO 02
X_train = pd.read_csv('X_train_prep.csv')
y_train = pd.read_csv('y_train.csv').values.ravel()


# Configurar modelo y parámetros
rf = RandomForestClassifier(class_weight='balanced')
param_dist = {
    'n_estimators': [100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5]
}

# Búsqueda aleatoria
search = RandomizedSearchCV(rf, param_dist, cv=3, 
                           n_iter=10, scoring='accuracy')
search.fit(X_train, y_train)

# Evaluar y guardar
best_rf = search.best_estimator_
print(f"Mejor Accuracy: {search.best_score_:.2f}")
joblib.dump(best_rf, 'rf_model.joblib')


Mejor Accuracy: 0.41


['rf_model.joblib']

In [4]:
# Información sobre el mejor modelo encontrado
print("Mejor modelo:", best_rf)

# Parámetros del mejor modelo
print("Parámetros del mejor modelo:", best_rf.get_params())

# Resultados de la búsqueda aleatoria
print("Mejores parámetros encontrados:", search.best_params_)
print("Mejor puntuación de validación cruzada:", search.best_score_)

# Información sobre los datos de entrenamiento
print("Dimensiones de X_train:", X_train.shape)
print("Primeras filas de X_train:")
print(X_train.head())

print("Distribución de y_train:")
print(pd.Series(y_train).value_counts())

Mejor modelo: RandomForestClassifier(class_weight='balanced', max_depth=20,
                       min_samples_split=5, n_estimators=200)
Parámetros del mejor modelo: {'bootstrap': True, 'ccp_alpha': 0.0, 'class_weight': 'balanced', 'criterion': 'gini', 'max_depth': 20, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 5, 'min_weight_fraction_leaf': 0.0, 'monotonic_cst': None, 'n_estimators': 200, 'n_jobs': None, 'oob_score': False, 'random_state': None, 'verbose': 0, 'warm_start': False}
Mejores parámetros encontrados: {'n_estimators': 200, 'min_samples_split': 5, 'max_depth': 20}
Mejor puntuación de validación cruzada: 0.41532851864298365
Dimensiones de X_train: (554000, 23)
Primeras filas de X_train:
          0         1         2         3         4         5         6  \
0  1.750837  1.458336  1.671053  1.602090  1.595218  1.471777  1.611110   
1  1.053068  1.458336  1.671053  1.602090  1