# 02 - Desarrollo y Evaluación de Modelos

Este notebook contiene el desarrollo, entrenamiento y evaluación de modelos de machine learning.

## Objetivos:
- Preparar datos para modelado
- Entrenar diferentes modelos
- Evaluar y comparar rendimiento
- Optimizar hiperparámetros
- Seleccionar el mejor modelo
- Guardar modelo final

In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.svm import SVC, SVR
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
import warnings

warnings.filterwarnings('ignore')

# Importar funciones personalizadas
import sys
sys.path.append('../src')

from etl.data_loader import load_csv_data, load_config
from etl.data_cleaner import clean_missing_values, remove_outliers
from features.feature_engineering import encode_categorical_variables, scale_numerical_features
from models.model_training import (
    split_data, train_classification_model, train_regression_model,
    evaluate_classification_model, evaluate_regression_model,
    save_model, load_model
)
from utils.helpers import print_metrics, setup_logging

print("Librerías importadas correctamente")

## 1. Carga y Preparación de Datos

In [None]:
# Cargar configuración
config = load_config('../config.yaml')

# Cargar datos procesados (ajustar ruta según tu dataset)
# df = load_csv_data('../data/processed/cleaned_data.csv')
# print(f"Datos cargados: {df.shape}")
# df.head()

In [None]:
# Definir variables objetivo y características
# target_column = 'target'  # Ajustar según tu caso
# feature_columns = [col for col in df.columns if col != target_column]

# X = df[feature_columns]
# y = df[target_column]

# print(f"Características: {X.shape}")
# print(f"Variable objetivo: {y.shape}")

## 2. División de Datos

In [None]:
# Dividir datos en entrenamiento y prueba
# X_train, X_test, y_train, y_test = split_data(
#     X, y, 
#     test_size=config['model']['test_size'],
#     random_state=config['model']['random_state']
# )

# print(f"Entrenamiento: {X_train.shape}")
# print(f"Prueba: {X_test.shape}")

## 3. Entrenamiento de Modelos Base

In [None]:
# Diccionario para almacenar modelos y resultados
models = {}
results = {}

# Para clasificación (ajustar según tu problema)
# model_configs = {
#     'Random Forest': {'model_type': 'random_forest', 'n_estimators': 100},
#     'Logistic Regression': LogisticRegression(random_state=42),
#     'SVM': SVC(random_state=42, probability=True)
# }

# Para regresión (ajustar según tu problema)
# model_configs = {
#     'Random Forest': {'model_type': 'random_forest', 'n_estimators': 100},
#     'Linear Regression': LinearRegression(),
#     'SVR': SVR()
# }

In [None]:
# Entrenar modelos de clasificación
# for name, config in model_configs.items():
#     print(f"Entrenando {name}...")
#     
#     if isinstance(config, dict):
#         # Usar funciones personalizadas
#         model = train_classification_model(X_train, y_train, **config)
#     else:
#         # Usar modelo de sklearn directamente
#         model = config
#         model.fit(X_train, y_train)
#     
#     models[name] = model
#     
#     # Evaluar modelo
#     if hasattr(model, 'predict'):
#         metrics = evaluate_classification_model(model, X_test, y_test)
#         results[name] = metrics
#         print_metrics(metrics, f"Métricas de {name}")
#     
#     print("-" * 50)

## 4. Comparación de Modelos

In [None]:
# Crear DataFrame de comparación
# comparison_df = pd.DataFrame(results).T
# comparison_df = comparison_df.sort_values('accuracy', ascending=False)  # Para clasificación
# # comparison_df = comparison_df.sort_values('r2_score', ascending=False)  # Para regresión

# print("Comparación de Modelos:")
# print(comparison_df)

# # Visualizar comparación
# fig, ax = plt.subplots(figsize=(12, 6))
# comparison_df.plot(kind='bar', ax=ax)
# plt.title('Comparación de Métricas por Modelo')
# plt.xlabel('Modelos')
# plt.ylabel('Puntuación')
# plt.xticks(rotation=45)
# plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
# plt.tight_layout()
# plt.show()

## 5. Análisis Detallado del Mejor Modelo

In [None]:
# Seleccionar mejor modelo
# best_model_name = comparison_df.index[0]
# best_model = models[best_model_name]

# print(f"Mejor modelo: {best_model_name}")
# print_metrics(results[best_model_name], f"Métricas detalladas de {best_model_name}")

In [None]:
# Matriz de confusión (para clasificación)
# y_pred = best_model.predict(X_test)
# cm = confusion_matrix(y_test, y_pred)

# plt.figure(figsize=(8, 6))
# sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
# plt.title(f'Matriz de Confusión - {best_model_name}')
# plt.xlabel('Predicción')
# plt.ylabel('Real')
# plt.show()

# # Reporte de clasificación
# print("\nReporte de Clasificación:")
# print(classification_report(y_test, y_pred))

In [None]:
# Curva ROC (para clasificación binaria)
# if hasattr(best_model, 'predict_proba') and len(np.unique(y_test)) == 2:
#     y_proba = best_model.predict_proba(X_test)[:, 1]
#     fpr, tpr, _ = roc_curve(y_test, y_proba)
#     auc_score = roc_auc_score(y_test, y_proba)
#     
#     plt.figure(figsize=(8, 6))
#     plt.plot(fpr, tpr, label=f'ROC Curve (AUC = {auc_score:.3f})')
#     plt.plot([0, 1], [0, 1], 'k--', label='Random')
#     plt.xlabel('Tasa de Falsos Positivos')
#     plt.ylabel('Tasa de Verdaderos Positivos')
#     plt.title(f'Curva ROC - {best_model_name}')
#     plt.legend()
#     plt.grid(True)
#     plt.show()

## 6. Importancia de Características

In [None]:
# Importancia de características (para modelos que lo soporten)
# if hasattr(best_model, 'feature_importances_'):
#     feature_importance = pd.DataFrame({
#         'feature': feature_columns,
#         'importance': best_model.feature_importances_
#     }).sort_values('importance', ascending=False)
#     
#     plt.figure(figsize=(10, 8))
#     top_features = feature_importance.head(15)
#     sns.barplot(data=top_features, x='importance', y='feature')
#     plt.title(f'Top 15 Características Más Importantes - {best_model_name}')
#     plt.xlabel('Importancia')
#     plt.tight_layout()
#     plt.show()
#     
#     print("Top 10 características más importantes:")
#     print(feature_importance.head(10))

## 7. Optimización de Hiperparámetros

In [None]:
# Grid Search para optimización de hiperparámetros
# if best_model_name == 'Random Forest':
#     param_grid = {
#         'n_estimators': [100, 200, 300],
#         'max_depth': [10, 20, None],
#         'min_samples_split': [2, 5, 10],
#         'min_samples_leaf': [1, 2, 4]
#     }
#     
#     grid_search = GridSearchCV(
#         best_model, param_grid, cv=5, 
#         scoring='accuracy', n_jobs=-1, verbose=1
#     )
#     
#     print("Optimizando hiperparámetros...")
#     grid_search.fit(X_train, y_train)
#     
#     print(f"Mejores parámetros: {grid_search.best_params_}")
#     print(f"Mejor puntuación CV: {grid_search.best_score_:.4f}")
#     
#     # Evaluar modelo optimizado
#     optimized_model = grid_search.best_estimator_
#     optimized_metrics = evaluate_classification_model(optimized_model, X_test, y_test)
#     print_metrics(optimized_metrics, "Métricas del Modelo Optimizado")

## 8. Validación Cruzada

In [None]:
# Validación cruzada del mejor modelo
# cv_scores = cross_val_score(best_model, X_train, y_train, cv=5, scoring='accuracy')

# print(f"Puntuaciones de Validación Cruzada: {cv_scores}")
# print(f"Promedio CV: {cv_scores.mean():.4f} (+/- {cv_scores.std() * 2:.4f})")

# # Visualizar distribución de puntuaciones CV
# plt.figure(figsize=(8, 6))
# plt.boxplot(cv_scores)
# plt.title('Distribución de Puntuaciones de Validación Cruzada')
# plt.ylabel('Accuracy')
# plt.grid(True)
# plt.show()

## 9. Guardar Modelo Final

In [None]:
# Guardar el mejor modelo
# model_filename = f"../models/{best_model_name.lower().replace(' ', '_')}_final.joblib"
# save_model(best_model, model_filename)

# # Guardar también métricas
# metrics_filename = f"../models/{best_model_name.lower().replace(' ', '_')}_metrics.json"
# import json
# with open(metrics_filename, 'w') as f:
#     json.dump(results[best_model_name], f, indent=2)

# print(f"Modelo guardado como: {model_filename}")
# print(f"Métricas guardadas como: {metrics_filename}")

## 10. Resumen y Conclusiones

### Resultados Principales:
1. **Mejor modelo**: [Nombre del mejor modelo]
2. **Métricas principales**: [Accuracy, Precision, Recall, F1-Score]
3. **Características más importantes**: [Top 5 características]

### Análisis:
- **Rendimiento**: [Comentarios sobre el rendimiento del modelo]
- **Sobreajuste**: [Análisis de posible overfitting]
- **Generalización**: [Capacidad de generalización]

### Próximos pasos:
1. Implementar el modelo en producción
2. Monitorear rendimiento en datos nuevos
3. Reentrenar periódicamente
4. Considerar ensemble methods si es necesario