# Experimentaci√≥n con Modelos ML - Proyecto de Grado
## Framework de RL para Optimizaci√≥n de Datos Sint√©ticos y Modelos ML

**T√≠tulo:** Sintetizando datos tabulares: Un Framework de Aprendizaje por Refuerzo para el Benchmark de Datos Sint√©ticos y su Impacto en problemas de Clasificaci√≥n

**Autor:** Carlos Andres Cortez Ballen

### Objetivos de este Notebook:
- Implementar y entrenar modelos de scoring crediticio (XGBoost, CatBoost, LightGBM, etc.)
- Evaluar modelos con m√©tricas espec√≠ficas del dominio (AUC, PSI, Traffic Light)
- Comparar performance entre modelos entrenados con datos reales vs sint√©ticos
- Establecer baseline de performance para el segmento D
- Preparar datos para el framework de RL

### Metodolog√≠a:
1. **Modelos ML**: XGBoost, CatBoost, LightGBM, HistGradientBoosting, RandomForest, LogisticRegression
2. **M√©tricas de Evaluaci√≥n**: AUC-ROC, PSI, Traffic Light, Gini Coefficient, Population Stability
3. **Validaci√≥n**: Cross-validation y evaluaci√≥n en datos de prueba
4. **Comparaci√≥n**: Datos reales vs datos sint√©ticos

### Contenido:
1. Configuraci√≥n y carga de datos
2. Divisi√≥n de datos (train/validation/test)
3. Entrenamiento de modelos con datos reales
4. Evaluaci√≥n y comparaci√≥n de modelos
5. An√°lisis de importancia de features
6. Preparaci√≥n para experimentos con datos sint√©ticos


In [None]:
# Importaci√≥n de librer√≠as y configuraci√≥n
import sys
import os
sys.path.append('..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path
import yaml
import logging
from tqdm import tqdm
import time

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

# Configuraci√≥n de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Cargar configuraci√≥n
with open('../configs/config.yaml', 'r') as f:
    config = yaml.safe_load(f)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üî¢ NumPy version: {np.__version__}")
print(f"üìà Matplotlib version: {plt.matplotlib.__version__}")
print(f"üé® Seaborn version: {sns.__version__}")
print(f"‚öôÔ∏è Configuraci√≥n cargada: {len(config)} secciones")


In [None]:
# Importar m√≥dulos del proyecto
from src.data.data_loader import DataLoader
from src.data.data_preprocessor import DataPreprocessor
from src.data.data_splitter import DataSplitter
from src.models.model_factory import ModelFactory
from src.models.model_evaluator import CreditModelEvaluator

# Inicializar componentes
data_loader = DataLoader(config)
data_preprocessor = DataPreprocessor(config)
data_splitter = DataSplitter(config)
model_factory = ModelFactory(config)
credit_evaluator = CreditModelEvaluator(config)

print("‚úÖ M√≥dulos del proyecto importados correctamente")
print("üìÅ DataLoader inicializado")
print("üîß DataPreprocessor inicializado")
print("‚úÇÔ∏è DataSplitter inicializado")
print("ü§ñ ModelFactory inicializado")
print("üìä CreditModelEvaluator inicializado")


In [None]:
# Cargar y preparar datos del segmento D
print("üîÑ Cargando y preparando datos del segmento D...")

try:
    # Cargar German Credit Data como proxy del segmento D
    german_features, german_targets = data_loader.load_uci_dataset(144, "german_credit")
    segment_d_data = pd.concat([german_features, german_targets], axis=1)
    
    print(f"‚úÖ Datos del segmento D cargados: {segment_d_data.shape}")
    print(f"   Features: {german_features.shape[1]}")
    print(f"   Target distribution: {german_targets.iloc[:, 0].value_counts().to_dict()}")
    
    # Preprocesar datos
    print("\nüîß Preprocesando datos...")
    processed_data = data_preprocessor.preprocess_data(segment_d_data, target_col='class', fit=True)
    
    print(f"‚úÖ Datos preprocesados: {processed_data.shape}")
    print(f"   Feature names: {len(data_preprocessor.get_feature_names())}")
    
    # Separar features y target
    target_col = 'class'
    X = processed_data.drop(columns=[target_col])
    y = processed_data[target_col]
    
    print(f"\nüìä Datos preparados:")
    print(f"   Features (X): {X.shape}")
    print(f"   Target (y): {y.shape}")
    print(f"   Target distribution: {y.value_counts().to_dict()}")
    
except Exception as e:
    print(f"‚ùå Error cargando datos: {e}")
    X, y = None, None


In [None]:
# Divisi√≥n de datos para entrenamiento y evaluaci√≥n
if X is not None and y is not None:
    print("‚úÇÔ∏è Dividiendo datos en train/validation/test...")
    
    # Dividir datos
    splits = data_splitter.split_data(X, y, stratify=True)
    
    X_train, y_train = splits['train']
    X_val, y_val = splits['validation']
    X_test, y_test = splits['test']
    
    print(f"‚úÖ Datos divididos:")
    print(f"   Train: {X_train.shape[0]} muestras")
    print(f"   Validation: {X_val.shape[0]} muestras")
    print(f"   Test: {X_test.shape[0]} muestras")
    
    # Mostrar distribuci√≥n del target en cada split
    print(f"\nüìä Distribuci√≥n del target:")
    for split_name, (X_split, y_split) in splits.items():
        print(f"   {split_name}: {y_split.value_counts().to_dict()}")
    
    # Informaci√≥n de los splits
    split_info = data_splitter.get_data_info(splits)
    print(f"\nüìã Informaci√≥n de splits:")
    for split_name, info in split_info.items():
        print(f"   {split_name}: {info['n_samples']} muestras, {info['n_features']} features")
    
else:
    print("‚ùå No hay datos disponibles para dividir")
    splits = None
