# An√°lisis de Scoring Crediticio - Proyecto de Grado
## Framework de RL para Optimizaci√≥n de Datos Sint√©ticos y Modelos ML

**T√≠tulo:** Sintetizando datos tabulares: Un Framework de Aprendizaje por Refuerzo para el Benchmark de Datos Sint√©ticos y su Impacto en problemas de Clasificaci√≥n

**Autor:** Carlos Andres Cortez Ballen

### Objetivos del Proyecto:
- Implementar y comparar generadores de datos sint√©ticos (GANs vs m√©todos tradicionales)
- Construir framework de RL para selecci√≥n √≥ptima de generadores y modelos ML
- Evaluar rendimiento en scoring crediticio para segmento D (baja transaccionalidad)
- Desarrollar m√©tricas de calidad para datos sint√©ticos
- Realizar benchmarking cruzado entre estrategias

### Objetivos de este Notebook:
- Explorar datos del segmento D (5K muestras vs 200K del segmento A)
- Analizar caracter√≠sticas del scoring crediticio de corto plazo
- Identificar patrones y distribuciones en datos financieros
- Preparar datos para generaci√≥n sint√©tica
- Establecer baseline de performance

### Contenido:
1. Configuraci√≥n del entorno y librer√≠as
2. Carga de datos (UCI + datos internos)
3. An√°lisis exploratorio del segmento D
4. Comparaci√≥n con segmento A (referencia)
5. An√°lisis de variables de scoring crediticio
6. Preparaci√≥n para generaci√≥n de datos sint√©ticos


In [None]:
# Importaci√≥n de librer√≠as y configuraci√≥n
import sys
import os
sys.path.append('..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path
import yaml
import logging

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

# Configuraci√≥n de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Cargar configuraci√≥n
with open('../configs/config.yaml', 'r') as f:
    config = yaml.safe_load(f)

print("‚úÖ Librer√≠as importadas correctamente")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üî¢ NumPy version: {np.__version__}")
print(f"üìà Matplotlib version: {plt.matplotlib.__version__}")
print(f"üé® Seaborn version: {sns.__version__}")
print(f"‚öôÔ∏è Configuraci√≥n cargada: {len(config)} secciones")


In [None]:
# Importar m√≥dulos del proyecto
from src.data.data_loader import DataLoader
from src.data.data_preprocessor import DataPreprocessor
from src.data.data_splitter import DataSplitter
from src.data.data_validator import DataValidator

# Inicializar componentes
data_loader = DataLoader(config)
data_preprocessor = DataPreprocessor(config)
data_splitter = DataSplitter(config)
data_validator = DataValidator(config)

print("‚úÖ M√≥dulos del proyecto importados correctamente")
print("üìÅ DataLoader inicializado")
print("üîß DataPreprocessor inicializado")
print("‚úÇÔ∏è DataSplitter inicializado")
print("‚úÖ DataValidator inicializado")


## 2. Carga de Datos de Cr√©dito

Vamos a cargar datasets de cr√©dito desde UCI Repository para simular el an√°lisis del segmento D. Estos datasets nos permitir√°n:

1. **German Credit Data**: Dataset cl√°sico de scoring crediticio
2. **Australian Credit Approval**: Datos de aprobaci√≥n de cr√©dito
3. **Credit Card Default**: Datos de default de tarjetas de cr√©dito

Estos datasets nos servir√°n como proxy para entender las caracter√≠sticas del segmento D.


In [None]:
# Cargar datasets de cr√©dito desde UCI
print("üîÑ Cargando datasets de cr√©dito desde UCI Repository...")

# Cargar German Credit Data (ID: 144)
try:
    german_features, german_targets = data_loader.load_uci_dataset(144, "german_credit")
    german_data = pd.concat([german_features, german_targets], axis=1)
    print(f"‚úÖ German Credit Data cargado: {german_data.shape}")
    print(f"   Features: {german_features.shape[1]}")
    print(f"   Target distribution: {german_targets.iloc[:, 0].value_counts().to_dict()}")
except Exception as e:
    print(f"‚ùå Error cargando German Credit: {e}")
    german_data = None

# Cargar Australian Credit Approval (ID: 45)
try:
    australian_features, australian_targets = data_loader.load_uci_dataset(45, "australian_credit")
    australian_data = pd.concat([australian_features, australian_targets], axis=1)
    print(f"‚úÖ Australian Credit Data cargado: {australian_data.shape}")
    print(f"   Features: {australian_features.shape[1]}")
    print(f"   Target distribution: {australian_targets.iloc[:, 0].value_counts().to_dict()}")
except Exception as e:
    print(f"‚ùå Error cargando Australian Credit: {e}")
    australian_data = None

# Cargar Credit Card Default (ID: 300)
try:
    default_features, default_targets = data_loader.load_uci_dataset(300, "credit_card_default")
    default_data = pd.concat([default_features, default_targets], axis=1)
    print(f"‚úÖ Credit Card Default Data cargado: {default_data.shape}")
    print(f"   Features: {default_features.shape[1]}")
    print(f"   Target distribution: {default_targets.iloc[:, 0].value_counts().to_dict()}")
except Exception as e:
    print(f"‚ùå Error cargando Credit Card Default: {e}")
    default_data = None

print("\nüìä Resumen de datasets cargados:")
datasets_info = {
    'German Credit': german_data.shape if german_data is not None else "No disponible",
    'Australian Credit': australian_data.shape if australian_data is not None else "No disponible", 
    'Credit Card Default': default_data.shape if default_data is not None else "No disponible"
}

for name, shape in datasets_info.items():
    print(f"   {name}: {shape}")


In [None]:
# Seleccionar dataset principal para an√°lisis (German Credit como proxy del segmento D)
if german_data is not None:
    # Usar German Credit como dataset principal
    segment_d_data = german_data.copy()
    segment_d_features = german_features.copy()
    segment_d_targets = german_targets.copy()
    
    print("üéØ Usando German Credit Data como proxy del Segmento D")
    print(f"   Tama√±o: {segment_d_data.shape[0]} muestras")
    print(f"   Features: {segment_d_data.shape[1] - 1}")
    print(f"   Target: {segment_d_targets.columns[0]}")
    
    # Mostrar primeras filas
    print("\nüìñ Primeras 5 filas del dataset:")
    display(segment_d_data.head())
    
    # Informaci√≥n b√°sica del dataset
    print("\nüìä Informaci√≥n del dataset:")
    print(segment_d_data.info())
    
else:
    print("‚ùå No se pudo cargar el dataset principal")
    segment_d_data = None


## 3. An√°lisis Exploratorio del Segmento D

Ahora vamos a realizar un an√°lisis exploratorio completo del dataset que simula el segmento D. Este an√°lisis incluir√°:

1. **An√°lisis de calidad de datos**
2. **Estad√≠sticas descriptivas**
3. **An√°lisis de distribuciones**
4. **An√°lisis de correlaciones**
5. **Identificaci√≥n de patrones**


In [None]:
# An√°lisis de calidad de datos
if segment_d_data is not None:
    print("üîç AN√ÅLISIS DE CALIDAD DE DATOS - SEGMENTO D")
    print("=" * 60)
    
    # Validar calidad de datos
    quality_results = data_validator.validate_data_quality(segment_d_data, target_col='class')
    
    # Mostrar resumen de calidad
    print("\nüìä RESUMEN DE CALIDAD:")
    print(f"   Shape: {quality_results['basic_info']['shape']}")
    print(f"   Memory usage: {quality_results['basic_info']['memory_usage'] / 1024**2:.2f} MB")
    
    # Valores faltantes
    missing_summary = quality_results['missing_values']['summary']
    print(f"   Missing values: {missing_summary['total_missing']} ({missing_summary['total_percentage']:.2f}%)")
    
    # Duplicados
    duplicates = quality_results['duplicates']
    print(f"   Duplicates: {duplicates['count']} ({duplicates['percentage']:.2f}%)")
    
    # Tipos de datos
    data_types = quality_results['data_types']
    numeric_cols = [col for col, info in data_types.items() if 'int' in info['dtype'] or 'float' in info['dtype']]
    categorical_cols = [col for col, info in data_types.items() if 'object' in info['dtype']]
    
    print(f"   Numeric columns: {len(numeric_cols)}")
    print(f"   Categorical columns: {len(categorical_cols)}")
    
    print("\n‚úÖ An√°lisis de calidad completado")
else:
    print("‚ùå No hay datos disponibles para an√°lisis de calidad")
