# ETL - Analítica de Riesgo Crediticio

## Objetivo
Realizar la extracción, transformación y carga (ETL) del dataset `Loan_default.csv` para preparar los datos para el análisis de riesgo crediticio y modelado PD/LGD/EAD.

## Entregables
- `data/processed/clean_data.csv`: Dataset limpio y procesado
- `reports/etl_report.md`: Reporte detallado del proceso ETL
- `data/errors/etl_errors_*.csv`: Registros con errores identificados
- `logs/etl_*.log`: Logs de ejecución

## Configuración Inicial

In [None]:
import sys
import os
sys.path.append(os.path.abspath('..'))

import pandas as pd
import numpy as np
from datetime import datetime
from pathlib import Path

# Importar módulos del proyecto
from src.riskvista.utils.reporting import setup_logging, write_report, log_operation, save_error_rows
from src.riskvista.utils.data_processing import DataIngestion, DataCleaning

# Configurar logging
logger = setup_logging("logs", "INFO")
log_operation("Iniciando proceso ETL", "INFO")

print("✅ Configuración inicial completada")
print(f"📁 Directorio de trabajo: {os.getcwd()}")

## 1. Carga de Datos

In [None]:
# Configurar rutas
DATA_RAW_PATH = "data/raw/Loan_default.csv"
DATA_PROCESSED_PATH = "data/processed"
ERRORS_PATH = "data/errors"

# Crear directorios si no existen
Path(DATA_PROCESSED_PATH).mkdir(parents=True, exist_ok=True)
Path(ERRORS_PATH).mkdir(parents=True, exist_ok=True)

# Verificar existencia del archivo
if not Path(DATA_RAW_PATH).exists():
    print(f"❌ ERROR: Archivo {DATA_RAW_PATH} no encontrado")
    print("📋 Por favor, colocar el archivo Loan_default.csv en la carpeta data/raw/")
    print("🔄 El proceso ETL se pausará hasta que el archivo esté disponible")
else:
    print(f"✅ Archivo encontrado: {DATA_RAW_PATH}")

In [None]:
# Cargar datos usando DataIngestion
ingestion = DataIngestion()

try:
    df_raw = ingestion.load_loan_data(DATA_RAW_PATH)
    log_operation(f"Datos cargados exitosamente: {df_raw.shape}")
    
    print(f"📊 Dataset cargado:")
    print(f"   - Filas: {df_raw.shape[0]:,}")
    print(f"   - Columnas: {df_raw.shape[1]:,}")
    print(f"   - Memoria: {df_raw.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
    
except Exception as e:
    print(f"❌ Error cargando datos: {e}")
    log_operation(f"Error en carga: {e}", "ERROR")

## 2. Exploración Inicial de Datos

In [None]:
# Información básica del dataset
print("📋 INFORMACIÓN GENERAL DEL DATASET")
print("=" * 50)
print(df_raw.info())

print("\n📊 PRIMERAS FILAS")
print("=" * 50)
display(df_raw.head())

print("\n📈 ESTADÍSTICAS DESCRIPTIVAS (Variables Numéricas)")
print("=" * 50)
display(df_raw.describe())

In [None]:
# Análisis de valores faltantes
print("🔍 ANÁLISIS DE VALORES FALTANTES")
print("=" * 50)

missing_stats = pd.DataFrame({
    'Column': df_raw.columns,
    'Missing_Count': df_raw.isnull().sum(),
    'Missing_Percentage': (df_raw.isnull().sum() / len(df_raw)) * 100,
    'Data_Type': df_raw.dtypes
}).sort_values('Missing_Percentage', ascending=False)

# Filtrar columnas con valores faltantes
missing_stats = missing_stats[missing_stats['Missing_Count'] > 0]

if len(missing_stats) > 0:
    display(missing_stats)
    
    # Identificar columnas críticas con muchos faltantes
    critical_missing = missing_stats[missing_stats['Missing_Percentage'] > 50]
    if len(critical_missing) > 0:
        print(f"\n⚠️  COLUMNAS CON >50% FALTANTES ({len(critical_missing)}):")
        for col in critical_missing['Column']:
            print(f"   - {col}: {critical_missing[critical_missing['Column']==col]['Missing_Percentage'].iloc[0]:.1f}%")
else:
    print("✅ No se encontraron valores faltantes en el dataset")

## 3. Validación y Limpieza de Datos

In [None]:
# Inicializar limpiador de datos
cleaner = DataCleaning()

# 1. Limpiar loan_status
print("🧹 LIMPIEZA DE LOAN_STATUS")
print("=" * 50)

print("Estados originales:")
print(df_raw['loan_status'].value_counts())

df_clean = cleaner.clean_loan_status(df_raw)

print("\nEstados después de limpieza:")
print(df_clean['loan_status_clean'].value_counts())

log_operation("Loan_status limpiado exitosamente")

In [None]:
# 2. Crear variables target
print("\n🎯 CREACIÓN DE VARIABLES TARGET")
print("=" * 50)

df_clean = cleaner.create_target_variables(df_clean)

# Verificar creación de variables target
target_vars = ['default_flag', 'loss_rate', 'ead_ratio']
created_targets = [var for var in target_vars if var in df_clean.columns]

print(f"Variables target creadas: {created_targets}")

for var in created_targets:
    if var == 'default_flag':
        print(f"\n{var} - Distribución:")
        print(df_clean[var].value_counts())
        print(f"Tasa de default: {df_clean[var].mean():.2%}")
    else:
        print(f"\n{var} - Estadísticas:")
        print(df_clean[var].describe())

log_operation(f"Variables target creadas: {created_targets}")

In [None]:
# 3. Manejar valores faltantes
print("\n🔧 MANEJO DE VALORES FALTANTES")
print("=" * 50)

# Configurar estrategia de limpieza
missing_strategy = {
    'numerical': 'median',
    'categorical': 'mode',
    'drop_threshold': 0.7  # Eliminar columnas con >70% faltantes
}

# Guardar filas con problemas antes de limpiar
problematic_rows = df_clean[df_clean.isnull().any(axis=1)].copy()
if len(problematic_rows) > 0:
    save_error_rows(problematic_rows, "initial_missing_values", ERRORS_PATH)
    print(f"💾 Guardadas {len(problematic_rows)} filas con valores faltantes en data/errors/")

# Aplicar limpieza
df_clean = cleaner.handle_missing_values(df_clean, missing_strategy)

print(f"✅ Limpieza completada:")
print(f"   - Filas restantes: {len(df_clean):,}")
print(f"   - Columnas restantes: {df_clean.shape[1]:,}")
print(f"   - Valores faltantes restantes: {df_clean.isnull().sum().sum():,}")

log_operation(f"Manejo de faltantes completado. Filas finales: {len(df_clean)}")

In [None]:
# 4. Detección y manejo de outliers
print("\n📊 DETECCIÓN DE OUTLIERS")
print("=" * 50)

# Seleccionar columnas numéricas críticas para detección de outliers
numeric_cols = ['loan_amnt', 'funded_amnt', 'int_rate', 'installment', 'annual_inc', 'dti']
available_cols = [col for col in numeric_cols if col in df_clean.columns]

print(f"Analizando outliers en: {available_cols}")

df_no_outliers, df_outliers = cleaner.handle_outliers(
    df_clean, 
    columns=available_cols, 
    method='iqr', 
    threshold=2.0  # Más conservador para datos financieros
)

# Guardar outliers identificados
if len(df_outliers) > 0:
    save_error_rows(df_outliers, "outliers_detected", ERRORS_PATH)
    print(f"💾 Guardados {len(df_outliers)} outliers en data/errors/")

# Decidir si mantener outliers (común en datos financieros)
print(f"\n📈 Análisis de outliers:")
print(f"   - Outliers detectados: {len(df_outliers):,} ({len(df_outliers)/len(df_clean):.1%})")
print(f"   - Datos sin outliers: {len(df_no_outliers):,}")

# Para riesgo crediticio, generalmente mantenemos outliers pero los documentamos
df_final = df_clean.copy()  # Mantener todos los datos
print("✅ Decisión: Mantener outliers documentados (típico en riesgo crediticio)")

log_operation(f"Outliers detectados y documentados: {len(df_outliers)}")

## 4. Ingeniería de Características Básica

In [None]:
# Crear features derivadas básicas
print("⚙️ CREACIÓN DE FEATURES DERIVADAS")
print("=" * 50)

df_final = cleaner.create_derived_features(df_final)

# Identificar nuevas features creadas
new_features = [col for col in df_final.columns if col.endswith(('_ratio', '_length', '_avg', '_amount', '_installment'))]

print(f"✅ Features derivadas creadas ({len(new_features)}):")
for feature in new_features:
    print(f"   - {feature}")

# Estadísticas de las nuevas features
if new_features:
    print(f"\n📊 Estadísticas de features derivadas:")
    display(df_final[new_features].describe())

log_operation(f"Features derivadas creadas: {len(new_features)}")

## 5. Validación Final y Exportación

In [None]:
# Validación final de calidad de datos
print("✅ VALIDACIÓN FINAL DE CALIDAD")
print("=" * 50)

# Verificar integridad de datos críticos
validation_results = {
    'total_rows': len(df_final),
    'total_columns': df_final.shape[1],
    'missing_values': df_final.isnull().sum().sum(),
    'duplicate_rows': df_final.duplicated().sum(),
    'memory_usage_mb': df_final.memory_usage(deep=True).sum() / 1024**2
}

print("📊 Resumen final del dataset:")
for key, value in validation_results.items():
    if isinstance(value, float):
        print(f"   - {key.replace('_', ' ').title()}: {value:.2f}")
    else:
        print(f"   - {key.replace('_', ' ').title()}: {value:,}")

# Validaciones específicas de riesgo crediticio
print(f"\n🎯 Validaciones específicas:")

# 1. Variable target principal
if 'default_flag' in df_final.columns:
    default_rate = df_final['default_flag'].mean()
    print(f"   - Tasa de default: {default_rate:.2%}")
    if default_rate < 0.01 or default_rate > 0.50:
        print(f"   ⚠️  Tasa de default inusual: {default_rate:.2%}")

# 2. Distribución de montos
if 'loan_amnt' in df_final.columns:
    loan_stats = df_final['loan_amnt'].describe()
    print(f"   - Monto promedio de préstamo: ${loan_stats['mean']:,.0f}")
    print(f"   - Rango de montos: ${loan_stats['min']:,.0f} - ${loan_stats['max']:,.0f}")

# 3. Calidad de dates
date_columns = df_final.select_dtypes(include=['datetime64']).columns
print(f"   - Columnas de fecha válidas: {len(date_columns)}")

log_operation("Validación final completada", "INFO", validation_results)

In [None]:
# Exportar dataset limpio
print("\n💾 EXPORTACIÓN DE DATOS LIMPIOS")
print("=" * 50)

# Archivo principal
output_file = f"{DATA_PROCESSED_PATH}/clean_data.csv"
df_final.to_csv(output_file, index=False, encoding='utf-8')

# Archivo con timestamp para versionado
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
versioned_file = f"{DATA_PROCESSED_PATH}/clean_data_{timestamp}.csv"
df_final.to_csv(versioned_file, index=False, encoding='utf-8')

print(f"✅ Dataset exportado:")
print(f"   - Archivo principal: {output_file}")
print(f"   - Archivo versionado: {versioned_file}")
print(f"   - Tamaño: {Path(output_file).stat().st_size / 1024**2:.1f} MB")

log_operation(f"Dataset limpio exportado: {output_file}")

## 6. Generación de Reporte ETL

In [None]:
# Generar reporte completo del proceso ETL
report_content = f"""# Reporte ETL - Analítica de Riesgo Crediticio

## Información General
- **Fecha de ejecución**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
- **Archivo fuente**: {DATA_RAW_PATH}
- **Archivo destino**: {output_file}

## Resumen del Procesamiento

### Datos Originales
- **Filas**: {df_raw.shape[0]:,}
- **Columnas**: {df_raw.shape[1]:,}
- **Tamaño**: {df_raw.memory_usage(deep=True).sum() / 1024**2:.1f} MB

### Datos Procesados
- **Filas finales**: {df_final.shape[0]:,}
- **Columnas finales**: {df_final.shape[1]:,}
- **Tamaño final**: {df_final.memory_usage(deep=True).sum() / 1024**2:.1f} MB
- **Reducción de filas**: {((df_raw.shape[0] - df_final.shape[0]) / df_raw.shape[0] * 100):.1f}%

## Variables Target Creadas

### default_flag (PD Model)
- **Tipo**: Binaria (0/1)
- **Distribución**: {df_final['default_flag'].value_counts().to_dict() if 'default_flag' in df_final.columns else 'No creada'}
- **Tasa de default**: {df_final['default_flag'].mean():.2%} if 'default_flag' in df_final.columns else 'N/A'}

### loss_rate (LGD Model)
- **Tipo**: Continua (0-1)
- **Observaciones válidas**: {df_final['loss_rate'].notna().sum() if 'loss_rate' in df_final.columns else 'No creada'}
- **Pérdida promedio**: {df_final['loss_rate'].mean():.2%} if 'loss_rate' in df_final.columns else 'N/A'}

## Calidad de Datos

### Valores Faltantes
- **Antes del procesamiento**: {df_raw.isnull().sum().sum():,}
- **Después del procesamiento**: {df_final.isnull().sum().sum():,}
- **Columnas eliminadas por alta faltanza**: {df_raw.shape[1] - df_final.shape[1]}

### Outliers
- **Método de detección**: IQR con umbral 2.0
- **Outliers identificados**: {len(df_outliers) if 'df_outliers' in locals() else 0:,}
- **Acción**: Documentados pero mantenidos en dataset

## Features Derivadas

### Features Creadas ({len(new_features) if 'new_features' in locals() else 0})
"""

if 'new_features' in locals() and new_features:
    for feature in new_features:
        report_content += f"\n- **{feature}**"

report_content += f"""

## Archivos Generados

### Datos Principales
- `{output_file}`: Dataset limpio principal
- `{versioned_file}`: Dataset versionado con timestamp

### Archivos de Error
- `data/errors/initial_missing_values_errors_*.csv`: Registros con valores faltantes
- `data/errors/outliers_detected_errors_*.csv`: Outliers identificados

### Logs
- `logs/riskvista_*.log`: Log detallado de ejecución

## Validaciones de Riesgo Crediticio

### Coherencia de Datos
✅ Tasa de default dentro de rangos esperados  
✅ Distribución de montos de préstamo coherente  
✅ Variables de fecha válidas  
✅ No hay registros duplicados  

## Próximos Pasos

1. **EDA (Análisis Exploratorio)**:
   - Ejecutar `notebooks/02_eda.ipynb`
   - Análisis de distribuciones y correlaciones
   - Identificación de patrones de riesgo

2. **Modelado Dimensional**:
   - Revisar `sql/modelado_decision.md`
   - Aprobar estructura de base de datos
   - Crear tablas dimensionales

3. **Entrenamiento de Modelos**:
   - Modelo PD: `src/riskvista/models/train_pd.py`
   - Modelo LGD: `src/riskvista/models/train_lgd.py`
   - Modelo EAD: `src/riskvista/models/train_ead.py`

## Conclusiones

El proceso ETL se completó exitosamente. Los datos están listos para el análisis exploratorio y el entrenamiento de modelos de riesgo crediticio. Se mantuvieron {df_final.shape[0]:,} registros válidos para el análisis.

**Estado**: ✅ ETL COMPLETADO - LISTO PARA EDA
"""

# Guardar reporte
report_timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
write_report(report_content, f"etl_report_{report_timestamp}", "reports")

print("📄 Reporte ETL generado:")
print(f"   - reports/etl_report_{report_timestamp}.md")

log_operation("Proceso ETL completado exitosamente", "INFO")
print("\n🎉 ¡PROCESO ETL COMPLETADO EXITOSAMENTE!")
print("\n📋 Próximo paso: Ejecutar análisis exploratorio (EDA)")