# üìä An√°lisis Exploratorio de Datos (EDA)
# Sistema de Evaluaci√≥n de Riesgo Crediticio

Este notebook presenta un an√°lisis exhaustivo de los datos utilizados para el sistema de recomendaci√≥n de evaluaci√≥n de riesgo crediticio.

## Objetivos del An√°lisis
1. **Exploraci√≥n inicial**: Comprender la estructura y caracter√≠sticas de los datos
2. **Calidad de datos**: Identificar valores faltantes, outliers y inconsistencias
3. **Distribuciones**: Analizar la distribuci√≥n de variables clave
4. **Correlaciones**: Identificar relaciones entre variables
5. **Insights crediticios**: Extraer patrones relevantes para evaluaci√≥n de riesgo

---

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path
import sys
import os

# Configurar visualizaciones
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configurar pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Librer√≠as importadas correctamente")

## 1. üìÇ Carga de Datos

In [None]:
# Agregar directorio ra√≠z al path
project_root = Path.cwd()
if project_root.name == 'notebooks':
    project_root = project_root.parent

sys.path.append(str(project_root))

# Importar m√≥dulos del proyecto
from src.data.load_data import DataLoader

# Inicializar cargador de datos
loader = DataLoader()

print(f"üìÅ Directorio del proyecto: {project_root}")
print(f"üìÅ Directorio de datos: {loader.processed_data_dir}")

In [None]:
# Verificar si existen datos procesados, si no generarlos
data_file = loader.processed_data_dir / 'credit_data_processed.csv'

if not data_file.exists():
    print("üîÑ Generando datos de muestra...")
    
    # Crear directorio si no existe
    loader.processed_data_dir.mkdir(parents=True, exist_ok=True)
    
    # Generar datos sint√©ticos
    df_raw = loader.create_sample_data(n_samples=2000)
    df_clean = loader.clean_data(df_raw)
    loader.save_processed_data(df_clean, 'credit_data_processed.csv')
    
    print("‚úÖ Datos generados y guardados")
else:
    print("üìä Datos existentes encontrados")

# Cargar datos
df = pd.read_csv(data_file)
print(f"\nüìà Datos cargados: {df.shape[0]} filas, {df.shape[1]} columnas")

## 2. üîç Exploraci√≥n Inicial

In [None]:
# Informaci√≥n general del dataset
print("üìã INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 50)
print(f"Dimensiones: {df.shape[0]} filas √ó {df.shape[1]} columnas")
print(f"Memoria utilizada: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"\nTipos de datos:")
print(df.dtypes.value_counts())

In [None]:
# Primeras filas del dataset
print("üî∏ PRIMERAS 5 FILAS DEL DATASET")
print("=" * 50)
display(df.head())

In [None]:
# Informaci√≥n detallada
print("üìä INFORMACI√ìN DETALLADA")
print("=" * 50)
df.info()

## 3. üìà Estad√≠sticas Descriptivas

In [None]:
# Estad√≠sticas descriptivas para variables num√©ricas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
print("=" * 70)

numerical_cols = df.select_dtypes(include=[np.number]).columns.tolist()
if 'customer_id' in numerical_cols:
    numerical_cols.remove('customer_id')

display(df[numerical_cols].describe())

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS")
print("=" * 70)

categorical_cols = df.select_dtypes(include=['object', 'category']).columns.tolist()

for col in categorical_cols:
    print(f"\nüîπ {col.upper()}:")
    print(f"Valores √∫nicos: {df[col].nunique()}")
    print("Distribuci√≥n:")
    print(df[col].value_counts())
    print("-" * 40)

## 4. üéØ An√°lisis de la Variable Objetivo

In [None]:
# An√°lisis de la variable objetivo (default)
print("üéØ AN√ÅLISIS DE LA VARIABLE OBJETIVO (DEFAULT)")
print("=" * 50)

# Distribuci√≥n de la variable objetivo
default_counts = df['default'].value_counts()
default_props = df['default'].value_counts(normalize=True)

print(f"Distribuci√≥n absoluta:")
print(f"  No Default (0): {default_counts[0]:,} ({default_props[0]:.1%})")
print(f"  Default (1): {default_counts[1]:,} ({default_props[1]:.1%})")
print(f"\nTasa de default: {default_props[1]:.2%}")

# Crear visualizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Gr√°fico de barras
default_counts.plot(kind='bar', ax=axes[0], color=['skyblue', 'coral'])
axes[0].set_title('Distribuci√≥n de Default (Conteos)')
axes[0].set_xlabel('Default')
axes[0].set_ylabel('Cantidad')
axes[0].set_xticklabels(['No Default', 'Default'], rotation=0)

# Gr√°fico circular
axes[1].pie(default_counts.values, labels=['No Default', 'Default'], 
           autopct='%1.1f%%', colors=['skyblue', 'coral'])
axes[1].set_title('Proporci√≥n de Default')

plt.tight_layout()
plt.show()

## 5. üìä Distribuci√≥n de Variables Num√©ricas

In [None]:
# Distribuci√≥n de variables num√©ricas principales
key_numerical = ['age', 'income', 'credit_score', 'debt_ratio', 'employment_years', 'loan_amount']
key_numerical = [col for col in key_numerical if col in df.columns]

# Crear subplots
n_cols = 3
n_rows = (len(key_numerical) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes

for i, col in enumerate(key_numerical):
    # Histograma con separaci√≥n por default
    df[df['default'] == 0][col].hist(alpha=0.7, bins=30, label='No Default', ax=axes[i])
    df[df['default'] == 1][col].hist(alpha=0.7, bins=30, label='Default', ax=axes[i])
    
    axes[i].set_title(f'Distribuci√≥n de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frecuencia')
    axes[i].legend()
    axes[i].grid(True, alpha=0.3)

# Ocultar subplots vac√≠os
for j in range(i+1, len(axes)):
    axes[j].set_visible(False)

plt.suptitle('Distribuciones de Variables Num√©ricas por Estado de Default', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

In [None]:
# Boxplots para identificar outliers
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
axes = axes.flatten() if n_rows > 1 else [axes] if n_cols == 1 else axes

for i, col in enumerate(key_numerical):
    # Boxplot separado por default
    data_to_plot = [df[df['default'] == 0][col], df[df['default'] == 1][col]]
    bp = axes[i].boxplot(data_to_plot, labels=['No Default', 'Default'], patch_artist=True)
    
    # Colorear las cajas
    bp['boxes'][0].set_facecolor('skyblue')
    bp['boxes'][1].set_facecolor('coral')
    
    axes[i].set_title(f'Boxplot de {col}')
    axes[i].set_ylabel(col)
    axes[i].grid(True, alpha=0.3)

# Ocultar subplots vac√≠os
for j in range(i+1, len(axes)):
    axes[j].set_visible(False)

plt.suptitle('Boxplots de Variables Num√©ricas por Estado de Default', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

## 6. üîó An√°lisis de Correlaciones

In [None]:
# Matriz de correlaci√≥n
correlation_matrix = df[numerical_cols].corr()

# Crear heatmap de correlaci√≥n
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .5})
plt.title('Matriz de Correlaci√≥n - Variables Num√©ricas')
plt.tight_layout()
plt.show()

# Correlaci√≥n con la variable objetivo
print("\nüéØ CORRELACI√ìN CON VARIABLE OBJETIVO (DEFAULT)")
print("=" * 50)
default_corr = df[numerical_cols].corrwith(df['default']).sort_values(key=abs, ascending=False)
print(default_corr)

In [None]:
# Visualizar correlaci√≥n con default
plt.figure(figsize=(10, 6))
default_corr_abs = default_corr.abs().sort_values(ascending=True)
colors = ['red' if x < 0 else 'green' for x in default_corr[default_corr_abs.index]]

plt.barh(range(len(default_corr_abs)), default_corr[default_corr_abs.index].values, 
         color=colors, alpha=0.7)
plt.yticks(range(len(default_corr_abs)), default_corr_abs.index)
plt.xlabel('Correlaci√≥n con Default')
plt.title('Correlaci√≥n de Variables Num√©ricas con Default')
plt.axvline(x=0, color='black', linestyle='-', alpha=0.3)
plt.grid(True, alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(default_corr[default_corr_abs.index].values):
    plt.text(v + 0.01 if v >= 0 else v - 0.01, i, f'{v:.3f}', 
             va='center', ha='left' if v >= 0 else 'right')

plt.tight_layout()
plt.show()

## 7. üìä An√°lisis de Variables Categ√≥ricas

In [None]:
# An√°lisis de variables categ√≥ricas vs default
categorical_analysis = ['employment_status', 'education_level', 'marital_status', 'housing_status']
categorical_analysis = [col for col in categorical_analysis if col in df.columns]

n_cols = 2
n_rows = (len(categorical_analysis) + n_cols - 1) // n_cols
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))

if n_rows == 1:
    axes = [axes] if n_cols == 1 else axes
else:
    axes = axes.flatten()

for i, col in enumerate(categorical_analysis):
    # Calcular tasas de default por categor√≠a
    default_rates = df.groupby(col)['default'].agg(['count', 'sum', 'mean'])
    default_rates.columns = ['Total', 'Defaults', 'Default_Rate']
    default_rates = default_rates.sort_values('Default_Rate')
    
    # Crear gr√°fico de barras
    bars = axes[i].bar(range(len(default_rates)), default_rates['Default_Rate'], 
                      alpha=0.7, color='coral')
    axes[i].set_title(f'Tasa de Default por {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Tasa de Default')
    axes[i].set_xticks(range(len(default_rates)))
    axes[i].set_xticklabels(default_rates.index, rotation=45, ha='right')
    axes[i].grid(True, alpha=0.3)
    
    # Agregar valores en las barras
    for bar, rate in zip(bars, default_rates['Default_Rate']):
        axes[i].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.005,
                    f'{rate:.1%}', ha='center', va='bottom', fontsize=9)

# Ocultar subplots vac√≠os
for j in range(i+1, len(axes)):
    axes[j].set_visible(False)

plt.suptitle('An√°lisis de Variables Categ√≥ricas vs Default', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

## 8. üîç Detecci√≥n de Valores Faltantes y Outliers

In [None]:
# An√°lisis de valores faltantes
print("üîç AN√ÅLISIS DE VALORES FALTANTES")
print("=" * 50)

missing_data = df.isnull().sum()
missing_percent = 100 * missing_data / len(df)

missing_table = pd.DataFrame({
    'Valores Faltantes': missing_data,
    'Porcentaje': missing_percent
})

missing_table = missing_table[missing_table['Valores Faltantes'] > 0].sort_values('Valores Faltantes', ascending=False)

if len(missing_table) > 0:
    print(missing_table)
    
    # Visualizar valores faltantes
    plt.figure(figsize=(10, 6))
    sns.barplot(x=missing_table['Porcentaje'], y=missing_table.index, palette='viridis')
    plt.title('Porcentaje de Valores Faltantes por Variable')
    plt.xlabel('Porcentaje de Valores Faltantes')
    plt.tight_layout()
    plt.show()
else:
    print("‚úÖ No se encontraron valores faltantes en el dataset")

In [None]:
# Detecci√≥n de outliers usando IQR
print("üîç DETECCI√ìN DE OUTLIERS (M√âTODO IQR)")
print("=" * 50)

outlier_summary = []

for col in numerical_cols:
    if col == 'default':  # Saltar variable objetivo
        continue
        
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    outlier_count = len(outliers)
    outlier_percent = 100 * outlier_count / len(df)
    
    outlier_summary.append({
        'Variable': col,
        'Outliers': outlier_count,
        'Porcentaje': outlier_percent,
        'L√≠mite Inferior': lower_bound,
        'L√≠mite Superior': upper_bound
    })

outlier_df = pd.DataFrame(outlier_summary)
outlier_df = outlier_df.sort_values('Porcentaje', ascending=False)

print(outlier_df.to_string(index=False))

## 9. üí° An√°lisis Espec√≠fico para Riesgo Crediticio

In [None]:
# An√°lisis de ratios financieros importantes
print("üí° AN√ÅLISIS DE RATIOS FINANCIEROS")
print("=" * 50)

# Calcular ratios adicionales
df_analysis = df.copy()
df_analysis['loan_to_income'] = df_analysis['loan_amount'] / df_analysis['income']
df_analysis['monthly_income'] = df_analysis['income'] / 12

# An√°lisis por segmentos de riesgo
# Definir segmentos de puntaje crediticio
df_analysis['credit_segment'] = pd.cut(df_analysis['credit_score'], 
                                      bins=[0, 580, 670, 740, 800, 850],
                                      labels=['Poor', 'Fair', 'Good', 'Very Good', 'Excellent'])

# Definir segmentos de ingresos
df_analysis['income_segment'] = pd.qcut(df_analysis['income'], 
                                       q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])

# An√°lisis cruzado: puntaje crediticio vs ingresos
cross_analysis = pd.crosstab(df_analysis['credit_segment'], 
                            df_analysis['income_segment'], 
                            df_analysis['default'], 
                            aggfunc='mean')

print("\nüìä Tasa de Default por Segmento de Cr√©dito e Ingresos:")
print(cross_analysis.round(3))

In [None]:
# Visualizaci√≥n del an√°lisis cruzado
plt.figure(figsize=(10, 6))
sns.heatmap(cross_analysis, annot=True, fmt='.3f', cmap='Reds', 
           cbar_kws={'label': 'Tasa de Default'})
plt.title('Tasa de Default por Segmento de Cr√©dito e Ingresos')
plt.xlabel('Segmento de Ingresos (Cuartiles)')
plt.ylabel('Segmento de Puntaje Crediticio')
plt.tight_layout()
plt.show()

In [None]:
# An√°lisis de tendencias por edad y experiencia laboral
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Tendencia por edad
age_bins = pd.cut(df['age'], bins=range(18, 81, 5))
age_default = df.groupby(age_bins)['default'].mean()
age_default.plot(kind='line', ax=axes[0], marker='o', color='coral')
axes[0].set_title('Tasa de Default por Grupos de Edad')
axes[0].set_xlabel('Edad')
axes[0].set_ylabel('Tasa de Default')
axes[0].grid(True, alpha=0.3)
axes[0].tick_params(axis='x', rotation=45)

# Tendencia por experiencia laboral
emp_bins = pd.cut(df['employment_years'], bins=range(0, 41, 3))
emp_default = df.groupby(emp_bins)['default'].mean()
emp_default.plot(kind='line', ax=axes[1], marker='s', color='skyblue')
axes[1].set_title('Tasa de Default por A√±os de Empleo')
axes[1].set_xlabel('A√±os de Empleo')
axes[1].set_ylabel('Tasa de Default')
axes[1].grid(True, alpha=0.3)
axes[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

## 10. üìã Conclusiones y Recomendaciones

In [None]:
# Resumen ejecutivo del an√°lisis
print("üìã RESUMEN EJECUTIVO - AN√ÅLISIS EXPLORATORIO")
print("=" * 60)

# Estad√≠sticas generales
total_clients = len(df)
default_rate = df['default'].mean()
avg_credit_score = df['credit_score'].mean()
avg_income = df['income'].mean()
avg_loan_amount = df['loan_amount'].mean()

print(f"\nüìä M√âTRICAS CLAVE:")
print(f"   ‚Ä¢ Total de clientes analizados: {total_clients:,}")
print(f"   ‚Ä¢ Tasa de default general: {default_rate:.2%}")
print(f"   ‚Ä¢ Puntaje crediticio promedio: {avg_credit_score:.0f}")
print(f"   ‚Ä¢ Ingreso promedio: ${avg_income:,.0f}")
print(f"   ‚Ä¢ Monto de pr√©stamo promedio: ${avg_loan_amount:,.0f}")

# Variables m√°s correlacionadas con default
top_correlations = df[numerical_cols].corrwith(df['default']).abs().sort_values(ascending=False)
print(f"\nüéØ VARIABLES M√ÅS PREDICTIVAS:")
for var, corr in top_correlations.head(5).items():
    if var != 'default':
        direction = "(+)" if df[var].corr(df['default']) > 0 else "(-)"
        print(f"   ‚Ä¢ {var}: {corr:.3f} {direction}")

# Segmentos de mayor riesgo
high_risk_employment = df.groupby('employment_status')['default'].mean().idxmax()
high_risk_education = df.groupby('education_level')['default'].mean().idxmax()

print(f"\n‚ö†Ô∏è  SEGMENTOS DE ALTO RIESGO:")
print(f"   ‚Ä¢ Estado laboral: {high_risk_employment}")
print(f"   ‚Ä¢ Nivel educativo: {high_risk_education}")
print(f"   ‚Ä¢ Puntaje crediticio < 580: {(df[df['credit_score'] < 580]['default'].mean():.1%)} default rate")
print(f"   ‚Ä¢ Ratio deuda > 0.8: {(df[df['debt_ratio'] > 0.8]['default'].mean():.1%)} default rate")

In [None]:
# Recomendaciones para el modelo de ML
print("\nüí° RECOMENDACIONES PARA MODELADO:")
print("=" * 50)

recommendations = [
    "1. üéØ VARIABLES CLAVE: Priorizar credit_score, debt_ratio e income en el modelo",
    "2. ‚öñÔ∏è  BALANCEO: Considerar t√©cnicas de balanceo para la clase minoritaria (default)",
    "3. üîß FEATURE ENGINEERING: Crear ratios como loan_to_income, payment_to_income",
    "4. üìä SEGMENTACI√ìN: Incluir variables categ√≥ricas codificadas (employment_status, education)",
    "5. üîç OUTLIERS: Aplicar t√©cnicas robustas debido a la presencia de valores at√≠picos",
    "6. ‚úÖ VALIDACI√ìN: Usar validaci√≥n cruzada estratificada para mantener proporci√≥n de clases",
    "7. üìà M√âTRICAS: Enfocarse en Precision, Recall y AUC-ROC para evaluaci√≥n del modelo",
    "8. üé≤ ENSEMBLE: Considerar modelos ensemble (Random Forest, XGBoost) para mejor rendimiento"
]

for rec in recommendations:
    print(f"   {rec}")

print("\n" + "=" * 60)
print("‚úÖ AN√ÅLISIS EXPLORATORIO COMPLETADO")
print("Los datos est√°n listos para el proceso de modelado")
print("=" * 60)