# Riesgo de crédito con modelos explicables y evaluación de equidad

Una institución financiera desea apoyar su decisión de originación de crédito identificando, con anticipación, solicitantes con alto riesgo de incumplimiento. Tu misión es construir una comparativa técnica de modelos que produzcan probabilidades calibradas y explicables, evaluar su desempeño y analizar posibles brechas de equidad entre subgrupos. El resultado debe traducirse en recomendaciones operativas y en la justificación de qué modelo conviene utilizar y por qué.

### Team members:

* Mario David Hernandez Pantoja
* Oscar Martinez Estevez
* Gerardo Hernandez Widman
* Moises Jesus Carrillo Alonzo
* Braulio Jesus Perez Tamayo

# Datos
Usa el German Credit del UCI Machine Learning Repository. Puedes elegir entre:
* Statlog (German Credit Data): 1,000 instancias y 20 variables; clasifica solicitantes como “good/bad” e incluye una matriz de costos: https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data
* South German Credit: versión documentada y corregida (700 “good” / 300 “bad”, 20 predictores), con notas de muestreo y codificación; suele facilitar la interpretación y prácticas de explicabilidad: https://archive.ics.uci.edu/dataset/522/south+german+credit


# Requerimientos del Análisis
1) **Análisis Exploratorio y Calidad de Datos**

Caracterización completa del conjunto de datos incluyendo distribución de la clase, tipificación de variables, detección y tratamiento de faltantes, duplicados y outliers. Se espera una narrativa visual (gráficos y tablas) que conecte hallazgos con hipótesis de negocio sobre segmentos de mayor riesgo. Debes dejar por escrito las reglas de limpieza aplicadas y justificar su impacto.

2) **Modelado con probabilidades calibradas**

Se requiere entrenar y comparar cuatro enfoques bajo un mismo split estratificado o validación equivalente (fijar semilla para reproducibilidad) y calibrar probabilidades (Platt o Isotónica) usando únicamente datos de entrenamiento/validación:
1. Modelo de regresión logística junto con su reporte de coeficientes y odds ratios.
2. Modelo basado en árboles de decisión y extracción explícita de reglas interpretables.
3. Modelo ensemble (por ejemplo, Random Forest o Gradient Boosting).
4. Red neuronal.

Debes optimizar el umbral de decisión (además del 0.5) con un criterio declarado y reportar el efecto del umbral elegido.

3) **Métricas y comparación fuera de muestra**

Realiza la evaluación de los modelos de acuerdo a las métricas seleccionadas (Accuracy, Precision, Recall, F1, ROC-AUC y PR-AUC) junto con la matriz de confusión correspondiente. La comparación debe discutir estabilidad (varianza esperada), robustez ante desbalance y sensibilidad al umbral. Incluye curvas ROC y PR para visualizar el trade-off. 

4) **Explicabilidad global y local**

El análisis debe facilitar la trazabilidad de por qué un solicitante es clasificado como riesgoso:

* Global: interpreta coeficientes y odds (logística), muestra importancias (árbol/ensemble) y presenta 2–3 reglas del árbol que definan segmentos de alto riesgo.
* Local: explica al menos tres casos individuales (uno mal clasificado, uno “frontera” y uno de riesgo alto). Puedes usar SHAP o LIME; para la red neuronal, considera Integrated Gradients o SHAP Kernel según factibilidad. La explicación debe ser comprensible para negocio (texto corto + visual).

5) **Evaluación de equidad (fairness)**

Selecciona uno o dos atributos comparativos presentes en el dataset (grupos de edad o estado civil) y contrasta resultados entre subgrupos. Reporta al menos dos métricas de equidad (por ejemplo, Demographic Parity: tasa de positivos, y Equal Opportunity: TPR/Recall por grupo) e incluye tamaños muestrales y una discusión honesta de limitaciones (histórico, proxies, label bias).

6) **Recomendación operativa**

Con base en desempeño, explicabilidad y equidad, cierra con una propuesta de uso, un umbral recomendado y plan de monitoreo y mantenimiento (monitoreo periódico, recalibración, auditorías de equidad y documentación de decisiones).

# Entregables
1. Notebook con secciones claramente identificadas que correspondan a los requerimientos anteriores:
    * Exploración y Calidad de Datos
    * Modelado 
    * Evaluación
    * Explicabilidad
    * Evaluación de Equidad

2. Resumen ejecutivo donde concluyas qué modelo utilizar y por qué, integrando:
    * Exploración y Calidad de Datos
    * Modelado 
    * Evaluación
    * Explicabilidad
    * Evaluación de Equida