# 01 - Proyecto: Scoring crediticio (GiveMeSomeCredit)

Este Jupyter Book es un proyecto de scoring crediticio. El objetivo es construir una solución reproducible y bien documentada que cubra EDA, modelado, balanceo de clases, optimización computacional, tuning, validación e interpretabilidad.

Resumen rápido:
- Dataset: histórico de 250,000 prestatarios (GiveMeSomeCredit, Kaggle). Se modela la probabilidad de morosidad (90+ días en 2 años).
- Tipo de problema: Clasificación binaria (objetivo: `SeriousDlqin2yrs`).
- Entregables: notebooks organizados por sección, código reproducible, modelos guardados, reportes y gráficas.

## Qué contiene este Jupyter Book

1. Introducción — contexto, objetivos.
2. Análisis Exploratorio — EDA, detección de problemas de calidad y reducción dimensional exploratoria.
3. Modelado Benchmark — entrenamiento y comparación de modelos clásicos (KNN, Naive Bayes, Logistic, Árbol de decisión, RandomForest, XGBoost, SVM).
4. Técnicas de Balanceo — SMOTE, ADASYN y 'class_weight' con comparativa antes/después.
5. Optimización Computacional — técnicas por modelo para acelerar entrenamiento/predicción y tabla de tiempos.
6. Tuning, Validación e Interpretabilidad — pipelines con GridSearch/Optuna, cross-validation, LIME Importance.
7. Evaluación de Modelos — métricas y análisis crítico.
8. Conclusión y Recomendación Final — tabla resumen y justificación del modelo seleccionado.

---

```

## Métricas y justificación

- Métrica principal (clasificación): AUC ROC (por su robustez frente al desbalance de clases) y F1/Recall para capturar sensibilidad hacia la clase positiva (morosidad).
Justificación: en scoring crediticio es crítico identificar morosos (minimizar falsos negativos) por lo que Recall y AUC son primordiales; sin embargo, el coste de falsos positivos también importa, por eso incluimos F1 y Precision.

## Estructura de archivos del proyecto

- `Recursos/` — datos originales (CSV, XLS)
- `data/` — datos procesados generados por `src/preprocess.py`
- `src/` — scripts: `preprocess.py`, `train.py`, `features.py` (próximos)
- `notebooks/` — notebooks organizados por sección (01_introduction, 02_eda, 03_modeling, ...)
- `models/` — modelos guardados (.joblib/.pkl)
- `reports/` — métricas y figuras finales

## Plan de trabajo

1. EDA y limpieza — identificar problemas de calidad y proponer imputaciones.
2. Ingeniería de features — transformar, escalar y seleccionar variables.
3. Modelado benchmark — entrenar y comparar los modelos solicitados.
4. Técnicas de balanceo y volver a evaluar.
5. Optimización computacional y tuning.
6. Interpretabilidad y selección final.
7. Documentación final y empaquetado en Jupyter Book.