# Project Charter - Entendimiento del Negocio

## 1. Nombre del Proyecto

**Clasificación de impago de tarjeta de credito de clientes de un banco**

---

## 2. Objetivo del Proyecto

Desarrollar y evaluar un modelo de clasificación que prediga la probabilidad de impago de los clientes de tarjetas de crédito de un banco, utilizando el dataset público “Default of Credit Card Clients” (UCI / Kaggle). El resultado apoyará la toma de decisiones de riesgo al identificar oportunamente clientes con alta probabilidad de incumplimiento. Lo anterior usando herramientas y conceptos propios de las metodologías agiles aplicadas a la ciencia de datos.

- **Fuente de datos**: [Default of Credit Card Clients (Kaggle)](https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset)

---


## 3. Alcance del Proyecto


- **Datos:** dataset **Default of Credit Card Clients Dataset**de 30 000 registros y 23 variables.
  - **ID**: Identificador de cada cliente.
  - **LIMIT_BAL**: Monto de crédito otorgado en dólares NTD (dólar taiwanés), incluye crédito individual y familiar/suplementario.
  - **SEX**: Género (1 = masculino, 2 = femenino).
  - **EDUCATION**: Nivel educativo (1 = posgrado, 2 = universidad, 3 = bachillerato, 4 = otros, 5 = desconocido, 6 = desconocido).
  - **MARRIAGE**: Estado civil (1 = casado, 2 = soltero, 3 = otros).
  - **AGE**: Edad en años.
  - **PAY_0**: Estado de pago en septiembre de 2005 (–1 = pago puntual, 1 = retraso de un mes, 2 = retraso de dos meses, …, 8 = retraso de ocho meses, 9 = retraso de nueve meses o más).
  - **PAY_2**: Estado de pago en agosto de 2005 (misma escala).
  - **PAY_3**: Estado de pago en julio de 2005 (misma escala).
  - **PAY_4**: Estado de pago en junio de 2005 (misma escala).
  - **PAY_5**: Estado de pago en mayo de 2005 (misma escala).
  - **PAY_6**: Estado de pago en abril de 2005 (misma escala).
  - **BILL_AMT1**: Monto de la factura en septiembre de 2005 (dólares NTD).
  - **BILL_AMT2**: Monto de la factura en agosto de 2005 (dólares NTD).
  - **BILL_AMT3**: Monto de la factura en julio de 2005 (dólares NTD).
  - **BILL_AMT4**: Monto de la factura en junio de 2005 (dólares NTD).
  - **BILL_AMT5**: Monto de la factura en mayo de 2005 (dólares NTD).
  - **BILL_AMT6**: Monto de la factura en abril de 2005 (dólares NTD).
  - **PAY_AMT1**: Monto del pago anterior en septiembre de 2005 (dólares NTD).
  - **PAY_AMT2**: Monto del pago anterior en agosto de 2005 (dólares NTD).
  - **PAY_AMT3**: Monto del pago anterior en julio de 2005 (dólares NTD).
  - **PAY_AMT4**: Monto del pago anterior en junio de 2005 (dólares NTD).
  - **PAY_AMT5**: Monto del pago anterior en mayo de 2005 (dólares NTD).
  - **PAY_AMT6**: Monto del pago anterior en abril de 2005 (dólares NTD).
  - **default.payment.next.month**: Indicador de impago el mes siguiente (1 = sí, 0 = no).


- **Fases TDSP** alineadas con la rúbrica del curso:
  1. Entendimiento del negocio y carga de datos.
  2. Preprocesamiento y Análisis exploratorio de datos (EDA).
  3. Modelamiento y Extracción de características.
  4. Despliegue (prototipo local/API) y gestión de versiones.
  5. Evaluación final y presentación.
- **Herramientas** a usar:
  - **Git** → versionamiento de código.
  - **DVC** → versionamiento de datos.
  - **MLflow** → seguimiento de experimentos y modelos.
  - Python, pandas, scikit‑learn, Jupyter, FastAPI (opcional para demo).
- **Entregables** por fase:

| Fase | Entregables obligatorios (según rúbrica) |
|------|-------------------------------------------|
| 1 | Marco de proyecto, código de carga de datos, diccionario de datos |
| 2 | Código de preprocesamiento/EDA, resumen estadístico, visualizaciones |
| 3 | Código de extracción de características, notebooks de modelamiento, reporte de línea base y modelo final (MLflow) |
| 4 | Código de despliegue (prototipo), documentación de despliegue y entorno |
| 5 | Código de evaluación, interpretación de resultados, video de presentación |
| 6 | **Entrega final** |

- **Criterios de éxito (baseline):** AUC‑ROC ≥ 0.78, Recall ≥ 0.60 en el dataset de prueba.

---

## 3.1. Excluye:

- Integrar datos adicionales (p. ej. perfiles transaccionales).
- Despliegue productivo en la nube.
- Análisis financiero detallado más allá de métricas de clasificación.

---

## 3.2 Carga de los datos




---

In [14]:
df = pd.read_csv( r"./data/UCI_Credit_Card.csv")

In [15]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


In [16]:
df.info()
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          30000 non-null  int64  
 1   LIMIT_BAL                   30000 non-null  float64
 2   SEX                         30000 non-null  int64  
 3   EDUCATION                   30000 non-null  int64  
 4   MARRIAGE                    30000 non-null  int64  
 5   AGE                         30000 non-null  int64  
 6   PAY_0                       30000 non-null  int64  
 7   PAY_2                       30000 non-null  int64  
 8   PAY_3                       30000 non-null  int64  
 9   PAY_4                       30000 non-null  int64  
 10  PAY_5                       30000 non-null  int64  
 11  PAY_6                       30000 non-null  int64  
 12  BILL_AMT1                   30000 non-null  float64
 13  BILL_AMT2                   300

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
count,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,...,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0,30000.0
mean,15000.5,167484.322667,1.603733,1.853133,1.551867,35.4855,-0.0167,-0.133767,-0.1662,-0.220667,...,43262.948967,40311.400967,38871.7604,5663.5805,5921.163,5225.6815,4826.076867,4799.387633,5215.502567,0.2212
std,8660.398374,129747.661567,0.489129,0.790349,0.52197,9.217904,1.123802,1.197186,1.196868,1.169139,...,64332.856134,60797.15577,59554.107537,16563.280354,23040.87,17606.96147,15666.159744,15278.305679,17777.465775,0.415062
min,1.0,10000.0,1.0,0.0,0.0,21.0,-2.0,-2.0,-2.0,-2.0,...,-170000.0,-81334.0,-339603.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,7500.75,50000.0,1.0,1.0,1.0,28.0,-1.0,-1.0,-1.0,-1.0,...,2326.75,1763.0,1256.0,1000.0,833.0,390.0,296.0,252.5,117.75,0.0
50%,15000.5,140000.0,2.0,2.0,2.0,34.0,0.0,0.0,0.0,0.0,...,19052.0,18104.5,17071.0,2100.0,2009.0,1800.0,1500.0,1500.0,1500.0,0.0
75%,22500.25,240000.0,2.0,2.0,2.0,41.0,0.0,0.0,0.0,0.0,...,54506.0,50190.5,49198.25,5006.0,5000.0,4505.0,4013.25,4031.5,4000.0,0.0
max,30000.0,1000000.0,2.0,6.0,3.0,79.0,8.0,8.0,8.0,8.0,...,891586.0,927171.0,961664.0,873552.0,1684259.0,896040.0,621000.0,426529.0,528666.0,1.0


**Se ha cargado el CSV con éxito y se ha comprobado que todas las columnas están presentes**


## 4. Metodología

Se adoptará el marco **TDSP** (Team Data Science Process) complementado con prácticas Ágiles y las herramientas del curso:

- **Plan** → Backlog en GitHub Projects, sprints semanales.
- **Develop** → Git + DVC para rastrear notebooks, código y datasets.
- **Build** → MLflow para experimentos, métricas y artefactos de modelos.
- **Deploy** → Prototipo local o API FastAPI..
- **Operate** → Métricas de evaluación y reflexiones sobre el modelo resultante. Reflexionando sobre cómo podría cambiar la relación entre variables y el resultado (impago) en el tiempo, y cómo esto afectaría la vigencia del modelo entrenado.

A continuación se muestra el ciclo de vida del proceso TDSP utilizado en el proyecto:

> ![Ciclo de vida TDSP](./Imagenes/metodologia.png)



---



## 5. Cronograma

| Fase TDSP | Entregables clave | Fechas |
|-----------|------------------|--------|
| 1 – Entendimiento & Carga | • Marco del proyecto  <br>• Notebook de carga de datos  <br>• Diccionario de datos | 26 jun → 03 jul |
| 2 – Preprocesamiento & EDA | • Código de limpieza y EDA  <br>• Resumen estadístico y visualizaciones clave | 04 → 11 jul |
| 3 – Modelamiento & Features | • Pipeline de ingeniería de características  <br>• Modelos baseline y mejorados rastreados en MLflow  <br>• Reporte comparativo | 12 → 18 jul |
| 4 – Despliegue (Prototipo) | • Script/API  <br>• Documentación de infraestructura local  <br>• Configuración de DVC | 29 → 25 jul |
| 5 – Evaluación & Entrega final | • Notebook de evaluación en *hold‑out/particiones entrenamiento prueba*  <br>• Interpretación de resultados y limitaciones  <br>• Video (≤ 5 min) con presentación del proyecto | 28 jul |



---

## 6. Equipo del Proyecto

| Nombre | Rol | Responsabilidades |
|--------|-----|------------------|
| Juan Felipe Caro Monroy | Líder del equipo| Dirección general, código, experimentos, presentación |
| Miguel Ángel Naranjo | Líder del proyecto | Guía técnica,  código, experimentos, presentación |
| Edwin David García| Científico de datos| Guía técnica, código, experimentos, presentación |



---

## 7. Presupuesto

Sin presupuesto monetario, se utilizan recursos gratuitos (Kaggle, GitHub, DVC remotos locales, MLflow local).

---

## 8. Stakeholders

- **Profesor(a) del módulo** – Supervisor académico y evaluador.
- **Tutor/monitor del módulo** – Feedback  durante revisiones y evaluador.
- **Cliente hipotetico de Riesgo Bancario** 

---



## 9. Aprobaciones




| Nombre | Cargo | Firma | Fecha |
|--------|-------|-------|-------|
| Jorge Eliécer Camargo Mendoza | Docente | ____________________ | ___ / ___ / 2025 |
| Juan Sebastian Malagón Torres | Tutor/Monitor | ____________________ | ___ / ___ / 2025 |