# Proyecto de Ciencia de Datos: Predicción de Incumplimiento de Pago

En este proyecto se analiza el dataset **UCI Credit Card**, el cual contiene información financiera de 30.000 clientes de tarjetas de crédito.
El objetivo principal es **predecir si un cliente incumplirá el pago** el mes siguiente usando técnicas de machine learning.

Para ello se realizó un flujo profesional que incluye:

- Exploración y análisis de datos (EDA)
- Limpieza y procesamiento
- Visualización
- Entrenamiento del modelo
- Evaluación del modelo
- Guardado del modelo entrenado

Este Notebook documenta cada paso del proceso.


#  1. Importacion de librerias y Carga del dataset

En este paso se importan las librerías necesarias y se carga el archivo `UCI_Credit_Card.csv`, ubicado en la carpeta `Data/RAW`.

Se inspeccionan las primeras filas para verificar que la carga fue correcta.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys

# Cargar datos
df = pd.read_csv("../Data/RAW/UCI_Credit_Card.csv")

df.head()


#  2. Exploración inicial del dataset

A continuación se ejecutan operaciones básicas para conocer la estructura del dataset:

- `df.info()` → tipos de datos y columnas
- `df.describe()` → estadísticas básicas
- Conteo de valores nulos

Estas inspecciones permiten entender el estado inicial de los datos.


In [None]:
df.info()


In [None]:
df.describe()

In [None]:
df.isnull().sum()

#  3. Visualización del dataset

Se generan dos visualizaciones clave:

### - Distribución de la variable objetivo
Permite observar cuántos clientes incumplen o no incumplen pagos.

### - Mapa de correlación
Muestra la relación entre las variables numéricas del dataset.

Estas gráficas son esenciales para comprender la estructura del problema antes de modelar.


In [None]:
sns.countplot(x=df["default.payment.next.month"])
plt.title("Distribución de clientes que incumplen pago")
plt.show()

In [None]:
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), cmap="coolwarm", annot=False)
plt.title("Mapa de correlación")
plt.show()


Esto permite trabajar con datos limpios y organizados en todo el pipeline.


In [None]:
sys.path.append(r"C:\Proyecto\src")

from data_processing import clean_data, save_processed

df_clean = clean_data(df)

save_processed(df_clean, path=r"C:\Proyecto\Data\Processed\clean_data.csv")

df_clean.head()




# 5. Entrenamiento del modelo

Aquí se utiliza `train_model()` para:

- Separar variables predictoras (X) y variable objetivo (y)
- Dividir entre entrenamiento y prueba
- Escalar los datos para mejorar el desempeño del modelo
- Entrenar una regresión logística con parámetros optimizados
- Guardar el modelo entrenado en formato `.pkl`

La salida es:

- `model` → modelo ya entrenado
- `X_test` → datos de prueba
- `y_test` → valores reales de prueba


In [None]:
sys.path.append(r"C:\Proyecto\src")
from data_processing import clean_data, save_processed
from train_model import train_model
from evaluate_model import evaluate



In [None]:
model, X_test, y_test = train_model(
    df_clean,
    model_path=r"C:\Proyecto\Modelo\modelo_credito.pkl"
)


#  6. Evaluación del modelo

La función `evaluate()` genera:

- Precisión (accuracy)
- Recall (sensibilidad)
- F1-score
- Matriz de clasificación

Estos resultados permiten medir qué tan bien el modelo identifica clientes que incumplen pagos.


In [None]:
from evaluate_model import evaluate

evaluate(model, X_test, y_test)


# Conclusiones

A pesar de las limitaciones del dataset y de la simplicidad del modelo, la regresión logística sí es capaz de aprender patrones básicos sobre el comportamiento de pago.
No es un modelo altamente predictivo, pero cumple como **primer acercamiento** y como un **modelo base** para análisis comparativos futuros.


### 1. El modelo sí funciona, pero tiene limitaciones
El modelo logró entrenarse correctamente y producir predicciones válidas sobre si un cliente incumple el pago. Sin embargo, el desempeño no es perfecto, principalmente por la naturaleza del dataset.

### 2. El dataset está desbalanceado
La variable objetivo tiene muchos más clientes que **sí pagan** que los que **no pagan**.
Esto hace que el modelo tienda a predecir siempre la clase mayoritaria.

Por ejemplo:
- Puede obtener una buena **accuracy**, pero
- El **recall** para la clase de incumplimiento suele ser bajo.

Esto significa:
> El modelo detecta bien a quienes sí pagan, pero le cuesta identificar a quienes no pagan.

### 3. La regresión logística es un modelo simple
La regresión logística:
- funciona muy bien con datos lineales,
- pero tiene dificultad cuando las relaciones entre variables son más complejas.

En este dataset:
- El comportamiento de pago depende de muchos factores no lineales,
- por lo que un modelo más complejo (como Random Forest o XGBoost) podría tener mejor desempeño.

### 4. El escalado mejoró la convergencia del modelo
Originalmente el modelo no convergía.

Después de estandarizar los datos:
- el algoritmo logró ajustarse correctamente,
- se evitaron errores de optimización,
- el modelo ahora es estable.

### 5. El modelo es útil, pero no perfecto
El modelo sirve para:
- tener una idea general del riesgo crediticio,
- identificar variables importantes,
- establecer una baseline (modelo base) para comparaciones.

Pero:
> No es lo suficientemente preciso para usarse en producción bancaria real.

###  6. ¿Por qué no funciona mejor?
Los motivos principales son:

1. **Dataset desbalanceado** → dificulta detectar incumplimientos
2. **Modelo lineal** → no captura relaciones complejas
3. **Variables altamente correlacionadas** → afecta el rendimiento
4. **Ruido en los datos** → hay muchos factores humanos difíciles de modelar

### 7. Cómo mejorarlo
Algunas alternativas para mejorar el modelo serían:

- Usar **Random Forest**, **Gradient Boosting** o **XGBoost**
- Aplicar técnicas de balanceo como **SMOTE**
- Selección de características (feature selection)
- Regularización más fuerte
- Cross-validation para mejorar estabilidad

---

