<a href="https://colab.research.google.com/github/WellcomePeujio/Prediccion-de-Default-Crediticio/blob/main/Predicci%C3%B3n_de_Default_Crediticio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Predicción de Default Crediticio

**Problema**: Un banco utiliza datos de clientes para predecir el default crediticio. La información disponible incluye:

| Cliente | Ingresos | Deuda  | Score Crediticio | Default (1/0) |
|---------|--------------|-----------|------------------|---------------|
| 1       | 50,000       | 20,000    | 750              | 0             |
| 2       | 40,000       | 25,000    | 700              | 1             |
| 3       | 60,000       | 15,000    | 800              | 0             |
| 4       | 45,000       | 30,000    | 650              | 1             |

---

**Preguntas**:

1. Ajusta un modelo de regresión logística para predecir la probabilidad de default crediticio.
2. Evalúa la precisión del modelo utilizando la métrica del área bajo la curva (AUC).


# Resolución Matemática: Predicción de Default Crediticio

## Paso 1: Modelo de Regresión Logística

La probabilidad de default crediticio ($p$) se modela mediante la función logística:

$$
p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3)}}
$$

Donde:
- $x_1$: Ingresos.
- $x_2$: Deuda.
- $x_3$: Score crediticio.
- $\beta_0$: Intercepto.
- $\beta_1, \beta_2, \beta_3$: Coeficientes de los predictores.

---

## Paso 2: Estimación de Parámetros

Los parámetros $\beta_0$, $\beta_1$, $\beta_2$, y $\beta_3$ se estiman maximizando la verosimilitud:

$$
L(\beta) = \prod_{i=1}^{n} \left[p_i^{y_i} (1 - p_i)^{1 - y_i}\right]
$$

Donde:
- $y_i$: Valor observado del default (1 o 0).
- $p_i$: Probabilidad predicha para el cliente $i$.

Maximizamos $\ln(L(\beta))$ para simplificar el cálculo:

$$
\ln(L(\beta)) = \sum_{i=1}^{n} \left[y_i \ln(p_i) + (1 - y_i) \ln(1 - p_i)\right]
$$

---

## Paso 3: Cálculo de la Probabilidad de Default

Sustituimos los valores estimados de los coeficientes para predecir la probabilidad de default de cada cliente:

$$
p_i = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3)}}
$$

---

## Paso 4: Evaluación del Modelo

Para evaluar el modelo, utilizamos la métrica del área bajo la curva (AUC). La AUC mide la capacidad del modelo para clasificar correctamente los casos de default y no default:

$$
\text{AUC} = \int_{0}^{1} \text{TPR} \, d(\text{FPR})
$$

Donde:
- $\text{TPR}$: Tasa de verdaderos positivos.
- $\text{FPR}$: Tasa de falsos positivos.

El AUC varía entre 0.5 (modelo sin capacidad predictiva) y 1 (modelo perfecto).

---


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, roc_auc_score

# Datos
data = {
    "Ingresos": [50000, 40000, 60000, 45000],
    "Deuda": [20000, 25000, 15000, 30000],
    "Score": [750, 700, 800, 650],
    "Default": [0, 1, 0, 1]
}

# Convertir a DataFrame
df = pd.DataFrame(data)

# Variables predictoras (X) y objetivo (y)
X = df[["Ingresos", "Deuda", "Score"]]
y = df["Default"]

# Escalar las variables para mejorar el rendimiento del modelo
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Ajustar el modelo de regresión logística
model = LogisticRegression()
model.fit(X_scaled, y)

# Predicciones de probabilidad
y_prob = model.predict_proba(X_scaled)[:, 1]

# Calcular el AUC
auc = roc_auc_score(y, y_prob)

# Curva ROC
fpr, tpr, thresholds = roc_curve(y, y_prob)

# Graficar la curva ROC
plt.figure(figsize=(10, 6))
plt.plot(fpr, tpr, color='blue', label=f'Curva ROC (AUC = {auc:.2f})')
plt.plot([0, 1], [0, 1], color='red', linestyle='--', label='Clasificación Aleatoria')
plt.title('Curva ROC para Default Crediticio', fontsize=16)
plt.xlabel('Tasa de Falsos Positivos (FPR)', fontsize=14)
plt.ylabel('Tasa de Verdaderos Positivos (TPR)', fontsize=14)
plt.legend(fontsize=12)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

# Resultados
coeficientes = model.coef_
intercepto = model.intercept_
coeficientes, intercepto, auc