# **Programa Especializado en Credit Scoring con Python**
<img src="../../figuras/logo.png" width="200"/>

## üìä **Sesi√≥n 1: Introducci√≥n al Credit Scoring en Banca**

**Docente**: Enzo Infantes Z√∫√±iga  
**Contacto**: <enzo.infantes28@gmail.com>  
**LinkedIn**: [enzo-infantes](https://www.linkedin.com/in/enzo-infantes/)



## üéØ **Objetivos de la sesi√≥n**

Al finalizar esta clase el participante ser√° capaz de:

- Entender qu√© es un modelo de credit scoring.
- Comprender su rol en la banca moderna.
- Entender qu√© significa modelar una Probabilidad de Default.
- Diferenciar entre regresi√≥n lineal y regresi√≥n log√≠stica.

## **1. ¬øQu√© problema resuelve el Credit Scoring?**
El credit scoring existe para resolver:

- Asimetr√≠a de informaci√≥n: Selecci√≥n adversa
- **Toma de Decisiones**: Criterios Estad√≠sticos Matem√°ticos
- Normas Regulatorias: Evitar Deteorioro del Sistema Financiero y Sanciones

## üìå Definici√≥n formal

Un modelo de credit scoring estima:


$$
P(Y = 1 \mid X)
$$


Donde:

- $Y = 1$ ‚Üí Cliente entra en default
- $X$ ‚Üí Variables explicativas

## üí∞ Default

El Default no es un concepto gen√©rico ni unificado en su totalidad; en banca se define bajo criterios t√©cnicos estrictos para poder modelar la Probabilidad de Default.

Criterios de Definici√≥n:
- **D√≠as de Atraso**: Generalmente, se considera que un cliente entra en default al superar los 90 d√≠as de atraso.
- **Criterio Subjetivo**: Cuando la entidad financiera considera que, independientemente de los d√≠as de atraso, es improbable que el cliente pague sin recurrir a la ejecuci√≥n de garant√≠as.
- **Criterio Legal**: Inicio de procesos de cobranza judicial o declaraci√≥n de quiebra.

### Categorizaci√≥n seg√∫n la SBS:
En el sistema financiero peruano, la *Superintendencia de Banca, Seguros y AFP* (SBS) clasifica a los deudores de la cartera minorista seg√∫n su comportamiento:
- Normal (0): Pagos al d√≠a o con atrasos menores a 8 d√≠as.
- Con Problemas Potenciales (1): Atrasos de 9 a 30 d√≠as.
- Deficiente (2): Atrasos de 31 a 60 d√≠as.
- Dudoso (3): Atrasos de 61 a 120 d√≠as.
- P√©rdida (4): Atrasos de m√°s de 120 d√≠as.

Nota para la clase: Para efectos de construcci√≥n de modelos (Scoring), el "Target" suele definirse como la transici√≥n a categor√≠as 2, 3 o 4.

## üìä Variables Explicativas
Para predecir el default ($Y=1$), utilizamos diferentes fuentes de datos que alimentan el vector $X$: 
- **Variables Socio-demogr√°ficas**: Edad, nivel educativo, estado civil, estabilidad laboral y nivel de ingresos.
- **Variables de Comportamiento Interno**: Historial de pagos en la misma entidad, antig√ºedad como cliente, uso de l√≠neas de cr√©dito y saldos promedio. 
- **Variables de Bureau** (Centrales de Riesgo): N√∫mero de entidades donde tiene deuda, consultas recientes al bureau (indicio de hambre de cr√©dito) y score externo (como Sentinel o Equifax).
- **Variables Macroecon√≥micas**: Tasa de desempleo, inflaci√≥n o crecimiento del PBI.

# **2. Regresi√≥n Lineal vs Regresi√≥n Log√≠stica**

## üìâ **Regresi√≥n Lineal**

Modelo:

La Probabilidad de Default sigue una distribuci√≥n de **Bernoulli**.
$$
y_i =
\begin{cases}
1, & p \\
0, & 1 - p
\end{cases}
$$

El Modelo de Probabilidad Lineal (MPL):
$$
E(y_i / X_i) = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k = X_i\beta = \hat{y_i}
$$

$$
y_i = \hat{y_i} + \varepsilon_i
$$

Estimaci√≥n v√≠a M√≠nimos Cuadrados:

$$\hat{\beta} = (X'X)^{-1}X'Y
$$

Problema en Credit Scoring:

- El defult es una variable binaria (0 o 1)
- Las predicciones pueden ser menores a 0 o mayores a 1
- Supuesto de normalidad no se cumple

<img src="../../figuras/s01/binario_lineal.png" width="500"/>

## üìà **Regresi√≥n Log√≠stica**

Modela la probabilidad de que $y_i$ sea igual a 1 mediante la funci√≥n de distribuci√≥n log√≠stica:

$$
E(y_i / X_i) = P(y_i = 1 | X_i) = p_i
$$

Por lo tanto:
$$
E(y_i / X_i) = \frac{e^{X_i\beta}}{1 + e^{X_i\beta}} = \frac{1}{1 + e^{-X_i\beta}}
$$

Podemos descomponerlo de la siguiente forma:

$$
p_i = \frac{1}{1 + e^{-X_i\beta}}
$$

Despejando la formula (odd-ratio logit):
$$
\frac{p_i}{1 - p_i} = e^{X_i\beta}
$$

- Interpretaci√≥n de un valor de 0.25: "Por cada cliente que entra en default, hay 4 que no lo hacen".

Finalmente tenemos la expresi√≥n del modelo logit en su versi√≥n ‚Äúlinealizada‚Äù:
$$
\ln\left(\frac{p_i}{1-p_i}\right) = X_i\beta
$$

- El c√°lculo del Score Lineal, llamado log-odds, debe convertirse a una probabilidad ($p_i$).

Ventajas:

- Predicciones entre 0 y 1
- Interpretaci√≥n en t√©rminos de odds
- Coherente con variable binaria

<img src="../../figuras/s01/binario_logistico.png" width="500"/>


# **3. Reflexiones Finales**

- El modelo estima una probabilidad, no una decisi√≥n.
- La decisi√≥n depende de un **cut-off**.
- Un modelo m√°s preciso no siempre es el mejor modelo regulatoriamente.
- La regresi√≥n log√≠stica conecta estad√≠stica, econom√≠a y regulaci√≥n.

## Preguntas para discusi√≥n:
1. ¬øQu√© pasa si bajamos mucho el cut-off?
2. ¬øEs mejor maximizar una m√©trica estad√≠stica de performance o rentabilidad?
3. ¬øUn modelo muy complejo siempre es mejor?