# 🧠 Predicción de Riesgo de Crédito – German Credit Dataset

## 📌 Contexto del problema

Cuando un banco recibe una solicitud de préstamo, debe decidir si aprueba o no el crédito con base en el perfil del solicitante. Existen dos tipos de riesgo:

- Si el solicitante es un **buen riesgo crediticio** (es decir, probablemente pagará), y se **rechaza** su solicitud, el banco **pierde una oportunidad de negocio**.
- Si el solicitante es un **mal riesgo crediticio** (es decir, probablemente no pagará), y se **aprueba** su solicitud, el banco **asume una pérdida financiera**.

Este dataset incluye 1000 registros con 20 variables predictoras, además de la clasificación `Creditability` (bueno o malo), que es lo que intentaremos predecir.

---
## 🕰️ Consideraciones históricas y monetarias

Este dataset fue recolectado antes de la adopción del euro (€) como moneda oficial en Alemania. Por lo tanto:

- Todas las cantidades monetarias (como `Credit_Amount`, `Savings/Stocks`, etc.) están expresadas en **marcos alemanes (Deutsche Mark, DM)**.
- Alemania cambió al euro en el año **2002**, y el tipo de cambio final fue:
  > **1 EUR = 1.95583 DM**

Aunque no es necesario convertir las cantidades a euros para el análisis (ya que se trabajará con modelos relativos), **es importante tener presente este contexto**:

- Las cifras no representan montos actuales.
- Los rangos de ingreso, empleo y ahorro deben interpretarse en relación al estándar de vida en Alemania antes del 2002.
- Este detalle puede influir en la interpretación del poder adquisitivo y la clasificación del riesgo crediticio en su momento.

🔎 *Conclusión: trabajaremos con las cifras tal como están, pero entendiendo que no corresponden al valor monetario moderno.*

---

## 🧾 Diccionario completo de variables 

- `Creditability`: Variable objetivo.  
  1 = Buen riesgo crediticio  
  0 = Mal riesgo crediticio

- `Account_Balance`: Estado de la cuenta bancaria  
  1 = Sin cuenta  
  2 = Menos de 0 DM  
  3 = Entre 0 y 200 DM  
  4 = Más de 200 DM o salario recibido por transferencia

- `Duration_of_Credit_monthly`: Duración del crédito en meses (variable numérica)

- `Payment_Status_of_Previous_Credit`: Estado de pagos anteriores  
  0 = Ninguno / sin historial  
  1 = Retrasos o problemas críticos  
  2 = Demoras leves o esporádicas  
  3 = Pagos al día  
  4 = Sin deudas

- `Purpose`: Motivo del crédito  
  0 = No especificado  
  1 = Carro nuevo  
  2 = Usado  
  3 = Muebles  
  4 = Radio/televisión  
  5 = Electrodomésticos  
  6 = Reparaciones  
  8 = Vacaciones  
  9 = Renovaciones  
  10 = Educación

- `Credit_Amount`: Monto del crédito solicitado (en Deutsche Mark - DM)

- `Value_Savings_Stocks`: Valor de ahorros/inversiones  
  1 = Ninguno  
  2 = Menos de 100 DM  
  3 = Entre 100 y 500 DM  
  4 = Entre 500 y 1000 DM  
  5 = Más de 1000 DM

- `Length_of_current_employment`: Antigüedad laboral  
  1 = Desempleado / <1 año  
  2 = 1 a <4 años  
  3 = 4 a <7 años  
  4 = 7 a <10 años  
  5 = Más de 10 años

- `Instalment_per_cent`: Porcentaje de la cuota mensual respecto al ingreso (valor entre 1 y 4)

- `Sex_Marital_Status`: Género y estado civil  
  1 = Hombre soltero/divorciado  
  2 = Hombre casado/viudo  
  3 = Mujer soltera  
  4 = Mujer casada

- `Guarantors`: Avales  
  1 = Ninguno  
  2 = Cónyuge  
  3 = Otro garante

- `Duration_in_Current_address`: Tiempo en años en la residencia actual

- `Most_valuable_available_asset`: Bien más valioso disponible  
  1 = Auto propio  
  2 = Seguro de vida  
  3 = Bien inmueble  
  4 = Ninguno

- `Age_years`: Edad del solicitante (años)

- `Concurrent_Credits`: Otros créditos activos  
  1 = Ninguno  
  2 = Tiendas  
  3 = Otros bancos

- `Type_of_apartment`: Tipo de vivienda  
  1 = Alquilada  
  2 = Propia  
  3 = Sin costo

- `No_of_Credits_at_this_Bank`: Número de créditos actuales con el banco

- `Occupation`: Ocupación  
  1 = Desempleado / no calificado  
  2 = Obrero calificado  
  3 = Empleado / funcionario  
  4 = Autónomo / alta calificación

- `No_of_dependents`: Número de personas a cargo (1 o 2)

- `Telephone`: Teléfono registrado  
  1 = No  
  2 = Sí

- `Foreign_Worker`: ¿Es trabajador extranjero?  
  1 = Sí  
  2 = No

---

## 📚 Fuente y referencia

Este dataset es parte del curso *Stat 508* de Penn State University.  
📎 [Documentación oficial del dataset](https://online.stat.psu.edu/stat508/resource/analysis/gcd)


In [4]:
# Librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar dataset
df = pd.read_csv("../data/Credit_Data.csv", sep=';')



# 🧩 Analisis de los datos cargados

Despues de cargar los Datos procedemos a analizar los datos obtenidos del dataset con el fin de identificar si hay datos nulos o incompletos 



In [5]:
df.head()

Unnamed: 0,Creditability,Account_Balance,Duration_of_Credit_monthly,Payment_Status_of_Previous_Credit,Purpose,Credit_Amount,Value_Savings_Stocks,Length_of_current_employment,Instalment_per_cent,Sex_Marital_Status,...,Duration_in_Current_address,Most_valuable_available_asset,Age_years,Concurrent_Credits,Type_of_apartment,No_of_Credits_at_this_Bank,Occupation,No_of_dependents,Telephone,Foreign_Worker
0,1,1,18,4,2,1049,1,2,4,2,...,4,2,21,3,1,1,3,1,1,1
1,1,1,9,4,0,2799,1,3,2,3,...,2,1,36,3,1,2,3,2,1,1
2,1,2,12,2,9,841,2,4,2,2,...,4,1,23,3,1,1,2,1,1,1
3,1,1,12,4,0,2122,1,3,3,3,...,2,1,39,3,1,2,2,2,1,2
4,1,1,12,4,0,2171,1,3,4,3,...,4,2,38,1,2,2,2,1,1,2


Inicialmente podemos evidenciar que se cargo el dataset de manera correcta evidenciando algunos datos y las 21 columnas que contiene

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                             Non-Null Count  Dtype
---  ------                             --------------  -----
 0   Creditability                      1000 non-null   int64
 1   Account_Balance                    1000 non-null   int64
 2   Duration_of_Credit_monthly         1000 non-null   int64
 3   Payment_Status_of_Previous_Credit  1000 non-null   int64
 4   Purpose                            1000 non-null   int64
 5   Credit_Amount                      1000 non-null   int64
 6   Value_Savings_Stocks               1000 non-null   int64
 7   Length_of_current_employment       1000 non-null   int64
 8   Instalment_per_cent                1000 non-null   int64
 9   Sex_Marital_Status                 1000 non-null   int64
 10  Guarantors                         1000 non-null   int64
 11  Duration_in_Current_address        1000 non-null   int64
 12  Most_valuable_availab

Con esta función logramos identificar en primer lugar que no hay datos vacios, es decir que todas las filas del dataset nos van a servir para el analisís, por otro lado tenemos que todos los datos de las columnas son de tipo numerico, por lo tanto para su desarrollo vamos a seguir el diccionario que mostramos en la parte superior del documento.


In [7]:
df.describe()

Unnamed: 0,Creditability,Account_Balance,Duration_of_Credit_monthly,Payment_Status_of_Previous_Credit,Purpose,Credit_Amount,Value_Savings_Stocks,Length_of_current_employment,Instalment_per_cent,Sex_Marital_Status,...,Duration_in_Current_address,Most_valuable_available_asset,Age_years,Concurrent_Credits,Type_of_apartment,No_of_Credits_at_this_Bank,Occupation,No_of_dependents,Telephone,Foreign_Worker
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,...,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0
mean,0.7,2.577,20.903,2.545,2.828,3271.248,2.105,3.384,2.973,2.682,...,2.845,2.358,35.542,2.675,1.928,1.407,2.904,1.155,1.404,1.037
std,0.458487,1.257638,12.058814,1.08312,2.744439,2822.75176,1.580023,1.208306,1.118715,0.70808,...,1.103718,1.050209,11.35267,0.705601,0.530186,0.577654,0.653614,0.362086,0.490943,0.188856
min,0.0,1.0,4.0,0.0,0.0,250.0,1.0,1.0,1.0,1.0,...,1.0,1.0,19.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,0.0,1.0,12.0,2.0,1.0,1365.5,1.0,3.0,2.0,2.0,...,2.0,1.0,27.0,3.0,2.0,1.0,3.0,1.0,1.0,1.0
50%,1.0,2.0,18.0,2.0,2.0,2319.5,1.0,3.0,3.0,3.0,...,3.0,2.0,33.0,3.0,2.0,1.0,3.0,1.0,1.0,1.0
75%,1.0,4.0,24.0,4.0,3.0,3972.25,3.0,5.0,4.0,3.0,...,4.0,3.0,42.0,3.0,2.0,2.0,3.0,1.0,2.0,1.0
max,1.0,4.0,72.0,4.0,10.0,18424.0,5.0,5.0,4.0,4.0,...,4.0,4.0,75.0,3.0,3.0,4.0,4.0,2.0,2.0,2.0


Con esta función ya aplicamos un poco mas de estadistica descritiva en donde encontramos el promedio de las variables junto a su desviación estandar, ademas que los cuartiles donde podemos ver que tan dispersos estan los datos en los cuartiles descritos.

In [15]:
df.duplicated().sum()

0

Aqui nos damos cuenta que no tenemos ningun dato repetido dentro del dataset 
