<a href="https://colab.research.google.com/github/Kevin2558/Data_Science_Borrador/blob/main/10_Proyecto_Final/Opcion_4/Borrador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Contextualización del problema**

El objetivo de este proyecto es aplicar Machine Learning en la busqueda de un modelo que ayude a un banco a anticiparse al riesgo de incumplimiento de un cliente, usando datos disponibles antes de hacerle entrega de un crédito.

Partiremos definiendo que es un "default" o incumplimiento:

En finanzas el término *default* se refiere al momento en que un cliente no paga su deuda según lo acordado. Por ejemplo, si una persona contrata un crédito de consumo separado con pagos mensuales y durante más de 90 días deja de pagar, esta persona será considerada en *default*.

Poder predecir cuando un cliente tiene una mayor probabilidad a considerarse default es importante para un banco debido a que cuando un banco otorga créditos (consumo, hipotecarios, tarjetas) asume un riesgo, es decir, se arriesga a la posibilidad de que el cliente no pague.

El no pago de un número considerable de clientes lleva al banco a perder dinero, reservar capital (por regulación) y perder reputación o hasta incluso quebrar. Buscamos evitar todas estas situaciones a través de evaluar si un cliente es apto o riesgoso para recibir un crédito.

Lo que nos pueden permitir los modelos no es solo decidir si darle un crédito o no a un cliente, sino que tambien definir los límites de crédito (cuanto prestar) y establecer tasas de interés personalizadas según el riesgo.

Partiremos con la carga del dataset a utilizar y la explicación de sus características.

# **Dataset**

In [1]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("uciml/default-of-credit-card-clients-dataset")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/uciml/default-of-credit-card-clients-dataset?dataset_version_number=1...


100%|██████████| 0.98M/0.98M [00:00<00:00, 1.53MB/s]

Extracting files...
Path to dataset files: /root/.cache/kagglehub/datasets/uciml/default-of-credit-card-clients-dataset/versions/1





In [9]:
import pandas as pd

df = pd.read_csv(path+"/UCI_Credit_Card.csv")
print(df.shape)
df.head()

(30000, 25)


Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default.payment.next.month
0,1,20000.0,2,2,1,24,2,2,-1,-1,...,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,2,120000.0,2,2,2,26,-1,2,0,0,...,3272.0,3455.0,3261.0,0.0,1000.0,1000.0,1000.0,0.0,2000.0,1
2,3,90000.0,2,2,2,34,0,0,0,0,...,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
3,4,50000.0,2,2,1,37,0,0,0,0,...,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
4,5,50000.0,1,2,1,57,-1,0,-1,0,...,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0


Este dataset contiene información de incumplimientos de pago, factores demográficos, información creditica, historial de pagos y estados de cuentas de 30.000 tarjetas de crédito en Taiwan, desde Abril de 2005 a Septiembre de 2005.

Contiene 25 variables, las cuales comprenden:

* **ID:** ID de cada cliente.
* **LIMIT_BAL:** Monton total del crédito otorgado en dólares NT (incluye crédito individual y familia/suplementario).
* **SEX:** Género (1 = masculino, 2 = femenino)
* **EDUCATION:** Nivel educativo (1 = posgrado, 2 = universidad, 3 = secundaria, 4 = otros, 5 = desconocido, 6 = desconocido)
* **MARRIAGE:** Estado civil (1 = casado, 2 = soltero, 3 = otros)
* **AGE:** Edad en años
* **PAY_0:** Estado de pago en septiembre de 2005 (-1 = pagó a tiempo, 1 = retraso de 1 mes, 2 = retraso de 2 meses, ..., 8 = retraso de 8 meses, 9 = retraso de 9 meses o más)
* **PAY_2:** Estado de pago en agosto de 2005
* **PAY_3:** Estado de pago en julio de 2005
* **PAY_4:** Estado de pago en junio de 2005
* **PAY_5:** Estado de pago en mayo de 2005
* **PAY_6:** Estado de pago en abril de 2005
* **BILL_AMT1:** Monto de la factura (estado de cuenta) en septiembre de 2005 (en dólares NT)
* **BILL_AMT2:** Monto de la factura en agosto de 2005
* **BILL_AMT3:** Monto de la factura en julio de 2005
* **BILL_AMT4:** Monto de la factura en junio de 2005
* **BILL_AMT5:** Monto de la factura en mayo de 2005
* **BILL_AMT6:** Monto de la factura en abril de 2005
* **PAY_AMT1:** Monto del pago realizado en septiembre de 2005 (en dólares NT).
* **PAY_AMT2:** Monto del pago realizado en agosto de 2005
* **PAY_AMT3:** Monto del pago realizado en julio de 2005
* **PAY_AMT4:** Monto del pago realizado en junio de 2005
* **PAY_AMT5:** Monto del pago realizado en mayo de 2005
* **PAY_AMT6:** Monto del pago realizado en abril de 2005
* **default.payment.next.month:** Indicador de incumplimiento de pago el mes siguiente (1 = si, 0 = no)