## Laboratorio

### Información del conjunto de datos

Esta investigación tuvo como objetivo el caso de los pagos predeterminados de los clientes en Taiwán y compara la precisión predictiva de la probabilidad de incumplimiento entre seis métodos de minería de datos. Desde la perspectiva de la gestión de riesgos, el resultado de la precisión predictiva de la probabilidad estimada de incumplimiento será más valioso que el resultado binario de la clasificación: clientes creíbles o no creíbles.

### Información de los atributos

- ID: ID de cada cliente
- LIMIT_BAL: Cantidad de crédito otorgado en dólares NT (incluye crédito individual y familiar / complementario
- SEX: Género (1 = masculino, 2 = femenino)
- EDUCATION: (1 = escuela de posgrado, 2 = universidad, 3 = escuela secundaria, 4 = otros, 5 = desconocido, 6 = desconocido)
- MARRIAGE:  Estado civil (1 = casado, 2 = soltero, 3 = otros)
- AGE: edad en años
- PAY_0: Estado de reembolso en septiembre de 2005 (-1 = pago debidamente, 1 = retraso en el pago durante un mes, 2 = retraso en el pago durante dos meses, ... 8 = retraso en el pago durante ocho meses, 9 = retraso en el pago durante nueve meses y más)
- PAY_2:  Estado de reembolso en agosto de 2005 (escala igual a la anterior)
- PAY_3:  Estado de reembolso en julio de 2005 (escala igual a la anterior)
- PAY_4: Estado de reembolso en junio de 2005 (escala igual a la anterior)
- PAY_5: Estado de reembolso en mayo de 2005 (escala igual a la anterior)
- PAY_6: Estado de reembolso en abril de 2005 (escala igual a la anterior)
- BILL_AMT1: Monto de extracto de cuenta en septiembre de 2005 (dólar NT)
- BILL_AMT2: Monto de extracto de cuenta en agosto de 2005 (dólar NT)
- BILL_AMT3: Monto de extracto de cuenta en julio de 2005 (dólar NT)
- BILL_AMT4: Monto del estado de cuenta en junio de 2005 (dólar NT)
- BILL_AMT5: Monto del estado de cuenta en mayo de 2005 (dólar NT)
- BILL_AMT6: Monto del estado de cuenta en abril de 2005 (dólar NT)
- PAY_AMT1: Monto del pago anterior en septiembre de 2005 (NT dólar)
- PAY_AMT2: Monto del pago anterior en agosto de 2005 (dólar NT)
- PAY_AMT3: Monto del pago anterior en julio de 2005 (dólar NT)
- PAY_AMT4: Monto del pago anterior en junio de 2005 (dólar NT)
- PAY_AMT5: Monto del pago anterior en mayo de 2005 (dólar NT)
- PAY_AMT6: Monto del pago anterior en abril de 2005 (dólar NT)
- default.payment.next.month:pago predeterminado (1 = sí, 0 = no)

### Fuente de Datos

https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients

### Solicitud de cita:

Yeh, I. C. y Lien, C. H. (2009). Las comparaciones de las técnicas de minería de datos para la precisión predictiva de la probabilidad de incumplimiento de los clientes de tarjetas de crédito. Sistemas expertos con aplicaciones, 36 (2), 2473-2480.

In [1]:
import os
os.chdir("D:/Python/sbs/data/")

In [2]:
# Load the packages
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import model_evaluation_utils as meu

In [3]:
# Read data from file 'filename.csv' 
# (in the same directory that your python process is based)
# Control delimiters, rows, column names with read_csv (see later) 
data = pd.read_csv("UCI_Credit_Card.csv") 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          30000 non-null  int64  
 1   LIMIT_BAL                   30000 non-null  float64
 2   SEX                         30000 non-null  int64  
 3   EDUCATION                   30000 non-null  int64  
 4   MARRIAGE                    30000 non-null  int64  
 5   AGE                         30000 non-null  int64  
 6   PAY_0                       30000 non-null  int64  
 7   PAY_2                       30000 non-null  int64  
 8   PAY_3                       30000 non-null  int64  
 9   PAY_4                       30000 non-null  int64  
 10  PAY_5                       30000 non-null  int64  
 11  PAY_6                       30000 non-null  int64  
 12  BILL_AMT1                   30000 non-null  float64
 13  BILL_AMT2                   300

#### Actividades:

1. Construir data de entrenamiento y testeo
2. Utilizar UnderSampling para balanceo de datos, teniendo en cuenta los siguientes parámetros: 07 para proporción de etiquetas poco representadas y 2020 como semilla.
3. Construir el modelo de árboles de decisión
4. Graficar el árbol de decisión.
5. Generar las gráficas de variables importantes.
6. Métricas de evaluación de modelos para datos de entrenamiento y testeo