<a href="https://colab.research.google.com/github/raphaelz306/DMC_Course/blob/main/Supervised_models/Logistic_regression/Credit_Scoring.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h1 align=center><font size = 5>Automobile Loan Default Dataset
</font></h1>

---

## Introducción

En este laboratorio, aprenderá a usar python para construir un modelo de <b>credit scoring</b>.



## Objetivo de este Notebook

1. Como construir e interpretar un modelo de regresión logística.
2. Descargar y limpiar un Dataset
3. Realizar los pasos necesarios previos a la etapa de modelamiento
4. Entrenar y Testear modelo

## Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Contexto</a>  
2. <a href="#item32">Descargar y limpiar el Dataset</a>  
3. <a href="#item33">Pre-selección de variables</a>  
4. <a href="#item34">Tratamiento de variables categóricas</a>  
5. <a href="#item34">Tratamiento de variables numéricas</a>  
6. <a href="#item34">Entrenamiento del modelo</a>  

</font>
</div>

## 1. Contexto

Una institución financiera no bancaria (NBFI) o una compañía financiera no bancaria (NBFC) es una institución financiera que no tiene una licencia bancaria completa o no está supervisada por una agencia reguladora bancaria nacional o internacional. NBFC facilita los servicios financieros relacionados con los bancos, como inversión, agrupación de riesgos, ahorros contractuales y corretaje de mercado.

Una NBFI está luchando por marcar ganancias debido a un aumento en los incumplimientos en la categoría de préstamos para vehículos. La empresa tiene como objetivo determinar la capacidad de pago del préstamo del cliente y comprender la importancia relativa de cada parámetro que contribuye a la capacidad del prestatario para pagar el préstamo.



<b>Meta:</b>

El objetivo del problema es predecir si un cliente no cumplirá con el pago del préstamo del vehículo o no. 




<img src="https://storage.googleapis.com/kaggle-datasets-images/1205706/2014650/7a50061003ce0de9839d54ff4673ccf2/dataset-cover.jpg?t=2021-07-04-09-18-01" alt="HTML5 Icon" style="width: 600px; height: 450px;">
<div style="text-align: center">¿Cómo identificaremos a los clientes morosos? </div>


<b>Descripción de datos</b>

El data frame de Automovile Loan tiene 121,856 filas y 40 columnas.


---

Se le proporciona un conjunto de datos anónimos que contiene una gran cantidad de variables. La columna <b>"Default"</b> es la variable a predecir. Es igual a uno para clientes que cayeron en mora y 0 para clientes que no.

La tarea consiste en predecir la probabilidad de que cada cliente del conjunto de prueba sea un cliente moroso.


---


<strong>Puede consultar este [link](https://www.kaggle.com/datasets/saurabhbagchi/dish-network-hackathon) para leer más sobre la fuente de datos Automobile Loan Default.</strong>


In [23]:
#importar librerias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [32]:
#leer la data
data = pd.read_csv("/content/Train_Dataset.csv")
print(data.head())

         ID Client_Income  Car_Owned  Bike_Owned  Active_Loan  House_Own  \
0  12142509          6750        0.0         0.0          1.0        0.0   
1  12138936         20250        1.0         0.0          1.0        NaN   
2  12181264         18000        0.0         0.0          1.0        0.0   
3  12188929         15750        0.0         0.0          1.0        1.0   
4  12133385         33750        1.0         0.0          1.0        0.0   

   Child_Count Credit_Amount Loan_Annuity Accompany_Client  ...  \
0          0.0      61190.55      3416.85            Alone  ...   
1          0.0         15282      1826.55            Alone  ...   
2          1.0      59527.35       2788.2            Alone  ...   
3          0.0       53870.4      2295.45            Alone  ...   
4          2.0      133988.4      3547.35            Alone  ...   

  Client_Permanent_Match_Tag Client_Contact_Work_Tag       Type_Organization  \
0                        Yes                     Yes        

  data = pd.read_csv("/content/Train_Dataset.csv")


In [36]:
data.replace({'@': None,
              '#': None,
              '&': None,
              'x': None,
              '$': None,
              'XNA' : None,
              '#VALUE!': None}, inplace = True)

In [55]:
categorical_features = ['Accompany_Client', 'Client_Income_Type', 
                        'Client_Education', 'Client_Marital_Status', 
                        'Client_Gender', 'Loan_Contract_Type', 'Client_Housing_Type',
                        'Client_Occupation', 'Client_Permanent_Match_Tag', 
                        'Client_Contact_Work_Tag', 'Type_Organization',
                        'Car_Owned',
                        'Bike_Owned',
                        'Active_Loan',
                        'House_Own',
                        'Mobile_Tag',
                        'Homephone_Tag']

numerical_features = list(set(data.columns.tolist()) - set(categorical_features + ['ID_Days', 'ID', 'Default']))

In [None]:
data.dtypes

In [56]:
# Muestreo
from sklearn.model_selection import train_test_split

train, test = train_test_split(data, 
                               train_size = 0.7, 
                               random_state = 123,
                               stratify=data['Default'])

In [57]:
#Análisis Univariado 
univariate = data[numerical_features].describe(percentiles=[0.05,0.95]).transpose()
univariate.reset_index(drop = False, inplace = True)
univariate.rename(columns = {'index' : 'feature', "5%":"p5","50%":"mediana","95%":'p95'}, inplace = True)
univariate

Unnamed: 0,feature,count,mean,std,min,p5,mediana,p95,max
0,Score_Source_1,53021.0,0.501213,0.211204,0.014568,0.157872,0.504657,0.831375,0.9457413
1,Application_Process_Hour,118193.0,12.0631,3.280695,0.0,7.0,12.0,17.0,23.0
2,Client_Income,118234.0,16865.191737,11538.154494,2565.0,6750.0,14400.0,33750.0,1800009.0
3,Loan_Annuity,117030.0,2721.254492,1461.466162,217.35,900.0,2499.75,5345.55,22500.0
4,Score_Source_2,116170.0,0.518625,0.740248,5e-06,0.13209,0.564978,0.74803,100.0
5,Registration_Days,118225.0,4975.162123,3514.546963,0.0,332.0,4493.0,11383.8,23738.0
6,Workphone_Working,121856.0,0.281201,0.449587,0.0,0.0,0.0,1.0,1.0
7,Credit_Bureau,103316.0,1.891082,1.861921,0.0,0.0,1.0,6.0,22.0
8,Credit_Amount,118219.0,60046.488951,40350.663346,4500.0,13651.2,51750.0,135000.0,405000.0
9,Population_Region_Relative,116988.0,0.022602,0.413617,0.000533,0.00496,0.01885,0.04622,100.0


In [58]:
# Tratamiento de outliers por percentiles

for col in univariate.feature.tolist():
  desc = univariate.loc[univariate.feature == col]

  lower_limit = desc.p5.values[0]
  upper_limit = desc.p95.values[0]

  train[col + '_tric'] = train[col].apply(lambda x: lower_limit if x <= lower_limit else
                                                    upper_limit if x >= upper_limit else
                                                    x)