# Exemplo de redes neurais: previsão de inadimplência

O **problema** que utilizaremos para exemplificar é o seguinte:

Deseja-se definir se um empréstimo será totalmente pago, classificando como *adimplente (bom/good)* ou *inadimplente (ruim/bad)*.
Os dados utilizados para abordar esse problema são os seguintes:

* Conjunto de dados Lending Club Loan Data disponibilizado [neste link](https://modeldata.tidymodels.org/reference/lending_club.html), contendo uma amostra de dados referente ao primeiro trimestre de 2016.
* Um dicionário sobre as variáveis pode ser conferido [neste link](https://resources.lendingclub.com/LCDataDictionary.xlsx).

Não houve nenhum pré-processamento nos dados.

Uma pequena análise exploratória é exibida abaixo:

# Biblioteca

In [1]:
# instalar bibliotecas

!pip install skimpy

Collecting skimpy
  Downloading skimpy-0.0.12-py3-none-any.whl (15 kB)
Collecting ipykernel<7.0.0,>=6.7.0 (from skimpy)
  Downloading ipykernel-6.29.0-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.1/116.1 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
Collecting pandas<3.0.0,>=2.0.3 (from skimpy)
  Downloading pandas-2.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m21.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting polars<0.21,>=0.19 (from skimpy)
  Downloading polars-0.20.5-cp38-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (28.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m28.6/28.6 MB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyarrow<15,>=13 (from skimpy)
  Downloading pyarrow-14.0.2-cp310-cp310-manylinux_2_28_x86_64.whl (38.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [1]:
# carregar bibliotecas

import pandas as pd
from skimpy import skim
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

# Dados

In [19]:
# Carregar os dados

data = pd.read_csv("dados-1.csv")
data

Unnamed: 0,funded_amnt,term,int_rate,sub_grade,addr_state,verification_status,annual_inc,emp_length,delinq_2yrs,inq_last_6mths,...,open_il_12m,open_il_24m,total_bal_il,all_util,inq_fi,inq_last_12m,delinq_amnt,num_il_tl,total_il_high_credit_limit,Class
0,16100,term_36,13.99,C4,CT,Not_Verified,35000.0,emp_5,0,0,...,0,0,1099,48,0,3,0,3,13193,good
1,32000,term_60,11.99,C1,MN,Verified,72000.0,emp_ge_10,0,0,...,1,3,49187,77,0,0,0,9,65945,good
2,10000,term_36,16.29,D1,OH,Source_Verified,72000.0,emp_ge_10,0,2,...,2,3,33378,79,1,4,0,9,39387,good
3,16800,term_60,13.67,C3,NV,Verified,101000.0,emp_lt_1,0,0,...,1,2,55445,64,1,4,0,10,60188,good
4,3500,term_36,7.39,A4,CA,Source_Verified,50100.0,emp_unk,0,0,...,0,0,0,78,0,0,0,3,0,good
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9852,3025,term_36,13.67,C3,GA,Not_Verified,43000.0,emp_ge_10,0,0,...,0,0,0,67,0,0,0,0,0,good
9853,16000,term_60,16.59,D2,OR,Not_Verified,32000.0,emp_3,0,1,...,0,1,12519,40,2,2,0,2,15051,good
9854,3000,term_36,9.16,B2,NY,Verified,18000.0,emp_lt_1,0,0,...,0,1,1109,73,0,0,0,2,1800,good
9855,35000,term_36,7.89,A5,OH,Source_Verified,240000.0,emp_ge_10,1,1,...,0,0,0,70,0,2,0,6,0,good


In [3]:
# uma pequena análise exploratória

skim(data)

As classificações produzidas pelo algoritmo são exibidas abaixo:

# Modelo

## Separação de amostras

In [8]:
#separação de amostras

training_data, test_data = train_test_split(
    data.filter(items = ["Class",
                         "funded_amnt",
                         "annual_inc",
                         "dlinq_2yrs",
                         "open_il_24m"],
                axis = "columns"),
    test_size = 0.3,
    random_state= 1984,
    stratify= data.Class
)

print(training_data)
print(test_data)

     Class  funded_amnt  annual_inc  open_il_24m
5715  good         8000     65000.0            1
2594  good         9975     46000.0            0
8890  good         5000     70800.0            1
3472   bad        14400     45000.0            1
4888  good         5000     23000.0            0
...    ...          ...         ...          ...
9646  good         7500     75000.0            2
4279  good         5000     44000.0            1
2463  good        10550     24000.0            1
5686  good        12300     82000.0            0
2815  good        12000     55000.0            1

[6899 rows x 4 columns]
     Class  funded_amnt  annual_inc  open_il_24m
1618  good        16000    143000.0            5
3492  good        35300    250000.0            5
6815  good        24000     84000.0            2
7765  good        17000     85987.0            2
8998  good        34425    168000.0            1
...    ...          ...         ...          ...
566   good        20900     63000.0         

In [15]:
# Treino do algoritmo
model = MLPClassifier()
model.fit(
    X = training_data.drop("Class", axis = "columns"),
    y = training_data.Class.values.ravel()
    )

# Previsão

In [16]:
# produzir previsões

predict = model.predict(test_data.drop("Class", axis = "columns"))
predict

array(['good', 'good', 'good', ..., 'good', 'good', 'good'], dtype='<U4')

Por fim, reportamos algumas **medidas de acurácia**

In [21]:
#Calcular acurácia

print(confusion_matrix(test_data.Class,
                 predict))
print(accuracy_score(test_data.Class, predict))

[[   0  155]
 [   0 2803]]
0.9475997295469912


Como os dados são desbalanceados, isto é, há mais registros adimplentes do que inadimplentes, o modelo preveu que todos os registros serã adimplentes.

O que não é o adequado. Abaixo, o código provando que todas as linhas do objeto `predict` possuem uma unica categoria, que é a `good` (bom, adimplente)

In [25]:
pd.Series(predict).unique()

array(['good'], dtype=object)