# Machine Learning - Prevenção de Fraudes 

- Conjunto de dados com mais de 80.000 registros
- Análise exploratória de variáveis categóricas e numéricas
- Análise e tratamento de valores missing (nulos)
- Análise estatística de variáveis
- Tratamento de Dados
- Engenharia de Atributos
- Gráficos
- Outliers
- Normalização e Padronização de Dados
- Balanceamento da variável ALVO (TARGET)

## Objetivo
- Criação, treino e teste dos modelos preditivos com 3 algoritmos diferentes:
    - Random Forest
    - Suport Vector Machine
    - KNN
- GridSearch para ajustes de hiperparametros automáticos e treino de mais de 1.000 modelos. Análise dos pesos das melhores variáveis

# Impotação de Pacotes e Carregando o Dataset

In [1]:
import warnings
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import time
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from imblearn import under_sampling, over_sampling
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import r2_score

warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format


In [2]:
df_original = pd.read_csv("./assets/dados_coletados10k.csv")

# Análise Exploratória - Visão Geral

Aqui o objetivo desta análise é ter uma visão geral do conjunto de dados, compreendendo seu tamanho, variáveis, tipo de dados e período dos dados coletados

In [3]:
# Tamanho do conjunto de dados: xx.xxx linhas e xx variáveis
df_original.shape

(9517, 24)

In [4]:
# Visão geral do conjunto de dados
df_original.head()

Unnamed: 0,Contrato,Idade,Sexo,Valor_Renda,UF_Cliente,Perc_Juros,Prazo_Emprestimo,Data_Contratacao,Prazo_Restante,VL_Emprestimo,VL_Emprestimo_ComJuros,QT_Total_Parcelas_Pagas,QT_Total_Parcelas_Pagas_EmDia,QT_Total_Parcelas_Pagas_EmAtraso,Qt_Renegociacao,Estado_Civil,Escolaridade,Possui_Patrimonio,VL_Patrimonio,QT_Parcelas_Atraso,QT_Dias_Atraso,Saldo_Devedor,Total_Pago,Possivel_Fraude
0,322068935715,43,M,5800.0,SP,23.0,200,2022-08-01,193,80000.0,92000.0,15,9,1,0,DIVORCIADO,Nenhum,N,0.0,0,,91759.97,7717.08,Nao
1,322068936715,22,M,2000.0,MG,20.0,100,2022-08-01,89,50000.0,57500.0,10,10,0,0,SOLTEIRO(A),,N,0.0,4,103.0,53981.18,6756.59,Nao
2,322068938715,35,M,4000.0,BA,18.0,100,2022-08-01,85,100000.0,115000.0,15,5,1,0,CASADO (A),,N,0.0,0,,101150.02,17929.06,Nao
3,322068939715,20,M,1800.0,MG,20.0,100,2022-08-01,89,30000.0,34500.0,1,1,0,0,SOLTEIRO(A),,N,0.0,13,376.0,36208.1,369.1,Sim
4,322068940715,53,M,2800.0,MG,20.0,100,2022-08-01,87,60000.0,69000.0,16,16,0,0,CASADO (A),,N,0.0,0,,60984.0,11845.24,Nao


In [5]:
# Avaliar o período dos dados coletados

inicio = pd.to_datetime(df_original['Data_Contratacao']).dt.date.min()
fim = pd.to_datetime(df_original['Data_Contratacao']).dt.date.max()
print(f'Período dos dados - De: {inicio} Até: {fim}')

Período dos dados - De: 2022-07-04 Até: 2022-12-20


In [6]:
# Verificando se há valores nulos (dados missing)

df_original.isnull().sum()

Contrato                               0
Idade                                  0
Sexo                                   0
Valor_Renda                            0
UF_Cliente                             0
Perc_Juros                             0
Prazo_Emprestimo                       0
Data_Contratacao                       0
Prazo_Restante                         0
VL_Emprestimo                          0
VL_Emprestimo_ComJuros                 0
QT_Total_Parcelas_Pagas                0
QT_Total_Parcelas_Pagas_EmDia          0
QT_Total_Parcelas_Pagas_EmAtraso       0
Qt_Renegociacao                        0
Estado_Civil                           0
Escolaridade                        7105
Possui_Patrimonio                      0
VL_Patrimonio                          0
QT_Parcelas_Atraso                     0
QT_Dias_Atraso                      3594
Saldo_Devedor                          0
Total_Pago                             0
Possivel_Fraude                        0
dtype: int64

In [7]:
# Informações básicas sobre tipos de variáveis
df_original.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9517 entries, 0 to 9516
Data columns (total 24 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Contrato                          9517 non-null   int64  
 1   Idade                             9517 non-null   int64  
 2   Sexo                              9517 non-null   object 
 3   Valor_Renda                       9517 non-null   float64
 4   UF_Cliente                        9517 non-null   object 
 5   Perc_Juros                        9517 non-null   float64
 6   Prazo_Emprestimo                  9517 non-null   int64  
 7   Data_Contratacao                  9517 non-null   object 
 8   Prazo_Restante                    9517 non-null   int64  
 9   VL_Emprestimo                     9517 non-null   float64
 10  VL_Emprestimo_ComJuros            9517 non-null   float64
 11  QT_Total_Parcelas_Pagas           9517 non-null   int64  
 12  QT_Tot

In [8]:
# Total de valores únicos de cada variável
# A variável CONTRATO é um valor único para cada registro, pois refere-se ao Contrato do Cliente
valores_unicos = []
for i in df_original.columns[0:24].tolist():
    print(i, ':', len(df_original[i].astype(str).value_counts()))
    valores_unicos.append(len(df_original[i].astype(str).value_counts()))

Contrato : 9517
Idade : 74
Sexo : 2
Valor_Renda : 855
UF_Cliente : 27
Perc_Juros : 21
Prazo_Emprestimo : 36
Data_Contratacao : 110
Prazo_Restante : 79
VL_Emprestimo : 61
VL_Emprestimo_ComJuros : 61
QT_Total_Parcelas_Pagas : 24
QT_Total_Parcelas_Pagas_EmDia : 24
QT_Total_Parcelas_Pagas_EmAtraso : 15
Qt_Renegociacao : 10
Estado_Civil : 6
Escolaridade : 6
Possui_Patrimonio : 2
VL_Patrimonio : 3
QT_Parcelas_Atraso : 16
QT_Dias_Atraso : 16
Saldo_Devedor : 7654
Total_Pago : 7022
Possivel_Fraude : 2


In [9]:
# Visualizando algumas medidas estatísticas
df_original.describe()

Unnamed: 0,Contrato,Idade,Valor_Renda,Perc_Juros,Prazo_Emprestimo,Prazo_Restante,VL_Emprestimo,VL_Emprestimo_ComJuros,QT_Total_Parcelas_Pagas,QT_Total_Parcelas_Pagas_EmDia,QT_Total_Parcelas_Pagas_EmAtraso,Qt_Renegociacao,VL_Patrimonio,QT_Parcelas_Atraso,QT_Dias_Atraso,Saldo_Devedor,Total_Pago
count,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,9517.0,5923.0,9517.0,9517.0
mean,322078158460.93,38.74,8325.4,19.65,107.43,104.58,81881.89,94164.17,7.89,4.11,1.6,1.24,10.93,5.35,249.79,90560.27,8166.21
std,5434160.86,12.67,121862.06,3.82,62.49,68.57,94138.06,108258.77,5.17,4.04,2.31,1.17,1025.26,5.32,123.22,111050.54,16697.76
min,322068935715.0,6.0,450.0,7.0,15.0,0.0,3500.0,4025.0,0.0,0.0,0.0,0.0,0.0,0.0,11.0,0.0,0.0
25%,322073331715.0,29.0,2300.0,18.0,60.0,51.0,20000.0,23000.0,2.0,1.0,0.0,0.0,0.0,0.0,162.0,18546.85,1202.04
50%,322078461715.0,37.0,3400.0,20.0,80.0,80.0,50000.0,57500.0,9.0,2.0,1.0,1.0,0.0,4.0,284.0,45375.3,3949.91
75%,322082622715.0,46.0,5000.0,22.0,190.0,185.0,100000.0,115000.0,13.0,6.0,2.0,2.0,0.0,11.0,344.0,119721.25,8302.01
max,322087622715.0,91.0,8000080.0,28.0,240.0,227.0,500000.0,575000.0,35.0,35.0,14.0,9.0,100000.0,15.0,435.0,625000.0,396385.0


In [10]:
# Quantidade de dias em atraso

df_original.groupby(['QT_Dias_Atraso']).size()

QT_Dias_Atraso
11.00     532
41.00     255
71.00     190
103.00    205
133.00    176
162.00    206
194.00    241
225.00    352
251.00    471
284.00    546
315.00    718
344.00    930
376.00    686
406.00    413
435.00      2
dtype: int64

In [11]:
# Prazo emprestimo
df_original.groupby(['Prazo_Emprestimo']).size()

Prazo_Emprestimo
15        4
18        4
19        5
20      146
25      183
30      272
34        1
35       81
36      306
40      136
42       20
45      205
48      333
50      184
55      185
60      890
65       36
70      134
75      455
80     1421
88        2
90      354
95      135
100     928
120     102
130      21
140     167
150      48
160      33
165       3
170      78
180     129
190     674
200    1661
235      71
240     110
dtype: int64

In [12]:
# Prazo Restante
df_original.groupby(['Prazo_Restante']).size()

Prazo_Restante
0        2
3        3
4        2
6       22
7       29
8       31
9        8
10      12
11      32
12       6
13      94
15      10
16      42
17      85
18      27
19     143
20      23
23     164
25      84
27      38
28      52
29      71
30      51
31      71
33      40
34      67
35     168
36     204
37      31
38      55
39      22
40      73
41      37
42      14
43      27
44     126
45      19
46       2
49     145
50      19
51     256
53     150
59       7
60     178
64     421
66      43
68     330
71     270
74     304
75     193
76      99
77      67
78      63
79      86
80     188
82     159
84      48
85      72
87     129
89     420
91     705
100     15
107     43
120     24
125     68
129     44
133     25
143    197
149     16
156     39
159     58
175    119
179     27
185    332
193    764
198    337
221     17
225    534
227    519
dtype: int64

In [13]:
# Sexo
df_original.groupby(['Sexo']).size()

Sexo
F    3811
M    5706
dtype: int64

In [14]:
# UF dos Clientes
df_original.groupby(['UF_Cliente']).size()

UF_Cliente
AC       1
AL      79
AM       2
AP       5
BA     883
CE     248
DF      46
ES      49
GO     485
MA     403
MG    1637
MS     238
MT     137
PA     420
PB     154
PE     263
PI     104
PR     693
RJ     335
RN      78
RO      16
RR       4
RS     407
SC     298
SE      45
SP    2468
TO      19
dtype: int64

In [15]:
# Idade dos clientes
df_original.groupby(['Idade']).size()

Idade
6       1
17      4
18      6
19    109
20    207
21    193
22    173
23    234
24    251
25    253
26    296
27    277
28    280
29    298
30    284
31    281
32    288
33    273
34    310
35    336
36    280
37    262
38    271
39    270
40    264
41    270
42    243
43    233
44    285
45    229
46    208
47    177
48    167
49    172
50    148
51    143
52    118
53    122
54    124
55    124
56     96
57     76
58     90
59     79
60     99
61     71
62     56
63     49
64     54
65     37
66     65
67     39
68     48
69     33
70     27
71     16
72     19
73     16
74     16
75      7
76     12
77      5
78      5
79      3
80      9
81      5
82      3
83      4
84      2
85      5
87      2
88      2
90      2
91      1
dtype: int64

In [None]:
# Estado civil dos clientes
df_original.groupby(['Estado_Civil']).size()

In [None]:
# Escolaridade dos clientes
df_original.groupby(['Escolaridade']).size()

In [16]:
# Patrimonio dos clientes
df_original.groupby(['Possui_Patrimonio']).size()

Possui_Patrimonio
N    9452
S      65
dtype: int64

In [17]:
# Valor do patrimonio dos clientes
df_original.groupby(['VL_Patrimonio']).size()

VL_Patrimonio
0.00         9512
1000.00         4
100000.00       1
dtype: int64

In [18]:
# Variável TARGET - ALVO
df_original.groupby(['Possivel_Fraude']).size()

Possivel_Fraude
Nao    5035
Sim    4482
dtype: int64

### Tratando os dados que identificamos que precisam ser ajustados em nossa análise acima

In [20]:
# Ajustando ESTADO_CIVIL
df_original['Estado_Civil'] = df_original['Estado_Civil'].replace(['NENHUM'], 'OUTRO')
df_original['Estado_Civil'] = df_original['Estado_Civil'].replace(['UNIÃO ESTAVEL'], 'CASADO (A)')

df_original.groupby(['Estado_Civil']).size()

Estado_Civil
CASADO (A)     3157
DIVORCIADO      481
OUTRO           652
SOLTEIRO(A)    5087
VIÚVO(A)        140
dtype: int64

In [21]:
# Criando faixa etaria para utilizarmos no modelo preditivo
bins = [0, 21, 30, 40, 50, 60, 100]
labels = ['Até 21 Anos', 'De 22 até 30 Anos', 'De 31 até 40 Anos', 'De 41 até 50 Anos', 'De 51 até 60 Anos', 'Acima de 60 Anos']
df_original['Faixa_Etaria'] = pd.cut(df_original['Idade'], bins=bins, labels=labels, right=False)
df_original.groupby(['Faixa_Etaria']).size()

Faixa_Etaria
Até 21 Anos           327
De 22 até 30 Anos    2255
De 31 até 40 Anos    2855
De 41 até 50 Anos    2248
De 51 até 60 Anos    1120
Acima de 60 Anos      712
dtype: int64

In [23]:
# Criando faixa etária para utilizarmos no modelo preditivo
bins = [-100, 1000, 2000, 3000, 5000, 10000, 20000, 30000, 9000000000]
labels = ['Até 1k', 'De 1k até 2k', 'De 2k até 3k', 'De 3k até 5k', 'De 5k até 10k', 'De 10k até 20k', 'De 20k até 30k', 'Acima de 50k']
df_original['Faixa_Salarial'] = pd.cut(df_original['Valor_Renda'], bins=bins, labels=labels, right=False)
df_original.groupby(['Faixa_Salarial']).size()

Faixa_Salarial
Até 1k              11
De 1k até 2k      1286
De 2k até 3k      2321
De 3k até 5k      2814
De 5k até 10k     2053
De 10k até 20k     697
De 20k até 30k     175
Acima de 50k       160
dtype: int64

In [24]:
# Precisamos tratar os valores nulos dessa variável antes de fazermos nossa engenharia de atributos
# Vamos preencher os valos nulos usando a mediana dos dados
df_original['QT_Dias_Atraso'].median()

np.float64(284.0)

In [25]:
# Preenchendo os valores nulos com a mediana
df_original['QT_Dias_Atraso'] = df_original['QT_Dias_Atraso'].fillna(df_original['QT_Dias_Atraso'].median())

In [26]:
# Criando faixa de dias em atraso da cota para utilizarmos no modelo preditivo
bins = [-100, 30, 60, 90, 180, 240, 360, 500]
labels = ['Até 30 Dias', 'De 31 até 60 Dias', 'De 61 até 90 Dias', 'De 91 até 180 Dias', 'De 181 até 240 Dias', 'De 241 até 360 Dias', 'Acima de 360 Dias']
df_original['Faixa_Dias_Atraso'] = pd.cut(df_original['QT_Dias_Atraso'], bins=bins, labels=labels, right=False)
df_original.groupby(['Faixa_Dias_Atraso']).size()

Faixa_Dias_Atraso
Até 30 Dias             532
De 31 até 60 Dias       255
De 61 até 90 Dias       190
De 91 até 180 Dias      587
De 181 até 240 Dias     593
De 241 até 360 Dias    6259
Acima de 360 Dias      1101
dtype: int64