<h1>Projeto Pratico</h1>

<h3>Objetivo:</h3>
<p>Criar um modelo de aprendizado de maquina para uma empresa de credito que deseja reduzir o numéro de inadimplentes
<br> <br>
OBS: Dados para o projeto e atividade proposta foram fornecidos pelo professor no Curso "Cientista de dados o Curso completo"</p> 

In [2]:
import psycopg2
from sqlalchemy import create_engine
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [190]:
#Criação de uma lista com o nome das tabelas previamente analisadas 
tabelas = ['CLIENTES', 'CREDITO', 'EMPREGO', 'ESTADOCIVIL', 'FIADOR', 'HABITACAO', 'HISTORICO_CREDITO', 'INVESTIMENTOS', 'OUTROSFINANC', 'PROFISSAO', 'PROPOSITO']
#Criação de uma chave para armazenar as tabelas do banco postgres
dataframes = {}

In [188]:
#Criação de uma conexão utilizando o pacote sqlachemy
#O pacote pandas não faz conexão direta com o banco postgres por padrão, porem aceita a conexão abstrata que o slqachemy realiza com diversos bancos, incluindo o postegres
engine = create_engine('postgresql://postgres:###@localhost/credito')

In [199]:
#Laço de repetição para armazenar as tabelas
for tabela in tabelas:
   query = f'SELECT * FROM public."{tabela}"'
   dataframes[tabela] = pd.read_sql(query, engine)

In [201]:
dataframes.keys()

dict_keys(['CLIENTES', 'CREDITO', 'EMPREGO', 'ESTADOCIVIL', 'FIADOR', 'HABITACAO', 'HISTORICO_CREDITO', 'INVESTIMENTOS', 'OUTROSFINANC', 'PROFISSAO', 'PROPOSITO'])

In [203]:
#Armanzenamos a tabela principal que contem todas as ligações em um dataframes do pandas
credito_df = dataframes['CREDITO']

In [8]:
credito_df.head()

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
0,2,48,2,1,5951,2,3.0,2,1,3,2.0,22,3,1.0,1,4,1,0,0,0
1,3,12,1,2,2096,2,4.0,2,4,3,3.0,49,3,1.0,1,3,2,0,0,1
2,4,42,2,3,7882,2,4.0,2,4,4,4.0,45,3,2.0,1,4,2,0,0,1
3,5,24,3,4,4870,2,3.0,3,4,3,4.0,53,3,2.0,2,4,2,0,0,0
4,6,36,2,2,9055,1,3.0,2,4,3,4.0,35,3,2.0,1,3,2,1,0,1


In [9]:
credito_df.shape

(1000, 20)

In [205]:
#Com uma visão geral dos dados ja podemos ver a ausencia de alguns e seu tipo
credito_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   IDCREDITO             1000 non-null   int64  
 1   Duracao               1000 non-null   int64  
 2   HistoricoCredito      1000 non-null   int64  
 3   Proposito             1000 non-null   int64  
 4   Valor                 1000 non-null   int64  
 5   Investimentos         1000 non-null   int64  
 6   Emprego               990 non-null    float64
 7   TempoParcelamento     1000 non-null   int64  
 8   EstadoCivil           1000 non-null   int64  
 9   FiadorTerceiros       1000 non-null   int64  
 10  ResidenciaDesde       993 non-null    float64
 11  Idade                 1000 non-null   int64  
 12  OutrosFinanciamentos  1000 non-null   int64  
 13  Habitacao             991 non-null    float64
 14  EmprestimoExistente   1000 non-null   int64  
 15  Profissao             

In [11]:
credito_df.isnull().sum()

IDCREDITO                0
Duracao                  0
HistoricoCredito         0
Proposito                0
Valor                    0
Investimentos            0
Emprego                 10
TempoParcelamento        0
EstadoCivil              0
FiadorTerceiros          0
ResidenciaDesde          7
Idade                    0
OutrosFinanciamentos     0
Habitacao                9
EmprestimoExistente      0
Profissao                0
Dependentes              0
SocioEmpresa             0
Estrangeiro              0
Status                   0
dtype: int64

In [12]:
#vamos observar primeiro a tabeela 'Emprego' que possui 10 dados faltantes
credito_df.groupby('Emprego').size()

Emprego
1.0    171
2.0    247
3.0    338
4.0    172
5.0     62
dtype: int64

In [13]:
credito_df.Emprego.describe()

count    990.000000
mean       2.704040
std        1.130639
min        1.000000
25%        2.000000
50%        3.000000
75%        3.000000
max        5.000000
Name: Emprego, dtype: float64

In [14]:
credito_df.loc[credito_df.Emprego.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
64,1,6,0,1,1169,1,,4,4,3,4.0,67,3,1.0,2,4,1,1,0,1
134,78,11,3,1,4771,2,,2,4,3,4.0,51,3,1.0,1,4,1,0,0,1
201,145,21,1,3,2288,2,,4,1,3,4.0,23,3,,1,4,1,1,0,1
983,960,24,2,3,3069,5,,4,4,3,,30,3,2.0,1,4,1,0,0,1
984,56,6,5,4,783,1,,1,4,4,2.0,26,2,1.0,1,3,2,0,0,1
985,270,24,2,1,999,1,,4,4,3,2.0,25,3,1.0,2,4,1,0,0,1
986,896,36,3,5,8947,1,,3,4,3,2.0,31,2,1.0,1,1,2,1,0,1
987,199,24,2,5,2760,1,,4,4,3,4.0,36,1,,1,4,1,1,0,1
992,45,48,1,5,6143,2,,4,1,3,4.0,58,2,2.0,2,999,1,0,0,0
993,95,12,2,4,1318,4,,4,4,3,4.0,54,3,1.0,1,999,1,1,0,1


In [15]:
#por convensão supomos que Nosso gerente nos informou que os clientes que não informaram estão desempregados (ou sem trabalho com salario fixo)
#observamos a tabela emprego da raiz e vemos que o ID 5 corresponde a desempregado
dataframes['EMPREGO']

Unnamed: 0,IDEMPREGO,EMPREGO
0,1,<1
1,2,>=7
2,3,1<=X<4
3,4,4<=X<7
4,5,Desempregado


In [16]:
credito_df['Emprego'] = credito_df.Emprego.fillna(5)

In [17]:
credito_df.loc[credito_df.Emprego.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [18]:
#com isso podemos agora ir para a proxima coluna com dados faltantes, a coluna ResidenciaDesde
credito_df.groupby('ResidenciaDesde').size()

ResidenciaDesde
1.0    129
2.0    308
3.0    147
4.0    409
dtype: int64

In [19]:
credito_df.ResidenciaDesde.describe()

count    993.000000
mean       2.841893
std        1.103594
min        1.000000
25%        2.000000
50%        3.000000
75%        4.000000
max        4.000000
Name: ResidenciaDesde, dtype: float64

In [20]:
credito_df.loc[credito_df.ResidenciaDesde.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
61,35,12,2,3,1474,2,1.0,4,1,3,,33,1,1.0,1,1,1,1,0,1
978,15,15,2,4,1403,2,3.0,2,1,3,,28,3,3.0,1,4,1,0,0,1
979,200,18,3,3,4297,2,2.0,4,2,3,,40,3,1.0,1,1,1,1,0,0
980,75,36,2,2,1977,1,2.0,4,4,3,,40,3,1.0,1,1,1,1,0,0
981,350,9,1,2,1136,4,2.0,4,4,3,,32,3,2.0,2,4,2,0,0,0
982,650,12,2,2,684,2,3.0,4,4,3,,40,3,3.0,1,3,2,0,0,0
983,960,24,2,3,3069,5,5.0,4,4,3,,30,3,2.0,1,4,1,0,0,1


In [21]:
#Perguntamos ao gerente e ele nos nos deu a informação que esta informação não tem como ser recuperada, assim iremos utilizar a mediana para repor os dados
credito_df['ResidenciaDesde'] = credito_df.ResidenciaDesde.fillna(credito_df.ResidenciaDesde.median())

In [22]:
credito_df.loc[credito_df.ResidenciaDesde.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [23]:
#agora podemos tratar a ultima coluna com dados faltantes, a coluna de Habitaçaoa
credito_df.groupby('Habitacao').size()

Habitacao
1.0    709
2.0    107
3.0    175
dtype: int64

In [24]:
#vemos oque cada indice quer dizer
dataframes['HABITACAO'] 

Unnamed: 0,IDHABITACAO,HABITACAO
0,1,proria
1,2,de graca
2,3,alugada


In [25]:
credito_df.loc[credito_df.Habitacao.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
62,8,36,2,5,6948,2,3.0,2,4,3,2.0,35,3,,1,1,1,1,0,1
63,12,48,2,6,4308,2,1.0,3,1,3,4.0,24,3,,1,4,1,0,0,0
201,145,21,1,3,2288,2,5.0,4,1,3,4.0,23,3,,1,4,1,1,0,1
956,945,15,2,3,1845,2,1.0,4,1,4,1.0,46,3,,1,4,1,0,0,1
987,199,24,2,5,2760,1,5.0,4,4,3,4.0,36,1,,1,4,1,1,0,1
988,356,24,2,4,1246,2,1.0,4,4,3,2.0,23,2,,1,3,1,0,0,0
989,396,39,3,2,11760,5,4.0,2,4,3,3.0,32,3,,1,4,1,1,0,1
990,745,39,1,3,14179,1,4.0,4,4,3,4.0,30,3,,2,1,1,1,0,1
991,750,15,2,5,3029,2,4.0,2,4,3,2.0,33,3,,1,4,1,0,0,1


In [26]:
#De acordo com o gerente os clientes que não possuem os dados da Habitação estão morando de graca
#Com isso trocamos os valores nulos pelo indice 2 
credito_df['Habitacao'] = credito_df.Habitacao.fillna(2)

In [27]:
credito_df.loc[credito_df.Habitacao.isnull()]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [28]:
#data set nao possui mais elementos faltantes
credito_df.isnull().sum()

IDCREDITO               0
Duracao                 0
HistoricoCredito        0
Proposito               0
Valor                   0
Investimentos           0
Emprego                 0
TempoParcelamento       0
EstadoCivil             0
FiadorTerceiros         0
ResidenciaDesde         0
Idade                   0
OutrosFinanciamentos    0
Habitacao               0
EmprestimoExistente     0
Profissao               0
Dependentes             0
SocioEmpresa            0
Estrangeiro             0
Status                  0
dtype: int64

In [29]:
#antes de prosserguimos com as analises o gerente informou que a coluna Empregos foi atualizada e precisamos deixar os clientes com a informação de 'desempregado' nas colunas Emprego e Profissao com o mesmo valor,
#que por falta de sincronização das informações alguns dados não foram atualizados ou seja aqueles que não possuem emprego precisam ser atualizados para Profissao = 2
#e aqueles que possuirem emprego mas sua profissão estiver como desempregado atualizar para nao qualificado (id 3)
profissao = dataframes['PROFISSAO']
profissao

Unnamed: 0,IDPROFISSAO,PROFISSAO
0,1,altamente qualificado/empresario
1,2,desempregado
2,3,nao qualificado
3,4,qualificado


In [30]:
#observamos todos os clientes desempregados(id 5) e com a profissão desatualizada
credito_df.loc[ (credito_df['Emprego'] == 5) & (credito_df['Profissao'] != 2) ]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
48,57,12,2,1,6468,1,5.0,2,4,3,1.0,52,3,1.0,1,1,1,1,0,0
64,1,6,0,1,1169,1,5.0,4,4,3,4.0,67,3,1.0,2,4,1,1,0,1
66,10,30,0,4,5234,2,5.0,4,3,3,2.0,28,3,1.0,2,1,1,0,0,0
122,129,12,1,5,1860,2,5.0,4,4,3,2.0,34,3,1.0,2,1,1,1,0,1
134,78,11,3,1,4771,2,5.0,2,4,3,4.0,51,3,1.0,1,4,1,0,0,1
157,164,10,2,4,7308,2,5.0,2,4,3,4.0,70,1,2.0,1,1,1,1,0,1
160,167,18,2,3,1131,2,5.0,4,1,3,2.0,33,3,1.0,1,4,1,0,0,0
165,173,24,3,3,2064,2,5.0,3,1,3,2.0,34,3,1.0,1,1,1,1,0,0
167,176,30,5,5,7485,1,5.0,4,1,3,1.0,53,1,1.0,1,1,1,1,0,0
201,145,21,1,3,2288,2,5.0,4,1,3,4.0,23,3,2.0,1,4,1,1,0,1


In [31]:
#Observamos os que possuem emprego e estão com a profissão desatualizada
credito_df.loc[ (credito_df['Emprego'] != 5) & (credito_df['Profissao'] == 2) ]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
135,141,6,2,4,709,4,1.0,2,3,3,2.0,27,3,1.0,1,2,1,0,1,1
427,440,12,5,6,609,2,1.0,4,1,3,1.0,26,3,1.0,1,2,1,0,0,0
718,736,36,5,7,3990,1,1.0,3,1,3,2.0,29,1,1.0,1,2,1,0,0,1
737,757,6,1,4,1299,2,3.0,1,4,3,1.0,74,3,1.0,3,2,2,0,1,1
779,800,9,2,4,1549,1,1.0,4,4,3,2.0,35,3,1.0,1,2,1,0,0,1
789,810,15,4,4,1778,2,1.0,2,1,3,1.0,26,3,3.0,2,2,1,0,0,0


In [32]:
credito_df.loc[ (credito_df['Emprego'] == 5) & (credito_df['Profissao'] != 2), 'Profissao'] = 2
credito_df.loc[ (credito_df['Emprego'] != 5) & (credito_df['Profissao'] == 2), 'Profissao'] = 3

In [33]:
credito_df.loc[ (credito_df['Emprego'] == 5) & (credito_df['Profissao'] != 2) ]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [34]:
credito_df.loc[ (credito_df['Emprego'] != 5) & (credito_df['Profissao'] == 2) ]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [35]:
#com isso podemos agora prosseguir para a analise de possiveis outliers dos dados
#fazemos um laço de repetiçao para observar a estrutura dos dados
#como ja conhecemos previamente o conjunto de dados vemos que no banco original profissao nao possui um ID de 999 com isso precisamos tratar esse valor
for coluna in credito_df[0:21]:
    print(f'{credito_df.groupby(coluna).size()}\n')

IDCREDITO
1       1
2       1
3       1
4       1
5       1
       ..
996     1
997     1
998     1
999     1
1000    1
Length: 1000, dtype: int64

Duracao
4       6
5       1
6      75
7       5
8       7
9      49
10     28
11      9
12    179
13      4
14      4
15     64
16      2
18    113
20      8
21     30
22      2
24    184
26      1
27     13
28      3
30     40
33      3
36     83
39      5
40      1
42     11
45      5
47      1
48     48
54      2
60     13
72      1
dtype: int64

HistoricoCredito
0     11
1    289
2    526
3     86
4     40
5     48
dtype: int64

Proposito
1     280
2      50
3     181
4     234
5     103
6      97
7      12
8      22
9      12
10      9
dtype: int64

Valor
250      1
276      1
338      1
339      1
343      1
        ..
15653    1
15672    1
15857    1
15945    1
18424    1
Length: 921, dtype: int64

Investimentos
1    183
2    603
3     63
4     48
5    103
dtype: int64

Emprego
1.0    171
2.0    247
3.0    338
4.0    172
5.0     72
d

In [36]:
credito_df.loc[ credito_df['Profissao'] == 999]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status
65,69,36,2,2,1819,2,3.0,4,4,3,4.0,37,2,2.0,1,999,1,1,0,0
202,174,8,2,1,1414,2,3.0,4,4,4,2.0,33,3,1.0,1,999,1,0,1,1
407,412,33,1,5,7253,2,4.0,3,4,3,2.0,35,3,1.0,2,999,1,1,0,1
957,976,24,2,1,1258,3,3.0,3,1,3,3.0,57,3,1.0,1,999,1,0,0,1
994,499,18,2,1,1301,2,2.0,4,3,4,2.0,32,3,1.0,1,999,1,0,0,1
995,505,24,2,4,1207,2,1.0,4,1,3,4.0,24,3,3.0,1,999,1,0,0,0
996,834,24,2,1,5084,1,2.0,2,1,3,4.0,42,3,1.0,1,999,1,1,0,1


In [37]:
#consultando o gerente do banco esses valores foram causados por um pequeno erro e na verdade eram para representar clientes que possuem qualificação (id 4)
credito_df.loc[ credito_df['Profissao'] == 999, 'Profissao'] = 4

In [38]:
credito_df.loc[ credito_df['Profissao'] == 999]

Unnamed: 0,IDCREDITO,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro,Status


In [39]:
#com isso agora temos os dados tratados e podemos montar um dataframe para podermos usar para montar o algoritmo de machine learning
credito_df.shape

(1000, 20)

In [40]:
df_independente = credito_df.iloc[:, 1:19]

In [41]:
df_independente.shape

(1000, 18)

In [42]:
df_independente.head()

Unnamed: 0,Duracao,HistoricoCredito,Proposito,Valor,Investimentos,Emprego,TempoParcelamento,EstadoCivil,FiadorTerceiros,ResidenciaDesde,Idade,OutrosFinanciamentos,Habitacao,EmprestimoExistente,Profissao,Dependentes,SocioEmpresa,Estrangeiro
0,48,2,1,5951,2,3.0,2,1,3,2.0,22,3,1.0,1,4,1,0,0
1,12,1,2,2096,2,4.0,2,4,3,3.0,49,3,1.0,1,3,2,0,0
2,42,2,3,7882,2,4.0,2,4,4,4.0,45,3,2.0,1,4,2,0,0
3,24,3,4,4870,2,3.0,3,4,3,4.0,53,3,2.0,2,4,2,0,0
4,36,2,2,9055,1,3.0,2,4,3,4.0,35,3,2.0,1,3,2,1,0


In [43]:
df_dependente = credito_df['Status']

In [44]:
df_dependente.shape

(1000,)

In [45]:
x_train, x_test, y_train, y_test = train_test_split(df_independente, df_dependente, test_size=0.3, train_size=0.7, random_state=60)

In [46]:
x_train.shape

(700, 18)

In [47]:
x_test.shape

(300, 18)

In [168]:
rf_model = RandomForestClassifier(n_estimators=1000, random_state=55)

rf_model.fit(x_train, y_train)

In [170]:
y_pred = rf_model.predict(x_test)

In [172]:
rf_model.score(x_test, y_test)

0.7633333333333333

In [174]:
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.2f}')

Acurácia: 0.76


In [176]:
# Acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.2f}')

# Matriz de Confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print('Matriz de Confusão:')
print(conf_matrix)
print(f'\n')

# Relatório de Classificação
class_report = classification_report(y_test, y_pred)
print('Relatório de Classificação:')
print(class_report)

Acurácia: 0.76
Matriz de Confusão:
[[ 36  58]
 [ 13 193]]


Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.73      0.38      0.50        94
           1       0.77      0.94      0.84       206

    accuracy                           0.76       300
   macro avg       0.75      0.66      0.67       300
weighted avg       0.76      0.76      0.74       300



In [180]:
regressao_log = LogisticRegression(random_state=73, max_iter=2000,) 

regressao_log.fit(x_train, y_train)

In [182]:
y_pred = regressao_log.predict(x_test)

In [184]:
# Acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy:.2f}')

# Matriz de Confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print('Matriz de Confusão:')
print(conf_matrix)

# Relatório de Classificação
class_report = classification_report(y_test, y_pred)
print('Relatório de Classificação:')
print(class_report)

Acurácia: 0.72
Matriz de Confusão:
[[ 21  73]
 [ 11 195]]
Relatório de Classificação:
              precision    recall  f1-score   support

           0       0.66      0.22      0.33        94
           1       0.73      0.95      0.82       206

    accuracy                           0.72       300
   macro avg       0.69      0.59      0.58       300
weighted avg       0.71      0.72      0.67       300

