# 1. Importação das Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from joblib import dump, load

# 2. Carregamento do Dataset

In [3]:
df = pd.read_csv('dataset_sudeste_simples_realista_outliers-2k.csv')
display(df)

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,39.0,5112.57,Belo Horizonte,A,4.5,Bom
1,2,64.0,9510.34,Belo Horizonte,B,5.4,Ruim
2,3,61.0,8970.80,São Paulo,B,5.0,Ruim
3,4,61.0,8526.52,Rio de Janeiro,A,1.8,Bom
4,5,53.0,3531.76,Vitória,B,5.5,Bom
...,...,...,...,...,...,...,...
1995,1996,66.0,7223.47,Belo Horizonte,B,3.8,Ruim
1996,1997,52.0,11712.34,Rio de Janeiro,A,8.4,Regular
1997,1998,48.0,7679.22,Vitória,A,0.1,Regular
1998,1999,27.0,3062.80,Vitória,B,2.1,Bom


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         2000 non-null   int64  
 1   idade      1982 non-null   float64
 2   renda      1983 non-null   float64
 3   cidade     1988 non-null   object 
 4   categoria  1979 non-null   object 
 5   nota       1970 non-null   float64
 6   feedback   1975 non-null   object 
dtypes: float64(3), int64(1), object(3)
memory usage: 109.5+ KB


In [5]:
df.describe()

Unnamed: 0,id,idade,renda,nota
count,2000.0,1982.0,1983.0,1970.0
mean,1000.5,43.570131,7204.110968,4.965228
std,577.494589,16.166064,3573.795505,2.940147
min,1.0,1.0,422.99,-3.7
25%,500.75,30.0,4189.235,2.5
50%,1000.5,44.0,7079.25,5.0
75%,1500.25,57.0,10111.805,7.3
max,2000.0,118.0,33739.81,14.6


## 3. Tratamento dos Dados

In [11]:
## Contagem dos nulos do dataset
print("\n### Contagem de dados nulos/ausentes ###\n")
print(df.isnull().sum())


### Contagem de dados nulos/ausentes ###

id            0
idade        18
renda        17
cidade       12
categoria    21
nota         30
feedback     25
dtype: int64


# 3. Separação das features e da target

In [6]:
#X - Dataset com todas as colunas (features) exceto 'categoria' (target)
#X = df.drop('categoria', 'cidade', 'feedback', axis=1)
X = df[['idade', 'nota', 'renda']]

#Y - Dataset apenas com a 'categoria' (target)
Y = df['categoria']

In [7]:
#Display do dataframe das features
display(X)

Unnamed: 0,idade,nota,renda
0,39.0,4.5,5112.57
1,64.0,5.4,9510.34
2,61.0,5.0,8970.80
3,61.0,1.8,8526.52
4,53.0,5.5,3531.76
...,...,...,...
1995,66.0,3.8,7223.47
1996,52.0,8.4,11712.34
1997,48.0,0.1,7679.22
1998,27.0,2.1,3062.80


In [8]:
#Display do dataframe das target
display(Y)

0       A
1       B
2       B
3       A
4       B
       ..
1995    B
1996    A
1997    A
1998    B
1999    B
Name: categoria, Length: 2000, dtype: object

In [9]:
print(f'\n\nFeatures\n\n{X} \n')



Features

      idade  nota     renda
0      39.0   4.5   5112.57
1      64.0   5.4   9510.34
2      61.0   5.0   8970.80
3      61.0   1.8   8526.52
4      53.0   5.5   3531.76
...     ...   ...       ...
1995   66.0   3.8   7223.47
1996   52.0   8.4  11712.34
1997   48.0   0.1   7679.22
1998   27.0   2.1   3062.80
1999   21.0   6.3  12849.76

[2000 rows x 3 columns] 



In [10]:
print(f'\n\Target\n\n{Y} \n')


\Target

0       A
1       B
2       B
3       A
4       B
       ..
1995    B
1996    A
1997    A
1998    B
1999    B
Name: categoria, Length: 2000, dtype: object 



# 4. Divisão do dataframe em treino e teste

In [20]:
X_train, X_test, Y_train, Y_test = train_test_split (
    X, Y,
    test_size=0.2,   #20% dos dados serão usados para teste
    random_state=42, #garantir a reprodutibilidade
    stratify=Y #manter proporção das classes em treino e teste
)

In [21]:
#Print dos datasets para visualização
print (f'Dados de Treino - Features \n\n{X_train.head(5)} \n\n\n')
print (f'Dados de Treino - Target \n\n{Y_train.head(5)} \n\n\n')

print (f'Dados de Teste - Features \n\n{X_test.head(5)} \n\n\n')
print (f'Dados de Teste - Target \n\n{Y_test.head(5)} \n\n\n')

Dados de Treino - Features 

         idade      nota     renda
755   0.787792  1.010255 -0.376295
119   1.605320 -0.743344  0.312590
39   -0.155509  1.422867  1.579380
1724 -0.532829 -1.224725 -0.450833
1004 -1.035923  0.081879 -0.130374 



Dados de Treino - Target 

755     A
119     A
39      A
1724    A
1004    A
Name: categoria, dtype: object 



Dados de Teste - Features 

         idade      nota     renda
85    0.976452  0.941487  1.460592
1093  1.353773 -0.502654 -1.395869
270   1.479546 -0.949650  0.064064
367   0.410472  1.629173  1.372180
395   0.221812  1.216561  0.415940 



Dados de Teste - Target 

85      B
1093    A
270     A
367     A
395     B
Name: categoria, dtype: object 





# 5. Regressão Logística

## 5.1 - Treinamento do modelo

In [22]:
modelo = LogisticRegression (max_iter=1000)

#Treinamento do modelo
modelo.fit(X_train, Y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


## 5.2 - Execução da previsão

In [23]:
Y_pred = modelo.predict(X_test)

# 6. Avaliação do Desempenho do Modelo

## 6.1 Acurácia (porcentagem de acertos)

In [24]:
acuracia = accuracy_score(Y_test, Y_pred)
print(f'Acurácia do modelo: {acuracia:.2f}')

Acurácia do modelo: 0.49


## 6.2 - Relatório Comparativo Atual x Esperado

In [27]:
print(classification_report(Y_test, Y_pred))

              precision    recall  f1-score   support

           A       0.47      0.34      0.40       189
           B       0.50      0.63      0.56       199

    accuracy                           0.49       388
   macro avg       0.48      0.49      0.48       388
weighted avg       0.49      0.49      0.48       388



## 6.3 - Matriz de Confusão

In [29]:
print(confusion_matrix(Y_test,Y_pred))

[[ 65 124]
 [ 74 125]]


# 7 - Salvar o Modelo

In [33]:
dump(modelo, 'modelo-treinado/modelo_regressao_logistica.joblib')

['modelo-treinado/modelo_regressao_logistica.joblib']