# Exercício de Regressão Logística: Corrigindo e melhorando o modelo de fornecedores

Vamos carregar novamente dados de fornecedores.csv

In [1]:
import pandas as pd

fornecedores_file_path = 'fornecedores.csv'
fornecedores_data = pd.read_csv(fornecedores_file_path).iloc[:,1:] # Retira a primeira coluna (índice)
fornecedores_data.columns

Index(['fornecedor_punido', 'qtd_media', 'Socio Laranja',
       'Valor Total Homologado em 2017', 'Micro Empresa', 'Não Informado',
       'Pequena Empresa', 'qtd_subclasses_cnae', 'Qtd dias inferior a 30',
       'qtd_fornecedores', 'socio_com_ceis', 'VALIDO', 'prob_loja'],
      dtype='object')

In [2]:
fornecedores_data.head()

Unnamed: 0,fornecedor_punido,qtd_media,Socio Laranja,Valor Total Homologado em 2017,Micro Empresa,Não Informado,Pequena Empresa,qtd_subclasses_cnae,Qtd dias inferior a 30,qtd_fornecedores,socio_com_ceis,VALIDO,prob_loja
0,False,96.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,2.0,0.999985
1,False,34.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,7.0,0.999988
2,False,28.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,1.0,0.99883
3,False,23.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,1.0,0.773772
4,False,25.0,0.0,76100.0,0,1,0,5.0,0.0,1.0,0.0,3.0,0.999959


Nossa variável alvo será "fornecedor_punido". Todas as outras serão variáveis dependentes.

In [3]:
y = fornecedores_data['fornecedor_punido']

In [4]:
X = fornecedores_data.iloc[:,1:]

In [5]:
X.head()

Unnamed: 0,qtd_media,Socio Laranja,Valor Total Homologado em 2017,Micro Empresa,Não Informado,Pequena Empresa,qtd_subclasses_cnae,Qtd dias inferior a 30,qtd_fornecedores,socio_com_ceis,VALIDO,prob_loja
0,96.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,2.0,0.999985
1,34.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,7.0,0.999988
2,28.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,1.0,0.99883
3,23.0,0.0,100000.0,0,0,0,5.0,0.0,1.0,0.0,1.0,0.773772
4,25.0,0.0,76100.0,0,1,0,5.0,0.0,1.0,0.0,3.0,0.999959


Veja só como estas colunas estão desbalanceadas. A coluna "Valor Total Homologado em 2017" tem valores muito mais altos do que as outras colunas! Isto pode (e está!) enviesando o modelo para levar em conta apenas essa coluna. Precisamos corrigir isso! A solução você já implementou na parte de Regressão Linear, ou seja, normalizar os dados!

## Exercício 1 - Normalize as colunas qtd_media e Valor Total Homologado em 2017, que estão com valores bem acima dos demais. Faça com que os valores dessas colunas tenham média 0 e desvio padrão 1. 

## Solução 1

## Exercício 2 - Separe os dataframes X e y nos conjuntos de treinamento e teste (X_train, X_test, y_train, y_test)

## Solução 2

## Exercício 3 - Defina e ajuste (treine com fit()) o Modelo de Regressão Logística

## Solução 3

## Exercício 4 - Avalie o modelo com as métricas de acurácia, a matriz de confusão e as métricas de precisão, abrangência (recall) e F1

## Solução 4

Um problema desse modelo é que ele tem a abrangência (recall) baixa para fornecedores punidos. Isso porque os dados estão desbalanceados a favor de fornecedores não punidos. Ou seja, o modelo deixa passar muitos fornecedores punidos por ter aprendido com poucos dados desta categoria. Podemos ver isso no código abaixo.

In [42]:
train_df = pd.concat([X_train, y_train], axis=1)
print(len(train_df[train_df['fornecedor_punido'] == False]))
print(len(train_df[train_df['fornecedor_punido'] == True]))

14285
5940


Temos 5940 dados de fornecedores punidos contra 14285 dados de fornecedores não punidos. Por isso o modelo não aprende direito o padrão dos punidos. Existem técnicas de reamostragem que ajudam a balancear este conjunto de dados. Não vamos fazer um exercício específico disso aqui, mas recomendamos conhecer exemplos da biblioteca imbalanced-learn (https://imbalanced-learn.readthedocs.io/en/stable/introduction.html).

In [None]:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_train_resampled, y_train_resampled = ros.fit_resample(X_train, y_train)

In [None]:
X_train_resampled = pd.DataFrame(X_train_resampled, columns=X_train.columns)

In [None]:
y_train_resampled = pd.Series(y_train_resampled, name=y_train.name)

In [None]:
train_df = pd.concat([X_train_resampled, y_train_resampled], axis=1)
print(len(train_df[train_df['fornecedor_punido'] == False]))
print(len(train_df[train_df['fornecedor_punido'] == True]))

Retreinando o modelo com os exemplos balanceados, poderemos ver uma melhora significativa na métrica de Recall para fornecedores punidos(ao custo de uma certa piora na precisão da detecção destes fornecedores)

In [None]:
from sklearn.linear_model import LogisticRegression

# Definir o modelo (Regressão Logística)
fornecedores_model = LogisticRegression()

# Ajustar o modelo (treinamento)
fornecedores_model.fit(X_train_resampled, y_train_resampled)

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

# Resultado no conjunto de testes
y_pred = fornecedores_model.predict(X_test)

print("A matriz de confusão é:\n", confusion_matrix(y_test, y_pred),"\n")
print("Métricas de precisão, abragência e f1:\n", classification_report(y_test, y_pred))