<a href="https://colab.research.google.com/github/jrhumberto/cd/blob/main/Diabetes_ClassesDesbalanceadas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalhando com classes desbalanceadas em problemas de classificação

Código do artigo: https://medium.com/@tatianae_79457/trabalhando-com-classes-desbalanceadas-em-problemas-machine-learning-29ee8db4a049

In [None]:
# Imports
import pandas as pd
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE
from imblearn.combine import SMOTEENN

In [None]:
# ignorando future warnings
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)

In [None]:
# Carrega arquivo csv usando Pandas usando uma URL

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=0, delimiter=',')

# Exibe as primeiras linhas do dataset
dataset.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# Verifica a distribuição das classes
dataset.groupby('class').size()

class
0    500
1    268
dtype: int64

In [None]:
# Separa os atributos e a classe do dataset em X e y
X = dataset.values[:,0:8]
y = dataset.values[:,8]

## Avaliação de modelos

In [None]:
np.random.seed(7) # definindo uma seed global 

# particionando em conjuntos de treino e teste mantendo a proporção de classes
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, stratify=y)

In [None]:
# Modelo de Classificação

# criando o modelo
model = LogisticRegression(solver='liblinear')

# treinando o modelo com o conjunto de treino
model.fit(X_train, Y_train)

# fazendo as predições no conjunto de teste
Y_predito = model.predict(X_test)

# métricas de avaliação das predições
print('Acurácia: %.2f' % accuracy_score(Y_test, Y_predito))
print('Precisão: %.2f' % precision_score(Y_test, Y_predito))
print('Recall: %.2f' % recall_score(Y_test, Y_predito))
print('F-score: %.2f' % f1_score(Y_test, Y_predito))

Acurácia: 0.75
Precisão: 0.69
Recall: 0.50
F-score: 0.58


## Sub-amostragem da classe majoritária

In [None]:
# exibindo a distribuição de classes
print("Antes: ", Counter(Y_train))

# definindo a estratégia de sub-amostragem
undersample = RandomUnderSampler(sampling_strategy=1)

# aplicando a transformação de reamsostragem
X_under, Y_under = undersample.fit_resample(X_train, Y_train)

# exibindo a distribuição de classes
print("Depois: ", Counter(Y_under))

Antes:  Counter({0.0: 400, 1.0: 214})
Depois:  Counter({0.0: 214, 1.0: 214})


In [None]:
# Modelo de Classificação

# criando o modelo
model = LogisticRegression(solver='liblinear')

# treinando o modelo com o conjunto de treino
model.fit(X_under, Y_under)

# fazendo as predições no conjunto de teste
Y_predito = model.predict(X_test)

# métricas de avaliação das predições
print('Acurácia: %.2f' % accuracy_score(Y_test, Y_predito))
print('Precisão: %.2f' % precision_score(Y_test, Y_predito))
print('Recall: %.2f' % recall_score(Y_test, Y_predito))
print('F-score: %.2f' % f1_score(Y_test, Y_predito))

Acurácia: 0.74
Precisão: 0.61
Recall: 0.70
F-score: 0.66


## Super-amostragem da classe minoritária

In [None]:
# exibindo a distribuição de classes
print("Antes: ", Counter(Y_train))

# definindo a estratégia de super-amostragem
oversample = SMOTE(sampling_strategy=1)

# aplicando a transformação de reamsostragem
X_over, Y_over = oversample.fit_resample(X_train, Y_train)

# exibindo a distribuição de classes
print("Depois: ", Counter(Y_over))

Antes:  Counter({0.0: 400, 1.0: 214})
Depois:  Counter({1.0: 400, 0.0: 400})


In [None]:
# Modelo de Classificação

# criando o modelo
model = LogisticRegression(solver='liblinear')

# treinando o modelo com o conjunto de treino
model.fit(X_over, Y_over)

# fazendo as predições no conjunto de teste
Y_predito = model.predict(X_test)

# métricas de avaliação das predições
print('Acurácia: %.2f' % accuracy_score(Y_test, Y_predito))
print('Precisão: %.2f' % precision_score(Y_test, Y_predito))
print('Recall: %.2f' % recall_score(Y_test, Y_predito))
print('F-score: %.2f' % f1_score(Y_test, Y_predito))

Acurácia: 0.74
Precisão: 0.62
Recall: 0.69
F-score: 0.65


## Combinando Sub-amostragem e Super-amostragem

In [None]:
# exibindo a distribuição de classes
print("Antes: ", Counter(Y_train))

# definindo a estratégia de reamostragem
sample = SMOTEENN(sampling_strategy=1)

# aplicando a transformação de reamsostragem
X_sample, Y_sample = sample.fit_resample(X_train, Y_train)

# exibindo a distribuição de classes
print("Depois: ", Counter(Y_sample))

Antes:  Counter({0.0: 400, 1.0: 214})
Depois:  Counter({1.0: 225, 0.0: 169})


In [None]:
# Modelo de Classificação

# criando o modelo
model = LogisticRegression(solver='liblinear')

# treinando o modelo com o conjunto de treino
model.fit(X_sample, Y_sample)

# fazendo as predições no conjunto de teste
Y_predito = model.predict(X_test)

# métricas de avaliação das predições
print('Acurácia: %.2f' % accuracy_score(Y_test, Y_predito))
print('Precisão: %.2f' % precision_score(Y_test, Y_predito))
print('Recall: %.2f' % recall_score(Y_test, Y_predito))
print('F-score: %.2f' % f1_score(Y_test, Y_predito))

Acurácia: 0.68
Precisão: 0.53
Recall: 0.70
F-score: 0.60


## Algoritmos sensíveis a custos

In [None]:
# Modelo de Classificação

# criando o modelo
model = LogisticRegression(solver='liblinear', class_weight='balanced')

# treinando o modelo com o conjunto de treino
model.fit(X_train, Y_train)

# fazendo as predições no conjunto de teste
Y_predito = model.predict(X_test)

# métricas de avaliação das predições
print('Acurácia: %.2f' % accuracy_score(Y_test, Y_predito))
print('Precisão: %.2f' % precision_score(Y_test, Y_predito))
print('Recall: %.2f' % recall_score(Y_test, Y_predito))
print('F-score: %.2f' % f1_score(Y_test, Y_predito))

Acurácia: 0.73
Precisão: 0.60
Recall: 0.70
F-score: 0.65
