# DataSet focado para estudo do balanceamento de classes

Importando o DataSet.

In [50]:
import pandas as pd
import numpy as np
from sklearn.utils import resample
 
df = pd.read_csv('balance-scale.data', names=['balance', 'var1', 'var2', 'var3', 'var4'])
 
df.head()


Unnamed: 0,balance,var1,var2,var3,var4
0,B,1,1,1,1
1,R,1,1,1,2
2,R,1,1,1,3
3,R,1,1,1,4
4,R,1,1,1,5


Mostrando a quantidade de valores balanceados e desbalanceados

In [51]:
df['balance'].value_counts()

balance
R    288
L    288
B     49
Name: count, dtype: int64

## Transformando nossas variáveis target em classificações binárias

In [52]:
df['balance'] = [1 if b=='B' else 0 for b in df.balance]
 
df['balance'].value_counts()

balance
0    576
1     49
Name: count, dtype: int64

## Balanceando com o algoritmo Up-sampling

Aqui estamos separando as nossas classes em DataFrames diferentes, um para a classe majoritária, e outro para a classe minoritária. Dessa forma podemos aplicar o algoritmo Up-sampling que irá fazer uma duplicação aleatória para a classe minoritária.

In [53]:
# Separando as classes
df_majority = df[df.balance==0]
df_minority = df[df.balance==1]

# Aplicando o algoritmo Up-sampling na classe minoritária
df_minority_upsampled = resample(df_minority, replace=True, n_samples=576, random_state=123)

# Combinando o DataFrame 
df_upsampled = pd.concat([df_majority, df_minority_upsampled])

df_upsampled.balance.value_counts()

balance
0    576
1    576
Name: count, dtype: int64

Agora podemos observar que o nosso DataFrame está balanceado, com valores aumentados.

## Balanceando com o algoritmo Down-sampling

In [54]:
# Separando as classes
df_majority = df[df.balance==0]
df_minority = df[df.balance==1]
 
# Aplicando o algoritmo Down-sampling na classe minoritária
df_majority_downsampled = resample(df_majority, replace=False, n_samples=49, random_state=123)
 
# Combinado o DataFrame
df_downsampled = pd.concat([df_majority_downsampled, df_minority])
 
df_downsampled.balance.value_counts()

balance
0    49
1    49
Name: count, dtype: int64

# Aplicando um modelo de regressão apenas para testes

## Usando o DataSet desbalanceado

In [55]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

y = df.balance
X = df.drop('balance', axis=1)

# Treinando o modelo
clf_0 = LogisticRegression().fit(X, y)

# Previsões do modelo
pred_y_0 = clf_0.predict(X)

print( np.unique( pred_y_0 ) )

# Imprimindo a acurácia
print( accuracy_score(pred_y_0, y) )

[0]
0.9216


## Usando o DataSet balanceado com Up-sampling

In [56]:
y = df_upsampled.balance
X = df_upsampled.drop('balance', axis=1)
 
# Treinando o modelo
clf_1 = LogisticRegression().fit(X, y)
 
# Previsões do modelo
pred_y_1 = clf_1.predict(X)
 
print( np.unique( pred_y_1 ) )
 
# Imprimindo a acurácia
print( accuracy_score(y, pred_y_1) )

[0 1]
0.5147569444444444


## Usando o DataSet balanceado com Down-sampling

In [57]:
y = df_downsampled.balance
X = df_downsampled.drop('balance', axis=1)
 
# Treinando o modelo
clf_1 = LogisticRegression().fit(X, y)
 
# Previsões do modelo
pred_y_1 = clf_1.predict(X)
 
print( np.unique( pred_y_1 ) )
 
# Imprimindo a acurácia
print( accuracy_score(y, pred_y_1) )

[0 1]
0.5612244897959183
