# <font color='blue'>Balanceamento de classes</font>

In [6]:
# Versão da Linguagem Python
from platform import python_version
print('Python Version:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show pandas
matplotlibVersion = !pip show matplotlib
sklearnVersion = !pip show scikit-learn
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])
print("Sklearn", sklearnVersion[1])

Python Version: 3.8.5
Pandas Version: 1.5.1
Matplotlib Version: 3.5.3
Plotly Version: 5.3.1
Sklearn Version: 1.1.2


In [1]:
# Carregando pacotes
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

In [2]:
# Carregando o dataset Iris que já vem com a biblioteca Seaborn
dfIris = sns.load_dataset("iris")
dfIris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
# Coletando os dados 
# Atenção para o dataset que foi carregado. A variável idade não tem valores nulos nem outliers neste conjunto de dados.
dfTitanic = pd.read_csv('Dados/Titanic/titanicTransformado.csv')
dfTitanic

In [None]:
# Excluindo colunas do DataFrame
dfTitanic = dfTitanic.drop(["Unnamed: 0","Name", "Ticket"], axis=1)
dfTitanic

In [None]:
# Convertendo variáveis categóricas em valores numéricos (variáveis dummy)
dfTitanic = pd.get_dummies(dfTitanic)
dfTitanic

In [None]:
# Convertendo variáveis categóricas em valores numéricos (variáveis dummies)
encoder = OneHotEncoder()
X = dfTitanic[["Pclass"]]
dadosCodificados = encoder.fit_transform(X).toarray()
dadosCodificados

In [None]:
# Salvando as categorias criadas pelo Encoder
colunas = []
for i in encoder.get_feature_names_out():
    colunas.append(i)
colunas

In [None]:
# Criando um DataFrame com as categorias codificadas
dfCodificados = pd.DataFrame(dadosCodificados, columns=colunas)
dfCodificados

In [None]:
# Inserindo colunas no DataFrame
dfTitanic["Pclass_1"] = dfCodificados["Pclass_1"]
dfTitanic["Pclass_2"] = dfCodificados["Pclass_2"]
dfTitanic["Pclass_3"] = dfCodificados["Pclass_3"]
   
# Excluindo coluna
dfTitanic = dfTitanic.drop(["Pclass"], axis=1)   
dfTitanic

In [None]:
# Visualizando o DataFrame
dfIris

In [None]:
# Verificando a quantidade de espécies do dataset Iris
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=dfIris.species, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Especie", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Visualizando o DataFrame
dfTitanic

In [None]:
# Verificando a quantidade de sobreviventes e não sobreviventes do dataset Titanic
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=dfTitanic.Survived, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Survived", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Balanceamento de classes utilizando o parâmetro stratify da função train_test_split

In [None]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(dfIris)
numeroVariaveisPreditoras = 4
X = dfIris[["sepal_length","sepal_width","petal_length","petal_width"]].values.reshape((numeroObservacoes, numeroVariaveisPreditoras)) # X deve sempre ser uma matriz e nunca um vetor
y = dfIris['species'].values # y pode ser um vetor

In [None]:
# Divide os dados em treino e teste
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=10)

In [None]:
# Countplot da variável species desbalanceada
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável species dos dados de treino", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Divide os dados em treino e teste utilizando o parâmetro stratify
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=10, stratify=y)

In [None]:
# Countplot da variável species BALANCEADA
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável species dos dados de treino balanceada", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(dfTitanic)
numeroVariaveisPreditoras = 11
X = dfTitanic[["SibSp","Parch","Idade", "Sex_female", "Sex_male", "Embarked_C", "Embarked_Q", "Embarked_S", "Pclass_1", "Pclass_2", "Pclass_3"]].values.reshape((numeroObservacoes, numeroVariaveisPreditoras)) # X deve sempre ser uma matriz e nunca um vetor
y = dfTitanic['Survived'].values # y pode ser um vetor

In [None]:
# Divide os dados em treino e teste utilizando o parâmetro stratify
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=23, stratify=y)

In [None]:
# Countplot da variável Survived
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Survived", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Balanceamento de classes utilizando Synthetic Minority Oversampling Technique (SMOTE) 

**Oversampling** é uma técnica que cria novas observações da classe com menor quantidade. 

In [None]:
# Instalando o pacote imbalanced-learn
# É necessário reiniciar o Jupyter Lab após a instalação
!pip install -U imbalanced-learn

In [None]:
# Carregando a classe SMOTE
from imblearn.over_sampling import SMOTE

In [None]:
# Criando o objeto do tipo SMOTE. O parâmetro k_neighbors indica quantos vizinhos serão considerados para fazer o oversampling.
overSampler = SMOTE(k_neighbors = 3, random_state=8)

In [None]:
# Aplicando o oversampling 
Xtreino, Ytreino = overSampler.fit_resample(Xtreino, Ytreino)

In [None]:
# Countplot da variável alvo no dataset de treino após o oversampling.
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Survived após oversampling", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

### Balanceamento de classes reduzindo a classe majoritária (undersampling)

In [None]:
# Divide os dados em treino 
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=23)

In [None]:
# Countplot da variável Survived
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Survived", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Carregando a classe RandomUnderSampler
from imblearn.under_sampling import RandomUnderSampler 

# Criando o objeto do tipo RandomUnderSampler
underSampler = RandomUnderSampler(random_state=42)

# Fazendo o undersampling
Xtreino, Ytreino = underSampler.fit_resample(Xtreino, Ytreino)

In [None]:
# Countplot da variável Survived
sns.set_theme(style="dark") # Define o tema utilizado.

ax = sns.countplot(x=Ytreino, palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Survived", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")
plt.show()

In [None]:
# Gerando um arquivo CSV a partir de um Dataframe
dfTitanic.to_csv('Dados/Titanic/titanicDummies.csv')