# **Sampling Theory**

Aqui são tratadas técnicas quando possuímos dados desbalanceados (por exemplo, muitos dados da classe 1 e poucos da classe 2). A primeira opção é o **undersampling** em que reduzimos a quantidade de dados da classe maior para balanceá-la com a classe menor. Já o **oversampling** é a criação de amostras sintéticas da classe menor com base em algumas técnicas matemáticas para aumentá-la.

In [2]:
import pandas as pd
import numpy as np

In [3]:
base_census = pd.read_csv('/Users/gustavomeira/Documents/Python/Estudo_ML/projects/Amostragem e Seleção de Atributos/census.csv')
display(np.unique(base_census['income'], return_counts=True))

(array([' <=50K', ' >50K'], dtype=object), array([24720,  7841]))

In [4]:
X_census = base_census.iloc[:,0:14].values
Y_census = base_census.iloc[:,14].values

In [5]:
from sklearn.preprocessing import LabelEncoder

label_encoder_workclass = LabelEncoder()
label_encoder_education = LabelEncoder()
label_encoder_marital = LabelEncoder()
label_encoder_occupation = LabelEncoder()
label_encoder_relationship = LabelEncoder()
label_encoder_race = LabelEncoder()
label_encoder_sex = LabelEncoder()
label_encoder_country = LabelEncoder()

X_census[:,1] = label_encoder_workclass.fit_transform(X_census[:,1])
X_census[:,3] = label_encoder_education.fit_transform(X_census[:,3])
X_census[:,5] = label_encoder_marital.fit_transform(X_census[:,5])
X_census[:,6] = label_encoder_occupation.fit_transform(X_census[:,6])
X_census[:,7] = label_encoder_relationship.fit_transform(X_census[:,7])
X_census[:,8] = label_encoder_race.fit_transform(X_census[:,8])
X_census[:,9] = label_encoder_sex.fit_transform(X_census[:,9])
X_census[:,13] = label_encoder_country.fit_transform(X_census[:,13])

## Tomek Links

Essa é uma técnica de **subamostragem** que consiste em apagar dados da classe dominante em regiões de muita proximidade da classe menor. Aqui, não deixamos os dados do mesmo tamanho, mas facilitamos sua classificação.

In [7]:
from imblearn.under_sampling import TomekLinks

tl = TomekLinks(sampling_strategy='majority')
X_under, Y_under = tl.fit_resample(X_census, Y_census)

In [10]:
display(X_under.shape, Y_under.shape)

(30161, 14)

(30161,)

## SMOTE

Essa é uma forma de **sobreamostragem** que cria exemplos sintéticos que preenche espaços vazios entre as classes minoritárias, gerando mais dados da classe menor.

In [13]:
from imblearn.over_sampling import SMOTE

display(X_census.shape, Y_census.shape)

smote = SMOTE(sampling_strategy='minority')
X_over, Y_over = smote.fit_resample(X_census, Y_census)
display(X_over.shape, Y_over.shape)

(32561, 14)

(32561,)

(49440, 14)

(49440,)

In [15]:
display(np.unique(Y_over, return_counts=True))

(array([' <=50K', ' >50K'], dtype=object), array([24720, 24720]))