# Amostragem
> Considere que nossa base de dados é a base de dados da Iris que contém 4 atributos, 3 classes e 50 exemplos de cada classe. Vamos simular através da bilbioteca `imblearn` a simulação de desbalanceamento na proporção de:
* Classe 0: 10 objetos
* Classe 1: 30 objetos
* Classe 2: 40 objetos

A IRIS tem três tipos de plantas (0:iris-setosa, 1:iris-virginica e 2:iris-versicolor) observando 4 características das folhas (largura e comprimento da pétala e sépala). Pétala e sépala são dois tipos de folhas existente em cada planta. A ideia é explorar as variação de tamanhos entre os tipos de plantas.

![iris.png](https://ichi.pro/assets/images/max/724/1*f6KbPXwksAliMIsibFyGJw.png)

In [None]:
from collections import Counter #para contagem de frequências
from sklearn.datasets import load_iris #carregando a base de dados da IRIS
from imblearn.datasets import make_imbalance
iris = load_iris()
print('Rótulos da base de dados da IRIS:\n',iris.target)
sampling_strategy = {0: 10, 1: 30, 2: 40}
X_imb, y_imb = make_imbalance(iris.data, iris.target,
                              sampling_strategy=sampling_strategy)
freq_class = sorted(Counter(y_imb).items())
print('Rótulos após desbalanceamento\n',y_imb)
print('Frequencia de cada classe: ',freq_class)
print('Matriz de dados: ',X_imb.shape,'\n',X_imb)

Rótulos da base de dados da IRIS:
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
Rótulos após desbalanceamento
 [0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2]
Frequencia de cada classe:  [(0, 10), (1, 30), (2, 40)]
Matriz de dados:  (80, 4) 
 [[5.1 3.5 1.4 0.2]
 [5.4 3.4 1.7 0.2]
 [5.5 4.2 1.4 0.2]
 [5.  3.4 1.6 0.4]
 [5.4 3.4 1.5 0.4]
 [5.2 3.4 1.4 0.2]
 [4.9 3.6 1.4 0.1]
 [4.8 3.4 1.9 0.2]
 [5.  3.3 1.4 0.2]
 [4.6 3.4 1.4 0.3]
 [5.5 2.5 4.  1.3]
 [5.8 2.7 4.1 1. ]
 [5.4 3.  4.5 1.5]
 [5.7 2.8 4.1 1.3]
 [6.7 3.1 4.4 1.4]
 [5.1 2.5 3.  1.1]
 [6.6 3.  4.4 1.4]
 [5.8 2.6 4.  1.2]
 [5.7 3.  4.2 1.2]
 [5.6 2.7 4.2 1.3]


> Outra forma de gerar dados sintéticos desbalanceados:

In [None]:
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, #Número de objetos da base de dados (linhas)
                           n_features=2,  #Número de atributos (colunas)
                           n_informative=2, #Quantidade de atributos relevantes
                           n_redundant=0, #Quantidade de atributos irrelevantes (muito parecidos)
                           n_repeated=0, #Qtd de atributos repetidos
                           n_classes=3, #Qtd de classes
                           n_clusters_per_class=1, #Distribuições por classe
                           weights=[0.01, 0.05, 0.94], #proporção de objetos por classe
                           class_sep=0.8, random_state=0)
print('Dados: ',X)
freq_class = sorted(Counter(y).items())
print('Rótulos: ',y,freq_class)

Dados:  [[-0.73472213  1.07319208]
 [-1.93112326  0.37721431]
 [-1.38484452  1.05245933]
 ...
 [-1.29731045  1.51373634]
 [-0.7468111   0.91822089]
 [-0.2701445   1.09664939]]
Rótulos:  [2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 2 2 2 2 2 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1
 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2
 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 0 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 1 2 0 2 2 2 2 1 2 1 1 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

## Random Undersampling
> Estratégia de redução de exemplos da classe `majoritária` para ter a mesma quantidade de exemplos da classe `minoritária`.
[api](https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html)

Exemplo:
![](https://imgtr.ee/images/2023/06/17/Y1zE4.jpg)



In [35]:
#importando a bilbioteca de amostragem UnderSampling
from imblearn.under_sampling import RandomUnderSampler

undersample = RandomUnderSampler(random_state=42,sampling_strategy='majority')
X_under, y_under = undersample.fit_resample(X, y)
freq_class = sorted(Counter(y).items())
freq_classU = sorted(Counter(y_under).items())
print(freq_class)
print(freq_classU)

[(0, 13), (1, 55), (2, 932)]
[(0, 13), (1, 55), (2, 13)]


In [36]:
undersample = RandomUnderSampler(random_state=42,sampling_strategy='not minority')
X_under, y_under = undersample.fit_resample(X, y)

freq_classU = sorted(Counter(y_under).items())
print(freq_class)
print(freq_classU)


[(0, 13), (1, 55), (2, 932)]
[(0, 13), (1, 13), (2, 13)]


## Random Oversampling
> Estratégia de amostragem em que ao invés de remover (under) é replicado (over) os dados da classe minoritária até ter a mesma quantidade que a classe majoritária (ou uma quantidade definida).[API](https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.RandomOverSampler.html)



*   sampling_strategy='minority' : Aumenta os dados da classe minoritária.
*   sampling_strategy='not minority': Aumenta os dados de todas as classes exceto a minoritária.
*   sampling_strategy='not majority': Aumenta os dados de todas as classes exceto a majoritária.



Exemplo:
![](https://imgtr.ee/images/2023/06/17/YpoZm.jpg)

In [41]:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42,sampling_strategy='minority')
X_over, y_over = ros.fit_resample(X, y)
freq_classO = sorted(Counter(y_over).items())
print(freq_class)
print(freq_classO)

[(0, 13), (1, 55), (2, 932)]
[(0, 932), (1, 55), (2, 932)]


In [42]:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42,sampling_strategy='not minority')
X_over, y_over = ros.fit_resample(X, y)
freq_classO = sorted(Counter(y_over).items())
print(freq_class)
print(freq_classO)

[(0, 13), (1, 55), (2, 932)]
[(0, 13), (1, 932), (2, 932)]


In [44]:
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42,sampling_strategy='not majority')
X_over, y_over = ros.fit_resample(X, y)
freq_classO = sorted(Counter(y_over).items())
print(freq_class)
print(freq_classO)

[(0, 13), (1, 55), (2, 932)]
[(0, 932), (1, 932), (2, 932)]


## SMOTE

>**S**ynthetic **M**inority **O**versampling **T**echnique é uma estratégia de oversampling baseada em vizinhos mais próximos para selecionar os objetos as serem amostrados.

A vizinha de um objeto geralmente é dado por uma mediade de dissimilaridade, também denominada de distância. Tipicamente, a distância euclidiana é utilizada para calcular a distância entre dois objetos $x_1$ e $x_2$,como:
$$ dist(x_1,x_2) = { \sqrt{\sum_{i=1}^{d} (x_1^i - x_2^i)^2} } $$

>Algoritmo:


1.   Encontre os objetos da classe `minoritária`;
2.   Selecione aleatória um objeto $x_i$ dessa classe `minoritária`.
3.   Encontre os `k`-vizinhos mais próximos de $x_i$.
4.   Dentre os `k`-vizinhos de $x_i$ selecione aleatóriamente um objeto $x_j$.
5.   Crie um objeto $x_{new}$ por meio da interpolação entre os objetos $x_i$ e $x_j$, resultando em um objeto que fica entre os objetos $x_i$ e $x_j$.
6.   Volte ao passo 2 até e repita até ter a quantidade desejada de objetos gerados.

Exemplo:
![](https://i.postimg.cc/dQ6MWR8D/IMG-2412.jpg)


In [47]:
from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state=42,sampling_strategy='minority')
X_smote, y_smote = sm.fit_resample(X, y)
freq_classS = sorted(Counter(y_smote).items())
print(freq_class)
print(freq_classS)

[(0, 13), (1, 55), (2, 932)]
[(0, 932), (1, 55), (2, 932)]
