<a href="https://colab.research.google.com/github/titocampos/estudo-crm/blob/master/Data_Augmentation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Augmentation

Trabalhando em arquiteturas de redes neurais profundas nem sempre temos uma quantidade balanceada de exemplos para utilizar em treinamento. Com isso a distribuição dos dados se torna prejudicada e o modelo pode se tornar tendencioso, ou seja, o modelo funcionará melhor para a classe que contiver mais exemplos.

Esse problema é observado não apenas nos conjuntos de dados de imagem, mas também em qualquer tipo de conjunto de dados. Pode ser um dado tabular, como o conjunto de dados do classificador de e-mail de spam, que possui amostras pertencentes a duas classes, spam / falso e original. Em uma situação de desequilíbrio de classe, o conjunto de dados pode ter milhares de amostras na classe de spam e apenas centenas de amostras na classe de email original. Com esse conjunto de dados, nenhum algoritmo de aprendizado de máquina poderia aprender. Técnicas como resampling, SMOTE são usadas para superar essa limitação.

## Re-sampling

A re-amostragem é uma técnica muito utilizada para resolver o problema de distorção de classe em dados tabulares. Utilizando, subamostra ou superamostra dos dados disponíveis para atender aos requisitos de distribuição de classes.

Vamos criar um conjunto de dados sintético com 1000 amostras com duas classes e dois recursos. 95% na classe 0 e 5% na classe 1.

In [0]:
# Importando bibliotecas
from sklearn.datasets import make_classification
import numpy as np
from sklearn.utils import resample

n_samples = 1000
weights = (0.95, 0.05)

# Criando o dataset com 1000 exemplos
X, y = make_classification(n_samples = n_samples, n_features = 2, n_redundant = 0, weights = weights, random_state = 1000)

# Re-sampling
X_1_resampled = resample(X[y == 1], n_samples = X[y == 0].shape[0], random_state = 1000) #Up-smapling 

#Concatenando datasets.
Xu = np.concatenate ((X[y == 0], X_1_resampled))
yu = np.concatenate ((y[y == 0], np.ones(shape = (X[y ==0].shape[0]), dtype = np.int32)))

E, finalmente, temos Xu com amostras de número igual na classe 0 (Xu[yu == 0]) e na classe 1 (Xu [yu == 1]).

In [22]:
print(Xu[yu == 0].shape, Xu[yu == 1].shape)

(946, 2) (946, 2)


## SMOTE

SMOTE (Synthetic Minority Over-sampling TEchnique) é um outro método para resolver o problema de distorção de classe. Diferentemente das técnicas de re-amostragem, os dados disponíveis não são reutilizados aqui. Em vez disso, novas amostras de dados sintéticos são geradas usando o relacionamento entre as amostras.

Usaremos os mesmos dados desbalanceados (X, y) anteriores para obter um conjunto de dados resolvido.

In [18]:
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state = 1000)
X_resampled, y_resampled = smote.fit_sample(X, y)



In [23]:
print(X_resampled[y_resampled == 0].shape, X_resampled[y_resampled == 1].shape)

(946, 2) (946, 2)


## Imagens

No caso de imagens de uma unica imagem obtemos varias outras, aplicamos algumas técnicas de transformação, tais como, deslocamento à direita, deslocamento à esquerda e zoom. Versões transformadas de imagens no conjunto de dados de treinamento que pertencem à mesma classe que a imagem original são criadas neste processo.