### 7. Técnicas de Amostragem e Balanceamento de Dados

#### 7.1. Explicar a importância da amostragem e balanceamento de dados
A amostragem e o balanceamento de dados são fundamentais em machine learning para garantir que os modelos aprendam de forma eficaz e generalizem bem. Dados desbalanceados podem levar a modelos enviesados, que favorecem as classes majoritárias, resultando em baixa performance para as classes minoritárias.

#### 7.2. Técnicas de Amostragem
A amostragem pode ser feita de várias maneiras para preparar os dados para o treinamento do modelo.

##### 7.2.1. Amostragem Aleatória
A amostragem aleatória simples seleciona amostras aleatoriamente do conjunto de dados original. Pode ser feita com ou sem reposição.

In [None]:
import pandas as pd
import numpy as np

# Exemplo de dados
data = pd.DataFrame({
    'feature1': np.random.randn(1000),
    'feature2': np.random.randn(1000),
    'label': np.random.randint(0, 2, 1000)
})

# Amostragem aleatória
sampled_data = data.sample(n=200, random_state=42)
print(sampled_data.head())

     feature1  feature2  label
521 -0.554129 -1.059449      0
737  1.245377  1.015120      0
740 -1.057840 -1.578459      0
660 -0.763906 -0.291600      1
411 -1.432203 -1.752419      1


##### 7.2.2. Amostragem Estratificada
A amostragem estratificada garante que a proporção de classes na amostra seja a mesma que no conjunto de dados original.

In [None]:
from sklearn.model_selection import train_test_split

# Exemplo de dados
data = pd.DataFrame({
    'feature1': np.random.randn(1000),
    'feature2': np.random.randn(1000),
    'label': np.random.randint(0, 2, 1000)
})

# Amostragem estratificada
X = data[['feature1', 'feature2']]
y = data['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

print(y_train.value_counts(normalize=True))
print(y_test.value_counts(normalize=True))

label
0    0.5075
1    0.4925
Name: proportion, dtype: float64
label
0    0.51
1    0.49
Name: proportion, dtype: float64


#### 7.3. Técnicas de Balanceamento de Dados
Balancear os dados é essencial para evitar que modelos de machine learning sejam enviesados para a classe majoritária.

##### 7.3.1. Oversampling
A técnica de oversampling aumenta o número de instâncias da classe minoritária, replicando os exemplos existentes ou gerando novos exemplos sintéticos.

In [None]:
from imblearn.over_sampling import RandomOverSampler

# Exemplo de dados
data = pd.DataFrame({
    'feature1': np.random.randn(1000),
    'feature2': np.random.randn(1000),
    'label': np.concatenate([np.zeros(900), np.ones(100)])
})

# Aplicar Oversampling
X = data[['feature1', 'feature2']]
y = data['label']
ros = RandomOverSampler(random_state=42)
X_resampled, y_resampled = ros.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

label
0.0    900
1.0    900
Name: count, dtype: int64


##### 7.3.2. SMOTE (Synthetic Minority Over-sampling Technique)
SMOTE cria exemplos sintéticos da classe minoritária combinando exemplos existentes.

In [None]:
from imblearn.over_sampling import SMOTE

# Exemplo de dados
data = pd.DataFrame({
    'feature1': np.random.randn(1000),
    'feature2': np.random.randn(1000),
    'label': np.concatenate([np.zeros(900), np.ones(100)])
})

# Aplicar SMOTE
X = data[['feature1', 'feature2']]
y = data['label']
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

label
0.0    900
1.0    900
Name: count, dtype: int64


##### 7.3.3. Undersampling
A técnica de undersampling reduz o número de instâncias da classe majoritária para equilibrar as classes.

In [None]:
from imblearn.under_sampling import RandomUnderSampler

# Exemplo de dados
data = pd.DataFrame({
    'feature1': np.random.randn(1000),
    'feature2': np.random.randn(1000),
    'label': np.concatenate([np.zeros(900), np.ones(100)])
})

# Aplicar Undersampling
X = data[['feature1', 'feature2']]
y = data['label']
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X, y)

print(pd.Series(y_resampled).value_counts())

label
0.0    100
1.0    100
Name: count, dtype: int64
