
### Técnicas de Balanceamento

**1. Oversampling da Classe Minoritária**: Consiste em replicar aleatoriamente os dados da classe minoritária para aumentar sua representação no dataset.

**2. Undersampling da Classe Majoritária**: Reduz aleatoriamente os dados da classe majoritária para diminuir sua representação no dataset.

**3. SMOTE (Synthetic Minority Over-sampling Technique)**: Gera dados sintéticos da classe minoritária ao invés de replicar dados existentes.

### Implementação em Python com `imbalanced-learn`

Para aplicar essas técnicas, utilizaremos a biblioteca `imbalanced-learn`, também conhecida como `imblearn`, que é compatível com o ecossistema do `scikit-learn`.

Primeiro, instale a biblioteca, caso necessário:

In [1]:
!pip install imbalanced-learn


Defaulting to user installation because normal site-packages is not writeable
Collecting imbalanced-learn
  Downloading imbalanced_learn-0.12.2-py3-none-any.whl (257 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m258.0/258.0 KB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: imbalanced-learn
Successfully installed imbalanced-learn-0.12.2



### Preparando um Dataset de Exemplo

Vamos criar um dataset desbalanceado de exemplo:

In [2]:
from sklearn.datasets import make_classification
import pandas as pd

X, y = make_classification(n_classes=2, class_sep=2,
                           weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
                           n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)

df = pd.DataFrame(X)
df['Target'] = y


### Aplicando Oversampling

In [3]:
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)
X_res, y_res = ros.fit_resample(X, y)

# Verificando o balanceamento
print(pd.Series(y_res).value_counts())


0    900
1    900
Name: count, dtype: int64


### Aplicando Undersampling

In [4]:
from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42)
X_res, y_res = rus.fit_resample(X, y)

# Verificando o balanceamento
print(pd.Series(y_res).value_counts())


0    100
1    100
Name: count, dtype: int64


### Aplicando SMOTE

In [5]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

# Verificando o balanceamento
print(pd.Series(y_res).value_counts())


0    900
1    900
Name: count, dtype: int64


O balanceamento de classes é uma etapa importante na preparação de dados para modelos de machine learning, especialmente para problemas de classificação com distribuições de classes desiguais. Técnicas como oversampling, undersampling e SMOTE podem melhorar significativamente o desempenho do modelo ao lidar com a classe minoritária. A escolha da técnica depende do contexto específico do problema e da natureza dos dados. É crucial experimentar com diferentes métodos de balanceamento e avaliar o impacto no desempenho do modelo para encontrar a melhor abordagem.




