In [11]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from sklearn.preprocessing import LabelEncoder

# Carregar o dataset Adult Income
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']

# Carregar os dados com pandas
data = pd.read_csv(url, names=columns, sep=',\s', engine='python')

# Pré-processamento
# Substituir valores ausentes
data.replace(" ?", np.nan, inplace=True)
data.dropna(inplace=True)

# Convertendo variáveis categóricas para numéricas
label_encoders = {}
for column in data.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le

# Definir características e rótulos
X = data.drop(columns='income')
y = data['income']

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Inicializar o classificador
rf = RandomForestClassifier(random_state=42)

# Técnicas de balanceamento
smote = SMOTE(random_state=42)
rus = RandomUnderSampler(random_state=42)

# Balanceamento por Custo (pesos das classes ajustados)
rf_cost = RandomForestClassifier(random_state=42, class_weight='balanced')

# Avaliação sem balanceamento
print("Avaliação Sem Balanceamento:")
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
print(classification_report(y_test, y_pred))

# Avaliação com SMOTE (Over-sampling)
print("\nAvaliação com SMOTE (Over-sampling):")
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)
rf.fit(X_train_smote, y_train_smote)
y_pred_smote = rf.predict(X_test)
print(classification_report(y_test, y_pred_smote))

# Avaliação com Random Under-sampling
print("\nAvaliação com Random Under-sampling:")
X_train_rus, y_train_rus = rus.fit_resample(X_train, y_train)
rf.fit(X_train_rus, y_train_rus)
y_pred_rus = rf.predict(X_test)
print(classification_report(y_test, y_pred_rus))

# Avaliação com Balanceamento por Custo
print("\nAvaliação com Balanceamento por Custo:")
rf_cost.fit(X_train, y_train)
y_pred_cost = rf_cost.predict(X_test)
print(classification_report(y_test, y_pred_cost))


Avaliação Sem Balanceamento:
              precision    recall  f1-score   support

           0       0.89      0.93      0.91      7455
           1       0.74      0.63      0.68      2314

    accuracy                           0.86      9769
   macro avg       0.81      0.78      0.79      9769
weighted avg       0.85      0.86      0.85      9769


Avaliação com SMOTE (Over-sampling):
              precision    recall  f1-score   support

           0       0.90      0.89      0.90      7455
           1       0.67      0.68      0.67      2314

    accuracy                           0.84      9769
   macro avg       0.78      0.79      0.79      9769
weighted avg       0.84      0.84      0.84      9769


Avaliação com Random Under-sampling:
              precision    recall  f1-score   support

           0       0.94      0.80      0.86      7455
           1       0.56      0.84      0.67      2314

    accuracy                           0.81      9769
   macro avg       0.75

In [23]:
# Importar bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

# --------------------------------------
# INTRODUÇÃO SOBRE O DATASET WINE
# --------------------------------------
# O dataset 'Wine' do scikit-learn contém características químicas de vinhos.
# As classes representam três tipos diferentes de vinho:
# - Classe 0: Tipo de vinho 0 (cerca de 59% dos exemplos)
# - Classe 1: Tipo de vinho 1 (cerca de 39% dos exemplos)
# - Classe 2: Tipo de vinho 2 (cerca de 2% dos exemplos)

# Vamos analisar o balanceamento do dataset.

# --------------------------------------
# CARREGAMENTO DO DATASET
# --------------------------------------

# Carregar o dataset Wine
data = load_wine()

# Criar o DataFrame com as características (X) e a variável alvo (y)
X_wine = pd.DataFrame(data.data, columns=data.feature_names)
y_wine = pd.Series(data.target)

# Exibir a distribuição das classes no dataset
print("Distribuição das classes antes do balanceamento:")
print(y_wine.value_counts())  # Verificar o balanceamento das classes

# --------------------------------------
# DIVISÃO EM TREINO E TESTE
# --------------------------------------

# Divisão do dataset em treino (70%) e teste (30%)
X_train_wine, X_test_wine, y_train_wine, y_test_wine = train_test_split(X_wine, y_wine, test_size=0.8, random_state=42)

# --------------------------------------
# TREINAMENTO SEM BALANCEAMENTO
# --------------------------------------

# Criar o modelo de classificação (RandomForest)
print("Avaliação Sem Balanceamento:")
rf_wine = RandomForestClassifier(random_state=42)

# Ajustar o modelo ao conjunto de treino sem balanceamento
rf_wine.fit(X_train_wine, y_train_wine)

# Fazer previsões no conjunto de teste
y_pred_wine = rf_wine.predict(X_test_wine)

# Avaliar o desempenho do modelo
print(classification_report(y_test_wine, y_pred_wine))

# --------------------------------------
# APLICANDO SMOTE (OVER-SAMPLING)
# --------------------------------------

# Criar e aplicar o SMOTE no conjunto de treino
print("\nAvaliação com SMOTE (Over-sampling):")
smote_wine = SMOTE(random_state=42)
X_train_smote_wine, y_train_smote_wine = smote_wine.fit_resample(X_train_wine, y_train_wine)

# Ajustar o modelo ao conjunto de treino balanceado (SMOTE)
rf_wine.fit(X_train_smote_wine, y_train_smote_wine)

# Fazer previsões no conjunto de teste
y_pred_smote_wine = rf_wine.predict(X_test_wine)

# Avaliar o desempenho do modelo com SMOTE
print(classification_report(y_test_wine, y_pred_smote_wine))

# --------------------------------------
# APLICANDO RANDOM UNDER-SAMPLING
# --------------------------------------

# Criar e aplicar o Random Under-sampling no conjunto de treino
print("\nAvaliação com Random Under-sampling:")
rus_wine = RandomUnderSampler(random_state=42)
X_train_rus_wine, y_train_rus_wine = rus_wine.fit_resample(X_train_wine, y_train_wine)

# Ajustar o modelo ao conjunto de treino balanceado (Random Under-sampling)
rf_wine.fit(X_train_rus_wine, y_train_rus_wine)

# Fazer previsões no conjunto de teste
y_pred_rus_wine = rf_wine.predict(X_test_wine)

# Avaliar o desempenho do modelo com Random Under-sampling
print(classification_report(y_test_wine, y_pred_rus_wine))

# --------------------------------------
# APLICANDO BALANCEAMENTO POR CUSTO
# --------------------------------------

# Ajustar o modelo com balanceamento por custo (class_weight='balanced')
print("\nAvaliação com Balanceamento por Custo:")
rf_cost_wine = RandomForestClassifier(random_state=42, class_weight='balanced')
rf_cost_wine.fit(X_train_wine, y_train_wine)

# Fazer previsões no conjunto de teste
y_pred_cost_wine = rf_cost_wine.predict(X_test_wine)

# Avaliar o desempenho do modelo com balanceamento por custo
print(classification_report(y_test_wine, y_pred_cost_wine))

# --------------------------------------
# EXERCÍCIO
# --------------------------------------

# 1. Carregue e prepare o dataset Wine. Divida o dataset em treino e teste.
# 2. Aplique as técnicas de balanceamento (SMOTE, Random Under-sampling, balanceamento por custo) e compare os resultados usando as métricas de precisão, recall e F1-score.

# 3. Faça uma análise crítica sobre qual técnica foi mais eficaz para balancear as classes e qual técnica teve o melhor desempenho.

# 4. Responda às perguntas seguintes:
#    a) Qual técnica teve o melhor desempenho na classe minoritária?
#    b) Qual técnica resultou em melhor equilíbrio entre as classes?
#    c) Existe uma técnica que foi mais eficiente em termos de precisão?

# 5. Modifique os parâmetros dos modelos ou tente outras técnicas para explorar mais os efeitos do balanceamento no modelo.


Distribuição das classes antes do balanceamento:
1    71
0    59
2    48
Name: count, dtype: int64
Avaliação Sem Balanceamento:
              precision    recall  f1-score   support

           0       0.98      0.96      0.97        48
           1       0.96      0.91      0.94        57
           2       0.90      1.00      0.95        38

    accuracy                           0.95       143
   macro avg       0.95      0.96      0.95       143
weighted avg       0.95      0.95      0.95       143


Avaliação com SMOTE (Over-sampling):
              precision    recall  f1-score   support

           0       0.96      0.96      0.96        48
           1       0.96      0.88      0.92        57
           2       0.88      1.00      0.94        38

    accuracy                           0.94       143
   macro avg       0.93      0.95      0.94       143
weighted avg       0.94      0.94      0.94       143


Avaliação com Random Under-sampling:
              precision    recall 

# Data Leakage

In [3]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Gerando um dataset artificial de classificação com classes desbalanceadas
X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_classes=2,
                           weights=[0.9, 0.1], random_state=42)

# Convertendo os nomes das colunas para strings para evitar o erro
X = pd.DataFrame(X)
X.columns = X.columns.astype(str)  # Corrige os nomes das colunas para string

# Data Leakage: Adicionando o rótulo como uma característica extra
X['target'] = y

# Dividindo em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Garantindo que X_train e y_train estão corretamente formatados
print(f'Tamanho de X_train: {X_train.shape}')

# Treinando o modelo com data leakage
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)  # Treinando o modelo

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliando o modelo
accuracy_with_leakage = accuracy_score(y_test, y_pred)
print(f'Acurácia com Data Leakage: {accuracy_with_leakage:.4f}')

# Removendo a coluna 'target' para evitar Data Leakage
X_without_leakage = X.drop('target', axis=1)

# Dividindo novamente em treino e teste sem Data Leakage
X_train, X_test, y_train, y_test = train_test_split(X_without_leakage, y, test_size=0.2, random_state=42)

# Garantindo que X_train e y_train estão corretamente formatados
print(f'Tamanho de X_train sem leakage: {X_train.shape}')

# Treinando o modelo novamente sem data leakage
model.fit(X_train, y_train)  # Treinando o modelo novamente

# Fazendo previsões
y_pred = model.predict(X_test)

# Avaliando o modelo sem Data Leakage
accuracy_without_leakage = accuracy_score(y_test, y_pred)
print(f'Acurácia sem Data Leakage: {accuracy_without_leakage:.4f}')


Tamanho de X_train: (800, 21)
Acurácia com Data Leakage: 1.0000
Tamanho de X_train sem leakage: (800, 20)
Acurácia sem Data Leakage: 0.9500
