1. Configuração Inicial e Carregamento dos Dados

In [1]:
# Célula 1: Configuração Inicial e Carregamento dos Dados

import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, VotingClassifier, AdaBoostClassifier, BaggingClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

print("Carregando o conjunto de dados MNIST...")
# Carregar o conjunto de dados MNIST
# as_frame=False para obter um array NumPy, geralmente mais fácil para dados de imagem
mnist = fetch_openml('mnist_784', version=1, as_frame=False, parser='auto')
X, y = mnist.data, mnist.target

# Normalizar os dados
print("Normalizando os dados...")
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Dividir o conjunto de dados em treinamento e teste
print("Dividindo os dados em treinamento e teste...")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamanho do conjunto de treinamento: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")

Carregando o conjunto de dados MNIST...
Normalizando os dados...
Dividindo os dados em treinamento e teste...
Tamanho do conjunto de treinamento: 56000 amostras
Tamanho do conjunto de teste: 14000 amostras


2. Treinamento de Classificadores Individuais

In [2]:
# Célula 2: Treinamento de Classificadores Individuais

# Treinando Floresta Aleatória
print("\nTreinando o classificador Floresta Aleatória...")
rnd_clf = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
rnd_clf.fit(X_train, y_train)
rnd_pred = rnd_clf.predict(X_test)
rnd_accuracy = accuracy_score(y_test, rnd_pred)
print(f"Acurácia da Floresta Aleatória: {rnd_accuracy:.4f}")

# Treinando SVM
print("\nTreinando o classificador SVM (pode levar alguns minutos)...")
# probability=True é necessário para o VotingClassifier usar 'soft' voting
svm_clf = SVC(probability=True, random_state=42)
svm_clf.fit(X_train, y_train)
svm_pred = svm_clf.predict(X_test)
svm_accuracy = accuracy_score(y_test, svm_pred)
print(f"Acurácia do SVM: {svm_accuracy:.4f}")


Treinando o classificador Floresta Aleatória...
Acurácia da Floresta Aleatória: 0.9675

Treinando o classificador SVM (pode levar alguns minutos)...
Acurácia do SVM: 0.9631


3. Combinando Classificadores com Votação (Voting Classifier)

In [3]:
# Célula 3: Combinando Classificadores com Votação (Voting Classifier)

print("\nCombinando classificadores com Votação (Voting Classifier)...")
voting_clf = VotingClassifier(
    estimators=[('rf', rnd_clf), ('svm', svm_clf)],
    voting='soft',
    n_jobs=-1
)
voting_clf.fit(X_train, y_train)
voting_pred = voting_clf.predict(X_test)
voting_accuracy = accuracy_score(y_test, voting_pred)
print(f"Acurácia do Voting Classifier (soft voting): {voting_accuracy:.4f}")


Combinando classificadores com Votação (Voting Classifier)...
Acurácia do Voting Classifier (soft voting): 0.9712


4. Combinando Classificadores com AdaBoost

In [4]:
# Célula 4: Combinando Classificadores com AdaBoost

print("\nCombinando classificadores com AdaBoost (pode levar algum tempo)...")
ada_clf = AdaBoostClassifier(n_estimators=100, random_state=42)
ada_clf.fit(X_train, y_train)
ada_pred = ada_clf.predict(X_test)
ada_accuracy = accuracy_score(y_test, ada_pred)
print(f"Acurácia do AdaBoost Classifier: {ada_accuracy:.4f}")


Combinando classificadores com AdaBoost (pode levar algum tempo)...
Acurácia do AdaBoost Classifier: 0.7174


5. Combinando Classificadores com Bagging

In [6]:
# Célula 5: Combinando Classificadores com Bagging
print("\nCombinando classificadores com Bagging...")
bag_clf_rf = BaggingClassifier(
    rnd_clf, 
    n_estimators=10,        # Reduzido de 100 para 10
    max_samples=0.5,        # Usar apenas 50% das amostras
    bootstrap=True, 
    random_state=42, 
    n_jobs=1               # Usar apenas 1 core
)
bag_clf_rf.fit(X_train, y_train)
bag_rf_pred = bag_clf_rf.predict(X_test)
bag_rf_accuracy = accuracy_score(y_test, bag_rf_pred)
print(f"Acurácia do Bagging Classifier (com Floresta Aleatória): {bag_rf_accuracy:.4f}")
#


Combinando classificadores com Bagging...
Acurácia do Bagging Classifier (com Floresta Aleatória): 0.9615


6. Comparação Final dos Resultados

In [7]:
# Célula 6: Comparação Final dos Resultados

print("\n--- Resultados Finais ---")
print(f"Acurácia da Floresta Aleatória (Individual): {rnd_accuracy:.4f}")
print(f"Acurácia do SVM (Individual): {svm_accuracy:.4f}")
print(f"Acurácia do Voting Classifier (soft voting): {voting_accuracy:.4f}")
print(f"Acurácia do AdaBoost Classifier: {ada_accuracy:.4f}")
print(f"Acurácia do Bagging Classifier (com Floresta Aleatória): {bag_rf_accuracy:.4f}")


--- Resultados Finais ---
Acurácia da Floresta Aleatória (Individual): 0.9675
Acurácia do SVM (Individual): 0.9631
Acurácia do Voting Classifier (soft voting): 0.9712
Acurácia do AdaBoost Classifier: 0.7174
Acurácia do Bagging Classifier (com Floresta Aleatória): 0.9615
