# Carregamento dos dados

In [2]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

# Carregar o dataset MNIST (digits)
X_digits, y_digits = load_digits(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits, test_size=0.2, random_state=42)

In [3]:
from sklearn.cluster import AgglomerativeClustering
import numpy as np

# Clusterização para selecionar exemplos representativos
n_clusters = 10  # Número de classes no MNIST
agg_clustering = AgglomerativeClustering(n_clusters=n_clusters)
clusters = agg_clustering.fit_predict(X_train)

# Seleção de exemplos representativos (um por cluster)
representative_indices = []
for cluster_id in range(n_clusters):
    cluster_indices = np.where(clusters == cluster_id)[0]
    representative_indices.append(cluster_indices[0])

X_representative = X_train[representative_indices]
y_representative = y_train[representative_indices]

In [4]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Treinamento com os exemplos representativos
log_reg = LogisticRegression(max_iter=10000, random_state=42)
log_reg.fit(X_representative, y_representative)

# Avaliação
y_pred = log_reg.predict(X_test)
score_clustered = accuracy_score(y_test, y_pred)
print(f"Acurácia usando exemplos representativos (clusterização): {score_clustered:.4f}")

Acurácia usando exemplos representativos (clusterização): 0.5333


In [5]:
# Treinamento com o dataset completo
log_reg_full = LogisticRegression(max_iter=10000, random_state=42)
log_reg_full.fit(X_train, y_train)

# Avaliação
y_pred_full = log_reg_full.predict(X_test)
score_full = accuracy_score(y_test, y_pred_full)
print(f"Acurácia usando o dataset completo: {score_full:.4f}")

Acurácia usando o dataset completo: 0.9750


In [6]:
# Seleção de amostras aleatórias
n_random_samples = 10  # Mesmo número de exemplos representativos
random_indices = np.random.choice(len(X_train), size=n_random_samples, replace=False)
X_random = X_train[random_indices]
y_random = y_train[random_indices]

# Treinamento com amostras aleatórias
log_reg_random = LogisticRegression(max_iter=10000, random_state=42)
log_reg_random.fit(X_random, y_random)

# Avaliação
y_pred_random = log_reg_random.predict(X_test)
score_random = accuracy_score(y_test, y_pred_random)
print(f"Acurácia usando amostras aleatórias: {score_random:.4f}")

Acurácia usando amostras aleatórias: 0.5111
