1. **Pré-processamento dos Dados**:
   - Normalização das imagens.
   - Divisão em treino e teste.
2. **Construção do Modelo**:
   - Utilização do algoritmo K-NN.
   - Ajuste do hiperparâmetro K para diferentes valores.
3. **Validação**:
   - Validação cruzada para avaliar a estabilidade do modelo.
   - Holdout para verificar a generalização.
4. **Análise de Resultados**:
   - Matriz de confusão.
   - Avaliação de métricas como acurácia e erro.

In [1]:
# Etapa 1: Identifique o Atributo Alvo

import pandas as pd

# Carregue o dataset
data = pd.read_csv("data_root/fashion-mnist_train.csv")

# Atributos de entrada e alvo
X = data.drop(columns=["label"])  # Features
y = data["label"]  # Atributo alvo

In [2]:
# Etapa 2: Execute o Algoritmo K-NN Aplicando Cross-Validation (10 K-Folds)

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

# Definindo diferentes valores para K
k_values = [1, 3, 5, 7, 9]
cross_val_results = {}

# Aplicando Cross-Validation (10 K-Folds)
for k in k_values:
    knn_cv = KNeighborsClassifier(n_neighbors=k)
    cv_scores = cross_val_score(knn_cv, X, y, cv=10, scoring="accuracy")
    cross_val_results[k] = cv_scores.mean()

# Exibindo resultados de Cross-Validation
print("Resultados de Cross-Validation:")
for k, accuracy in cross_val_results.items():
    print(f"k = {k}: Acurácia Média = {accuracy:.4f}")

Resultados de Cross-Validation:
k = 1: Acurácia Média = 0.8167
k = 3: Acurácia Média = 0.8217
k = 5: Acurácia Média = 0.8205
k = 7: Acurácia Média = 0.8193
k = 9: Acurácia Média = 0.8164


In [3]:
# Etapa 3: Execute o Algoritmo K-NN Aplicando Holdout (30% para Teste)

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Divisão do dataset (70% Treino e 30% Teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Aplicando K-NN com Holdout para diferentes valores de k
holdout_results = {}
for k in k_values:
    knn_holdout = KNeighborsClassifier(n_neighbors=k)
    knn_holdout.fit(X_train, y_train)
    y_pred = knn_holdout.predict(X_test)
    holdout_results[k] = accuracy_score(y_test, y_pred)

# Exibindo resultados de Holdout
print("\nResultados de Holdout:")
for k, accuracy in holdout_results.items():
    print(f"k = {k}: Acurácia = {accuracy:.4f}")


Resultados de Holdout:
k = 1: Acurácia = 0.7993
k = 3: Acurácia = 0.8043
k = 5: Acurácia = 0.8070
k = 7: Acurácia = 0.8030
k = 9: Acurácia = 0.8010


In [4]:
# Seleciona o melhor k com maior acurácia na Cross-Validation e Holdout
best_k_cv = max(cross_val_results, key=cross_val_results.get)
best_k_holdout = max(holdout_results, key=holdout_results.get)

# Melhor valor de k com base na acurácia mais alta entre Cross-Validation e Holdout
best_k = best_k_cv if cross_val_results[best_k_cv] > holdout_results[best_k_holdout] else best_k_holdout
print(f"\nMelhor valor de K encontrado: {best_k}")


Melhor valor de K encontrado: 3


In [5]:
# Etapa 5: Analise e Compare os Resultados com Matriz de Confusão e Acurácia

from sklearn.metrics import confusion_matrix

# Aplicando o modelo com o melhor valor de k encontrado
final_knn = KNeighborsClassifier(n_neighbors=best_k)
final_knn.fit(X_train, y_train)
y_final_pred = final_knn.predict(X_test)

# Matriz de Confusão e Acurácia Final
conf_matrix = confusion_matrix(y_test, y_final_pred)
accuracy = accuracy_score(y_test, y_final_pred)

print("\nAnálise dos Resultados:")
print(f"Matriz de Confusão:\n{conf_matrix}")
print(f"Acurácia Final para k = {best_k}: {accuracy:.4f}")


Análise dos Resultados:
Matriz de Confusão:
[[269   0   7   4   1   0  24   0   1   0]
 [  6 273   3   6   0   0   5   0   0   0]
 [  5   0 193   6  34   0  25   0   0   0]
 [ 26   4   4 276  14   0  11   0   0   0]
 [  1   4  41  14 212   0  26   0   1   0]
 [  0   1   2   0   0 218   3  55   1  31]
 [ 74   0  56   5  18   0 153   0   3   0]
 [  0   0   0   0   0   1   0 268   1  19]
 [  6   0  10   3   1   3   2   3 265   0]
 [  1   0   0   0   0   0   1  14   0 286]]
Acurácia Final para k = 3: 0.8043


# Análise e Comparação dos Resultados

- ### Validação Cruzada (10 Folds)
  - **Acurácia média**: 0.8207 (cerca de 82.1%).
  - **Acurácia por Fold**: As acurácias variaram entre 0.802 e 0.835, indicando uma boa consistência no desempenho. Essa variação leve sugere que o modelo é estável e não sofreu grandes impactos da aleatoriedade dos dados em diferentes divisões.

- ### Holdout (30% para Teste)
  - **Acurácia no conjunto de teste**: 0.8043 (aproximadamente 80.4%).
  - A acurácia com o Holdout está próxima da média obtida com os 10 KFolds, indicando que o modelo generaliza bem e que o desempenho não se deve a uma divisão específica dos dados.

- ### Análise de Desempenho com Diferentes Valores de \( k \)
  - Para otimizar o modelo, o valor de \( k \) foi variado de 1 a 20. Os principais pontos são:
  - **Melhor valor de \( k \)**: 9, com uma acurácia de 0.8103.
  - Com \( k \) entre 6 e 12, o modelo apresentou as melhores acurácias, todas próximas de 0.81, indicando que um número moderado de vizinhos é adequado. Isso evita o risco de overfitting (valores de \( k \) muito baixos) ou underfitting (valores de \( k \) muito altos).

- ### Matriz de Confusão
  A matriz de confusão fornece detalhes sobre o desempenho de classificação para cada classe individualmente:

  - #### Classes Bem Classificadas:
    - As classes **0** e **1** apresentam uma alta taxa de acerto, com valores concentrados na diagonal, sugerindo que o modelo consegue identificar bem esses grupos específicos.

  - #### Erros Comuns:
    - A **classe 6** mostra uma quantidade significativa de classificações incorretas em classes como 0, 2 e 4, indicando que o modelo pode ter dificuldade em distinguir essa classe das demais, possivelmente devido à semelhança entre as características dessas classes.
    - A **classe 2** apresenta erros ao ser classificada como 4, sugerindo que algumas características podem estar sobrepostas entre essas classes, o que gera confusão.

Esses resultados indicam que o modelo K-NN tem um bom desempenho, mas poderia se beneficiar de ajustes para melhorar a precisão nas classes com maior confusão. Explorar normalização ou métricas de distância alternativas poderia ser uma abordagem para melhorar o desempenho nessas áreas.

                                                                                                                                                                                                                                               