# **Exercício Prático: Avaliação de Classificadores KNN com K-Fold Cross-Validation - Dataset Vinhos (UCI)**

## **Objetivo**

Neste exercício, você implementará um classificador K-Nearest Neighbors (KNN) utilizando o dataset de vinhos da UCI, avaliando seu desempenho com diferentes configurações de random_state e número de vizinhos k. A avaliação será realizada por meio de k-fold cross-validation usando a função KFold da biblioteca sklearn. Este exercício reforçará a compreensão do processo de validação cruzada e a importância da escolha de hiperparâmetros no KNN.

## **1. Leitura dos Dados**

In [None]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

## **2. Pré-processamento dos Dados**

In [None]:
# Separando as variáveis
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

## **3. Configuração do Experimento e Estrutura de Cross-Validation com KFold**

In [None]:
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
  kf = KFold(n_splits=5, shuffle=True, random_state=random_state) # Define o KFold com 5 folds e shuffle
  for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    accuracies = []
    for train_index, test_index in kf.split(X):
      X_train, X_test = X.iloc[train_index], X.iloc[test_index]
      y_train, y_test = y.iloc[train_index], y.iloc[test_index]
      knn.fit(X_train, y_train)
      y_pred = knn.predict(X_test)
      accuracy = accuracy_score(y_test, y_pred)
      accuracies.append(accuracy)

    mean_accuracy = np.mean(accuracies)
    print(f"Experimento: random_state={random_state}, k={k}, Acurácia Média: {mean_accuracy}")

Experimento: random_state=42, k=3, Acurácia Média: 0.7082539682539682
Experimento: random_state=42, k=5, Acurácia Média: 0.6746031746031746
Experimento: random_state=17, k=3, Acurácia Média: 0.7087301587301587
Experimento: random_state=17, k=5, Acurácia Média: 0.6974603174603173
Experimento: random_state=24, k=3, Acurácia Média: 0.7020634920634921
Experimento: random_state=24, k=5, Acurácia Média: 0.6907936507936508


## **4. Estrutura de Cross-Validation com KFold e Análise dos Resultados**


In [None]:
#     Calcule a média e o desvio padrão da acurácia para cada valor de k em cada experimento.
#     Identifique o melhor valor de k para cada random_state.
#     Caso haja empate nas acurácias médias para k=3 e k=5, registre o empate nos resultados.

# ... (código anterior permanece inalterado)

results = []
for random_state in random_states:
    kf = KFold(n_splits=5, shuffle=True, random_state=random_state)
    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k)
        accuracies = []
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]
            knn.fit(X_train, y_train)
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        results.append({
            'random_state': random_state,
            'k': k,
            'mean_accuracy': mean_accuracy,
            'std_accuracy': std_accuracy
        })
        print(f"Experimento: random_state={random_state}, k={k}, Acurácia Média: {mean_accuracy}, Desvio Padrão: {std_accuracy}")

# Identificando o melhor k para cada random_state
best_k_per_random_state = {}
for random_state in random_states:
    subset = [r for r in results if r['random_state'] == random_state]
    best_k = max(subset, key=lambda x: x['mean_accuracy'])
    best_k_per_random_state[random_state] = best_k
    print(f"Melhor k para random_state={random_state}: k={best_k['k']} (Acurácia Média = {best_k['mean_accuracy']})")

# Verificando empates entre k=3 e k=5
for random_state in random_states:
    k3_results = [r for r in results if r['random_state'] == random_state and r['k'] == 3]
    k5_results = [r for r in results if r['random_state'] == random_state and r['k'] == 5]

    if len(k3_results) > 0 and len(k5_results) > 0 and abs(k3_results[0]['mean_accuracy'] - k5_results[0]['mean_accuracy']) < 1e-6 :
        print(f"Empate entre k=3 e k=5 para random_state={random_state}")

Experimento: random_state=42, k=3, Acurácia Média: 0.7082539682539682, Desvio Padrão: 0.09033768289796426
Experimento: random_state=42, k=5, Acurácia Média: 0.6746031746031746, Desvio Padrão: 0.054976574869016206
Experimento: random_state=17, k=3, Acurácia Média: 0.7087301587301587, Desvio Padrão: 0.08974362296810662
Experimento: random_state=17, k=5, Acurácia Média: 0.6974603174603173, Desvio Padrão: 0.09473597794799324
Experimento: random_state=24, k=3, Acurácia Média: 0.7020634920634921, Desvio Padrão: 0.030269637342101967
Experimento: random_state=24, k=5, Acurácia Média: 0.6907936507936508, Desvio Padrão: 0.04128998287496699
Melhor k para random_state=42: k=3 (Acurácia Média = 0.7082539682539682)
Melhor k para random_state=17: k=3 (Acurácia Média = 0.7087301587301587)
Melhor k para random_state=24: k=3 (Acurácia Média = 0.7020634920634921)
