# Exercício Prático: Avaliação de Classificadores KNN com K-Fold Cross-Validation - Dataset Vinhos (UCI)

### Objetivo

Neste exercício, você implementará um classificador K-Nearest Neighbors (KNN) utilizando o dataset de vinhos da UCI, avaliando seu desempenho com diferentes configurações de random_state e número de vizinhos k. A avaliação será realizada por meio de k-fold cross-validation usando a função KFold da biblioteca sklearn. Este exercício reforçará a compreensão do processo de validação cruzada e a importância da escolha de hiperparâmetros no KNN.

### Instruções

## 1. Leitura dos Dados

Primeiro, carregue o dataset de vinhos da UCI utilizando o código abaixo:

In [137]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Exibir as primeiras linhas para verificar o carregamento
vinhos.head()

Unnamed: 0,classe,alcool,acido_malico,cinzas,alcalinidade_de_cinzas,magnesio,fenois_totais,flavanoides,fenois_nao_flavanoides,proantocianinas,intensidade_de_cor,matiz,od280_od315_de_vinhos_diluidos,prolina
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


## 2. Pré-processamento dos Dados

Separe as variáveis da seguinte forma:

X: Todas as colunas, exceto classe;

y: Coluna classe, que será a variável-alvo para a classificação.

In [138]:
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

X.head(), y.head()

(   alcool  acido_malico  cinzas  alcalinidade_de_cinzas  magnesio  \
 0   14.23          1.71    2.43                    15.6       127   
 1   13.20          1.78    2.14                    11.2       100   
 2   13.16          2.36    2.67                    18.6       101   
 3   14.37          1.95    2.50                    16.8       113   
 4   13.24          2.59    2.87                    21.0       118   
 
    fenois_totais  flavanoides  fenois_nao_flavanoides  proantocianinas  \
 0           2.80         3.06                    0.28             2.29   
 1           2.65         2.76                    0.26             1.28   
 2           2.80         3.24                    0.30             2.81   
 3           3.85         3.49                    0.24             2.18   
 4           2.80         2.69                    0.39             1.82   
 
    intensidade_de_cor  matiz  od280_od315_de_vinhos_diluidos  prolina  
 0                5.64   1.04                        

## 3. Configuração do Experimento

Realize três experimentos, alterando o random_state para os valores 42, 17 e 24. Para cada experimento, aplique o KNN com k=3 e k=5.

In [139]:
# Lista dos random_state para os experimentos
random_states = [42, 17, 24]

## 4. Estrutura de Cross-Validation com KFold

Para cada valor de random_state, siga estas instruções:

Use KFold para dividir o dataset em 10 folds, com shuffle=True e o random_state especificado.
Para cada fold, divida os dados em treino e teste.
Treine o classificador KNN para cada valor de k (3 e 5) e avalie o desempenho usando accuracy_score.
Armazene as acurácias de cada fold para calcular a média e o desvio padrão para cada valor de k.
Exemplo de Estrutura para o Código
Aqui está um trecho de código para estruturar o processo de KFold. Este código está incompleto e deve ser complementado pelos alunos, adicionando o treinamento do modelo, as previsões, e o cálculo da acurácia em cada fold.



In [140]:
# Função para realizar o K-Fold Cross-Validation
def kfold_knn(random_state, k_values):
    results = {}
    
    for k in k_values:
        accuracies = []
        
        # Configuração do KFold com 10 splits
        kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
        
        # Realiza o K-Fold Cross-Validation
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]
            
            # Treinamento do KNN
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)
            
            # Previsões e cálculo da acurácia
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)
        
        # Armazenar as médias e desvios padrão das acurácias
        results[k] = {
            'mean_accuracy': np.mean(accuracies),
            'std_accuracy': np.std(accuracies)
        }
    
    return results

## 5. Análise dos Resultados

Após realizar o k-fold cross-validation, siga as instruções abaixo:

Calcule a média e o desvio padrão da acurácia para cada valor de k em cada experimento.
Identifique o melhor valor de k para cada random_state.
Caso haja empate nas acurácias médias para k=3 e k=5, registre o empate nos resultados.

In [None]:
for random_state in random_states:
    print(f"Resultados para random_state = {random_state}:")
    k_values = [3, 5]
    results = kfold_knn(random_state, k_values)
    
    # Exibir os resultados para cada valor de k
    for k in k_values:
        mean_acc = results[k]['mean_accuracy']
        std_acc = results[k]['std_accuracy']
        print(f"k = {k}: Média = {mean_acc:.4f}, Desvio Padrão = {std_acc:.4f}")
    
    # Identificar o melhor valor de k
    best_k = max(k_values, key=lambda k: results[k]['mean_accuracy'])
    best_acc = results[best_k]['mean_accuracy']
    
    # Verificar se há empate
    if results[3]['mean_accuracy'] == results[5]['mean_accuracy']:
        print(f"Empate entre k=3 e k=5: Média de Acurácia = {best_acc:.4f}")
    else:
        print(f"O melhor valor de k é {best_k} com média de acurácia = {best_acc:.4f}")
        print("-" * 80)
    print("-" * 80)

Resultados para random_state = 42:
k = 3: Média = 0.7036, Desvio Padrão = 0.1392
k = 5: Média = 0.6641, Desvio Padrão = 0.1001
O melhor valor de k é 3 com média de acurácia = 0.7036
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Resultados para random_state = 17:
k = 3: Média = 0.6987, Desvio Padrão = 0.1040
k = 5: Média = 0.6876, Desvio Padrão = 0.1121
O melhor valor de k é 3 com média de acurácia = 0.6987
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Resultados para random_state = 24:
k = 3: Média = 0.7127, Desvio Padrão = 0.0968
k = 5: Média = 0.7127, Desvio Padrão = 0.0940
Empate entre k=3 e k=5: Média de Acurácia = 0.7127
--------------------------------------------------------------------------------
