In [6]:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 1. Leitura dos Dados
# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe', 'alcool', 'acido_malico', 'cinzas', 'alcalinidade_de_cinzas', 'magnesio',
    'fenois_totais', 'flavanoides', 'fenois_nao_flavanoides', 'proantocianinas', 'intensidade_de_cor',
    'matiz', 'od280_od315_de_vinhos_diluidos', 'prolina'
]


vinhos = pd.read_csv(url, names=column_names_pt_br)


vinhos.head()

# 2. Pré-processamento dos Dados
# Separando X (variáveis independentes) e y (variável dependente - classe)
X = vinhos.drop(columns='classe')
y = vinhos['classe']

# 3. Função para avaliar o modelo KNN usando K-Fold Cross-Validation
def avaliar_knn(X, y, random_state, ks=[3, 5]):
    resultados = {}

    
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)

    
    for k in ks:
        acuracias = []

       
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)

            # Previsões
            y_pred = knn.predict(X_test)

            # Acurácia
            acuracia = accuracy_score(y_test, y_pred)
            acuracias.append(acuracia)

        # Calculando a média e desvio padrão da acurácia
        media_acuracia = np.mean(acuracias)
        desvio_acuracia = np.std(acuracias)

        
        resultados[k] = {
            'media': media_acuracia,
            'desvio': desvio_acuracia
        }

    return resultados

# 4. Configuração do Experimento com diferentes random_states
random_states = [42, 17, 24]

resultados_experimentos = {}

for random_state in random_states:
    print(f"\nAvaliando para random_state = {random_state}")
    resultados_experimentos[random_state] = avaliar_knn(X, y, random_state)


for random_state, resultados in resultados_experimentos.items():
    print(f"\nResultados para random_state = {random_state}")

    
    for k, metrics in resultados.items():
        print(f"K = {k}: Média = {metrics['media']:.4f}, Desvio = {metrics['desvio']:.4f}")

    
    melhor_k = max(resultados, key=lambda k: resultados[k]['media'])
    print(f"Melhor valor de k: {melhor_k}")

# 5. Análise Final dos Resultados


for random_state, resultados in resultados_experimentos.items():
    print(f"\nAnalisando os resultados para random_state = {random_state}:")

    # Identificar o melhor k
    melhor_k = max(resultados, key=lambda k: resultados[k]['media'])
    media_k3 = resultados[3]['media']
    media_k5 = resultados[5]['media']

    if media_k3 == media_k5:
        print(f"Houve empate entre k=3 e k=5 com média {media_k3:.4f}")
    else:
        print(f"O melhor valor de k é {melhor_k} para random_state = {random_state}")



Avaliando para random_state = 42

Avaliando para random_state = 17

Avaliando para random_state = 24

Resultados para random_state = 42
K = 3: Média = 0.7036, Desvio = 0.1392
K = 5: Média = 0.6641, Desvio = 0.1001
Melhor valor de k: 3

Resultados para random_state = 17
K = 3: Média = 0.6987, Desvio = 0.1040
K = 5: Média = 0.6876, Desvio = 0.1121
Melhor valor de k: 3

Resultados para random_state = 24
K = 3: Média = 0.7127, Desvio = 0.0968
K = 5: Média = 0.7127, Desvio = 0.0940
Melhor valor de k: 3

Analisando os resultados para random_state = 42:
O melhor valor de k é 3 para random_state = 42

Analisando os resultados para random_state = 17:
O melhor valor de k é 3 para random_state = 17

Analisando os resultados para random_state = 24:
Houve empate entre k=3 e k=5 com média 0.7127
