In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separar as variáveis
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']


In [2]:
# Configurando os random_states e valores de k para os experimentos
random_states = [42, 17, 24]
k_values = [3, 5]


In [3]:
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# Função para realizar a avaliação com KFold
def evaluate_knn(random_state, k_values):
    results = {}

    # KFold com 10 splits
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)

    for k in k_values:
        accuracies = []

        # Loop sobre os folds
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            # Treinamento do modelo KNN
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)

            # Previsões e cálculo da acurácia
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        # Média e desvio padrão das acurácias para o valor de k
        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        results[k] = {'mean_accuracy': mean_accuracy, 'std_accuracy': std_accuracy}

    return results


In [4]:
# Resultados para cada random_state
for random_state in random_states:
    print(f"Random State: {random_state}")
    results = evaluate_knn(random_state, k_values)

    for k in k_values:
        print(f"  k={k} -> Média de Acurácia: {results[k]['mean_accuracy']:.4f}, Desvio Padrão: {results[k]['std_accuracy']:.4f}")

    print()  # Separação entre os resultados de cada random_state


Random State: 42
  k=3 -> Média de Acurácia: 0.7036, Desvio Padrão: 0.1392
  k=5 -> Média de Acurácia: 0.6641, Desvio Padrão: 0.1001

Random State: 17
  k=3 -> Média de Acurácia: 0.6987, Desvio Padrão: 0.1040
  k=5 -> Média de Acurácia: 0.6876, Desvio Padrão: 0.1121

Random State: 24
  k=3 -> Média de Acurácia: 0.7127, Desvio Padrão: 0.0968
  k=5 -> Média de Acurácia: 0.7127, Desvio Padrão: 0.0940

