In [1]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separando X e y
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Valores de random_state e k para os experimentos
random_states = [42, 17, 24]
k_values = [3, 5]

# Resultados finais
resultados_finais = {}

# Loop pelos random_states
for random_state in random_states:
    resultados_k = {}
    # Configuração do KFold
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)

    # Loop pelos valores de k
    for k in k_values:
        acuracias = []
        # Cross-validation
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            # Treinamento do KNN
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)

            # Previsões e cálculo da acurácia
            y_pred = knn.predict(X_test)
            acuracia = accuracy_score(y_test, y_pred)
            acuracias.append(acuracia)

        # Armazenando os resultados
        resultados_k[f'k={k}'] = {
            'media': np.mean(acuracias),
            'desvio_padrao': np.std(acuracias)
        }

    # Armazenando resultados por random_state
    resultados_finais[random_state] = resultados_k

# Exibindo resultados
for random_state, valores in resultados_finais.items():
    print(f"Resultados para random_state={random_state}:")
    for k, stats in valores.items():
        print(f"  {k}: Média={stats['media']:.4f}, Desvio Padrão={stats['desvio_padrao']:.4f}")
    print()


Resultados para random_state=42:
  k=3: Média=0.7036, Desvio Padrão=0.1392
  k=5: Média=0.6641, Desvio Padrão=0.1001

Resultados para random_state=17:
  k=3: Média=0.6987, Desvio Padrão=0.1040
  k=5: Média=0.6876, Desvio Padrão=0.1121

Resultados para random_state=24:
  k=3: Média=0.7127, Desvio Padrão=0.0968
  k=5: Média=0.7127, Desvio Padrão=0.0940

