In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [9]:
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

In [None]:
random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
  print(f"Experimento com random_state = {random_state}")
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

  for k in k_values:
    print(f"  KNN com k = {k}")
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"    Acurácia: {accuracy}")

In [None]:
random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
  print(f"Experimento com random_state = {random_state}")
  kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
  for k in k_values:
    print(f"  KNN com k = {k}")
    accuracies = []
    for train_index, test_index in kf.split(X):
      X_train, X_test = X.iloc[train_index], X.iloc[test_index]
      y_train, y_test = y.iloc[train_index], y.iloc[test_index]
      knn = KNeighborsClassifier(n_neighbors=k)
      knn.fit(X_train, y_train)
      y_pred = knn.predict(X_test)
      accuracy = accuracy_score(y_test, y_pred)
      accuracies.append(accuracy)

    mean_accuracy = np.mean(accuracies)
    std_accuracy = np.std(accuracies)
    print(f"    Acurácia média: {mean_accuracy}")
    print(f"    Desvio padrão da acurácia: {std_accuracy}")

In [30]:
random_states = [42, 17, 24]
k_values = [3, 5]
results = {}

# aqui o código vai realizar cada k_values pelo laço de repetição dentro do outro laço
for random_state in random_states:
  results[random_state] = {}
  print(f"Experimento com random_state = {random_state}")
  kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
  # aqui o código vai realizar cada k_values pelo laço de repetição dentro do outro laço
  for k in k_values:
    print(f"  KNN com k = {k}")
    accuracies = []
    # aqui ele realiza a validação cruzada
    for train_index, test_index in kf.split(X):
      X_train, X_test = X.iloc[train_index], X.iloc[test_index]
      y_train, y_test = y.iloc[train_index], y.iloc[test_index]
      knn = KNeighborsClassifier(n_neighbors=k)
      knn.fit(X_train, y_train)
      y_pred = knn.predict(X_test)
      accuracy = accuracy_score(y_test, y_pred)
      accuracies.append(accuracy)

    # definindo e mostrando as médias aritméticas e desvio padrão
    mean_accuracy = np.mean(accuracies)
    std_accuracy = np.std(accuracies)
    print(f"    Acurácia média: {mean_accuracy}")
    print(f"    Desvio padrão da acurácia: {std_accuracy}")
    results[random_state][k] = mean_accuracy

# aqui ele identifica o melhor valor de k para o Knn de cada random_state
for random_state, k_results in results.items():
  best_k = max(k_results, key=k_results.get)
  # mostrando os KNN de melhor resultado para cada random_state
  print(f"\nMelhor valor de k para random_state {random_state}:")
  if k_results[3] == k_results[5]:
      print("Ambos possuem resultados iguais")
  else:
      print(f"  KNN com k = {best_k}")

Experimento com random_state = 42
  KNN com k = 3
    Acurácia média: 0.70359477124183
    Desvio padrão da acurácia: 0.13918691592617136
  KNN com k = 5
    Acurácia média: 0.6640522875816993
    Desvio padrão da acurácia: 0.10007472964927165
Experimento com random_state = 17
  KNN com k = 3
    Acurácia média: 0.6986928104575163
    Desvio padrão da acurácia: 0.10403044405660643
  KNN com k = 5
    Acurácia média: 0.6875816993464052
    Desvio padrão da acurácia: 0.11211770116307625
Experimento com random_state = 24
  KNN com k = 3
    Acurácia média: 0.7127450980392157
    Desvio padrão da acurácia: 0.09681644876344142
  KNN com k = 5
    Acurácia média: 0.7127450980392157
    Desvio padrão da acurácia: 0.09397285976504524

Melhor valor de k para random_state 42:
  KNN com k = 3

Melhor valor de k para random_state 17:
  KNN com k = 3

Melhor valor de k para random_state 24:
Ambos possuem resultados iguais
