In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [2]:
# X: Todas as colunas, exceto classe.
# y: Coluna classe, que será a variável-alvo para a classificação.

X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
  print(f"\nExperimento com random_state = {random_state}")
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state, stratify=y)

  for k in k_values:
    print(f"  KNN com k = {k}")
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"    Acurácia: {accuracy}")


Experimento com random_state = 42
  KNN com k = 3
    Acurácia: 0.6851851851851852
  KNN com k = 5
    Acurácia: 0.7222222222222222

Experimento com random_state = 17
  KNN com k = 3
    Acurácia: 0.7592592592592593
  KNN com k = 5
    Acurácia: 0.7592592592592593

Experimento com random_state = 24
  KNN com k = 3
    Acurácia: 0.7037037037037037
  KNN com k = 5
    Acurácia: 0.6851851851851852


In [4]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})
# X: Todas as colunas, exceto classe.
# y: Coluna classe, que será a variável-alvo para a classificação.

X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
    print(f"\nExperimento com random_state = {random_state}")

    for k in k_values:
        print(f"  KNN com k = {k}")
        accuracies = []
        kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        print(f"    Acurácia Média: {mean_accuracy:.4f}")
        print(f"    Desvio Padrão da Acurácia: {std_accuracy:.4f}")


Experimento com random_state = 42
  KNN com k = 3
    Acurácia Média: 0.7036
    Desvio Padrão da Acurácia: 0.1392
  KNN com k = 5
    Acurácia Média: 0.6641
    Desvio Padrão da Acurácia: 0.1001

Experimento com random_state = 17
  KNN com k = 3
    Acurácia Média: 0.6987
    Desvio Padrão da Acurácia: 0.1040
  KNN com k = 5
    Acurácia Média: 0.6876
    Desvio Padrão da Acurácia: 0.1121

Experimento com random_state = 24
  KNN com k = 3
    Acurácia Média: 0.7127
    Desvio Padrão da Acurácia: 0.0968
  KNN com k = 5
    Acurácia Média: 0.7127
    Desvio Padrão da Acurácia: 0.0940


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

# ... (código anterior permanece inalterado)

results = {}

for random_state in random_states:
    results[random_state] = {}
    print(f"\nExperimento com random_state = {random_state}")

    for k in k_values:
        print(f"  KNN com k = {k}")
        accuracies = []
        kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        print(f"    Acurácia Média: {mean_accuracy:.4f}")
        print(f"    Desvio Padrão da Acurácia: {std_accuracy:.4f}")
        results[random_state][k] = mean_accuracy

# Identificando o melhor k para cada random_state
for random_state, k_results in results.items():
    best_k = max(k_results, key=k_results.get)
    if k_results[3] == k_results[5]:
      print(f"\nMelhor k para random_state = {random_state}: Empate entre k=3 e k=5, com acurácia média de {k_results[3]:.4f}")
    else:
      print(f"\nMelhor k para random_state = {random_state}: {best_k} com acurácia média de {k_results[best_k]:.4f}")


Experimento com random_state = 42
  KNN com k = 3
    Acurácia Média: 0.7036
    Desvio Padrão da Acurácia: 0.1392
  KNN com k = 5
    Acurácia Média: 0.6641
    Desvio Padrão da Acurácia: 0.1001

Experimento com random_state = 17
  KNN com k = 3
    Acurácia Média: 0.6987
    Desvio Padrão da Acurácia: 0.1040
  KNN com k = 5
    Acurácia Média: 0.6876
    Desvio Padrão da Acurácia: 0.1121

Experimento com random_state = 24
  KNN com k = 3
    Acurácia Média: 0.7127
    Desvio Padrão da Acurácia: 0.0968
  KNN com k = 5
    Acurácia Média: 0.7127
    Desvio Padrão da Acurácia: 0.0940

Melhor k para random_state = 42: 3 com acurácia média de 0.7036

Melhor k para random_state = 17: 3 com acurácia média de 0.6987

Melhor k para random_state = 24: Empate entre k=3 e k=5, com acurácia média de 0.7127
