In [3]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [4]:

from sklearn.model_selection import train_test_split


def dividir_treino_teste(vinhos, random_state):
    X = vinhos.iloc[:, 1:]
    y = vinhos['classe']
    return train_test_split(X, y, test_size=0.3, random_state=random_state)


random_states = [42, 17, 24]
splits = {rs: dividir_treino_teste(vinhos, rs) for rs in random_states}


for rs, (X_train, X_test, y_train, y_test) in splits.items():
    print(f"Random State {rs} -> Treino: {X_train.shape}, Teste: {X_test.shape}")


Random State 42 -> Treino: (124, 13), Teste: (54, 13)
Random State 17 -> Treino: (124, 13), Teste: (54, 13)
Random State 24 -> Treino: (124, 13), Teste: (54, 13)


In [5]:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


def treinar_avaliar_knn(X_train, X_test, y_train, y_test, k):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    return accuracy_score(y_test, y_pred)


ks = [3, 5]
resultados = []

for rs, (X_train, X_test, y_train, y_test) in splits.items():
    for k in ks:
        acc = treinar_avaliar_knn(X_train, X_test, y_train, y_test, k)
        resultados.append((rs, k, acc))
        print(f"Random State {rs}, k={k}, Acurácia={acc:.4f}")


Random State 42, k=3, Acurácia=0.7407
Random State 42, k=5, Acurácia=0.7407
Random State 17, k=3, Acurácia=0.6481
Random State 17, k=5, Acurácia=0.6667
Random State 24, k=3, Acurácia=0.7407
Random State 24, k=5, Acurácia=0.6667


In [6]:


df_resultados = pd.DataFrame(resultados, columns=['Random State', 'k', 'Acurácia'])


melhor_resultado = df_resultados.loc[df_resultados['Acurácia'].idxmax()]
print("\nResultados gerais:")
print(df_resultados)
print("\nMelhor configuração:")
print(melhor_resultado)



Resultados gerais:
   Random State  k  Acurácia
0            42  3  0.740741
1            42  5  0.740741
2            17  3  0.648148
3            17  5  0.666667
4            24  3  0.740741
5            24  5  0.666667

Melhor configuração:
Random State    42.000000
k                3.000000
Acurácia         0.740741
Name: 0, dtype: float64
