In [6]:
# Importando bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Função para treinar e avaliar o modelo com diferentes valores de random_state e k
def avalia_knn(vinhos, random_states, ks):
    resultados = []
    for random_state in random_states:
        # Divisão dos dados em treino e teste
        X = vinhos.iloc[:, 1:]  # Características
        y = vinhos['classe']   # Classe
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

        for k in ks:
            # Treinamento do classificador KNN
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)

            # Avaliação do modelo
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)

            # Registro dos resultados
            resultados.append({'random_state': random_state, 'k': k, 'accuracy': accuracy})

    return pd.DataFrame(resultados)

# Parâmetros do experimento
random_states = [42, 17, 24]
ks = [3, 5]

# Avaliação dos modelos
resultados = avalia_knn(vinhos, random_states, ks)

# Resultados
print("Resultados do Experimento:")
print(resultados)

# Análise dos melhores resultados
melhor_configuracao = resultados.loc[resultados['accuracy'].idxmax()]
print("\nMelhor Configuração:")
print(f"Random State: {melhor_configuracao['random_state']}, k: {melhor_configuracao['k']}, Acurácia: {melhor_configuracao['accuracy']:.4f}")

# Análise comparativa
print("\nAnálise Comparativa:")
for random_state in random_states:
    print(f"\nRandom State: {random_state}")
    sub_resultados = resultados[resultados['random_state'] == random_state]
    for k in ks:
        acc = sub_resultados[sub_resultados['k'] == k]['accuracy'].values[0]
        print(f"k = {k}, Acurácia: {acc:.4f}")


Resultados do Experimento:
   random_state  k  accuracy
0            42  3  0.740741
1            42  5  0.740741
2            17  3  0.648148
3            17  5  0.666667
4            24  3  0.740741
5            24  5  0.666667

Melhor Configuração:
Random State: 42.0, k: 3.0, Acurácia: 0.7407

Análise Comparativa:

Random State: 42
k = 3, Acurácia: 0.7407
k = 5, Acurácia: 0.7407

Random State: 17
k = 3, Acurácia: 0.6481
k = 5, Acurácia: 0.6667

Random State: 24
k = 3, Acurácia: 0.7407
k = 5, Acurácia: 0.6667
