In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

#**1. Separação dos Dados em Treino e Teste**

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

def avaliar_knn(random_state):
    print(f"\nAvaliação com random_state={random_state}")

    # Separação dos dados
    X = vinhos.drop('classe', axis=1)
    y = vinhos['classe']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

    # Treinamento e Avaliação KNN com k=3
    knn_3 = KNeighborsClassifier(n_neighbors=3)
    knn_3.fit(X_train, y_train)
    y_pred_3 = knn_3.predict(X_test)
    accuracy_3 = accuracy_score(y_test, y_pred_3)
    print(f"Acurácia do modelo KNN com k=3: {accuracy_3:.4f}")

    # Treinamento e Avaliação KNN com k=5
    knn_5 = KNeighborsClassifier(n_neighbors=5)
    knn_5.fit(X_train, y_train)
    y_pred_5 = knn_5.predict(X_test)
    accuracy_5 = accuracy_score(y_test, y_pred_5)
    print(f"Acurácia do modelo KNN com k=5: {accuracy_5:.4f}")

    # Resultados para análise comparativa
    return {"random_state": random_state, "accuracy_k3": accuracy_3, "accuracy_k5": accuracy_5}

Treino de Modelos

In [7]:
# Avaliando o modelo para cada random_state(rs)
resultados = []
for rs in [42, 17, 24]:
    resultados.append(avaliar_knn(rs))


Avaliação com random_state=42
Acurácia do modelo KNN com k=3: 0.7407
Acurácia do modelo KNN com k=5: 0.7407

Avaliação com random_state=17
Acurácia do modelo KNN com k=3: 0.6481
Acurácia do modelo KNN com k=5: 0.6667

Avaliação com random_state=24
Acurácia do modelo KNN com k=3: 0.7407
Acurácia do modelo KNN com k=5: 0.6667


In [9]:
#Comparação

melhor_configuracao = max(resultados, key=lambda x: max(x['accuracy_k3'], x['accuracy_k5']))
melhor_k = 3 if melhor_configuracao['accuracy_k3'] >= melhor_configuracao['accuracy_k5'] else 5

# Exibir o melhor
print("\nMelhor Desempenho:")
for resultado in resultados:
    print(f"random_state={resultado['random_state']} | Acurácia k=3: {resultado['accuracy_k3']:.4f} | Acurácia k=5: {resultado['accuracy_k5']:.4f}")

print(f"\nMelhor configuração geral: random_state={melhor_configuracao['random_state']} com k={melhor_k}, acurácia={max(melhor_configuracao['accuracy_k3'], melhor_configuracao['accuracy_k5']):.4f}")


Melhor Desempenho:
random_state=42 | Acurácia k=3: 0.7407 | Acurácia k=5: 0.7407
random_state=17 | Acurácia k=3: 0.6481 | Acurácia k=5: 0.6667
random_state=24 | Acurácia k=3: 0.7407 | Acurácia k=5: 0.6667

Melhor configuração geral: random_state=42 com k=3, acurácia=0.7407
