# Exercício Prático - Classificação de Vinhos com KNN
Este notebook implementa um classificador KNN para prever classes de vinhos,
explorando diferentes valores de $k$ e random_state.

In [None]:
# Importação de bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [None]:
# ---
# Etapa 1: Carregar o dataset
# ---
# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Exibir uma amostra dos dados
vinhos.head()

In [None]:
# ---
# Etapa 2: Separação dos dados em treino e teste
# ---
# Separar as features (X) e o alvo (y)
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Divisão inicial dos dados (random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"Tamanho do conjunto de treino: {X_train.shape}")
print(f"Tamanho do conjunto de teste: {X_test.shape}")

In [None]:
# ---
# Etapa 3: Treinamento e Avaliação do Classificador KNN
# ---
# Treinar KNN com k=3
knn3 = KNeighborsClassifier(n_neighbors=3)
knn3.fit(X_train, y_train)
y_pred3 = knn3.predict(X_test)
accuracy_k3 = accuracy_score(y_test, y_pred3)

# Treinar KNN com k=5
knn5 = KNeighborsClassifier(n_neighbors=5)
knn5.fit(X_train, y_train)
y_pred5 = knn5.predict(X_test)
accuracy_k5 = accuracy_score(y_test, y_pred5)

print(f"Acurácia com k=3 (random_state=42): {accuracy_k3:.2f}")
print(f"Acurácia com k=5 (random_state=42): {accuracy_k5:.2f}")

In [None]:
# ---
# Etapa 4: Análise com diferentes random_state
# ---
random_states = [17, 24]
results = []

for random_state in random_states:
    # Divisão dos dados
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)
    
    # Modelo com k=3
    knn3 = KNeighborsClassifier(n_neighbors=3)
    knn3.fit(X_train, y_train)
    accuracy_k3 = accuracy_score(y_test, knn3.predict(X_test))
    
    # Modelo com k=5
    knn5 = KNeighborsClassifier(n_neighbors=5)
    knn5.fit(X_train, y_train)
    accuracy_k5 = accuracy_score(y_test, knn5.predict(X_test))
    
    # Salvar os resultados
    results.append({
        'random_state': random_state,
        'accuracy_k3': accuracy_k3,
        'accuracy_k5': accuracy_k5
    })

# Converter resultados para DataFrame
df_results = pd.DataFrame(results)

# Exibir resultados comparativos
df_results