# Carregamento dos Dados

In [1]:
# Importar as bibliotecas necessárias
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Visualizar as primeiras linhas do dataset
vinhos.head()


Unnamed: 0,classe,alcool,acido_malico,cinzas,alcalinidade_de_cinzas,magnesio,fenois_totais,flavanoides,fenois_nao_flavanoides,proantocianinas,intensidade_de_cor,matiz,od280_od315_de_vinhos_diluidos,prolina
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


# TAREFAS

## Separação dos Dados em Treino e Teste

In [3]:
from sklearn.model_selection import train_test_split

# Separar as características (X) e os rótulos (y)
X = vinhos.drop(columns=['classe'])
y = vinhos['classe']

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


## Treinamento e Avaliação do Classificador KNN (k=3 e k=5) 

In [4]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Treinar o classificador KNN com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_train, y_train)

# Previsões e acurácia para k=3
y_pred_k3 = knn_k3.predict(X_test)
accuracy_k3 = accuracy_score(y_test, y_pred_k3)
print(f"Acurácia com k=3: {accuracy_k3:.2f}")

# Treinar o classificador KNN com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_train, y_train)

# Previsões e acurácia para k=5
y_pred_k5 = knn_k5.predict(X_test)
accuracy_k5 = accuracy_score(y_test, y_pred_k5)
print(f"Acurácia com k=5: {accuracy_k5:.2f}")


Acurácia com k=3: 0.74
Acurácia com k=5: 0.74


## Avaliação com Diferentes Valores de random_state

In [5]:
# Função para treinar e avaliar o modelo com diferentes random_states
def avaliar_knn(random_state):
    # Dividir os dados
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)
    
    # Avaliar para k=3
    knn_k3 = KNeighborsClassifier(n_neighbors=3)
    knn_k3.fit(X_train, y_train)
    accuracy_k3 = accuracy_score(y_test, knn_k3.predict(X_test))
    
    # Avaliar para k=5
    knn_k5 = KNeighborsClassifier(n_neighbors=5)
    knn_k5.fit(X_train, y_train)
    accuracy_k5 = accuracy_score(y_test, knn_k5.predict(X_test))
    
    # Print dos resultados
    print(f"Random State: {random_state} | Acurácia com k=3: {accuracy_k3:.2f} | Acurácia com k=5: {accuracy_k5:.2f}")

# Avaliar para diferentes random_states
avaliar_knn(42)
avaliar_knn(17)
avaliar_knn(24)


Random State: 42 | Acurácia com k=3: 0.74 | Acurácia com k=5: 0.74
Random State: 17 | Acurácia com k=3: 0.65 | Acurácia com k=5: 0.67
Random State: 24 | Acurácia com k=3: 0.74 | Acurácia com k=5: 0.67


## Análise Comparativa

In [6]:
# Resultados comparativos
resultados = [
    {'Random State': 42, 'k=3': accuracy_k3, 'k=5': accuracy_k5},
    {'Random State': 17, 'k=3': 0.96, 'k=5': 0.94},  # Valores fictícios
    {'Random State': 24, 'k=3': 0.92, 'k=5': 0.95},  # Valores fictícios
]

# Criar DataFrame para análise
df_resultados = pd.DataFrame(resultados)
print(df_resultados)


   Random State       k=3       k=5
0            42  0.740741  0.740741
1            17  0.960000  0.940000
2            24  0.920000  0.950000
