In [2]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# 1. Separação dos Dados em Treino e Teste

In [5]:
from sklearn.model_selection import train_test_split

# Separação dos dados em features (X) e target (y)
X = vinhos.drop('classe', axis=1)  # Features
y = vinhos['classe']  # Target

# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

In [6]:
# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)


#2. Treinamento e Avaliação do Classificador KNN

In [7]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

In [8]:
# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Acurácia do modelo com k=3: 0.7407
Acurácia do modelo com k=5: 0.7407
Ambos os modelos apresentaram o mesmo desempenho.


##3. Análise com Diferentes Valores de random_state

In [18]:
# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=17)

print("Modelo com random_state = 17")

# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")


Modelo com random_state = 17
Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)
Acurácia do modelo com k=3: 0.6481
Acurácia do modelo com k=5: 0.6667
O modelo com k=5 apresentou melhor desempenho.


In [17]:
# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=24)

print("Modelo com random_state = 24")

# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Modelo com random_state = 24
Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)
Acurácia do modelo com k=3: 0.7407
Acurácia do modelo com k=5: 0.6667
O modelo com k=3 apresentou melhor desempenho.


### Análise Comparativa Final

Com base nos experimentos realizados, os desempenhos foram:

1. **Random State = 42**:
   - Acurácia com \( k = 3 \): 0.7407
   - Acurácia com \( k = 5 \): 0.7407
   - **Desempenho:** Ambos os modelos apresentaram o mesmo desempenho.

2. **Random State = 17**:
   - Acurácia com \( k = 3 \): 0.6481
   - Acurácia com \( k = 5 \): 0.6667
   - **Desempenho:** O modelo com \( k = 5 \) foi superior.

3. **Random State = 24**:
   - Acurácia com \( k = 3 \): 0.7407
   - Acurácia com \( k = 5 \): 0.6667
   - **Desempenho:** O modelo com \( k = 3 \) foi superior.

### Configuração de Melhor Desempenho Geral
A melhor configuração geral é escolhida com base na acurácia mais alta entre todos os experimentos:
- A acurácia mais alta foi **0.7407**, obtida por:
  - Ambos os valores de \( k = 3 \) e \( k = 5 \) com **random_state = 42**.
  - \( k = 3 \) com **random_state = 24**.

Portanto:
- **Melhor Random State: 42, pois teve a maior acurácia com os dois "k"**
- **Melhor  k :** \( k = 3 \), pois apresentou alta acurácia tanto para `random_state = 42` quanto `random_state = 24`.

### Conclusão
O modelo KNN com k = 3 e `random_state = 42` ou `random_state = 24` é a configuração mais consistente, atingindo a acurácia máxima de **0.7407**. Por outro lado, k = 5 teve um desempenho levemente inferior e mais variável dependendo do `random_state`.