### 1: Configuração do Ambiente e Carregamento dos Dados

In [22]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from collections import Counter


url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'


column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]


vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})


print(vinhos.head())
print(vinhos.info())


  classe  alcool  acido_malico  cinzas  alcalinidade_de_cinzas  magnesio  \
0      1   14.23          1.71    2.43                    15.6       127   
1      1   13.20          1.78    2.14                    11.2       100   
2      1   13.16          2.36    2.67                    18.6       101   
3      1   14.37          1.95    2.50                    16.8       113   
4      1   13.24          2.59    2.87                    21.0       118   

   fenois_totais  flavanoides  fenois_nao_flavanoides  proantocianinas  \
0           2.80         3.06                    0.28             2.29   
1           2.65         2.76                    0.26             1.28   
2           2.80         3.24                    0.30             2.81   
3           3.85         3.49                    0.24             2.18   
4           2.80         2.69                    0.39             1.82   

   intensidade_de_cor  matiz  od280_od315_de_vinhos_diluidos  prolina  
0                5.64   1.

### 2: Separação dos Dados

In [23]:
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


### 3: Treinamento e Avaliação do Modelo

In [24]:
def train_and_evaluate_knn(X_train, X_test, y_train, y_test, k):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    return accuracy


accuracy_k3 = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k=3)
accuracy_k5 = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k=5)


print(f"Acurácia com k=3: {accuracy_k3:.2%}")
print(f"Acurácia com k=5: {accuracy_k5:.2%}")

if accuracy_k3 > accuracy_k5:
    print(f"O modelo com k=3 obteve melhor desempenho, com uma acurácia de {accuracy_k3:.2%},")
    print(f"superando o modelo com k=5, que teve uma acurácia de {accuracy_k5:.2%}. 🚀")
elif accuracy_k3 < accuracy_k5:
    print(f"O modelo com k=5 obteve melhor desempenho, com uma acurácia de {accuracy_k5:.2%},")
    print(f"superando o modelo com k=3, que teve uma acurácia de {accuracy_k3:.2%}. 🌟")
else:
    print(f"Ambos os modelos com k=3 e k=5 apresentaram o mesmo desempenho, com uma acurácia de {accuracy_k3:.2%}. 🤝")


Acurácia com k=3: 74.07%
Acurácia com k=5: 74.07%
Ambos os modelos com k=3 e k=5 apresentaram o mesmo desempenho, com uma acurácia de 74.07%. 🤝


### 4: Análise com Diferentes Valores de random_state

In [25]:
random_states = [17, 24, 42]
results = []


for rs in random_states:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=rs)

    accuracy_k3 = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k=3)
    accuracy_k5 = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k=5)

    results.append({
        'random_state': rs,
        'accuracy_k3': accuracy_k3,
        'accuracy_k5': accuracy_k5
    })


print("Resultados dos Experimentos com Diferentes random_state:")
print("=" * 50)

for i, result in enumerate(results, start=1):
    print(f"Experimento {i}:")
    print(f"  Random State: {result['random_state']}")
    print(f"  Acurácia com k=3: {result['accuracy_k3']:.2%}")
    print(f"  Acurácia com k=5: {result['accuracy_k5']:.2%}")
    
    if result['accuracy_k3'] > result['accuracy_k5']:
        print("  ➡️ Melhor desempenho: Modelo com k=3")
    elif result['accuracy_k3'] < result['accuracy_k5']:
        print("  ➡️ Melhor desempenho: Modelo com k=5")
    else:
        print("  ➡️ Ambos os modelos apresentaram o mesmo desempenho")
    
    print("-" * 50)


Resultados dos Experimentos com Diferentes random_state:
Experimento 1:
  Random State: 17
  Acurácia com k=3: 64.81%
  Acurácia com k=5: 66.67%
  ➡️ Melhor desempenho: Modelo com k=5
--------------------------------------------------
Experimento 2:
  Random State: 24
  Acurácia com k=3: 74.07%
  Acurácia com k=5: 66.67%
  ➡️ Melhor desempenho: Modelo com k=3
--------------------------------------------------
Experimento 3:
  Random State: 42
  Acurácia com k=3: 74.07%
  Acurácia com k=5: 74.07%
  ➡️ Ambos os modelos apresentaram o mesmo desempenho
--------------------------------------------------


### 5: Comparação Final

In [26]:
final_results = {}

for random_state in [17, 24, 42]: 
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)
    for k in [3, 5]:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        final_results[(random_state, k)] = accuracy


best_random_state, best_k = max(final_results, key=final_results.get)
best_accuracy = final_results[(best_random_state, best_k)]


print("\n=============================================")
print(f"Melhor configuração: random_state = {best_random_state}, k = {best_k}, Acurácia = {best_accuracy:.2%}")
print("=============================================")



Melhor configuração: random_state = 24, k = 3, Acurácia = 74.07%
