# Exercício Prático: Classificação de Vinhos - KNN com Variação de Parâmetros
## Objetivo
Neste exercício, você irá treinar e avaliar um classificador KNN (K-Nearest Neighbors) para prever a classe de vinhos com base em suas características químicas. O dataset contém informações de diferentes tipos de vinhos e está disponível no UCI Machine Learning Repository. O objetivo é explorar o desempenho do classificador com diferentes valores de ( k ) e diferentes seeds (valores de `random_state`) para a divisão dos dados em treino e teste.

## Instruções
1. Carregamento dos Dados
* Carregue os dados do dataset de vinhos da UCI utilizando o código abaixo para garantir a consistência dos nomes das colunas e tipos de dados.
```python
import pandas as pd
# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]
# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})
```


## Tarefas
1. Separação dos Dados em Treino e Teste
* Divida o conjunto de dados em treino e teste, utilizando uma proporção de 70% para treino e 30% para teste.
* Defina `random_state=42` para garantir a replicabilidade dos resultados.
2. Treinamento e Avaliação do Classificador KNN
* Treine um classificador KNN com ( k = 3 ) `n_neighbors=3` e avalie sua acurácia no conjunto de teste.
* Em seguida, treine um segundo classificador KNN com ( k = 5 ) e avalie sua acurácia no conjunto de teste.
* Apresente (print) o valor de `accuracy_score` para cada experimento e para cada modelo com ( k = 3 ) e ( k = 5 ).
* Compare os resultados para identificar qual dos modelos (com ( k = 3 ) ou ( k = 5 )) apresenta melhor desempenho.

Dica: Use a biblioteca `scikit-learn` para implementar e avaliar o modelo, utilizando `KNeighborsClassifier` para o treinamento e `accuracy_score` para a avaliação.
```python
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
```
3. Análise com Diferentes Valores de random_state
* Repita o procedimento acima (divisão dos dados, treinamento e avaliação dos modelos com ( k = 3 ) e ( k = 5 )) para os seguintes valores de `random_state`: 17 e 24.
* Para cada `random_state`, registre e apresente (print) a acurácia obtida com ( k = 3 ) e ( k = 5 ) e compare os resultados.
4. Comparação Final
* Ao final, faça uma análise comparativa dos três experimentos, considerando os diferentes valores de `random_state` e de ( k ).
* Indique qual configuração de `random_state` e ( k ) obteve o melhor desempenho geral.
## Observações
* Faça a entrega do código como Notebook (.ipynb).
* Use o Google Colab para desenvolvimento e submissão.
* Certifique-se de comentar e organizar seu código, e de incluir explicações sobre cada etapa.
* Inclua gráficos e tabelas (se necessário) para facilitar a interpretação dos resultados.
* Utilize o espaço de discussão desta issue para compartilhar dúvidas ou dificuldades.

Boa sorte e bons estudos!

In [9]:
import pandas as pd
# URL do dataset Wine
url='https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
# Nome das colunas em português BR
column_names_pt_br=[
  'classe',
  'alcool',
  'acido_malico',
  'cinzas',
  'alcalinidade_de_cinzas',
  'magnesio',
  'fenois_totais',
  'flavanoides',
  'fenois_nao_flavanoides',
  'proantocianinas',
  'intensidade_de_cor',
  'matiz',
  'od280_od315_de_vinhos_diluidos',
  'prolina'
]
# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos=pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [60]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

results=[]

X=vinhos[vinhos.columns[1:]]
Y=vinhos['classe']

for rs in [42,17,24]:
  X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.3,random_state=rs)
  for k in [3,5]:
    experiment=dict()
    experiment['random_state']=rs
    experiment['n_neighbors']=k
    model=KNeighborsClassifier(n_neighbors=k)
    model.fit(X_train,Y_train)
    model.predict(X_test)
    accuracy=accuracy_score(Y_test,model.predict(X_test))
    experiment['accuracy']=accuracy
    results.append(experiment)

    print(rs,k,accuracy)

42 3 0.7407407407407407
42 5 0.7407407407407407
17 3 0.6481481481481481
17 5 0.6666666666666666
24 3 0.7407407407407407
24 5 0.6666666666666666


In [69]:
import json
results.sort(key=lambda x:x['accuracy'],reverse=True)
results_json=json.dumps(results,indent=2)
print('Resultados Obtidos:',
  results_json)

Resultados Obtidos: [
  {
    "random_state": 42,
    "n_neighbors": 3,
    "accuracy": 0.7407407407407407
  },
  {
    "random_state": 42,
    "n_neighbors": 5,
    "accuracy": 0.7407407407407407
  },
  {
    "random_state": 24,
    "n_neighbors": 3,
    "accuracy": 0.7407407407407407
  },
  {
    "random_state": 17,
    "n_neighbors": 5,
    "accuracy": 0.6666666666666666
  },
  {
    "random_state": 24,
    "n_neighbors": 5,
    "accuracy": 0.6666666666666666
  },
  {
    "random_state": 17,
    "n_neighbors": 3,
    "accuracy": 0.6481481481481481
  }
]


In [88]:
from collections import Counter
nth_highest=list(Counter(result['accuracy'] for result in results).values())[0]
highest_results=results[:nth_Highest]
highest_results_json=json.dumps(highest_results,indent=2)
print('Melhores Configurações para Treino:',
      highest_results_json)

Melhores Configurações para Treino: [
  {
    "random_state": 42,
    "n_neighbors": 3,
    "accuracy": 0.7407407407407407
  },
  {
    "random_state": 42,
    "n_neighbors": 5,
    "accuracy": 0.7407407407407407
  },
  {
    "random_state": 24,
    "n_neighbors": 3,
    "accuracy": 0.7407407407407407
  }
]
