#**Notebook 10**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
No notebook 10 iremos aprender sobre o algoritmo KNearest Neighbors para tarefas de classificação.


##Importação da bibliotecas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import neighbors
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
from sklearn.model_selection import GridSearchCV

##Carregando a base de dados através do SKLearn

In [None]:
wine = datasets.load_wine()

##Lendo a base de dados com o Pandas

In [None]:
# Criando o DataFrame
df_wine = pd.DataFrame(data=wine.data,columns=wine.feature_names)
# Criando a coluna com os valores da variável target.
df_wine['class'] = wine.target

df_wine.head().T

##Verificando informações da base de dados

In [None]:
df_wine.info()

In [None]:
df_wine['class'].value_counts()

##Separando os dados de treino e teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df_wine.drop('class',axis=1), df_wine['class'], test_size=0.3)

##Alguns parâmetros interessantes:
n_neighbors: Número de vizinhos (default = 5), é o parâmetro K que vimos na parte de funcionamento do algoritmo.

Weights: Peso de amostras vizinhas (default = uniform).

metric: Métrica utilizada para o cálculo de distância (default = minkowski), temos outras métricas como a distância Hamming, Manhattan e a Markowski.

p: Parâmetro de poder para a métrica (default = 2), essa valor varia de acordo com a métrica de distância escolhida.

n_jobs: Número de jobs paralelos para executar no momento da busca de vizinhos (default = 1). Com esse parâmetro podemos definir quantas cpu queremos usar para fazer o processo de predição.

##Criando modelo e treinando modelo

In [None]:
# Definindo o número de vizinhos.
knn = KNeighborsClassifier(n_neighbors=3) #O número de vizinhos é o número de classes

knn.fit(X_train, y_train) #Realiza o treinamento do modelo

##Realizando predições

In [None]:
resultado = knn.predict(X_test)
resultado

##Plotando matriz de confusão

In [None]:
print (pd.crosstab(y_test,resultado, rownames=['Real'], colnames=['Predito'], margins=True))

##Plotando métricas de avaliações

In [None]:
print(metrics.classification_report(y_test,resultado,target_names=wine.target_names))

##Otimizando o parâmetro k utilizando o GridSearch

In [None]:
# Definindo a lista de valores.
k_list = list(range(1,31))

# Colocamos os valores em um dicionário
parametros = dict(n_neighbors=k_list)

grid = GridSearchCV(knn, parametros, cv=5, scoring='accuracy')

grid.fit(df_wine.drop('class',axis=1),df_wine['class'])

print("Melhores parametros {} com o valor de acurácia {} ".format(grid.best_params_,grid.best_score_))

scores = grid.cv_results_
#print(type(scores))
#print(scores.items)
set_dados = scores.setdefault('mean_test_score')
#set_dados
#print(scores.mean_test_score)
plt.figure(figsize=(10,6))
plt.plot(k_list, set_dados, color='red', linestyle='dashed', marker='o')