#Algoritmo KNN voltado para problemas de classificação
#**Notebook 11**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
No notebook 11 iremos aprender sobre o algoritmo KNearest Neighbors para tarefas de classificação..


##Importação das bibliotecas

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

from google.colab import files

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

from sklearn.model_selection import GridSearchCV

#plt.style.use("seaborn")

##Organização dos dados

In [None]:
df_iris = pd.read_csv("Iris.csv")

#Remove a coluna ID
df_iris = df_iris.drop(df_iris.columns[0],axis=1)
df_iris.reset_index

#Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df_iris.drop(df_iris.columns[4],axis=1), df_iris['Species'], test_size=0.3)

df_iris.head()

##Implementação do algoritmo

In [None]:
knn_minkowski = KNeighborsClassifier(n_neighbors=1, metric='minkowski')
knn_euclidean = KNeighborsClassifier(n_neighbors=1, metric='euclidean')
knn_manhattan = KNeighborsClassifier(n_neighbors=1, metric='manhattan')
knn_hamming = KNeighborsClassifier(n_neighbors=1, metric='hamming')

##Treinamento com dados do Iris

In [None]:
knn_minkowski.fit(X_train, y_train)
knn_euclidean.fit(X_train, y_train)
knn_manhattan.fit(X_train, y_train)
knn_hamming.fit(X_train, y_train)

##Predição com dados do Iris

In [None]:
resultado_minkowski = knn_minkowski.predict(X_test)
resultado_euclidean = knn_euclidean.predict(X_test)
resultado_manhattan = knn_manhattan.predict(X_test)
resultado_hamming = knn_hamming.predict(X_test)

##Matriz de confusão

In [None]:
conf_minkowski = confusion_matrix(y_test, resultado_minkowski)
conf_euclidean = confusion_matrix(y_test, resultado_euclidean)
conf_manhattan = confusion_matrix(y_test, resultado_manhattan)
conf_hamming = confusion_matrix(y_test, resultado_hamming)

In [None]:
plt.figure(figsize=(5,3))
sns.set(font_scale=1.2)
ax = sns.heatmap(conf_minkowski, annot=True, xticklabels=['Setosa', 'Versicolor', 'Virginica'], yticklabels=['Setosa', 'Versicolor', 'Virginica'], cbar=False, cmap='Blues', linewidths=1, linecolor='black', fmt='.0f')

plt.yticks(rotation=0)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
ax.xaxis.set_ticks_position('top')
plt.title('Confusion matrix - Minkowski')
plt.show()

In [None]:
plt.figure(figsize=(5,3))
sns.set(font_scale=1.2)
ax = sns.heatmap(conf_euclidean, annot=True, xticklabels=['Setosa', 'Versicolor', 'Virginica'], yticklabels=['Setosa', 'Versicolor', 'Virginica'], cbar=False, cmap='Blues', linewidths=1, linecolor='black', fmt='.0f')

plt.yticks(rotation=0)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
ax.xaxis.set_ticks_position('top')
plt.title('Confusion matrix - Euclidean')
plt.show()

In [None]:
plt.figure(figsize=(5,3))
sns.set(font_scale=1.2)
ax = sns.heatmap(conf_manhattan, annot=True, xticklabels=['Setosa', 'Versicolor', 'Virginica'], yticklabels=['Setosa', 'Versicolor', 'Virginica'], cbar=False, cmap='Blues', linewidths=1, linecolor='black', fmt='.0f')

plt.yticks(rotation=0)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
ax.xaxis.set_ticks_position('top')
plt.title('Confusion matrix - Manhattan')
plt.show()

In [None]:
plt.figure(figsize=(5,3))
sns.set(font_scale=1.2)
ax = sns.heatmap(conf_hamming, annot=True, xticklabels=['Setosa', 'Versicolor', 'Virginica'], yticklabels=['Setosa', 'Versicolor', 'Virginica'], cbar=False, cmap='Blues', linewidths=1, linecolor='black', fmt='.0f')

plt.yticks(rotation=0)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
ax.xaxis.set_ticks_position('top')
plt.title('Confusion matrix - Hamming')
plt.show()

##Métricas de avaliação

In [None]:
print('Minkowski')
print('Acurácia: ', accuracy_score(y_test, resultado_minkowski))
print('Precisão: ', precision_score(y_test, resultado_minkowski, average='macro'))
print('Recall:   ', recall_score(y_test, resultado_minkowski, average='macro'))
print('F1-score: ', f1_score(y_test, resultado_minkowski, average='macro'))

print('Euclidean')
print('Acurácia: ', accuracy_score(y_test, resultado_euclidean))
print('Precisão: ', precision_score(y_test, resultado_euclidean, average='macro'))
print('Recall:   ', recall_score(y_test, resultado_euclidean, average='macro'))
print('F1-score: ', f1_score(y_test, resultado_euclidean, average='macro'))

print('Manhattan')
print('Acurácia: ', accuracy_score(y_test, resultado_manhattan))
print('Precisão: ', precision_score(y_test, resultado_manhattan, average='macro'))
print('Recall:   ', recall_score(y_test, resultado_manhattan, average='macro'))
print('F1-score: ', f1_score(y_test, resultado_manhattan, average='macro'))

print('Hamming')
print('Acurácia: ', accuracy_score(y_test, resultado_hamming))
print('Precisão: ', precision_score(y_test, resultado_hamming, average='macro'))
print('Recall:   ', recall_score(y_test, resultado_hamming, average='macro'))
print('F1-score: ', f1_score(y_test, resultado_hamming, average='macro'))

##Superfície de decisão

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
#print(iris)
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target

def make_meshgrid(x, y, h=.02):
    x_min, x_max = x.min() - 1, x.max() + 1
    y_min, y_max = y.min() - 1, y.max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    return xx, yy

def plot_contours(ax, clf, xx, yy, **params):
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    out = ax.contourf(xx, yy, Z, **params)
    return out

model = knn_minkowski
clf = model.fit(X, y)

fig, ax = plt.subplots()
# title for the plots
title = ('Decision surface of linear KNN ')
# Set-up grid for plotting.
X0, X1 = X[:, 0], X[:, 1]
xx, yy = make_meshgrid(X0, X1)

plot_contours(ax, clf, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)
ax.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
ax.set_ylabel('y label here')
ax.set_xlabel('x label here')
ax.set_xticks(())
ax.set_yticks(())
ax.set_title(title)
ax.legend()
plt.show()