# Machine Learning

## KNN - K-Nearest Neighbors

* **Trabalhando com a base de dados de dígitos**

In [None]:
# Carregando bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets, svm, metrics
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

In [None]:
# Carregando base de dados

dados = datasets.load_digits()

In [None]:
# Visualizando os valores das classes

dados.target_names

In [None]:
# Visualizando as imagens e suas respectivas classes

ImagLabels = list(zip(dados.images, dados.target))

for index, (image, labels) in enumerate(ImagLabels[:10]):
    plt.subplot(3, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap = plt.cm.gray_r, interpolation = 'nearest')
    plt.title('Training: %i' % labels)

**Convertendo os dados em DataFrame**

In [None]:
amostra = len(dados.images)
data = dados.images.reshape((amostra, -1))
classe = dados.target

In [None]:
dados_2 = pd.DataFrame(data)
dados_2['classe'] = classe

In [None]:
# Resultado

dados_2.head(3)

**Dividindo os dados em treino e teste**

In [None]:
# Dividindo os dados: 70% para treino, 30% para teste

X_treino, X_teste, y_treino, y_teste = train_test_split(dados_2.drop('classe', axis = 1), dados_2['classe'], 
                                                                     test_size = 0.3)

In [None]:
# Verificando como ficou distribuido os dados

print(X_treino.shape, X_teste.shape)
print(y_treino.shape, y_teste.shape)

**Instânciando, treinando e aplicando o modelo**

In [None]:
# Instânciando o modelo

modelo = KNeighborsClassifier(n_neighbors = 3)

In [None]:
# Treinando o modelo

modelo.fit(X_treino, y_treino)

In [None]:
# Aplicando o modelo

resultado = modelo.predict(X_teste)

### Técnicas de Validação

**Matriz de Confusão**

In [None]:
print(pd.crosstab(y_teste, resultado, rownames = ['Real'], colnames = ['              Predito'], margins = True))

**Métricas de Validação**

In [None]:
print(metrics.classification_report(y_teste, resultado))

**Cross Validation**

In [None]:
# Validação Cruzada

score = cross_val_score(modelo, dados_2.drop('classe', axis = 1), dados_2['classe'], cv = 5)
score

### Otimização do Parâmetro K

* **Trabalhando com o GridSearchCV**

In [None]:
# Definindo lista de valores para o parâmetro

k_lista = list(range(1, 31))
n_valores = dict(n_neighbors = k_lista)

**Instânciando e treinando o GridSearchCV**

In [None]:
# Instânciando o modelo

modelo_grid = GridSearchCV(modelo, n_valores, cv = 5, scoring = 'accuracy')

In [None]:
# Treinando o modelo

modelo_grid.fit(dados_2.drop('classe', axis = 1), dados_2['classe'])

**Resultado do melhor score**

In [None]:
print('Melhor valor de k = {} com o valor {} de acurácia'.format(modelo_grid.best_params_, 
                                                                 modelo_grid.best_score_))

**Visualizando os valores de K e acurácia graficamente**

In [None]:
score = []

for scores in modelo_grid.cv_results_['mean_test_score']:
    score.append(score)
    
plt.figure(figsize = (10, 6))
plt.plot(k_lista, score, linestyle = 'dashed', marked = 'o')
plt.show()