#### KNN - Vizinhos mais próximos

É um algorimo utilizado para os problemas de classificação e é um algoritmo baseado em instância. Ao invés de criar um modelo, ele armazena as instâncias dos dados de treino. A classificação é realizada a partir do cálculo dos K vizinhos mais próximos de cada dado. Para K = 3 por exemplo, a partir de um dado novo, o algoritmo escolhe os 3 vizinhos mais próximos desse dado e dá a ele a classe a qual a maioria dos dados pertencem.
<center> <img style="max-width: 30%"; height: auto; src="https://didatica.tech/wp-content/uploads/2019/09/k3.jpg"> </center>
O novo dado (verde) é classficiado de acordo com os vizinhos mais próximos, logo será clasificado como vermelho.

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
import pandas as pd
from scipy import stats

Será utilizado a base de dados `iris` que está presente no módulo `sklearn.datasets`. É uma base de dados que conta com a distribuição do tamanho da pétala e sépala de 3 classes de flores:
* Iris Setosa
* Iris Veriscolor
* Iris Virginica

É um dataset mto utilizado para prática de machine learning e está presente em vários ambientes como o `R` por exemplo.

In [2]:
iris = datasets.load_iris()
stats.describe(iris.data)

DescribeResult(nobs=150, minmax=(array([4.3, 2. , 1. , 0.1]), array([7.9, 4.4, 6.9, 2.5])), mean=array([5.84333333, 3.05733333, 3.758     , 1.19933333]), variance=array([0.68569351, 0.18997942, 3.11627785, 0.58100626]), skewness=array([ 0.31175306,  0.31576711, -0.27212767, -0.10193421]), kurtosis=array([-0.57356795,  0.18097632, -1.39553589, -1.33606741]))

Pelo método `describe` observa-se que esse dataset é composto de 150 entradas.

Para utilizar o método de aprendizagem de máquina utilizando o Naive Bayes, será necessário dividir os dados em treino e teste, não é bom utilizar os mesmos dados para realizar o teste pois poderá gerar `overfitting` do modelo.

Isso é evitado utilizando o método `train_test_split` da biblioteca `sklearn`. Esse método gera 4 variáveis que são os dados de treino para X (variáveis independentes) e dados de Teste para Y (variável dependente). O método leva como parâmetro os atributos que serão os previsores, o atributo que será o previsto e o tamanho da amostra.

In [3]:
x_train, x_test, y_train, y_test = train_test_split(
    iris.data,
    iris.target,
    test_size = 0.3,
    random_state=0
)

Foram separados 30% dos dados para teste.

O modelo é criado utilizando o Naive Bayes Gaussiano, da classe `KNeighborsClassifier` da biblioteca `sklearn`. Essa classe possui o método `fit` que utiliza os dados de treino das variáveis independentes e das variáveis dependentes para gerar o modelo.

Para usilizar a classe, é possível passar o número de vizinhos como parâmetro para o argumento `n_eighbors`. O número de vizinhos altera a quantidade de vizinhos mais próximos serão necessários para prever a classe do novo dado.

In [4]:
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(x_train, y_train)

Com o modelo criado é possível testá-lo utilizando o método `predict` que passando um valor ou um array de valores, ele resulta na previsão dos dados.

In [5]:
previsoes = clf.predict(x_test)

Como esses dados são históricos, é possível saber qual foi o real resultado, se dado cliente é ou não um bom pagador. Uma outra forma de visualizar essa relação, é utilizando uma matriz de confusão, utilizando o método `confusion_matrix` da biblioteca `sklearn`.

In [6]:
confusion_matrix(y_test, previsoes)

array([[16,  0,  0],
       [ 0, 17,  1],
       [ 0,  0, 11]], dtype=int64)

É possível utilizar o método `accuracy_score` que já faz esse cálculo da taxa de acerto.

In [7]:
accuracy_score(y_test, previsoes)

0.9777777777777777

Com uma taxa de acero de 97%, que é uma taxa muito alta, verifica-se que o modelo previu com baste precisão a classificação dos dados.