# Classificador KNN

<p>Esse classificador é baseado no algoritmo KNN, é considerado como é um dos mais simples algoritmos de aprendizado de máquina. A construção desse modelo consiste apenas no armazenamento do conjunto de dados de treinamento para realizar a predição.</p>

<p>Para fazer a predição para um novo ponto de dados (<i>features</i>), o algoritmo encontra os pontos de dados mais próximos (vizinhos) do seu conjunto de dados de treinamento em que esse resultado configura a previsão do classificador.</p>

## Vantagens

<ul>
<li>Facilidade de compreensão</li>
<li>Robusto para dados de treinamento com ruídos</li>
<li>É mais efetivo para conjunto de dados de treinamento grande</li>
<li>É muito útil para dados não-lineares</li>
<li>Pode ser utilizado tanto para classificação como para regressão</i></li>
<li>Não paramétrico</li>
<li>Tem uma relativa boa acurácia</li>
<li>Não requer normalização dos dados</li>
</ul>

## Desvantagens

<ul>
<li>Dificuldade de encontrar o melhor valor 'k' e também pode dispender tempo </i>
<li>Necessário poder computacional e recursos</li>
<li>É muito sensível para escala de dados, sendo necessário o uso de normalizadores</li>
<li>Não é indicado para dados com alta dimensionalidade</li>
<li>Muitos parâmetros de configuração</li>

# Exemplo

Vejamos um exemplo para criar modelo preditivo utilizando o algoritmo Random Forest para classificação de flores de íris.

Dataset: UCI Iris Dataset
Esse conjunto de dados de íris contém quatro variáveis (features) ​​que medem várias partes das flores da íris de três espécies relacionadas (target). A utilização desse conjunto de dados é muito comum pela comunidade de aprendizado de máquina, pois os dados exigem muito pouco pré-processamento, sendo ideal para o nosso exemplo onde o foco é na utilização do algoritmo.

Caso tenha interesse em conhecer mais sobre esse conjunto de dado, por favor vide [aqui](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset).



### Importação dos pacotes

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline

### Carregamento do conjunto de dados

In [2]:
X, y = load_iris( return_X_y = True)

### Configuração dos parâmetros do algoritmo
<p>KNN contém vários parâmetros configuráveis e isso aumenta a complexidade de utilização. Vejamos a seguir uma breve descrição dos parâmetros mais utilizados e também os valores mais adequados de utilização.</p>

<ul>
<li><b>n_neighbors</b>: número de vizinhos utilizados próximos ao ponto de verificação. Pode ser interessante procurar por 'k' menores, pois pode ajudar tanto para alvos que estejam misturados quanto para alvos que tem uma divisão mais clara.</li>
<li><b>weights</b>: função de peso para predição, podendo ser uniforme (todos os pontos tem o mesmo peso), pela distância (peso pelo inverso de sua distância, vizinhos mais próximos de um ponto de consulta terão uma influência maior do que vizinhos que estão mais distantes) e customizado. A utilização de de um ou outro pode ser benéfica dependendo da disposição dos pontos no espaço.</li>
<li><b>algorithm</b>: algoritmo utilizado para calcular a distância entre os vizinhos, podendo ser BallTree, KDTree, força bruta e auto. O mais comun é utilizar 'auto', pois o melhor algoritmo é escolhido com base no conjunto de dados de treinamento.</li>
<li><b>leaf_size</b>: Tamanho da folha para os algoritmos BallTree e KDTree. Valor definido impacta na velocidade de construção e na busca, mas também em recursos empregados para armazenar a árvore. Para definir esse valor, pode-se levar em consideração o tamanho do conjunto de dados, recursos computacionais e tempo de treinamento.</li>
<li><b>p</b>: parâmetro de potência para a métrica, podendo utilizar distância de manhattan (l1) e euclediana (l2) para valor igual a 1 ou distância minkowski para valor igual a 2.</li>
<li><b>metric</b>: corresponde a métrica de distância usada na árvore. Há várias métricas disponíveis para uso, entretanto cada uma delas pode ser mais adequada dependendo do tipo de dados do conjunto. Mais informações das métricas disponíveis, vide <a href="https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.DistanceMetric.html#sklearn.neighbors.DistanceMetric">aqui</a>.</li>
</ul>

In [3]:
params = {
    'knn__n_neighbors': range(3, 30, 1),
    'knn__weights': ['uniform','distance'],
    'knn__algorithm': ['auto'],
    'knn__leaf_size': range(1, 30, 2),
    'knn__p': [1,2],
    'knn__metric': ['minkowski', 'chebyshev']}
            
pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('knn', KNeighborsClassifier())])

### Inicia o treinamento da inteligência com espaço de busca

In [4]:
knnc_search = RandomizedSearchCV(pipeline, 
                                 param_distributions=params, 
                                 n_iter=500,
                                 cv=3,
                                 scoring = 'f1_macro',
                                 verbose=False,
                                 n_jobs=-1)

knnc_search.fit(X, y)

RandomizedSearchCV(cv=3, error_score=nan,
                   estimator=Pipeline(memory=None,
                                      steps=[('scaler',
                                              StandardScaler(copy=True,
                                                             with_mean=True,
                                                             with_std=True)),
                                             ('knn',
                                              KNeighborsClassifier(algorithm='auto',
                                                                   leaf_size=30,
                                                                   metric='minkowski',
                                                                   metric_params=None,
                                                                   n_jobs=None,
                                                                   n_neighbors=5,
                                                                   p=

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [5]:
classifier_rf = knnc_search.best_estimator_ 
print(f'Best params:\n{knnc_search.best_params_}')
print(f'Best score: {knnc_search.best_score_}')
print(f'Classifier: {classifier_rf}')

Best params:
{'knn__weights': 'distance', 'knn__p': 2, 'knn__n_neighbors': 9, 'knn__metric': 'minkowski', 'knn__leaf_size': 7, 'knn__algorithm': 'auto'}
Best score: 0.9732191687362466
Classifier: Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('knn',
                 KNeighborsClassifier(algorithm='auto', leaf_size=7,
                                      metric='minkowski', metric_params=None,
                                      n_jobs=None, n_neighbors=9, p=2,
                                      weights='distance'))],
         verbose=False)
