## KNN (K Nearest Neighbors)

- Usaremos um dataset famoso chamado Iris, onde precisamos classificar flores em 3 classes
- O dataset possui 4 variáveis preditoras (largura e altura do caule e largura e altura da pétala)

Links:
- https://archive.ics.uci.edu/ml/datasets/iris
- https://en.wikipedia.org/wiki/Iris_flower_data_set

In [11]:
# Importar bibliotecas necessárias
from sklearn import datasets # Importa datasets exemplo do SKLearn
from sklearn.preprocessing import StandardScaler  # Importa método de Normalização
from sklearn.model_selection import train_test_split # importa um metodo para dividir o dataset
from sklearn.neighbors import KNeighborsClassifier  # Importa método para KNN 
from sklearn.metrics import classification_report, confusion_matrix  # Importa métodos para avaliar métricas
import pandas as pd
import numpy as np

In [12]:
# Carregar Dataset de Exemplo (IRIS)
iris = datasets.load_iris()
irs = pd.DataFrame(iris.data, columns = iris.feature_names)
irs['class'] = iris.target
irs.head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


In [13]:
# Visualizar colunas
irs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
class                150 non-null int64
dtypes: float64(4), int64(1)
memory usage: 6.0 KB


In [14]:
# Visualizar informações estatísticas
irs.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


### Dividir dataset entre treinamento e teste

É muito comum termos que fazer essa divisão dos dados, principalmente quando estamos trabalhando com Machine Learning, pois, é necessário já que precisamos treinar o nosso modelo com uma partição dos dados e testar com outra.

Além disso, precisamos separar as variáveis preditoras (X) da variável resposta (y)

In [16]:
# Selecionar Variáveis Preditoras (X) por iloc, trazendo todas as colunas menos a última (-1)
X = irs.iloc[:, :-1].values

# Selecionar Variável Resposta por iloc, trazendo só a última coluna (4)
y = irs.iloc[:, 4].values

# Vamos separar 70% dos dados para treinamento e 30% para teste
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.3, random_state = 40000)

### Normalização de Dados

A maioria dos algoritmos de Machine Learning assumem que os dados estão padronizados na hora de construir o modelo, isto é, assumem que os dados estão todos na mesma escala.

Sem isso alguns algoritmos terão uma performance ruim gerando modelos ineficientes.

Um exemplo disso são os algoritmos baseados em cálculos de distância.

O pacote preprocessing da Scikit-Learn tem algumas funções de padronização como a StandardScaler().

O StandardScaler() ignora a forma da distribuição e transforma os dados para forma com média próxima de zero e um desvio padrão próximo a um.

A distribuição normal com média zero (nula) e desvio padrão unitário é chamada de distribuição normal centrada e reduzida ou de distribuição normal padrão.

Lembrando que o desvio padrão é a medida de dispersão em torno da média, ele diz qual é a variação dos dados em torno da média.

A distribuição normal é uma das mais importantes distribuições da estatística, ela é conhecida também como distribuição de Gauss ou Gaussiana.

In [17]:
scaler = StandardScaler()  
scaler.fit(X_treinamento)

X_treinamento = scaler.transform(X_treinamento)  
X_teste = scaler.transform(X_teste) 

### Criar um estimador do tipo KNN

- Vamos criar um objeto de KNN Classifier, o qual usaremos para treinar um modelo com os dados de treinamento
- Com este mesmo objeto, será validado este modelo com os dados de teste

In [18]:
modelo = KNeighborsClassifier(n_neighbors = 5)  
modelo.fit(X_treinamento, y_treinamento)  

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

### Realizar predições

- Fazer predições com o modelo treinado, usando o conjunto de testes

In [19]:
y_pred = modelo.predict(X_teste)

### Avaliar algoritmo 

Para avaliar um algoritmo, a matriz de confusão, a precisão, o recall e a pontuação f1 são as métricas mais utilizadas.

Os métodos confusion_matrix e classification_report do sklearn.metrics podem ser usados para calcular essas métricas.

In [20]:
print(confusion_matrix(y_teste, y_pred))  
print(classification_report(y_teste, y_pred))  

[[19  0  0]
 [ 0 13  1]
 [ 0  2 10]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       0.87      0.93      0.90        14
           2       0.91      0.83      0.87        12

    accuracy                           0.93        45
   macro avg       0.93      0.92      0.92        45
weighted avg       0.93      0.93      0.93        45

