<h2>KNN - K Vizinhos Mais Próximos<h2>

Algoritmivo de classificação de dados, em resumo, o KNN tenta classificar cada amostra de um conjunto de dados avaliando sua distância em relação aos K vizinhos mais próximos. Se os vizinhos mais próximos forem majoritariamente de uma classe, a amostra em questão será classificada nesta categoria. <br>
É importante lembrar que o KNN é um algoritmo supervisionado, ou seja, ele precisa de um conjunto de dados rotulados para ser treinado.

In [19]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

from warnings import simplefilter
from sklearn.exceptions import ConvergenceWarning
simplefilter("ignore", category=ConvergenceWarning)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

dados = load_breast_cancer()

x_can = pd.DataFrame(dados.data, columns= [dados.feature_names])
y_can = pd.Series(dados.target)

x_can.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [20]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Normalizando as váriaveis preditoras, pois estamos trabalhando com distâncias de váriaveis diferentes
normalizador = MinMaxScaler(feature_range=(0,1))
X_norm = normalizador.fit_transform(x_can)

#Treino e teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X_norm, y_can, test_size= 0.3, random_state=16)

#Criação do Modelo
modelo_knn_1 = KNeighborsClassifier(n_neighbors=5)
modelo_knn_1.fit(X_treino, Y_treino)

#Score
resultado = modelo_knn_1.score(X_teste,Y_teste)
print('Acurácia:', resultado)

Acurácia: 0.9649122807017544


<h2>Ajustando Parâmetros<h2>

No KNN podemos ajustar o parâmetro $K$ para encontrar o melhor número de vizinhos para o modelo, assim como podemos variar o calculo da distância a ser usada pelo modelo, podendo ser Euclidiana, Manhattan, Minkowski, etc.

In [21]:
import numpy as np  
from sklearn.model_selection import GridSearchCV

valores_K = np.array([3,5,7,9,11])
distancia = ['minkowski','chebyshev'] #https://scikit-learn.org/0.24/modules/generated/sklearn.neighbors.DistanceMetric.html
valores_p = np.array([1, 2,3, 4]) # p = 2 é equivalente a distancia euclidiana e p = 1 é equivalente a Manhattan, usando a formula da minkowski
valores_grid = {'n_neighbors': valores_K, 'metric': distancia, 'p':valores_p}

# Modelo
modelo_grid = KNeighborsClassifier()

#Criando Grids
GriddKNN = GridSearchCV(estimator=modelo_grid, param_grid= valores_grid, cv = 5 )
GriddKNN.fit(X_norm,y_can)

# Imprimindo melhores parâmetros
print('Melhor Acurácia:', GriddKNN.best_score_)
print('Melhor K:', GriddKNN.best_estimator_.n_neighbors)
print('Método Distância:', GriddKNN.best_estimator_.metric)
print('Melhor Valor de p:', GriddKNN.best_estimator_.p)

Melhor Acurácia: 0.9701133364384411
Melhor K: 3
Método Distância: minkowski
Melhor Valor de p: 1


<h2>Banco de Dados Iris<h2>

Iris é uma de flor onde podem ser de três tipos, a Versicolor, Setosa e Virginica. Com bases nas caracteristicas de cada um dos tipos de Iris será usado o algoritmo de classificação KNN para identificar qual grupo uma flor nova corresponde com base nas suas caracterisicas, sendo elas o comprimento e largura da sepala e da pétala em centimetros.

In [22]:
from sklearn.datasets import load_iris
iris = load_iris()
x_iris = pd.DataFrame(iris.data, columns= [iris.feature_names])
y_iris = pd.Series(iris.target)

x_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [24]:
# Normalizando as váriaveis preditoras, pois estamos trabalhando com distâncias de váriaveis diferentes
normalizador_iris = MinMaxScaler(feature_range=(0,1))
X_norm_iris = normalizador_iris.fit_transform(x_iris)

# Modelo
modelo_grid_iris = KNeighborsClassifier()

#Criando Grids
GriddKNN_iris = GridSearchCV(estimator=modelo_grid_iris, param_grid= valores_grid, cv = 5 )
GriddKNN_iris.fit(X_norm_iris,y_iris)

# Imprimindo melhores parâmetros
print('Melhor Acurácia:', GriddKNN_iris.best_score_)
print('Melhor K:', GriddKNN_iris.best_estimator_.n_neighbors)
print('Método Distância:', GriddKNN_iris.best_estimator_.metric)
print('Melhor Valor de p:', GriddKNN_iris.best_estimator_.p)

Melhor Acurácia: 0.9733333333333334
Melhor K: 5
Método Distância: minkowski
Melhor Valor de p: 3
