# Exemplo de aplicação do algoritmo kNN (para classificação)

## Por: Adriano Santos

### O K-Nearest Neighbor (kNN) é um dos algoritmos de classificação mais simples. É utilizado para classificar objetos com base em exemplos de treinamento (modelo supervisionado) que estão mais próximos no espaço de características.

#### Para que seja possível a sua utilização, se faz necessário:

- a) Um conjunto de exemplos de treinamento; 
- b) Definir uma métrica para o cálculo das distâncias entre os elementos e
- c) Definir o valor de K (número de vizinhos mais próximos a serem considerados no algoritmo.)

#### No exemplo a seguir, foram utilizados os módulos:

- a) train_test_split: para selecionar aleatoriamente os elementos para treinamento e teste.
- b) KNeighborsClassifier: implementação do algoritmo do kNN
- c) pandas: módulo para análise de dados em Python
- d) numpy: módulo que contém uma coleção de funções matemáticas para trabalhar com estas estruturas.

In [1]:
# Importando as biblitecas necessárias
from sklearn.model_selection import train_test_split # Modulo utilizado para selecionar dados de treino e teste randomizados
from sklearn.neighbors import KNeighborsClassifier # Modulo para utilização do kNN 
from sklearn.metrics import accuracy_score # Análise de acurancia
import pandas as pd
import numpy as np

In [2]:
# Importando o dataset
df = pd.read_csv('../Dados/bancoCMI.csv', delimiter=';')
df.head() # Mostra os 5 primeiros registros

Unnamed: 0,prenatal,CMI_binario,CMI,renda,saneamento,desemprego,analfabet,Gini,fundamental,PIB_per_capita
0,48.3,1,16.248154,467.72,0.288858,5.01,12.0,0.5893,37.29,13760.4
1,54.04,0,13.203787,672.87,1.174262,4.64,7.9,0.5496,51.3,14315.36
2,40.5,1,14.46281,446.58,0.101266,2.49,13.8,0.5166,36.59,15745.16
3,59.42,0,14.039051,718.79,40.103242,5.87,8.3,0.589,48.49,14870.59
4,52.52,1,16.806723,553.47,0.093493,5.24,10.4,0.5147,44.23,15997.56


In [8]:
# Criando dados para treinamento e teste
# Foram removidas as colunas CMI (porque tem relação direta com CMI_binario e fundamental)
x_treino, x_teste, y_treino, y_teste  = train_test_split(df[['prenatal','renda', 'saneamento', 'desemprego', 'Gini', 'PIB_per_capita']], df['CMI_binario'], test_size=0.3, random_state=1000) # test_size (quanto será utilizado para teste), random_state (semente utilizada)

In [11]:
print(x_treino.shape)
print(x_teste.shape)
print(y_treino.shape)
print(y_teste.shape)

(3895, 6)
(1670, 6)
(3895,)
(1670,)


In [12]:
# Treinar o modelo
knn = KNeighborsClassifier(n_neighbors=10, p=2) # Determina a vizinhança. p = 2 > Dist. Euclidiana; p=1 > Dist. Manhattan 
knn.fit(x_treino, y_treino) # Realiza o treinamento

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=10, p=2,
           weights='uniform')

In [13]:
# Realizar a classificação
resultado = knn.predict(x_teste) # Cria modelo de predição

In [14]:
# Analisando os resultados de acordo com o modelo treinado
acertos = np.sum(resultado == y_teste)

In [16]:
# Resultados
print ('Total da amostras: %d' % (len(x_treino)+ len(x_teste)))
print ('Total utilizados para treinamento: %d' % len(x_treino))
print ('Total utilizados para teste: %d' % len(x_teste))
print ('Total de acertos %d' % acertos)
print ('Total de erros %d' % ( len(x_teste) - acertos))
print ('Porcentagem de acertos: %.2f' % (100 * acertos/ len(x_teste)) ,'%')

Total da amostras: 5565
Total utilizados para treinamento: 3895
Total utilizados para teste: 1670
Total de acertos 962
Total de erros 708
Porcentagem de acertos: 57.60 %
Acurácia do teste: 0
