# Algoritmo KNN usando a linguagem de programação Python
### Nesse arquivo será feito a análise de uma base de dados do censo usando as ideias do algoritmo KNN.

#### Pré-processamento dos dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo os registros da base de dados para o objeto "dataframe"
dataframe = pd.read_csv('census.csv', encoding = 'utf-8', sep = ',')

# separando os atributos previsores e classe 
previsores = dataframe.iloc[:, 0:14].values
classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o objeto "labelencoder_previsores" para fazer a transformação dos atributos categóricos em numéricos
labelencoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido 
# "LabelEncoder_previsores"
previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto onehotencoder
onehotencoder = ColumnTransformer(transformers = [('OneHot', OneHotEncoder(), [1,3,5,6,7,8,9,13])], 
                                  remainder = 'passthrough')

# transformando os atributos previsores em variáveis do tipo "dummy"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escaolonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base 
#de dados

# separando as bases de dados entre modelos de treinamento e modelos de teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                             classe,
                                                                                             test_size = 0.15, 
                                                                                             random_state = 0)

> **OBS**: esse foi o pré-processamento com resultados mais satisfatórios para essa base de dados.

#### Algoritmo KNN com o Python

In [2]:
# importando a biblioteca sklearn do python

from sklearn.neighbors import KNeighborsClassifier
# função "KNeighborsClassifier" responsável por fazer a classificação dos atributos pelo método do algoritmo
# KNN

In [3]:
# criando o objeto "classificador"
classificador = KNeighborsClassifier(n_neighbors = 5, metric = "minkowski", p = 2)

In [4]:
# fazendo o treinamento com a base de dados usando o objeto "classificador"
classificador.fit(previsores_treinamento, classe_treinamento)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [5]:
# aplicando a transformação na base de dados usando o objeto "classificador"
previsoes = classificador.predict(previsores_teste)

In [6]:
# observando a base de dados obtida pelo algoritmo
previsoes

array([' <=50K', ' <=50K', ' >50K', ..., ' <=50K', ' <=50K', ' >50K'],
      dtype=object)

In [7]:
# observando a base de dados original reservada para o teste
classe_teste

array([' <=50K', ' <=50K', ' <=50K', ..., ' <=50K', ' <=50K', ' <=50K'],
      dtype=object)

In [8]:
# importando a biblioteca sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score

In [9]:
# calculando a porcentagem de acertos do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

In [10]:
# visualizando a precisão de acertos do algoritmo
precisao

0.8223132036847492

A precisão de acertos do algoritmo em acertar as classificações foi de **82.23%**.

In [11]:
# criando a matriz de confusão para analisar a quantidade de acertos e erros
matriz = confusion_matrix(classe_teste, previsoes)

In [12]:
# visualizando a matriz de confusão
matriz

array([[3336,  357],
       [ 511,  681]], dtype=int64)

Analisando a matriz de confusão acima, é possível perceber que 3336 dados referentes as pessoas com renda menor que 50 mil anual foram classificadas corretamente, juntamente com 681 dados referentes a pessoas que recebem uma renda anual maior que 50 mil. Entretanto, 511 dados referentes a pessoas que recebem mais de 50 mil anualmente foram classificadas como pessoas que recebiam menos e 357 dados de pessoas que recebem menos que 50 mil por ano foram classificadas como pessoas que recebiam mais. Desse modo, obtivemos resultados não tão satisfatórios durante a classificação feita pelo algoritmo.

In [13]:
# importando a biblioteca collections
import collections

In [14]:
# visualizando a quantidade de registros para cada uma das classes
collections.Counter(classe_teste)

Counter({' <=50K': 3693, ' >50K': 1192})

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);