# 30 Testes KNN - Dados de Crédito
#### Realizando 30 testes com diferentes sementes de geração randômica usando o algoritmo KNN na base de dados de crédito.

### Pré-processamento da base de dados¶

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# importando a base de dados para o objeto "dataframe"
dataframe = pd.read_csv('Dados de Credito.csv', encoding = 'utf-8', sep = ',')

# substituindo valores inconsistentes no campo idades pela média das idades consistentes
dataframe.loc[dataframe.age < 0, 'age'] = 40.92

# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 1:4].values
classe = dataframe.iloc[:, 4].values

# importando a biblioteca sklearn do python
from sklearn.impute import SimpleImputer
# função "SimpleImputer" responsável por corrigir valores faltantes na base de dados

# importando a biblioteca numpy do python
import numpy as np

# criando o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")

# fazendo o treinamento com a base de dados para correção de valores faltantes
imputer = imputer.fit(previsores[:,0:3])

# corrigindo os valores faltantes usando o objeto criado "imputer"
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler
# a função "StandardScaler" tem a função de escalonas toda a base de dados para corrigir a discrepância
# dos valores

# criando o objeto "scaler"
scaler = StandardScaler()

# escalonando todos os atributos para auxiliar no cálculo de distâncias euclidianas
previsores = scaler.fit_transform(previsores)

### Algoritmo KNN

In [2]:
# importando a biblioteca sklearn do python
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score
# 'StratifiedKFold' responsável por fazer a validação cruzada na base de dados
# 'accuracy_score' responsável por informar a capacidade de predição do algoritmo feito

In [3]:
# importando a biblioteca sklearn do python
from sklearn.neighbors import KNeighborsClassifier
# 'KNeighborsClassifier' responsável por realizar o cálculo das distâncias euclidianas com os registros

In [4]:
# criando uma lista vazia para armazenar os 30 resultado obtidos
resultados30 = []

In [5]:
# estrutura de repetição para realizar os 30 testes com o algoritmo KNN
for i in range(30):
    
    # criando o separador 'kfold' para realizar a transformação na base de dados
    kfold = StratifiedKFold(n_splits = 10, shuffle = True, random_state = i)
    # criando uma lista vazia para armazenar os resultado obtidos em cada fracionamento da base de dados
    resultados1 = []
    
    # estrutura de repetição que escolhe aleatoriamente os registros para cada base de dados de treinamento
    # e teste gerados randomicamente
    for indice_treinamento, indice_teste in kfold.split(previsores, np.zeros(shape = (classe.shape[0], 1))):
        
        # criando um classificador para calcular as distâncias euclianas dos registros na base de dados
        classificador = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p = 2)
        
        # realizando o treinamento com cada parcela fracionada da base de dados
        classificador.fit(previsores[indice_treinamento], classe[indice_treinamento])
        # realizando a predição com cada parcela fracionada da base de dados
        previsoes = classificador.predict(previsores[indice_teste])
        # obtendo a precisão de acertos para cada modelo de treinamento fracionado
        precisao = accuracy_score(classe[indice_teste], previsoes)
        resultados1.append(precisao)
    
    # transformando a lista de resultados em um array numpy para visualizar dados estatísticos sobre ela
    resultados1 = np.asarray(resultados1)
    # calculando a média de todos os dados do vetor
    media = resultados1.mean()
    # adiciona a média, em cada execução, na lista criada 'resultados30'
    resultados30.append(media)
    
# transformando a lista de resultados em um array numpy para visualizar dados estatísticos sobre ela
resultados30 = np.asarray(resultados30)

# visualizando na saída de dos os 30 resultado obtidos com o naive bayes
for i in range(resultados30.size):
    # imprimindo os resultados no formato aceito pela planilha excel
    print(str(resultados30[i]).replace('.', ','))

0,9814999999999999
0,9810000000000001
0,9809999999999999
0,9804999999999999
0,983
0,9804999999999999
0,9835
0,9819999999999999
0,9800000000000001
0,9810000000000001
0,982
0,984
0,9799999999999999
0,9775
0,9814999999999999
0,9795
0,982
0,9789999999999999
0,9814999999999999
0,9810000000000001
0,9804999999999999
0,9785
0,977
0,9775
0,9824999999999999
0,9825000000000002
0,9809999999999999
0,9810000000000001
0,9814999999999998
0,9795


### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);