# K-Nearest Neighbors - KNN

Modelo supervisionado de machine learning que pode ser utilizado tanto para classificação, isto é, rotular os dados; quanto para regressão, ou seja, aproximar valores.

## Características

- Simples
- Interpretável
- Largamente conhecido e estudado
- Razoavelmente rápido

Por conta disso é um ótimo benchmark


## Algoritmo

- Passo 1:
    Definir um valor para K
- Passo 2:
    Definir os K vizinhos mais próximos do ponto a ser classificado de acordo com uma função de distância.
- Passo 3:
    - Se for um problema de **Regressão**:
        Calcular a **média** de todos os vizinhos.
    - Se for um problema de **Classificação**:
        Calcular a **moda** de todos os vizinhos.
- Passo 4:
    Atribuir o valor/classe ao ponto de interesse conforme cálculo do Passo 3.

## Links Úteis
### Definições
- ["Primeira" aparição do modelo](https://apps.dtic.mil/dtic/tr/fulltext/u2/a800276.pdf)
- [Expansão do KNN](http://ssg.mit.edu/cal/abs/2000_spring/np_dens/classification/cover67.pdf)
### Casos de uso
- [Click Stream](https://www.sciencedirect.com/science/article/pii/S221083271400026X#:~:text=The%20K%2DNearest%20Neighbor%20classification,a%20given%20time%20%5B24%5D)
- [Battery life](https://www.sciencedirect.com/science/article/abs/pii/S0959652619342799)
- [Mahalanobis Distance](https://jmlr.csail.mit.edu/papers/volume10/weinberger09a/weinberger09a.pdf)
### Dataviz
- [Stanford](http://vision.stanford.edu/teaching/cs231n-demos/knn/)
- [IRA](https://lecture-demo.ira.uka.de/knn-demo/preset=3)

## Definição do Problema

### Dados
Os dados abaixo são referentes ao cadastro de clientes de uma empresa de investimentos com suas respectivas carteira de investimentos, que indica se esse cliente tem o perfil de investidor **Conservador**, **Moderado** ou **Agressivo**. O nosso intuito é, a partir do investimento de alguns clientes que já tem um perfil definido, estimar esse perfil para aqueles que ainda não estão classificado, afim de oferecer novos produtos que sejam mais adequados a eles.

Os dados abaixo seguem o seguinte padrão:

[**CPF**: INT, **Perfil Do Investidor**: STRING, **Carteira de Investimento**: TUPLA]

### Regras
- Se você precisar de uma função para computar algo crie ela
- Não é permitido usar nenhum módulo externo como numpy e math
- Use apenas os objetos e fluxos visto até o momento no curso
- Se você tiver dificuldade de trabalhar com mais de 2 dimensões, pode utilizar apenas os dois primeiros valores de cada tupla
- O objetivo principal desse projeto não é encontrar o modelo de knn mais otimizado, mas sim você conseguir criar um modelo de KNN, independente se ele é o melhor ou não
- Não precisa se preocupar com a normalização das dimensões. É algo que vocês não viram

### Caso queira medir a distância utilizando a distância euclidiana

Como medir a distância euclidiana:
<br>

Euclidean_distance_2d.svg


<br>
<br>

Fórmula da distância euclidiana:
<br>

euclidean_distance_formula_multidimensional.svg

exemplo 1 de como calcular: https://www.omnicalculator.com/math/euclidean-distance

exemplo 2:

carteira1 : (x: 1, y: 1, z: 1) <br>
carteira2 : (x: 2, y: 2, z: 1) <br>
distância, é a raiz quadrada de: (2-1)<sup>2</sup> + (2-1)<sup>2</sup> + (1-1)<sup>2</sup>  <break>
em outras palavras: raiz quadrada de  (1 + 1 + 0). <break>

a distância entre esses dois pontos é de: 1.41

In [1]:
data = [[66707599984, 'Conservador', (5100., 3500., 1400., 200.)],
 [55695397315, 'Conservador', (4900., 3000., 1400., 200.)],
 [63743886918, 'Conservador', (4700., 3200., 1300., 200.)],
 [55941368774, 'Conservador', (4600., 3100., 1500., 200.)],
 [75486280874, 'Conservador', (5000., 3600., 1400., 200.)],
 [53164949799, 'Conservador', (5400., 3900., 1700., 400.)],
 [39898704131, 'Conservador', (4600., 3400., 1400., 300.)],
 [53740901207, 'Conservador', (5000., 3400., 1500., 200.)],
 [51735950236, 'Conservador', (4400., 2900., 1400., 200.)],
 [47305108951, 'Conservador', (4900., 3100., 1500., 100.)],
 [63858864633, 'Conservador', (5400., 3700., 1500., 200.)],
 [53363167240, 'Conservador', (4800., 3400., 1600., 200.)],
 [72133754195, 'Conservador', (4800., 3000., 1400., 100.)],
 [52802483512, 'Conservador', (4300., 3000., 1100., 100.)],
 [57925287214, 'Conservador', (4800., 3400., 1900., 200.)],
 [74354632224, 'Conservador', (5000., 3000., 1600., 200.)],
 [64020216626, 'Conservador', (5000., 3400., 1600., 400.)],
 [78223722856, 'Conservador', (5200., 3500., 1500., 200.)],
 [58245228846, 'Conservador', (5200., 3400., 1400., 200.)],
 [74490686776, 'Conservador', (4700., 3200., 1600., 200.)],
 [48646824781, 'Conservador', (4800., 3100., 1600., 200.)],
 [77381458676, 'Conservador', (5400., 3400., 1500., 400.)],
 [41615431874, 'Conservador', (5200., 4100., 1500., 100.)],
 [52163844491, 'Conservador', (5500., 4200., 1400., 200.)],
 [70276304567, 'Conservador', (4900., 3100., 1500., 200.)],
 [69119828185, 'Conservador', (5000., 3200., 1200., 200.)],
 [65441690046, 'Conservador', (5500., 3500., 1300., 200.)],
 [56457227894, 'Conservador', (4900., 3600., 1400., 100.)],
 [46939428126, 'Conservador', (4400., 3000., 1300., 200.)],
 [60979942480, 'Conservador', (5100., 3400., 1500., 200.)],
 [41648583220, 'Conservador', (5000., 3500., 1300., 300.)],
 [50376331791, 'Conservador', (4500., 2300., 1300., 300.)],
 [67008801023, 'Conservador', (4400., 3200., 1300., 200.)],
 [72149193419, 'Conservador', (5000., 3500., 1600., 600.)],
 [62830733382, 'Conservador', (5100., 3800., 1900., 400.)],
 [56716675811, 'Conservador', (4800., 3000., 1400., 300.)],
 [61089667146, 'Conservador', (5100., 3800., 1600., 200.)],
 [47795509468, 'Conservador', (4600., 3200., 1400., 200.)],
 [60899885693, 'Conservador', (5300., 3700., 1500., 200.)],
 [53433670705, 'Conservador', (5000., 3300., 1400., 200.)],
 [54850120580, 'Moderado', (7000., 3200., 4700., 1400.)],
 [71457789994, 'Moderado', (6400., 3200., 4500., 1500.)],
 [67692777563, 'Moderado', (6900., 3100., 4900., 1500.)],
 [43133573182, 'Moderado', (5500., 2300., 4000., 1300.)],
 [55150612815, 'Moderado', (6500., 2800., 4600., 1500.)],
 [48211725243, 'Moderado', (5700., 2800., 4500., 1300.)],
 [76686463776, 'Moderado', (6300., 3300., 4700., 1600.)],
 [71971000560, 'Moderado', (4900., 2400., 3300., 1000.)],
 [40307235992, 'Moderado', (6600., 2900., 4600., 1300.)],
 [44826533081, 'Moderado', (5200., 2700., 3900., 1400.)],
 [45735414894, 'Moderado', (5900., 3200., 4800., 1800.)],
 [57137146514, 'Moderado', (6100., 2800., 4000., 1300.)],
 [53657058251, 'Moderado', (6300., 2500., 4900., 1500.)],
 [52941460485, 'Moderado', (6100., 2800., 4700., 1200.)],
 [44306600683, 'Moderado', (6400., 2900., 4300., 1300.)],
 [43460747924, 'Moderado', (6600., 3000., 4400., 1400.)],
 [75590376075, 'Moderado', (6800., 2800., 4800., 1400.)],
 [68267282206, 'Moderado', (6700., 3000., 5000., 1700.)],
 [77567920298, 'Moderado', (6000., 2900., 4500., 1500.)],
 [67600419504, 'Moderado', (5700., 2600., 3500., 1000.)],
 [44902189811, 'Moderado', (5500., 2400., 3800., 1100.)],
 [62966866614, 'Moderado', (5500., 2400., 3700., 1000.)],
 [56182108880, 'Moderado', (5800., 2700., 3900., 1200.)],
 [78299785392, 'Moderado', (6000., 2700., 5100., 1600.)],
 [45206071878, 'Moderado', (5400., 3000., 4500., 1500.)],
 [57381925887, 'Moderado', (6000., 3400., 4500., 1600.)],
 [65654934891, 'Moderado', (6700., 3100., 4700., 1500.)],
 [56130640481, 'Moderado', (6300., 2300., 4400., 1300.)],
 [59667611672, 'Moderado', (5600., 3000., 4100., 1300.)],
 [40349334385, 'Moderado', (5500., 2500., 4000., 1300.)],
 [68422640081, 'Moderado', (5500., 2600., 4400., 1200.)],
 [55245923439, 'Moderado', (6100., 3000., 4600., 1400.)],
 [51286696873, 'Moderado', (5800., 2600., 4000., 1200.)],
 [41065279767, 'Moderado', (5000., 2300., 3300., 1000.)],
 [42866454119, 'Moderado', (5600., 2700., 4200., 1300.)],
 [61962944542, 'Moderado', (5700., 3000., 4200., 1200.)],
 [48623501235, 'Moderado', (5700., 2900., 4200., 1300.)],
 [49475220139, 'Moderado', (6200., 2900., 4300., 1300.)],
 [52245218531, 'Moderado', (5100., 2500., 3000., 1100.)],
 [50932926697, 'Moderado', (5700., 2800., 4100., 1300.)],
 [47432932248, 'Agressivo', (6300., 3300., 6000., 2500.)],
 [39321991579, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [46283759608, 'Agressivo', (7100., 3000., 5900., 2100.)],
 [56996272538, 'Agressivo', (6300., 2900., 5600., 1800.)],
 [77232189978, 'Agressivo', (6500., 3000., 5800., 2200.)],
 [77183282421, 'Agressivo', (7600., 3000., 6600., 2100.)],
 [42857147573, 'Agressivo', (4900., 2500., 4500., 1700.)],
 [39331584043, 'Agressivo', (7300., 2900., 6300., 1800.)],
 [48130345228, 'Agressivo', (6700., 2500., 5800., 1800.)],
 [71422443953, 'Agressivo', (7200., 3600., 6100., 2500.)],
 [72508507904, 'Agressivo', (6900., 3200., 5700., 2300.)],
 [41188727558, 'Agressivo', (5600., 2800., 4900., 2000.)],
 [61358776640, 'Agressivo', (7700., 2800., 6700., 2000.)],
 [66934042323, 'Agressivo', (6300., 2700., 4900., 1800.)],
 [40622495567, 'Agressivo', (6700., 3300., 5700., 2100.)],
 [57221661311, 'Agressivo', (7200., 3200., 6000., 1800.)],
 [45159362930, 'Agressivo', (6200., 2800., 4800., 1800.)],
 [45018975174, 'Agressivo', (6100., 3000., 4900., 1800.)],
 [70685429140, 'Agressivo', (6400., 2800., 5600., 2100.)],
 [61808723477, 'Agressivo', (7200., 3000., 5800., 1600.)],
 [56363906548, 'Agressivo', (7400., 2800., 6100., 1900.)],
 [39646194720, 'Agressivo', (7900., 3800., 6400., 2000.)],
 [55385494438, 'Agressivo', (6400., 2800., 5600., 2200.)],
 [75796138061, 'Agressivo', (6300., 2800., 5100., 1500.)],
 [53595767857, 'Agressivo', (6100., 2600., 5600., 1400.)],
 [48758828080, 'Agressivo', (7700., 3000., 6100., 2300.)],
 [58387651356, 'Agressivo', (6300., 3400., 5600., 2400.)],
 [72846931192, 'Agressivo', (6400., 3100., 5500., 1800.)],
 [47046896346, 'Agressivo', (6000., 3000., 4800., 1800.)],
 [69730292799, 'Agressivo', (6900., 3100., 5400., 2100.)],
 [48177836349, 'Agressivo', (6700., 3100., 5600., 2400.)],
 [57976326635, 'Agressivo', (6900., 3100., 5100., 2300.)],
 [55710813002, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [64028580439, 'Agressivo', (6800., 3200., 5900., 2300.)],
 [49962942971, 'Agressivo', (6700., 3300., 5700., 2500.)],
 [47250893163, 'Agressivo', (6700., 3000., 5200., 2300.)],
 [75559276274, 'Agressivo', (6300., 2500., 5000., 1900.)],
 [58529878272, 'Agressivo', (6500., 3000., 5200., 2000.)],
 [76005896622, 'Agressivo', (6200., 3400., 5400., 2300.)],
 [49212614633, 'Agressivo', (5900., 3000., 5100., 1800.)]]

no_class = [[45926320819, '', (5800., 4000., 1200., 200.)],
 [52559670741, '', (5700., 4400., 1500., 400.)],
 [59016004832, '', (5400., 3900., 1300., 400.)],
 [66175672425, '', (5100., 3500., 1400., 300.)],
 [53330429526, '', (5700., 3800., 1700., 300.)],
 [43765563403, '', (5100., 3800., 1500., 300.)],
 [68020822591, '', (5400., 3400., 1700., 200.)],
 [53939481689, '', (5100., 3700., 1500., 400.)],
 [47014057561, '', (4600., 3600., 1000., 200.)],
 [57183542047, '', (5100., 3300., 1700., 500.)],

 [68518284363, '', (5000., 2000., 3500., 1000.)],
 [65806049885, '', (5900., 3000., 4200., 1500.)],
 [54128073086, '', (6000., 2200., 4000., 1000.)],
 [41306785494, '', (6100., 2900., 4700., 1400.)],
 [65234831039, '', (5600., 2900., 3600., 1300.)],
 [50964498067, '', (6700., 3100., 4400., 1400.)],
 [50810951429, '', (5600., 3000., 4500., 1500.)],
 [48765044397, '', (5800., 2700., 4100., 1000.)],
 [41960083761, '', (6200., 2200., 4500., 1500.)],
 [76657763082, '', (5600., 2500., 3900., 1100.)],

 [64726487742, '', (6500., 3200., 5100., 2000.)],
 [75746566283, '', (6400., 2700., 5300., 1900.)],
 [78576734793, '', (6800., 3000., 5500., 2100.)],
 [56440141847, '', (5700., 2500., 5000., 2000.)],
 [66827423000, '', (5800., 2800., 5100., 2400.)],
 [45267873396, '', (6400., 3200., 5300., 2300.)],
 [46387191493, '', (6500., 3000., 5500., 1800.)],
 [54273611732, '', (7700., 3800., 6700., 2200.)],
 [75135392881, '', (7700., 2600., 6900., 2300.)],
 [64703873108, '', (6000., 2200., 5000., 1500.)]]

## Para resolução do problema, vamos dividir em subproblemas e assim prosseguirmos.

#Vamos:



*   Criar uma função para calcular a distancia euclidiana
-   Criar uma função para classificar o perfil de cliente
--  esta função vai calcular a distancia euclidiana, buscar os k-vizinhos mais proximos, e fazer uma votação para classificar o posicionamento do perfil mais proximo.
- Separar as listas de teste e treino
- Zerar a lista de teste
- Aplicação a função knn classificadora na lista de teste
- realizar a avaliação
- implementar a função na lista no_class

Com isso vamos classificar os dados vazios e resolver a situação problema

In [2]:
# como não podemos utilizar bibliotecas externas, vou criar uma função para calcular a distancia euclidiana

def dist_euclidean_4d (point1, point2):
  ''' essa função recebe uma tupla com 4 elementos, e calcula a distancia
  euclidiana.
  tupla = 4 elementos do tipo float
  retorno = a distancia calculada de acordo com a formula
  '''
  x1, x2, x3, x4 = point1
  y1, y2, y3, y4 = point2
  square = (x1-y1)**2 + (x2-y2)**2 + (x3-y3)**2 + (x4-y4)**2
  distance = square ** 0.5
  return round(distance,4)

# testando a função para ver se deu certo o calculo.
data1 = data[0][2]
data2 = data[1][2]
print(dist_euclidean_4d(data1, data2))

538.5165


In [3]:
# com a função que calcula a distancia euclidiana criada, vamos criar a função do knn
def knn_classificator (train_list, test_point, knn):
  ''' esta função irá calcular a distancia euclidiana de cada elemento
  de uma base de dados.
  vai receber como argumentos duas listas e o k, que é o indicador de quantos vizinhos
  serão calculados para realizar o reste

  vai calcular a distancia
  buscar os k vizinhos mais proximos
  realizar uma votação para analisar os k vizinhos mais proximos
  retorna o resultado do perfil do cliente

  esta função deve ser utilizada para adicionar dados ao campo perfil de cliente dentro de uma lista que não contém o perfil do cliente.'''
  distance = [] # criei uma variavel para armazenar o resultado da distancia
  for train in train_list:  # iterando sobre a lista teste
    train_point = train[2] #armazenando e separando apenas as tuplas da lista treino


    x = dist_euclidean_4d(train_point, test_point) # utilizando a função para calcular a distancia, aqui criei uma variavel qualquer só para armazenar
    # e apendar na variavel distancia
    distance.append((x, train[1])) #inserindo o resultado da função, + os perfil do cliente

  # agora vamos buscar o k vizinhos mais proximos
  distance.sort(key = lambda x:x[0]) # eu ordenei a lista, com as distancias + o perfil de cliente, utilizando a função lambda para que no momento da ordenação
  #ele se mantenha com seu par de tupla dentro da tupla, ou função sort(lambda vai garantir que o sort vai aplicar apenas ao elemento contido no indice 0, que
  # é o resultado do calculo realizado no bloco anterior.)
  nearest_neighbors = distance[:k] # aqui estou selecionando apenas os vizinhos mais proximos que no caso são os 'k' mais proximos. definido no argumento da função

  #agora vamos realizar a votação.
  wishes = {} # criei um dicionario de votos, para realizar votação e chegar numa classificação ideal para cada elemento da lista teste.
  for distance, profile in nearest_neighbors: #para iterar sobre os vizinhos proximos eu usei um loop for, (index 0, index 1)
    if profile in wishes: # dentro do loop ele verificar se já existe votos toda vez que iterar no loop sobre os vizinhos mais proximos
      wishes[profile] += 1 # ele vai adicionando um voto para cada vizinho encontrado
    else:
      wishes[profile] = 1 # caso não tenha mais vizinhos encontrado, ele vai considerar um voto para o perfil que não tem vizinho encontrado

  winning_profile = max (wishes, key = wishes.get) # vai definir que no perfil votado que tiver mais votos como classe votada
  return winning_profile # vai me retornar a classe ganhadora



In [4]:
# separando as listas em listas de treino e lista de teste.

# para separar a lista de treino e lista de teste, primeiro precisamos segmentar cada perfil, para saber quantos clientes eu tenho classificado
# em cada perfil de cliente.

conservatile_profile = []
agressive_profile = []
moderate_profile = []

for datum in data:
  profile = datum[1]
  if profile == "Conservador":
    conservatile_profile.append(datum)
  if profile == "Moderado":
    moderate_profile.append(datum)
  if profile == "Agressivo":
    agressive_profile.append(datum)

amount_moderate = len(moderate_profile)
amount_agressive = len(agressive_profile)
amount_conservatile = len(conservatile_profile)

print(amount_moderate, amount_agressive, amount_conservatile)

40 40 40


In [5]:
training_ratio = 0.80

conservatile_train = []
moderate_train = []
agressive_train = []
data_test = []
count_agressive = count_moderate = count_conservatile = 0


for datum in data:
  profile = datum[1]
  if profile == "Conservador":
    if count_conservatile < amount_conservatile * training_ratio:
      conservatile_train.append(datum)
      count_conservatile += 1
    else:
      data_test.append(datum)
  if profile == "Agressivo":
    if count_agressive < amount_agressive * training_ratio:
      agressive_train.append(datum)
      count_agressive += 1
    else:
      data_test.append(datum)
  if profile == "Moderado":
    if count_moderate < amount_moderate * training_ratio:
      moderate_train.append(datum)
      count_moderate += 1
    else:
      data_test.append(datum)

total_train = conservatile_train + agressive_train + moderate_train

print(len(total_train), len(data_test))

96 24


In [6]:
# testando minha função
k = 1
p_test = (6000., 2200., 5000., 1500.) # peguei um dado de um cliente considerado agressivo.
l_train = [[66707599984, 'Conservador', (5100., 3500., 1400., 200.)],
 [55695397315, 'Conservador', (4900., 3000., 1400., 200.)],
 [63743886918, 'Conservador', (4700., 3200., 1300., 200.)],
 [55941368774, 'Conservador', (4600., 3100., 1500., 200.)],
  [57976326635, 'Agressivo', (6900., 3100., 5100., 2300.)],
 [55710813002, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [64028580439, 'Agressivo', (6800., 3200., 5900., 2300.)],
 [49962942971, 'Agressivo', (6700., 3300., 5700., 2500.)],
 [47250893163, 'Agressivo', (6700., 3000., 5200., 2300.)],
 [75559276274, 'Agressivo', (6300., 2500., 5000., 1900.)],
 [58529878272, 'Agressivo', (6500., 3000., 5200., 2000.)],
 [76005896622, 'Agressivo', (6200., 3400., 5400., 2300.)],
 [49212614633, 'Agressivo', (5900., 3000., 5100., 1800.)]]

knn_classificator(l_train, p_test, k)

'Agressivo'

In [7]:
# analisando os perfis inalterados da lista teste
print(data_test)

[[67008801023, 'Conservador', (4400.0, 3200.0, 1300.0, 200.0)], [72149193419, 'Conservador', (5000.0, 3500.0, 1600.0, 600.0)], [62830733382, 'Conservador', (5100.0, 3800.0, 1900.0, 400.0)], [56716675811, 'Conservador', (4800.0, 3000.0, 1400.0, 300.0)], [61089667146, 'Conservador', (5100.0, 3800.0, 1600.0, 200.0)], [47795509468, 'Conservador', (4600.0, 3200.0, 1400.0, 200.0)], [60899885693, 'Conservador', (5300.0, 3700.0, 1500.0, 200.0)], [53433670705, 'Conservador', (5000.0, 3300.0, 1400.0, 200.0)], [51286696873, 'Moderado', (5800.0, 2600.0, 4000.0, 1200.0)], [41065279767, 'Moderado', (5000.0, 2300.0, 3300.0, 1000.0)], [42866454119, 'Moderado', (5600.0, 2700.0, 4200.0, 1300.0)], [61962944542, 'Moderado', (5700.0, 3000.0, 4200.0, 1200.0)], [48623501235, 'Moderado', (5700.0, 2900.0, 4200.0, 1300.0)], [49475220139, 'Moderado', (6200.0, 2900.0, 4300.0, 1300.0)], [52245218531, 'Moderado', (5100.0, 2500.0, 3000.0, 1100.0)], [50932926697, 'Moderado', (5700.0, 2800.0, 4100.0, 1300.0)], [557108

In [8]:
# zerando a lista teste para não haver problemas de redundancia nos dados e ter certeza de que o treino será realizado
for item in range(len(data_test)):
  data_test[item] = [data_test[item][0], ' ', data_test[item][2]]

print(data_test)

[[67008801023, ' ', (4400.0, 3200.0, 1300.0, 200.0)], [72149193419, ' ', (5000.0, 3500.0, 1600.0, 600.0)], [62830733382, ' ', (5100.0, 3800.0, 1900.0, 400.0)], [56716675811, ' ', (4800.0, 3000.0, 1400.0, 300.0)], [61089667146, ' ', (5100.0, 3800.0, 1600.0, 200.0)], [47795509468, ' ', (4600.0, 3200.0, 1400.0, 200.0)], [60899885693, ' ', (5300.0, 3700.0, 1500.0, 200.0)], [53433670705, ' ', (5000.0, 3300.0, 1400.0, 200.0)], [51286696873, ' ', (5800.0, 2600.0, 4000.0, 1200.0)], [41065279767, ' ', (5000.0, 2300.0, 3300.0, 1000.0)], [42866454119, ' ', (5600.0, 2700.0, 4200.0, 1300.0)], [61962944542, ' ', (5700.0, 3000.0, 4200.0, 1200.0)], [48623501235, ' ', (5700.0, 2900.0, 4200.0, 1300.0)], [49475220139, ' ', (6200.0, 2900.0, 4300.0, 1300.0)], [52245218531, ' ', (5100.0, 2500.0, 3000.0, 1100.0)], [50932926697, ' ', (5700.0, 2800.0, 4100.0, 1300.0)], [55710813002, ' ', (5800.0, 2700.0, 5100.0, 1900.0)], [64028580439, ' ', (6800.0, 3200.0, 5900.0, 2300.0)], [49962942971, ' ', (6700.0, 3300.0,

In [9]:
# aplicando o knn_classificador e inserindo a decisão na lista_teste

k = 3
for item in range(len(data_test)):
  class_defined = knn_classificator(total_train, data_test[item][2], k)
  data_test[item] = [data_test[item][0], class_defined, data_test[item][2]]

print(data_test)

[[67008801023, 'Conservador', (4400.0, 3200.0, 1300.0, 200.0)], [72149193419, 'Conservador', (5000.0, 3500.0, 1600.0, 600.0)], [62830733382, 'Conservador', (5100.0, 3800.0, 1900.0, 400.0)], [56716675811, 'Conservador', (4800.0, 3000.0, 1400.0, 300.0)], [61089667146, 'Conservador', (5100.0, 3800.0, 1600.0, 200.0)], [47795509468, 'Conservador', (4600.0, 3200.0, 1400.0, 200.0)], [60899885693, 'Conservador', (5300.0, 3700.0, 1500.0, 200.0)], [53433670705, 'Conservador', (5000.0, 3300.0, 1400.0, 200.0)], [51286696873, 'Moderado', (5800.0, 2600.0, 4000.0, 1200.0)], [41065279767, 'Moderado', (5000.0, 2300.0, 3300.0, 1000.0)], [42866454119, 'Moderado', (5600.0, 2700.0, 4200.0, 1300.0)], [61962944542, 'Moderado', (5700.0, 3000.0, 4200.0, 1200.0)], [48623501235, 'Moderado', (5700.0, 2900.0, 4200.0, 1300.0)], [49475220139, 'Moderado', (6200.0, 2900.0, 4300.0, 1300.0)], [52245218531, 'Moderado', (5100.0, 2500.0, 3000.0, 1100.0)], [50932926697, 'Moderado', (5700.0, 2800.0, 4100.0, 1300.0)], [557108

In [10]:
# comparando o resultado do teste com a lista real
def validation (full_list, without_list):
  hit = 0
  error = 0
  for real_data in full_list:
    for test_data in without_list:
      real_cpf = real_data[0]
      test_cpf = test_data[0]
      if real_cpf == test_cpf:
        if real_data[1] == test_data[1]:
          hit += 1
        else:
          error += 1
  try:
    hit_rate = round(hit/(hit + error) * 100, 2)
  except:
    hit_rate = 100
  return f'acertos = {hit}, erros = {error}, taxa de acertos {hit_rate}%'

validation(data, data_test)

# Legal!! 100% de acertos!!!

'acertos = 24, erros = 0, taxa de acertos 100.0%'

In [11]:
# porém, agora eu vou zerar novamente a lista treino e comparar novamente apenas para garantir

for item in range(len(data_test)):
  data_test[item] = [data_test[item][0], ' ', data_test[item][2]]

print(data_test)

[[67008801023, ' ', (4400.0, 3200.0, 1300.0, 200.0)], [72149193419, ' ', (5000.0, 3500.0, 1600.0, 600.0)], [62830733382, ' ', (5100.0, 3800.0, 1900.0, 400.0)], [56716675811, ' ', (4800.0, 3000.0, 1400.0, 300.0)], [61089667146, ' ', (5100.0, 3800.0, 1600.0, 200.0)], [47795509468, ' ', (4600.0, 3200.0, 1400.0, 200.0)], [60899885693, ' ', (5300.0, 3700.0, 1500.0, 200.0)], [53433670705, ' ', (5000.0, 3300.0, 1400.0, 200.0)], [51286696873, ' ', (5800.0, 2600.0, 4000.0, 1200.0)], [41065279767, ' ', (5000.0, 2300.0, 3300.0, 1000.0)], [42866454119, ' ', (5600.0, 2700.0, 4200.0, 1300.0)], [61962944542, ' ', (5700.0, 3000.0, 4200.0, 1200.0)], [48623501235, ' ', (5700.0, 2900.0, 4200.0, 1300.0)], [49475220139, ' ', (6200.0, 2900.0, 4300.0, 1300.0)], [52245218531, ' ', (5100.0, 2500.0, 3000.0, 1100.0)], [50932926697, ' ', (5700.0, 2800.0, 4100.0, 1300.0)], [55710813002, ' ', (5800.0, 2700.0, 5100.0, 1900.0)], [64028580439, ' ', (6800.0, 3200.0, 5900.0, 2300.0)], [49962942971, ' ', (6700.0, 3300.0,

In [12]:
# vimos que ao alterar o dado da lista de teste, os erros foram computados, diante disso validamos nosso teste.
validation(data, data_test)

'acertos = 0, erros = 24, taxa de acertos 0.0%'

In [13]:
# agora é 'correr para o abraço' e aplicar as funções nas listas oficiais
# aplicando o knn_classificador e inserindo a decisão na lista no_class

k = 3
for item in range(len(no_class)):
  class_defined = knn_classificator(total_train, no_class[item][2], k)
  no_class[item] = [no_class[item][0], class_defined, no_class[item][2]]

print(no_class)


[[45926320819, 'Conservador', (5800.0, 4000.0, 1200.0, 200.0)], [52559670741, 'Conservador', (5700.0, 4400.0, 1500.0, 400.0)], [59016004832, 'Conservador', (5400.0, 3900.0, 1300.0, 400.0)], [66175672425, 'Conservador', (5100.0, 3500.0, 1400.0, 300.0)], [53330429526, 'Conservador', (5700.0, 3800.0, 1700.0, 300.0)], [43765563403, 'Conservador', (5100.0, 3800.0, 1500.0, 300.0)], [68020822591, 'Conservador', (5400.0, 3400.0, 1700.0, 200.0)], [53939481689, 'Conservador', (5100.0, 3700.0, 1500.0, 400.0)], [47014057561, 'Conservador', (4600.0, 3600.0, 1000.0, 200.0)], [57183542047, 'Conservador', (5100.0, 3300.0, 1700.0, 500.0)], [68518284363, 'Moderado', (5000.0, 2000.0, 3500.0, 1000.0)], [65806049885, 'Moderado', (5900.0, 3000.0, 4200.0, 1500.0)], [54128073086, 'Moderado', (6000.0, 2200.0, 4000.0, 1000.0)], [41306785494, 'Moderado', (6100.0, 2900.0, 4700.0, 1400.0)], [65234831039, 'Moderado', (5600.0, 2900.0, 3600.0, 1300.0)], [50964498067, 'Moderado', (6700.0, 3100.0, 4400.0, 1400.0)], [50