# K-Nearest Neighbors - KNN

Modelo supervisionado de machine learning que pode ser utilizado tanto para classificação, isto é, rotular os dados; quanto para regressão, ou seja, aproximar valores.

## Características

- Simples
- Interpretável
- Largamente conhecido e estudado
- Razoavelmente rápido

Por conta disso é um ótimo benchmark


## Algoritmo

- Passo 1:
    Definir um valor para K
- Passo 2:
    Definir os K vizinhos mais próximos do ponto a ser classificado de acordo com uma função de distância.
- Passo 3:
    - Se for um problema de **Regressão**:
        Calcular a **média** de todos os vizinhos.
    - Se for um problema de **Classificação**:
        Calcular a **moda** de todos os vizinhos.
- Passo 4:
    Atribuir o valor/classe ao ponto de interesse conforme cálculo do Passo 3.

## Links Úteis
### Definições
- ["Primeira" aparição do modelo](https://apps.dtic.mil/dtic/tr/fulltext/u2/a800276.pdf)
- [Expansão do KNN](http://ssg.mit.edu/cal/abs/2000_spring/np_dens/classification/cover67.pdf)
- [Expansão do KNN novo link](https://isl.stanford.edu/~cover/papers/transIT/0021cove.pdf)
### Casos de uso
- [Click Stream](https://www.sciencedirect.com/science/article/pii/S221083271400026X#:~:text=The%20K%2DNearest%20Neighbor%20classification,a%20given%20time%20%5B24%5D)
- [Battery life](https://www.sciencedirect.com/science/article/abs/pii/S0959652619342799)
- [Mahalanobis Distance](https://jmlr.csail.mit.edu/papers/volume10/weinberger09a/weinberger09a.pdf)
### Dataviz
- [Stanford](http://vision.stanford.edu/teaching/cs231n-demos/knn/)
- [IRA](https://lecture-demo.ira.uka.de/knn-demo/preset=3)

## Links Úteis
### Definições
- ["Primeira" aparição do modelo](https://apps.dtic.mil/dtic/tr/fulltext/u2/a800276.pdf)
- [Expansão do KNN](http://ssg.mit.edu/cal/abs/2000_spring/np_dens/classification/cover67.pdf)
- [Expansão do KNN novo link](https://isl.stanford.edu/~cover/papers/transIT/0021cove.pdf)
### Casos de uso
- [Click Stream](https://www.sciencedirect.com/science/article/pii/S221083271400026X#:~:text=The%20K%2DNearest%20Neighbor%20classification,a%20given%20time%20%5B24%5D)
- [Battery life](https://www.sciencedirect.com/science/article/abs/pii/S0959652619342799)
- [Mahalanobis Distance](https://jmlr.csail.mit.edu/papers/volume10/weinberger09a/weinberger09a.pdf)
### Dataviz
- [Stanford](http://vision.stanford.edu/teaching/cs231n-demos/knn/)
- [IRA](https://lecture-demo.ira.uka.de/knn-demo/preset=3)

### Caso queira medir a distância utilizando a distência euclidiana

Como medir a distância euclidiana:
<br>
![Distância Euclidiana 2D](image/grafico.png)
<br>
<br>
Fórmula da distência euclidiana:
<br>
![Distância Euclidiana](image/formula.png)

exemplo 1 de como calcular: https://www.omnicalculator.com/math/euclidean-distance
<br><br>
exemplo 2:

carteira1 : (x: 1, y: 1, z: 1) <br>
carteira2 : (x: 2, y: 2, z: 1) <br>
distância, é a raiz quadrada de: (2-1)<sup>2</sup> + (2-1)<sup>2</sup> + (1-1)<sup>2</sup>  <break>
em outras palavras: raiz quadrada de  (1 + 1 + 0). <break>

a distância entre esses dois pontos é de: 1.41

a distância entre esses dois pontos é de: 1.41

## Dados

In [49]:
data = [[66707599984, 'Conservador', (5100., 3500., 1400., 200.)],
 [55695397315, 'Conservador', (4900., 3000., 1400., 200.)],
 [63743886918, 'Conservador', (4700., 3200., 1300., 200.)],
 [55941368774, 'Conservador', (4600., 3100., 1500., 200.)],
 [75486280874, 'Conservador', (5000., 3600., 1400., 200.)],
 [53164949799, 'Conservador', (5400., 3900., 1700., 400.)],
 [39898704131, 'Conservador', (4600., 3400., 1400., 300.)],
 [53740901207, 'Conservador', (5000., 3400., 1500., 200.)],
 [51735950236, 'Conservador', (4400., 2900., 1400., 200.)],
 [47305108951, 'Conservador', (4900., 3100., 1500., 100.)],
 [63858864633, 'Conservador', (5400., 3700., 1500., 200.)],
 [53363167240, 'Conservador', (4800., 3400., 1600., 200.)],
 [72133754195, 'Conservador', (4800., 3000., 1400., 100.)],
 [52802483512, 'Conservador', (4300., 3000., 1100., 100.)],
 [57925287214, 'Conservador', (4800., 3400., 1900., 200.)],
 [74354632224, 'Conservador', (5000., 3000., 1600., 200.)],
 [64020216626, 'Conservador', (5000., 3400., 1600., 400.)],
 [78223722856, 'Conservador', (5200., 3500., 1500., 200.)],
 [58245228846, 'Conservador', (5200., 3400., 1400., 200.)],
 [74490686776, 'Conservador', (4700., 3200., 1600., 200.)],
 [48646824781, 'Conservador', (4800., 3100., 1600., 200.)],
 [77381458676, 'Conservador', (5400., 3400., 1500., 400.)],
 [41615431874, 'Conservador', (5200., 4100., 1500., 100.)],
 [52163844491, 'Conservador', (5500., 4200., 1400., 200.)],
 [70276304567, 'Conservador', (4900., 3100., 1500., 200.)],
 [69119828185, 'Conservador', (5000., 3200., 1200., 200.)],
 [65441690046, 'Conservador', (5500., 3500., 1300., 200.)],
 [56457227894, 'Conservador', (4900., 3600., 1400., 100.)],
 [46939428126, 'Conservador', (4400., 3000., 1300., 200.)],
 [60979942480, 'Conservador', (5100., 3400., 1500., 200.)],
 [41648583220, 'Conservador', (5000., 3500., 1300., 300.)],
 [50376331791, 'Conservador', (4500., 2300., 1300., 300.)],
 [67008801023, 'Conservador', (4400., 3200., 1300., 200.)],
 [72149193419, 'Conservador', (5000., 3500., 1600., 600.)],
 [62830733382, 'Conservador', (5100., 3800., 1900., 400.)],
 [56716675811, 'Conservador', (4800., 3000., 1400., 300.)],
 [61089667146, 'Conservador', (5100., 3800., 1600., 200.)],
 [47795509468, 'Conservador', (4600., 3200., 1400., 200.)],
 [60899885693, 'Conservador', (5300., 3700., 1500., 200.)],
 [53433670705, 'Conservador', (5000., 3300., 1400., 200.)],
 [54850120580, 'Moderado', (7000., 3200., 4700., 1400.)],
 [71457789994, 'Moderado', (6400., 3200., 4500., 1500.)],
 [67692777563, 'Moderado', (6900., 3100., 4900., 1500.)],
 [43133573182, 'Moderado', (5500., 2300., 4000., 1300.)],
 [55150612815, 'Moderado', (6500., 2800., 4600., 1500.)],
 [48211725243, 'Moderado', (5700., 2800., 4500., 1300.)],
 [76686463776, 'Moderado', (6300., 3300., 4700., 1600.)],
 [71971000560, 'Moderado', (4900., 2400., 3300., 1000.)],
 [40307235992, 'Moderado', (6600., 2900., 4600., 1300.)],
 [44826533081, 'Moderado', (5200., 2700., 3900., 1400.)],
 [45735414894, 'Moderado', (5900., 3200., 4800., 1800.)],
 [57137146514, 'Moderado', (6100., 2800., 4000., 1300.)],
 [53657058251, 'Moderado', (6300., 2500., 4900., 1500.)],
 [52941460485, 'Moderado', (6100., 2800., 4700., 1200.)],
 [44306600683, 'Moderado', (6400., 2900., 4300., 1300.)],
 [43460747924, 'Moderado', (6600., 3000., 4400., 1400.)],
 [75590376075, 'Moderado', (6800., 2800., 4800., 1400.)],
 [68267282206, 'Moderado', (6700., 3000., 5000., 1700.)],
 [77567920298, 'Moderado', (6000., 2900., 4500., 1500.)],
 [67600419504, 'Moderado', (5700., 2600., 3500., 1000.)],
 [44902189811, 'Moderado', (5500., 2400., 3800., 1100.)],
 [62966866614, 'Moderado', (5500., 2400., 3700., 1000.)],
 [56182108880, 'Moderado', (5800., 2700., 3900., 1200.)],
 [78299785392, 'Moderado', (6000., 2700., 5100., 1600.)],
 [45206071878, 'Moderado', (5400., 3000., 4500., 1500.)],
 [57381925887, 'Moderado', (6000., 3400., 4500., 1600.)],
 [65654934891, 'Moderado', (6700., 3100., 4700., 1500.)],
 [56130640481, 'Moderado', (6300., 2300., 4400., 1300.)],
 [59667611672, 'Moderado', (5600., 3000., 4100., 1300.)],
 [40349334385, 'Moderado', (5500., 2500., 4000., 1300.)],
 [68422640081, 'Moderado', (5500., 2600., 4400., 1200.)],
 [55245923439, 'Moderado', (6100., 3000., 4600., 1400.)],
 [51286696873, 'Moderado', (5800., 2600., 4000., 1200.)],
 [41065279767, 'Moderado', (5000., 2300., 3300., 1000.)],
 [42866454119, 'Moderado', (5600., 2700., 4200., 1300.)],
 [61962944542, 'Moderado', (5700., 3000., 4200., 1200.)],
 [48623501235, 'Moderado', (5700., 2900., 4200., 1300.)],
 [49475220139, 'Moderado', (6200., 2900., 4300., 1300.)],
 [52245218531, 'Moderado', (5100., 2500., 3000., 1100.)],
 [50932926697, 'Moderado', (5700., 2800., 4100., 1300.)],
 [47432932248, 'Agressivo', (6300., 3300., 6000., 2500.)],
 [39321991579, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [46283759608, 'Agressivo', (7100., 3000., 5900., 2100.)],
 [56996272538, 'Agressivo', (6300., 2900., 5600., 1800.)],
 [77232189978, 'Agressivo', (6500., 3000., 5800., 2200.)],
 [77183282421, 'Agressivo', (7600., 3000., 6600., 2100.)],
 [42857147573, 'Agressivo', (4900., 2500., 4500., 1700.)],
 [39331584043, 'Agressivo', (7300., 2900., 6300., 1800.)],
 [48130345228, 'Agressivo', (6700., 2500., 5800., 1800.)],
 [71422443953, 'Agressivo', (7200., 3600., 6100., 2500.)],
 [72508507904, 'Agressivo', (6900., 3200., 5700., 2300.)],
 [41188727558, 'Agressivo', (5600., 2800., 4900., 2000.)],
 [61358776640, 'Agressivo', (7700., 2800., 6700., 2000.)],
 [66934042323, 'Agressivo', (6300., 2700., 4900., 1800.)],
 [40622495567, 'Agressivo', (6700., 3300., 5700., 2100.)],
 [57221661311, 'Agressivo', (7200., 3200., 6000., 1800.)],
 [45159362930, 'Agressivo', (6200., 2800., 4800., 1800.)],
 [45018975174, 'Agressivo', (6100., 3000., 4900., 1800.)],
 [70685429140, 'Agressivo', (6400., 2800., 5600., 2100.)],
 [61808723477, 'Agressivo', (7200., 3000., 5800., 1600.)],
 [56363906548, 'Agressivo', (7400., 2800., 6100., 1900.)],
 [39646194720, 'Agressivo', (7900., 3800., 6400., 2000.)],
 [55385494438, 'Agressivo', (6400., 2800., 5600., 2200.)],
 [75796138061, 'Agressivo', (6300., 2800., 5100., 1500.)],
 [53595767857, 'Agressivo', (6100., 2600., 5600., 1400.)],
 [48758828080, 'Agressivo', (7700., 3000., 6100., 2300.)],
 [58387651356, 'Agressivo', (6300., 3400., 5600., 2400.)],
 [72846931192, 'Agressivo', (6400., 3100., 5500., 1800.)],
 [47046896346, 'Agressivo', (6000., 3000., 4800., 1800.)],
 [69730292799, 'Agressivo', (6900., 3100., 5400., 2100.)],
 [48177836349, 'Agressivo', (6700., 3100., 5600., 2400.)],
 [57976326635, 'Agressivo', (6900., 3100., 5100., 2300.)],
 [55710813002, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [64028580439, 'Agressivo', (6800., 3200., 5900., 2300.)],
 [49962942971, 'Agressivo', (6700., 3300., 5700., 2500.)],
 [47250893163, 'Agressivo', (6700., 3000., 5200., 2300.)],
 [75559276274, 'Agressivo', (6300., 2500., 5000., 1900.)],
 [58529878272, 'Agressivo', (6500., 3000., 5200., 2000.)],
 [76005896622, 'Agressivo', (6200., 3400., 5400., 2300.)],
 [49212614633, 'Agressivo', (5900., 3000., 5100., 1800.)]]

In [50]:
no_class = [[45926320819, '', (5800., 4000., 1200., 200.)],
 [52559670741, '', (5700., 4400., 1500., 400.)],
 [59016004832, '', (5400., 3900., 1300., 400.)],
 [66175672425, '', (5100., 3500., 1400., 300.)],
 [53330429526, '', (5700., 3800., 1700., 300.)],
 [43765563403, '', (5100., 3800., 1500., 300.)],
 [68020822591, '', (5400., 3400., 1700., 200.)],
 [53939481689, '', (5100., 3700., 1500., 400.)],
 [47014057561, '', (4600., 3600., 1000., 200.)],
 [57183542047, '', (5100., 3300., 1700., 500.)],

 [68518284363, '', (5000., 2000., 3500., 1000.)],
 [65806049885, '', (5900., 3000., 4200., 1500.)],
 [54128073086, '', (6000., 2200., 4000., 1000.)],
 [41306785494, '', (6100., 2900., 4700., 1400.)],
 [65234831039, '', (5600., 2900., 3600., 1300.)],
 [50964498067, '', (6700., 3100., 4400., 1400.)],
 [50810951429, '', (5600., 3000., 4500., 1500.)],
 [48765044397, '', (5800., 2700., 4100., 1000.)],
 [41960083761, '', (6200., 2200., 4500., 1500.)],
 [76657763082, '', (5600., 2500., 3900., 1100.)],

 [64726487742, '', (6500., 3200., 5100., 2000.)],
 [75746566283, '', (6400., 2700., 5300., 1900.)],
 [78576734793, '', (6800., 3000., 5500., 2100.)],
 [56440141847, '', (5700., 2500., 5000., 2000.)],
 [66827423000, '', (5800., 2800., 5100., 2400.)],
 [45267873396, '', (6400., 3200., 5300., 2300.)],
 [46387191493, '', (6500., 3000., 5500., 1800.)],
 [54273611732, '', (7700., 3800., 6700., 2200.)],
 [75135392881, '', (7700., 2600., 6900., 2300.)],
 [64703873108, '', (6000., 2200., 5000., 1500.)]]

## Resolução

### Funções construídas

In [51]:
def distanciaEuclidiana(x: list, y: list):

    '''
    Função que calcula a distância euclidiana entre dois pontos de n dimensões
    x: lista com n elementos (representa o primeiro ponto)
    y: lista com n elementos (representa o segundo ponto)
    Retorna a distância arredonda (2 casa decimais) como float 
    '''

    lista_dif = []

    for par in zip(x, y):
        lista_dif.append((par[0] - par[1]) ** 2)

    dist = round(sum(lista_dif) ** (1/2), 2)

    return dist

In [52]:
def separaTreinoTeste(dados: list, pc_teste: float = 0.25):

    '''
    Função que separa um conjunto de dados entre treino e teste usando a proporção desejada
    dados: conjunto de dados a ser dividido
    pc_teste: porcentagem que será usado para separar o conjunto de teste
    Retorna os dois conjuntos de dados (treino e teste)
    '''

    qt_teste = len(dados) * pc_teste
    qt_passos = int(len(dados) // qt_teste)

    data_teste = dados.copy()[::qt_passos]
    data_treino = dados.copy()

    for registro in data_teste:

        for registro2 in data_treino:

            if registro == registro2:
                data_treino.remove(registro2)

    return data_treino, data_teste

In [53]:
def ordenaDados(lista_de_listas: list, indice: int):

    '''
    Função que ordena os dados de uma lista de listas usando um elemento específico das sublistas
    lista_de_listas: lista de listas que será ordenada
    indice: índice do elemento da sublista a ser usado como parâmetro para ordenação
    Retorna a lista de listas ordenada
    '''

    dados_ordenados = sorted(lista_de_listas, key = lambda sublista: sublista[indice])

    return dados_ordenados

In [54]:
def selecionaElementoSublista(lista_de_listas: list, indice: int):

    '''
    Função que seleciona todos os elementos de um índice x das sublistas de uma lista
    lista_de_listas: lista de listas que será percorrida
    indice: índice do elemento da sublista que deverá ser retornado
    Retorna uma lista apenas com os elementos do índice x selecionado
    '''

    lista_elementos = []

    for lista in lista_de_listas:
        elemento_desejado = lista[indice]
        lista_elementos.append(elemento_desejado)

    return lista_elementos

In [55]:
#def selecionaElementoSublista(lista_de_listas, indice):
#    lista_elementos = [lista[indice] for lista in lista_de_listas]
#
#    return lista_elementos

In [56]:
def maisComum(lista: list):

    '''
    Função que seleciona o elemento mais frequente dentro de uma lista
    lista: lista com os elementos
    Retorna o primeiro elemento com a maior frequência de ocorrência
    '''

    return max(lista, key = lista.count)

In [57]:
def algoritmoKNN(dados_teste: list, dados_treino: list, k: int = 3, treino: bool = False):

    '''
    Função que aplica o algoritmo de classificação KNN
    dados_teste: lista de listas com os dados a serem classificados
    dados_treino: lista de listas com os dados com informações históricas
    k: número de vizinhos próximos que deve ser considerado no algoritmo
    treino: variável para indicar se o algoritmo está sendo usado para treino (True) ou classificação (False)
    Retorna uma lista de listas com os dados classificados
    '''

    dados_classificados = []
    dados_teste_copia = [sublista[:] for sublista in dados_teste]

    for lista in dados_teste_copia:

        dados_treino_copia = [sublista[:] for sublista in dados_treino]
        carteira = list(lista[2])

        for lista_treino in dados_treino_copia:

            carteira_treino = list(lista_treino[2])
            distancia = distanciaEuclidiana (carteira, carteira_treino)
            lista_treino.append(distancia)

        distancia_ordenada = ordenaDados(dados_treino_copia, 3)

        k_vizinhos = distancia_ordenada[:k]

        lista_perfil = selecionaElementoSublista(k_vizinhos, 1)
        
        classe_frequente = maisComum(lista_perfil)
        
        if treino:
            lista.insert(2, classe_frequente)
        else:
            lista[1] = classe_frequente
            
        dados_classificados.append(lista)

    return dados_classificados

In [58]:
def previstoEhReal(lista: list):

    '''
    Função que retorna se a classificação prevista é igual a classificação esperada
    lista: lista com um registro do conjunto de dados
    Retorna True se a classificação é igual e False se é diferente
    '''
    
    return lista[1] == lista[2]

In [59]:
def selecionaMelhorK(dados_teste: list, dados_treino: list, lista_k: list = list(range(1, 11, 2))):

    '''
    Função que seleciona o número k de vizinhos com a maior acurácia de acordo com uma base de treino e de uma de teste
    dados_teste: lista de listas com os dados a serem testados (comparação entre real e predito)
    dados_treino: lista de listas com os dados de treino com informações históricas
    lista_k: lista com os ks a serem testados para acurácia
    Imprime a acurácia para cada um dos ks testados e qual deles tem a maior acurácia
    Retorna o k com maior acurácia (int)
    '''
   
    k_maior_acuracia = (0, 0)

    print(' k | Acuracia ')

    for k in lista_k:
        resultadoKnn = algoritmoKNN(dados_teste, dados_treino, k, treino = True)
        total_registros = len(resultadoKnn)

        lista_acertos = list(filter(previstoEhReal, resultadoKnn))
        total_acertos = len(lista_acertos)

        acuracia = round((total_acertos/total_registros) * 100, 2)
        
        print(f' {k} | {acuracia}% ')

        if acuracia > k_maior_acuracia[1]:
            k_maior_acuracia = (k, acuracia)

    print(f'\nO k = {k_maior_acuracia[0]} apresentou a maior acuracia ({k_maior_acuracia[1]}%) para esse conjunto de dados')

    if k_maior_acuracia[0] % 2 == 0:
        print(f'*Aviso!*\nNão se recomenda utilizar um k par devido a maior probabilidade de empates entre os k vizinhos')
        print('No caso de empate a classe será escolhida de acordo com a ordem dos dados, ou seja, a primeira ocorrência será escolhida')

    return k_maior_acuracia[0]       

    

### Classificação dos dados usando as funções

In [60]:
# Separando o conjunto de dados entre treino e teste

dados_treino, dados_teste = separaTreinoTeste(data)

print(f'Dados treino - {(len(dados_treino)/len(data)) * 100}%')
for x in dados_treino:
    print(x)

print(f'\nDados teste - {(len(dados_teste)/len(data)) * 100}%')
for y in dados_teste:
    print(y)

Dados treino - 75.0%
[55695397315, 'Conservador', (4900.0, 3000.0, 1400.0, 200.0)]
[63743886918, 'Conservador', (4700.0, 3200.0, 1300.0, 200.0)]
[55941368774, 'Conservador', (4600.0, 3100.0, 1500.0, 200.0)]
[53164949799, 'Conservador', (5400.0, 3900.0, 1700.0, 400.0)]
[39898704131, 'Conservador', (4600.0, 3400.0, 1400.0, 300.0)]
[53740901207, 'Conservador', (5000.0, 3400.0, 1500.0, 200.0)]
[47305108951, 'Conservador', (4900.0, 3100.0, 1500.0, 100.0)]
[63858864633, 'Conservador', (5400.0, 3700.0, 1500.0, 200.0)]
[53363167240, 'Conservador', (4800.0, 3400.0, 1600.0, 200.0)]
[52802483512, 'Conservador', (4300.0, 3000.0, 1100.0, 100.0)]
[57925287214, 'Conservador', (4800.0, 3400.0, 1900.0, 200.0)]
[74354632224, 'Conservador', (5000.0, 3000.0, 1600.0, 200.0)]
[78223722856, 'Conservador', (5200.0, 3500.0, 1500.0, 200.0)]
[58245228846, 'Conservador', (5200.0, 3400.0, 1400.0, 200.0)]
[74490686776, 'Conservador', (4700.0, 3200.0, 1600.0, 200.0)]
[77381458676, 'Conservador', (5400.0, 3400.0, 150

In [61]:
# Testando qual k resulta na maior acurácia, usando os dados de treino e teste

melhor_k = selecionaMelhorK(dados_teste, dados_treino)

 k | Acuracia 
 1 | 96.67% 
 3 | 96.67% 
 5 | 100.0% 
 7 | 96.67% 
 9 | 96.67% 

O k = 5 apresentou a maior acuracia (100.0%) para esse conjunto de dados


In [62]:
# Aplicando o modelo com os conjuntos de dados a serem calssificados usando o k com maior acuracia

dados_classificados = algoritmoKNN(no_class, data, k = melhor_k)

for registro in dados_classificados:
    print(registro)

[45926320819, 'Conservador', (5800.0, 4000.0, 1200.0, 200.0)]
[52559670741, 'Conservador', (5700.0, 4400.0, 1500.0, 400.0)]
[59016004832, 'Conservador', (5400.0, 3900.0, 1300.0, 400.0)]
[66175672425, 'Conservador', (5100.0, 3500.0, 1400.0, 300.0)]
[53330429526, 'Conservador', (5700.0, 3800.0, 1700.0, 300.0)]
[43765563403, 'Conservador', (5100.0, 3800.0, 1500.0, 300.0)]
[68020822591, 'Conservador', (5400.0, 3400.0, 1700.0, 200.0)]
[53939481689, 'Conservador', (5100.0, 3700.0, 1500.0, 400.0)]
[47014057561, 'Conservador', (4600.0, 3600.0, 1000.0, 200.0)]
[57183542047, 'Conservador', (5100.0, 3300.0, 1700.0, 500.0)]
[68518284363, 'Moderado', (5000.0, 2000.0, 3500.0, 1000.0)]
[65806049885, 'Moderado', (5900.0, 3000.0, 4200.0, 1500.0)]
[54128073086, 'Moderado', (6000.0, 2200.0, 4000.0, 1000.0)]
[41306785494, 'Moderado', (6100.0, 2900.0, 4700.0, 1400.0)]
[65234831039, 'Moderado', (5600.0, 2900.0, 3600.0, 1300.0)]
[50964498067, 'Moderado', (6700.0, 3100.0, 4400.0, 1400.0)]
[50810951429, 'Moder

In [63]:
print(f'Dados treino - {(len(dados_treino)/len(data)) * 100}%')
for x in dados_treino:
    print(x)

print(f'\nDados teste - {(len(dados_teste)/len(data)) * 100}%')
for y in dados_teste:
    print(y)

Dados treino - 75.0%
[55695397315, 'Conservador', (4900.0, 3000.0, 1400.0, 200.0)]
[63743886918, 'Conservador', (4700.0, 3200.0, 1300.0, 200.0)]
[55941368774, 'Conservador', (4600.0, 3100.0, 1500.0, 200.0)]
[53164949799, 'Conservador', (5400.0, 3900.0, 1700.0, 400.0)]
[39898704131, 'Conservador', (4600.0, 3400.0, 1400.0, 300.0)]
[53740901207, 'Conservador', (5000.0, 3400.0, 1500.0, 200.0)]
[47305108951, 'Conservador', (4900.0, 3100.0, 1500.0, 100.0)]
[63858864633, 'Conservador', (5400.0, 3700.0, 1500.0, 200.0)]
[53363167240, 'Conservador', (4800.0, 3400.0, 1600.0, 200.0)]
[52802483512, 'Conservador', (4300.0, 3000.0, 1100.0, 100.0)]
[57925287214, 'Conservador', (4800.0, 3400.0, 1900.0, 200.0)]
[74354632224, 'Conservador', (5000.0, 3000.0, 1600.0, 200.0)]
[78223722856, 'Conservador', (5200.0, 3500.0, 1500.0, 200.0)]
[58245228846, 'Conservador', (5200.0, 3400.0, 1400.0, 200.0)]
[74490686776, 'Conservador', (4700.0, 3200.0, 1600.0, 200.0)]
[77381458676, 'Conservador', (5400.0, 3400.0, 150

In [64]:
lista_k = list(range(1,11, 2))

k_maior_acuracia = (0, 0)

print(' k | Acuracia ')

for k in lista_k:
    resultadoKnn = algoritmoKNN(dados_teste, dados_treino, k)
    total_registros = len(resultadoKnn)

    lista_acertos = list(filter(previstoEhReal, resultadoKnn))
    total_acertos = len(lista_acertos)
    
    acuracia = round((total_acertos/total_registros) * 100, 2)
    #print(f'A acuracia do modelo para k = {k} é de {acuracia}%')
    print(f' {k} | {acuracia}% ')

    if acuracia > k_maior_acuracia[1]:
        k_maior_acuracia = (k, acuracia)

    
    #lista_acuracia.append((k, acuracia))

#k_maior_acuracia = ordenaDados(lista_acuracia, 1)[-1]
#print(ordenaDados(lista_acuracia, 1))
print(f'\nO k = {k_maior_acuracia[0]} apresentou a maior acuracia ({k_maior_acuracia[1]}%) para esse conjunto de dados')

if k_maior_acuracia[0] % 2 == 0:
    print(f'*Aviso* - Não se recomenda utilizar um k par, devido a maior probabilidade de empates entre os k vizinhos')

#return k_maior_acuracia[0]



 k | Acuracia 
 1 | 0.0% 
 3 | 0.0% 
 5 | 0.0% 
 7 | 0.0% 
 9 | 0.0% 

O k = 0 apresentou a maior acuracia (0%) para esse conjunto de dados
*Aviso* - Não se recomenda utilizar um k par, devido a maior probabilidade de empates entre os k vizinhos


In [65]:
def defineKVizinhos(dados, k = 3):

    dados_classificados = []

    for lista in dados:

        #print('\nDado novo')
        #print(lista)

        carteira = list(lista[2])

        dados_treino = dadosTreino().copy()
        #dados_treino = data.copy()

        for lista_treino in dados_treino:

            carteira_treino = list(lista_treino[2])

            distancia = distanciaEuclidiana (carteira, carteira_treino)

            lista_treino.append(distancia)

            #print(lista_treino)

        distancia_ordenada = sorted(dados_treino, key=lambda x: x[3])

        k_vizinhos = distancia_ordenada[:k]

        #print('\nVizinhos')
        #print(k_vizinhos)

        lista_perfil = [perfil[1] for perfil in k_vizinhos]

        #print('\nPerfils')
        #print(lista_perfil)

        classe_frequente = max(lista_perfil, key = lista_perfil.count)

        #print('\nPerfil final')
        #print(classe_frequente)

        lista[1] = classe_frequente
        #lista.append(classe_frequente)

        dados_classificados.append(lista)

    return dados_classificados


teste1 = defineKVizinhos(no_class, k = 7)

#print(teste)

for lista2 in teste1:
    print(lista2)

NameError: name 'dadosTreino' is not defined

In [None]:
testando1 = dadosTreino().copy()

for w in testando1:
    print(w)

[66707599984, 'Conservador', (5100.0, 3500.0, 1400.0, 200.0)]
[55695397315, 'Conservador', (4900.0, 3000.0, 1400.0, 200.0)]
[63743886918, 'Conservador', (4700.0, 3200.0, 1300.0, 200.0)]
[55941368774, 'Conservador', (4600.0, 3100.0, 1500.0, 200.0)]
[75486280874, 'Conservador', (5000.0, 3600.0, 1400.0, 200.0)]
[53164949799, 'Conservador', (5400.0, 3900.0, 1700.0, 400.0)]
[39898704131, 'Conservador', (4600.0, 3400.0, 1400.0, 300.0)]
[53740901207, 'Conservador', (5000.0, 3400.0, 1500.0, 200.0)]
[51735950236, 'Conservador', (4400.0, 2900.0, 1400.0, 200.0)]
[47305108951, 'Conservador', (4900.0, 3100.0, 1500.0, 100.0)]
[63858864633, 'Conservador', (5400.0, 3700.0, 1500.0, 200.0)]
[53363167240, 'Conservador', (4800.0, 3400.0, 1600.0, 200.0)]
[72133754195, 'Conservador', (4800.0, 3000.0, 1400.0, 100.0)]
[52802483512, 'Conservador', (4300.0, 3000.0, 1100.0, 100.0)]
[57925287214, 'Conservador', (4800.0, 3400.0, 1900.0, 200.0)]
[74354632224, 'Conservador', (5000.0, 3000.0, 1600.0, 200.0)]
[6402021

In [None]:
testando2 = data.copy()

for z in testando2:
    print(z)

[66707599984, 'Conservador', (5100.0, 3500.0, 1400.0, 200.0)]
[55695397315, 'Conservador', (4900.0, 3000.0, 1400.0, 200.0)]
[63743886918, 'Conservador', (4700.0, 3200.0, 1300.0, 200.0)]
[55941368774, 'Conservador', (4600.0, 3100.0, 1500.0, 200.0)]
[75486280874, 'Conservador', (5000.0, 3600.0, 1400.0, 200.0)]
[53164949799, 'Conservador', (5400.0, 3900.0, 1700.0, 400.0)]
[39898704131, 'Conservador', (4600.0, 3400.0, 1400.0, 300.0)]
[53740901207, 'Conservador', (5000.0, 3400.0, 1500.0, 200.0)]
[51735950236, 'Conservador', (4400.0, 2900.0, 1400.0, 200.0)]
[47305108951, 'Conservador', (4900.0, 3100.0, 1500.0, 100.0)]
[63858864633, 'Conservador', (5400.0, 3700.0, 1500.0, 200.0)]
[53363167240, 'Conservador', (4800.0, 3400.0, 1600.0, 200.0)]
[72133754195, 'Conservador', (4800.0, 3000.0, 1400.0, 100.0)]
[52802483512, 'Conservador', (4300.0, 3000.0, 1100.0, 100.0)]
[57925287214, 'Conservador', (4800.0, 3400.0, 1900.0, 200.0)]
[74354632224, 'Conservador', (5000.0, 3000.0, 1600.0, 200.0)]
[6402021

In [None]:
def defineKVizinhos(dados_teste, dados_treino2, k = 3):

    dados_classificados = []
    lista_aux = []

    dados_teste = dados_teste.copy()

    for lista in dados_teste:

        #print('\nDado novo')
        #print(lista)

        lista_copia = lista.copy()

        carteira = list(lista[2])

        #dados_treino = dadosTreino().copy()
        dados_treino = dados_treino2.copy()

        for lista_treino in dados_treino:

            lista_treino_copia = lista_treino.copy()

            carteira_treino = list(lista_treino_copia[2])

            distancia = distanciaEuclidiana (carteira, carteira_treino)

            lista_treino_copia.append(distancia)

            lista_aux.append(lista_treino_copia)

            #print(lista_copia)
        
        #print(lista_aux)
        

        distancia_ordenada = sorted(lista_aux, key=lambda x: x[3])

        #print(distancia_ordenada)

        k_vizinhos = distancia_ordenada[:k]


        #print('\nVizinhos')
        #print(k_vizinhos)

        lista_perfil = [perfil[1] for perfil in k_vizinhos]

        #print('\nPerfils')
        #print(lista_perfil)

        classe_frequente = max(lista_perfil, key = lista_perfil.count)


        #print('\nPerfil final')
        #print(classe_frequente)

        lista_copia[1] = classe_frequente

        #lista.append(classe_frequente)

        dados_classificados.append(lista_copia)

    return dados_classificados


teste1 = defineKVizinhos(no_class, data, k = 3)

#print(teste)

for lista2 in teste1:
    print(lista2)

[45926320819, 'Conservador', (5800.0, 4000.0, 1200.0, 200.0)]
[52559670741, 'Conservador', (5700.0, 4400.0, 1500.0, 400.0)]
[59016004832, 'Conservador', (5400.0, 3900.0, 1300.0, 400.0)]
[66175672425, 'Conservador', (5100.0, 3500.0, 1400.0, 300.0)]
[53330429526, 'Conservador', (5700.0, 3800.0, 1700.0, 300.0)]
[43765563403, 'Conservador', (5100.0, 3800.0, 1500.0, 300.0)]
[68020822591, 'Conservador', (5400.0, 3400.0, 1700.0, 200.0)]
[53939481689, 'Conservador', (5100.0, 3700.0, 1500.0, 400.0)]
[47014057561, 'Conservador', (4600.0, 3600.0, 1000.0, 200.0)]
[57183542047, 'Conservador', (5100.0, 3300.0, 1700.0, 500.0)]
[68518284363, 'Conservador', (5000.0, 2000.0, 3500.0, 1000.0)]
[65806049885, 'Conservador', (5900.0, 3000.0, 4200.0, 1500.0)]
[54128073086, 'Conservador', (6000.0, 2200.0, 4000.0, 1000.0)]
[41306785494, 'Conservador', (6100.0, 2900.0, 4700.0, 1400.0)]
[65234831039, 'Conservador', (5600.0, 2900.0, 3600.0, 1300.0)]
[50964498067, 'Conservador', (6700.0, 3100.0, 4400.0, 1400.0)]
[5

In [None]:
def defineKVizinhos(dados_teste, dados_treino, k = 3):

    dados_classificados = []

    for lista in dados_teste:

        #print('\nDado novo')
        #print(lista)

        carteira = list(lista[2])

        dados_treino = dadosTreino().copy()
        #dados_treino = data.copy()

        for lista_treino in dados_treino:

            carteira_treino = list(lista_treino[2])

            distancia = distanciaEuclidiana (carteira, carteira_treino)

            lista_treino.append(distancia)

            #print(lista_treino)

        distancia_ordenada = sorted(dados_treino, key=lambda x: x[3])

        k_vizinhos = distancia_ordenada[:k]

        #print('\nVizinhos')
        #print(k_vizinhos)

        lista_perfil = [perfil[1] for perfil in k_vizinhos]

        #print('\nPerfils')
        #print(lista_perfil)

        classe_frequente = max(lista_perfil, key = lista_perfil.count)

        #print('\nPerfil final')
        #print(classe_frequente)

        lista[1] = classe_frequente
        #lista.append(classe_frequente)

        dados_classificados.append(lista)

    return dados_classificados


teste1 = defineKVizinhos(no_class, data, k = 3)

#print(teste)

for lista2 in teste1:
    print(lista2)

In [None]:
testando2 = no_class.copy()

for z in testando2:
    print(z)

[45926320819, '', (5800.0, 4000.0, 1200.0, 200.0)]
[52559670741, '', (5700.0, 4400.0, 1500.0, 400.0)]
[59016004832, '', (5400.0, 3900.0, 1300.0, 400.0)]
[66175672425, '', (5100.0, 3500.0, 1400.0, 300.0)]
[53330429526, '', (5700.0, 3800.0, 1700.0, 300.0)]
[43765563403, '', (5100.0, 3800.0, 1500.0, 300.0)]
[68020822591, '', (5400.0, 3400.0, 1700.0, 200.0)]
[53939481689, '', (5100.0, 3700.0, 1500.0, 400.0)]
[47014057561, '', (4600.0, 3600.0, 1000.0, 200.0)]
[57183542047, '', (5100.0, 3300.0, 1700.0, 500.0)]
[68518284363, '', (5000.0, 2000.0, 3500.0, 1000.0)]
[65806049885, '', (5900.0, 3000.0, 4200.0, 1500.0)]
[54128073086, '', (6000.0, 2200.0, 4000.0, 1000.0)]
[41306785494, '', (6100.0, 2900.0, 4700.0, 1400.0)]
[65234831039, '', (5600.0, 2900.0, 3600.0, 1300.0)]
[50964498067, '', (6700.0, 3100.0, 4400.0, 1400.0)]
[50810951429, '', (5600.0, 3000.0, 4500.0, 1500.0)]
[48765044397, '', (5800.0, 2700.0, 4100.0, 1000.0)]
[41960083761, '', (6200.0, 2200.0, 4500.0, 1500.0)]
[76657763082, '', (560

In [None]:
def defineKVizinhos(dados_teste, dados_treino, k = 3):

    dados_classificados = []

    dados_teste_copia = [sublista[:] for sublista in dados_teste]
    #dados_treino_copia = [sublista[:] for sublista in dados_treino]

    for lista in dados_teste_copia:

        #print('\nDado novo')
        #print(lista)

        carteira = list(lista[2])

        #dados_treino = dadosTreino().copy()
        #dados_treino = data.copy()
        dados_treino_copia = [sublista[:] for sublista in dados_treino]


        for lista_treino in dados_treino_copia:

            carteira_treino = list(lista_treino[2])

            distancia = distanciaEuclidiana (carteira, carteira_treino)

            lista_treino.append(distancia)

            #print(lista_treino)

        distancia_ordenada = sorted(dados_treino_copia, key=lambda x: x[3])

        k_vizinhos = distancia_ordenada[:k]

        #print('\nVizinhos')
        #print(k_vizinhos)

        lista_perfil = [perfil[1] for perfil in k_vizinhos]

        #print('\nPerfils')
        #print(lista_perfil)

        classe_frequente = max(lista_perfil, key = lista_perfil.count)

        #print('\nPerfil final')
        #print(classe_frequente)

        lista[1] = classe_frequente
        #lista.append(classe_frequente)

        dados_classificados.append(lista)

    return dados_classificados


teste1 = defineKVizinhos(no_class, data, k = 7)

#print(teste)

for lista2 in teste1:
    print(lista2)

[45926320819, 'Conservador', (5800.0, 4000.0, 1200.0, 200.0)]
[52559670741, 'Conservador', (5700.0, 4400.0, 1500.0, 400.0)]
[59016004832, 'Conservador', (5400.0, 3900.0, 1300.0, 400.0)]
[66175672425, 'Conservador', (5100.0, 3500.0, 1400.0, 300.0)]
[53330429526, 'Conservador', (5700.0, 3800.0, 1700.0, 300.0)]
[43765563403, 'Conservador', (5100.0, 3800.0, 1500.0, 300.0)]
[68020822591, 'Conservador', (5400.0, 3400.0, 1700.0, 200.0)]
[53939481689, 'Conservador', (5100.0, 3700.0, 1500.0, 400.0)]
[47014057561, 'Conservador', (4600.0, 3600.0, 1000.0, 200.0)]
[57183542047, 'Conservador', (5100.0, 3300.0, 1700.0, 500.0)]
[68518284363, 'Moderado', (5000.0, 2000.0, 3500.0, 1000.0)]
[65806049885, 'Moderado', (5900.0, 3000.0, 4200.0, 1500.0)]
[54128073086, 'Moderado', (6000.0, 2200.0, 4000.0, 1000.0)]
[41306785494, 'Moderado', (6100.0, 2900.0, 4700.0, 1400.0)]
[65234831039, 'Moderado', (5600.0, 2900.0, 3600.0, 1300.0)]
[50964498067, 'Moderado', (6700.0, 3100.0, 4400.0, 1400.0)]
[50810951429, 'Moder

In [None]:
def algoritmoKNN(dados, dados_treino, k = 3):

    dados_classificados = []

    dados_nao_classificados = dados.copy()
    dados_existentes = dados_treino.copy()

    for lista in dados_nao_classificados:

        print('\nDado novo')
        print(lista)

        carteira = list(lista[2])

        for lista_treino in dados_existentes:

            carteira_treino = list(lista_treino[2])

            distancia = distanciaEuclidiana (carteira, carteira_treino)

            lista_treino.append(distancia)

            print(lista_treino)

        distancia_ordenada = sorted(dados_existentes, key = lambda sublista: sublista[3])

        k_vizinhos = distancia_ordenada[:k]

        print('\nVizinhos')
        print(k_vizinhos)

        lista_perfil = [perfil[1] for perfil in k_vizinhos]

        print('\nPerfils')
        print(lista_perfil)

        classe_frequente = max(lista_perfil, key = lista_perfil.count)

        print('\nPerfil final')
        print(classe_frequente)

        lista[1] = classe_frequente
        #lista.append(classe_frequente)

        dados_classificados.append(lista)

    return dados_classificados.copy()


teste2 = algoritmoKNN(no_class, data, k = 3)

#print(teste)

for lista2 in teste2:
    print(lista2)


Dado novo
[45926320819, '', (5800.0, 4000.0, 1200.0, 200.0)]
[66707599984, 'Conservador', (5100.0, 3500.0, 1400.0, 200.0), 883.18]
[55695397315, 'Conservador', (4900.0, 3000.0, 1400.0, 200.0), 1360.15]
[63743886918, 'Conservador', (4700.0, 3200.0, 1300.0, 200.0), 1363.82]
[55941368774, 'Conservador', (4600.0, 3100.0, 1500.0, 200.0), 1529.71]
[75486280874, 'Conservador', (5000.0, 3600.0, 1400.0, 200.0), 916.52]
[53164949799, 'Conservador', (5400.0, 3900.0, 1700.0, 400.0), 678.23]
[39898704131, 'Conservador', (4600.0, 3400.0, 1400.0, 300.0), 1360.15]
[53740901207, 'Conservador', (5000.0, 3400.0, 1500.0, 200.0), 1044.03]
[51735950236, 'Conservador', (4400.0, 2900.0, 1400.0, 200.0), 1791.65]
[47305108951, 'Conservador', (4900.0, 3100.0, 1500.0, 100.0), 1311.49]
[63858864633, 'Conservador', (5400.0, 3700.0, 1500.0, 200.0), 583.1]
[53363167240, 'Conservador', (4800.0, 3400.0, 1600.0, 200.0), 1232.88]
[72133754195, 'Conservador', (4800.0, 3000.0, 1400.0, 100.0), 1431.78]
[52802483512, 'Conse

In [None]:
data_total = data

dados_treino = data_total.copy()
dados_teste = []

for indice in range(0, len(data_total) + 1, 4):

    remove = dados_treino.pop(indice)
    dados_teste.append(remove)

print(f'Dados treino - {len(dados_treino)}')
for x in dados_treino:
    print(x)

print(f'Dados teste - {dados_teste}')
for x in dados_teste:
    print(x)

IndexError: pop index out of range