# K-Nearest Neighbors - KNN

Modelo supervisionado de machine learning que pode ser utilizado tanto para classificação, isto é, rotular os dados; quanto para regressão, ou seja, aproximar valores.

## Características

- Dependendo da implementação pode ser $O(n*m)$ ou $O(log(n))$
- Simples
- Interpretável
- Largamente conhecido e estudado
- Razoavelmente rápido

Por conta disso é um ótimo benchmark


## Algoritmo

- Passo 1: 
    Definir um valor para K
- Passo 2: 
    Definir os K vizinhos mais próximos do ponto a ser classificado de acordo com uma função de distância.
- Passo 3:
    - Se for um problema de **Regressão**:
        Calcular a **média** de todos os vizinhos.
    - Se for um problema de **Classificação**:
        Calcular a **moda** de todos os vizinhos.
- Passo 4:
    Atribuir o valor/classe ao ponto de interesse conforme cálculo do Passo 3.

## Links Úteis
### Definições
- ["Primeira" aparição do modelo](https://apps.dtic.mil/dtic/tr/fulltext/u2/a800276.pdf)
- [Expansão do KNN](http://ssg.mit.edu/cal/abs/2000_spring/np_dens/classification/cover67.pdf)
### Casos de uso
- [Click Stream](https://www.sciencedirect.com/science/article/pii/S221083271400026X#:~:text=The%20K%2DNearest%20Neighbor%20classification,a%20given%20time%20%5B24%5D)
- [Battery life](https://www.sciencedirect.com/science/article/abs/pii/S0959652619342799)
- [Mahalanobis Distance](https://jmlr.csail.mit.edu/papers/volume10/weinberger09a/weinberger09a.pdf)
### Dataviz
- [Stanford](http://vision.stanford.edu/teaching/cs231n-demos/knn/)
- [IRA](https://lecture-demo.ira.uka.de/knn-demo/preset=3)

![Title](knn.jpeg)

## Definição do Problema

### Dados
Os dados abaixo são referentes ao cadastro de clientes de uma empresa de investimentos com suas respectivas carteira de investimentos, que indica se esse cliente tem o perfil de investidor **Conservador**, **Moderado** ou **Agressivo**. O nosso intuito é, a partir do investimento de alguns clientes que já tem um perfil definido, estimar esse perfil para aqueles que ainda não estão classificado, afim de oferecer novos produtos que sejam mais adequados a eles. 

Os dados abaixo seguem o seguinte padrão:

[**CPF**: INT, **Perfil Do Investidor**: STRING, **Carteira de Investimento**: TUPLA]

### Regras
- Se você precisar de uma função para computar algo crie ela
- Não é permitido usar nenhum módulo externo como numpy e math
- Use apenas os objetos e fluxos visto até o momento no curso

In [1]:
data = [[66707599984, 'Conservador', (5100., 3500., 1400., 200.)],
 [55695397315, 'Conservador', (4900., 3000., 1400., 200.)],
 [63743886918, 'Conservador', (4700., 3200., 1300., 200.)],
 [55941368774, 'Conservador', (4600., 3100., 1500., 200.)],
 [75486280874, 'Conservador', (5000., 3600., 1400., 200.)],
 [53164949799, 'Conservador', (5400., 3900., 1700., 400.)],
 [39898704131, 'Conservador', (4600., 3400., 1400., 300.)],
 [53740901207, 'Conservador', (5000., 3400., 1500., 200.)],
 [51735950236, 'Conservador', (4400., 2900., 1400., 200.)],
 [47305108951, 'Conservador', (4900., 3100., 1500., 100.)],
 [63858864633, 'Conservador', (5400., 3700., 1500., 200.)],
 [53363167240, 'Conservador', (4800., 3400., 1600., 200.)],
 [72133754195, 'Conservador', (4800., 3000., 1400., 100.)],
 [52802483512, 'Conservador', (4300., 3000., 1100., 100.)],
 [57925287214, 'Conservador', (4800., 3400., 1900., 200.)],
 [74354632224, 'Conservador', (5000., 3000., 1600., 200.)],
 [64020216626, 'Conservador', (5000., 3400., 1600., 400.)],
 [78223722856, 'Conservador', (5200., 3500., 1500., 200.)],
 [58245228846, 'Conservador', (5200., 3400., 1400., 200.)],
 [74490686776, 'Conservador', (4700., 3200., 1600., 200.)],
 [48646824781, 'Conservador', (4800., 3100., 1600., 200.)],
 [77381458676, 'Conservador', (5400., 3400., 1500., 400.)],
 [41615431874, 'Conservador', (5200., 4100., 1500., 100.)],
 [52163844491, 'Conservador', (5500., 4200., 1400., 200.)],
 [70276304567, 'Conservador', (4900., 3100., 1500., 200.)],
 [69119828185, 'Conservador', (5000., 3200., 1200., 200.)],
 [65441690046, 'Conservador', (5500., 3500., 1300., 200.)],
 [56457227894, 'Conservador', (4900., 3600., 1400., 100.)],
 [46939428126, 'Conservador', (4400., 3000., 1300., 200.)],
 [60979942480, 'Conservador', (5100., 3400., 1500., 200.)],
 [41648583220, 'Conservador', (5000., 3500., 1300., 300.)],
 [50376331791, 'Conservador', (4500., 2300., 1300., 300.)],
 [67008801023, 'Conservador', (4400., 3200., 1300., 200.)],
 [72149193419, 'Conservador', (5000., 3500., 1600., 600.)],
 [62830733382, 'Conservador', (5100., 3800., 1900., 400.)],
 [56716675811, 'Conservador', (4800., 3000., 1400., 300.)],
 [61089667146, 'Conservador', (5100., 3800., 1600., 200.)],
 [47795509468, 'Conservador', (4600., 3200., 1400., 200.)],
 [60899885693, 'Conservador', (5300., 3700., 1500., 200.)],
 [53433670705, 'Conservador', (5000., 3300., 1400., 200.)],
 [54850120580, 'Moderado', (7000., 3200., 4700., 1400.)],
 [71457789994, 'Moderado', (6400., 3200., 4500., 1500.)],
 [67692777563, 'Moderado', (6900., 3100., 4900., 1500.)],
 [43133573182, 'Moderado', (5500., 2300., 4000., 1300.)],
 [55150612815, 'Moderado', (6500., 2800., 4600., 1500.)],
 [48211725243, 'Moderado', (5700., 2800., 4500., 1300.)],
 [76686463776, 'Moderado', (6300., 3300., 4700., 1600.)],
 [71971000560, 'Moderado', (4900., 2400., 3300., 1000.)],
 [40307235992, 'Moderado', (6600., 2900., 4600., 1300.)],
 [44826533081, 'Moderado', (5200., 2700., 3900., 1400.)],
 [45735414894, 'Moderado', (5900., 3200., 4800., 1800.)],
 [57137146514, 'Moderado', (6100., 2800., 4000., 1300.)],
 [53657058251, 'Moderado', (6300., 2500., 4900., 1500.)],
 [52941460485, 'Moderado', (6100., 2800., 4700., 1200.)],
 [44306600683, 'Moderado', (6400., 2900., 4300., 1300.)],
 [43460747924, 'Moderado', (6600., 3000., 4400., 1400.)],
 [75590376075, 'Moderado', (6800., 2800., 4800., 1400.)],
 [68267282206, 'Moderado', (6700., 3000., 5000., 1700.)],
 [77567920298, 'Moderado', (6000., 2900., 4500., 1500.)],
 [67600419504, 'Moderado', (5700., 2600., 3500., 1000.)],
 [44902189811, 'Moderado', (5500., 2400., 3800., 1100.)],
 [62966866614, 'Moderado', (5500., 2400., 3700., 1000.)],
 [56182108880, 'Moderado', (5800., 2700., 3900., 1200.)],
 [78299785392, 'Moderado', (6000., 2700., 5100., 1600.)],
 [45206071878, 'Moderado', (5400., 3000., 4500., 1500.)],
 [57381925887, 'Moderado', (6000., 3400., 4500., 1600.)],
 [65654934891, 'Moderado', (6700., 3100., 4700., 1500.)],
 [56130640481, 'Moderado', (6300., 2300., 4400., 1300.)],
 [59667611672, 'Moderado', (5600., 3000., 4100., 1300.)],
 [40349334385, 'Moderado', (5500., 2500., 4000., 1300.)],
 [68422640081, 'Moderado', (5500., 2600., 4400., 1200.)],
 [55245923439, 'Moderado', (6100., 3000., 4600., 1400.)],
 [51286696873, 'Moderado', (5800., 2600., 4000., 1200.)],
 [41065279767, 'Moderado', (5000., 2300., 3300., 1000.)],
 [42866454119, 'Moderado', (5600., 2700., 4200., 1300.)],
 [61962944542, 'Moderado', (5700., 3000., 4200., 1200.)],
 [48623501235, 'Moderado', (5700., 2900., 4200., 1300.)],
 [49475220139, 'Moderado', (6200., 2900., 4300., 1300.)],
 [52245218531, 'Moderado', (5100., 2500., 3000., 1100.)],
 [50932926697, 'Moderado', (5700., 2800., 4100., 1300.)],
 [47432932248, 'Agressivo', (6300., 3300., 6000., 2500.)],
 [39321991579, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [46283759608, 'Agressivo', (7100., 3000., 5900., 2100.)],
 [56996272538, 'Agressivo', (6300., 2900., 5600., 1800.)],
 [77232189978, 'Agressivo', (6500., 3000., 5800., 2200.)],
 [77183282421, 'Agressivo', (7600., 3000., 6600., 2100.)],
 [42857147573, 'Agressivo', (4900., 2500., 4500., 1700.)],
 [39331584043, 'Agressivo', (7300., 2900., 6300., 1800.)],
 [48130345228, 'Agressivo', (6700., 2500., 5800., 1800.)],
 [71422443953, 'Agressivo', (7200., 3600., 6100., 2500.)],
 [72508507904, 'Agressivo', (6900., 3200., 5700., 2300.)],
 [41188727558, 'Agressivo', (5600., 2800., 4900., 2000.)],
 [61358776640, 'Agressivo', (7700., 2800., 6700., 2000.)],
 [66934042323, 'Agressivo', (6300., 2700., 4900., 1800.)],
 [40622495567, 'Agressivo', (6700., 3300., 5700., 2100.)],
 [57221661311, 'Agressivo', (7200., 3200., 6000., 1800.)],
 [45159362930, 'Agressivo', (6200., 2800., 4800., 1800.)],
 [45018975174, 'Agressivo', (6100., 3000., 4900., 1800.)],
 [70685429140, 'Agressivo', (6400., 2800., 5600., 2100.)],
 [61808723477, 'Agressivo', (7200., 3000., 5800., 1600.)],
 [56363906548, 'Agressivo', (7400., 2800., 6100., 1900.)],
 [39646194720, 'Agressivo', (7900., 3800., 6400., 2000.)],
 [55385494438, 'Agressivo', (6400., 2800., 5600., 2200.)],
 [75796138061, 'Agressivo', (6300., 2800., 5100., 1500.)],
 [53595767857, 'Agressivo', (6100., 2600., 5600., 1400.)],
 [48758828080, 'Agressivo', (7700., 3000., 6100., 2300.)],
 [58387651356, 'Agressivo', (6300., 3400., 5600., 2400.)],
 [72846931192, 'Agressivo', (6400., 3100., 5500., 1800.)],
 [47046896346, 'Agressivo', (6000., 3000., 4800., 1800.)],
 [69730292799, 'Agressivo', (6900., 3100., 5400., 2100.)],
 [48177836349, 'Agressivo', (6700., 3100., 5600., 2400.)],
 [57976326635, 'Agressivo', (6900., 3100., 5100., 2300.)],
 [55710813002, 'Agressivo', (5800., 2700., 5100., 1900.)],
 [64028580439, 'Agressivo', (6800., 3200., 5900., 2300.)],
 [49962942971, 'Agressivo', (6700., 3300., 5700., 2500.)],
 [47250893163, 'Agressivo', (6700., 3000., 5200., 2300.)],
 [75559276274, 'Agressivo', (6300., 2500., 5000., 1900.)],
 [58529878272, 'Agressivo', (6500., 3000., 5200., 2000.)],
 [76005896622, 'Agressivo', (6200., 3400., 5400., 2300.)],
 [49212614633, 'Agressivo', (5900., 3000., 5100., 1800.)]]

no_class = [[45926320819, '', (5800., 4000., 1200., 200.)],
 [52559670741, '', (5700., 4400., 1500., 400.)],
 [59016004832, '', (5400., 3900., 1300., 400.)],
 [66175672425, '', (5100., 3500., 1400., 300.)],
 [53330429526, '', (5700., 3800., 1700., 300.)],
 [43765563403, '', (5100., 3800., 1500., 300.)],
 [68020822591, '', (5400., 3400., 1700., 200.)],
 [53939481689, '', (5100., 3700., 1500., 400.)],
 [47014057561, '', (4600., 3600., 1000., 200.)],
 [57183542047, '', (5100., 3300., 1700., 500.)],
            
 [68518284363, '', (5000., 2000., 3500., 1000.)],
 [65806049885, '', (5900., 3000., 4200., 1500.)],
 [54128073086, '', (6000., 2200., 4000., 1000.)],
 [41306785494, '', (6100., 2900., 4700., 1400.)],
 [65234831039, '', (5600., 2900., 3600., 1300.)],
 [50964498067, '', (6700., 3100., 4400., 1400.)],
 [50810951429, '', (5600., 3000., 4500., 1500.)],
 [48765044397, '', (5800., 2700., 4100., 1000.)],
 [41960083761, '', (6200., 2200., 4500., 1500.)],
 [76657763082, '', (5600., 2500., 3900., 1100.)],
            
 [64726487742, '', (6500., 3200., 5100., 2000.)],
 [75746566283, '', (6400., 2700., 5300., 1900.)],
 [78576734793, '', (6800., 3000., 5500., 2100.)],
 [56440141847, '', (5700., 2500., 5000., 2000.)],
 [66827423000, '', (5800., 2800., 5100., 2400.)],
 [45267873396, '', (6400., 3200., 5300., 2300.)],
 [46387191493, '', (6500., 3000., 5500., 1800.)],
 [54273611732, '', (7700., 3800., 6700., 2200.)],
 [75135392881, '', (7700., 2600., 6900., 2300.)],
 [64703873108, '', (6000., 2200., 5000., 1500.)]]

## Resolução do Projeto

### Definição de funções

In [24]:
# Função de cálculo distancia euclidiana
def euclidean_dist (x,y):
    return (sum([(a - b)**2 for a, b in zip(x, y)]))**(0.5)


# Função do algoritmo de KNN
def knn(k, no_class, data):
    # Criação de lista classes definidas a partir da lista de dados classificada (treinada)
    classes = list(set([i[1] for i in data]))
    classes.sort()

    resultado = dict() # Dicionário para armazenar os dados treinados
    
    # Percorre a lista de dados sem classificação (não treinada)
    for cpf_no, b_, carteira_no in no_class:
        #print('Avaliando o CPF {}'.format(cpf_no))
        
        distanciasknn = list() # Lista para armazenar as distancias mais próximas encontradas (Knn)
        
        # Percorre a lista de dados com classificação (treinada)
        for cpf_, classe, carteira in data:
            distancias = list() # Lista para armazenar todas as distancias calculadas entre os dados treinados / não treinados
            distancia = euclidean_dist(carteira, carteira_no) # Cálcula a distância entre as carteiras (ponto)
            distancias.append(distancia) # Adiciona na lista o cálculo entre os pontos
            distancias.append(classe) # Adiciona a classe da linha de referencia da carteira
            #print('Calculo: Classe {}, distancia {}'.format(classe, distancia))
            distanciasknn.append(distancias) # Adiciona a lista auxiliar distancia na lista distanciaknn
        
        # Depois de calcular o CPF da carteira não treinada contra todos os CPFs da carteira treinada
        distanciasknn.sort() # Ordena as distâncias encontradas do menor para o maior
        distanciasknn = (distanciasknn[:k]) # Defini a quantidade de valores da lista, onde K = vizinhos próximos
                    
        classesvizinhas = list() # Lista de classes próximas (distancias/pontos próximos)
        # Percorre as distancias encontradas identificando as classes
        for _, classe in distanciasknn:
            classesvizinhas.append(classe)
        
        classifica = list() # Lista de classificação da carteira
        
        # Percorre as classes existentes
        for classe in classes:
            classifica.append(classesvizinhas.count(classe)) # Adiciona na lista agrupando por classes 
        
        classifica
        
        classificacao = classes[classifica.index(max(classifica))] # Identifcação da classe por ordem da classe
        classificacao
        
        resultado[cpf_no] = classificacao
        
    return resultado

### Execução

In [27]:
# Obs: Executar a célula de de definição de funções para funcionamento correto;

# Execução da função principal
classificacaoknn = knn(5, no_class, data)

# Exibe o dicionário com os dados classificados
classificacaoknn

{45926320819: 'Conservador',
 52559670741: 'Conservador',
 59016004832: 'Conservador',
 66175672425: 'Conservador',
 53330429526: 'Conservador',
 43765563403: 'Conservador',
 68020822591: 'Conservador',
 53939481689: 'Conservador',
 47014057561: 'Conservador',
 57183542047: 'Conservador',
 68518284363: 'Moderado',
 65806049885: 'Moderado',
 54128073086: 'Moderado',
 41306785494: 'Moderado',
 65234831039: 'Moderado',
 50964498067: 'Moderado',
 50810951429: 'Moderado',
 48765044397: 'Moderado',
 41960083761: 'Moderado',
 76657763082: 'Moderado',
 64726487742: 'Agressivo',
 75746566283: 'Agressivo',
 78576734793: 'Agressivo',
 56440141847: 'Agressivo',
 66827423000: 'Agressivo',
 45267873396: 'Agressivo',
 46387191493: 'Agressivo',
 54273611732: 'Agressivo',
 75135392881: 'Agressivo',
 64703873108: 'Agressivo'}

# Informações adicionais

## Cálculos de distancias

- [Distância Euclidiana](https://en.wikipedia.org/wiki/Euclidean_distance)
![alt text](img\definition_euclidean.png)
    
- [Distância Manhattan / Taxicab](https://en.wikipedia.org/wiki/Taxicab_geometry)
![alt text](img\definition_manhattan.png "Title")

- [Distância Hamming](https://en.wikipedia.org/wiki/Hamming_distance)
![alt text](img\definition_hamming.png "Title")

- [Distância Minkowski](https://en.wikipedia.org/wiki/Minkowski_distance)
![alt text](img\definition_minkowski.png "Title")

### links interessantes 

https://machinelearningmastery.com/tutorial-to-implement-k-nearest-neighbors-in-python-from-scratch/

https://machinelearningmastery.com/distance-measures-for-machine-learning/

https://www.delftstack.com/pt/howto/numpy/calculate-euclidean-distance/



In [12]:
# definição da função de cálculo distancia euclidiana
def euclidean_dist (x,y):
    return (sum([(a - b)**2 for a, b in zip(x, y)]))**(0.5)

# definição da função de cálculo distancia Manhattan
def manhattan_dist(x, y):
    return sum(abs(a-b) for a, b in zip(x,y))

# definição da função de cálculo distancia Hamming
def hamming_dist(x, y):
    return sum(abs(a - b) for a, b in zip(x, y)) / len(x)

# definição da função de cálculo distancia Minkowski, onde 
# p = 1 - Manhattan distance
# p = 2 - Euclidean distance
def minkowski_dist(x, y, p):
    return sum(abs(a-b)**p for a, b in zip(x,y))**(1/p)

In [16]:
# definição da função de cálculo distancia euclidiana
def euclidean_dist (x,y):
    return (sum([(a - b)**2 for a, b in zip(x, y)]))**(0.5)

# Função do algoritmo de KNN
def knn(k, no_class, data):
    classes = list(set([i[1] for i in data]))
    classes.sort()
    
    resultado = dict()
    for cpf_no, b_, carteira_no in no_class:
        #print('Avaliando o CPF {}'.format(cpf_no))
        
        distanciasknn = list()
        for cpf_, classe, carteira in data:
            distancias = list()

            
            #distancia = euclidean_dist(carteira, carteira_no)
            #distancia = manhattan_dist(carteira, carteira_no)
            #distancia = hamming_dist(carteira, carteira_no)
            distancia = minkowski_dist(carteira, carteira_no, 1)
            #distancia = minkowski_dist(carteira, carteira_no, 2)
            
            
            distancias.append(distancia)
            distancias.append(classe)
            #print('Calculo {}, distancia {}'.format(classe, distancia))
            distanciasknn.append(distancias)
        distanciasknn.sort()
        distanciasknn = (distanciasknn[:k])
                    
        defineclasse = list()
        for _, classe in distanciasknn:
            defineclasse.append(classe)
        
        classifica = list()
        for classe in classes:
            classifica.append(defineclasse.count(classe))

        tipoclasse = classes[classifica.index(max(classifica))]

        resultado[cpf_no] = tipoclasse
        
    return resultado
        
a = knn(3, no_class, data)

a

{45926320819: 'Conservador',
 52559670741: 'Conservador',
 59016004832: 'Conservador',
 66175672425: 'Conservador',
 53330429526: 'Conservador',
 43765563403: 'Conservador',
 68020822591: 'Conservador',
 53939481689: 'Conservador',
 47014057561: 'Conservador',
 57183542047: 'Conservador',
 68518284363: 'Moderado',
 65806049885: 'Moderado',
 54128073086: 'Moderado',
 41306785494: 'Moderado',
 65234831039: 'Moderado',
 50964498067: 'Moderado',
 50810951429: 'Moderado',
 48765044397: 'Moderado',
 41960083761: 'Moderado',
 76657763082: 'Moderado',
 64726487742: 'Agressivo',
 75746566283: 'Agressivo',
 78576734793: 'Agressivo',
 56440141847: 'Agressivo',
 66827423000: 'Agressivo',
 45267873396: 'Agressivo',
 46387191493: 'Agressivo',
 54273611732: 'Agressivo',
 75135392881: 'Agressivo',
 64703873108: 'Moderado'}

In [None]:
#from IPython import display
#display.Image("./knn.jpeg")

In [None]:
# definição da função de cálculo distancia Hamming
def hamming_dist(x, y):
    if len(x) != len(y):
        raise ValueError("Indefinido para seqüências de tamanho diferente.")
    return sum(abs(a - b) for a, b in zip(x, y)) / len(x)


In [124]:
# definição da função de distancia euclidiana
def disteucl(x,y):
    ed = (sum([(a - b) ** 2 for a, b in zip(x, y)])) ** (0.5)
    return ed

resultado = dict()
def preencheclasse(cpf, classe):
    resultado[cpf] = classe
    return resultado

def knn(k, no_class, data):
    # Verifica as classes treinadas
    classes = list(set([i[1] for i in data]))
    classes.sort()

    for cpf, b_, noncarteira in no_class:
        # print('Avaliando o CPF {}'.format(cpf))
        defineclasse = list()

        for classe in classes:
            #print(classe)
            listclasse = [i[2] for i in data if i[1] == classe]

            distancias = list()
            for carteira in listclasse:
                distancia = disteucl(carteira, noncarteira)
                distancias.append(distancia)
            distancias.sort()
            soma = sum(distancias[:k])
            defineclasse.append(soma)
            #print('Calculo {}, distancias {}, soma: {}'.format(classe, distancias[:k], soma))

        tipoclasse = defineclasse.index(min(defineclasse))
        defclasse = classes[tipoclasse]

        #print('O CPF {} é {}'.format(cpf, defclasse))
        preencheclasse(cpf, defclasse)

    return resultado

treinado = knn(5, no_class, data)

treinado

{45926320819: 'Conservador',
 52559670741: 'Conservador',
 59016004832: 'Conservador',
 66175672425: 'Conservador',
 53330429526: 'Conservador',
 43765563403: 'Conservador',
 68020822591: 'Conservador',
 53939481689: 'Conservador',
 47014057561: 'Conservador',
 57183542047: 'Conservador',
 68518284363: 'Moderado',
 65806049885: 'Moderado',
 54128073086: 'Moderado',
 41306785494: 'Moderado',
 65234831039: 'Moderado',
 50964498067: 'Moderado',
 50810951429: 'Moderado',
 48765044397: 'Moderado',
 41960083761: 'Moderado',
 76657763082: 'Moderado',
 64726487742: 'Agressivo',
 75746566283: 'Agressivo',
 78576734793: 'Agressivo',
 56440141847: 'Agressivo',
 66827423000: 'Agressivo',
 45267873396: 'Agressivo',
 46387191493: 'Agressivo',
 54273611732: 'Agressivo',
 75135392881: 'Agressivo',
 64703873108: 'Moderado'}

In [6]:
# definição da função de distancia euclidiana
def disteucl(x,y):
    ed = (sum([(a - b) ** 2 for a, b in zip(x, y)])) ** (0.5)
    return ed

In [7]:
resultado = dict()
def preencheclasse(cpf, classe):
    resultado[cpf] = classe
    return resultado

In [54]:
# definição da função de distancia euclidiana
def disteucl(x,y):
    ed = (sum([(a - b) ** 2 for a, b in zip(x, y)])) ** (0.5)
    return ed

In [56]:
# Verifica as classes treinadas
classes = list(set([i[1] for i in data]))
classes.sort()
classes

['Agressivo', 'Conservador', 'Moderado']

In [8]:
# Agressivo
Agressivo = [i[2] for i in data if i[1] == 'Agressivo']
# Moderado
Moderado = [i[2] for i in data if i[1] == 'Moderado']
# Conservador
Conservador = [i[2] for i in data if i[1] == 'Conservador']

In [73]:
k = 3

for cpf, b_, noncarteira in no_class:
    print('Avaliando o CPF {}'.format(cpf))
    defineclasse = list()
    
    distancias = list()   
    for carteira in Agressivo:
        distancia = disteucl(carteira, noncarteira)
        #distancia = int(distancia)
        distancias.append(distancia)    
        #print("Distancia euclidiana entre {} to {}: {}".format(carteira, noncarteira, distancia))
    distancias.sort()
    somaagressivo = sum(distancias[:k])
    defineclasse.append(somaagressivo)
    #print('Distancia Agressivo', distancias[:k], somaagressivo)
    
    distancias = list()
    for carteira in Conservador:
        distancia = disteucl(carteira, noncarteira)
        #distancia = int(distancia)
        distancias.append(distancia)    
        #print("Distancia euclidiana entre {} to {}: {}".format(carteira, noncarteira, distancia))
    distancias.sort()
    somaconservador = sum(distancias[:k])
    defineclasse.append(somaconservador)
    #print('Distancia Conservador:', distancias[:k], somaconservador)

    distancias = list()
    for carteira in Moderado:
        distancia = disteucl(carteira, noncarteira)
        #distancia = int(distancia)
        distancias.append(distancia)    
        #print("Distancia euclidiana entre {} to {}: {}".format(carteira, noncarteira, distancia))
    distancias.sort()
    somamoderado = sum(distancias[:k])
    defineclasse.append(somamoderado)
    #print('Distancia Moderado', distancias[:k], somamoderado)

    tipoclasse = defineclasse.index(min(defineclasse))
    
    if tipoclasse == 0:
        a = 'Agressivo'
    elif tipoclasse == 1:
        a = 'Conservador'
    elif tipoclasse == 2:
        a = 'Moderado'
    
    #print(defineclasse)
    #print(min(defineclasse))
    
    print('O CPF {} é {}'.format(cpf,a))
    
    preencheclasse(cpf, a)
    
resultado




Avaliando o CPF 45926320819
O CPF 45926320819 é Conservador
Avaliando o CPF 52559670741
O CPF 52559670741 é Conservador
Avaliando o CPF 59016004832
O CPF 59016004832 é Conservador
Avaliando o CPF 66175672425
O CPF 66175672425 é Conservador
Avaliando o CPF 53330429526
O CPF 53330429526 é Conservador
Avaliando o CPF 43765563403
O CPF 43765563403 é Conservador
Avaliando o CPF 68020822591
O CPF 68020822591 é Conservador
Avaliando o CPF 53939481689
O CPF 53939481689 é Conservador
Avaliando o CPF 47014057561
O CPF 47014057561 é Conservador
Avaliando o CPF 57183542047
O CPF 57183542047 é Conservador
Avaliando o CPF 68518284363
O CPF 68518284363 é Moderado
Avaliando o CPF 65806049885
O CPF 65806049885 é Moderado
Avaliando o CPF 54128073086
O CPF 54128073086 é Moderado
Avaliando o CPF 41306785494
O CPF 41306785494 é Moderado
Avaliando o CPF 65234831039
O CPF 65234831039 é Moderado
Avaliando o CPF 50964498067
O CPF 50964498067 é Moderado
Avaliando o CPF 50810951429
O CPF 50810951429 é Moderado
A

{45926320819: 'Conservador',
 52559670741: 'Conservador',
 59016004832: 'Conservador',
 66175672425: 'Conservador',
 53330429526: 'Conservador',
 43765563403: 'Conservador',
 68020822591: 'Conservador',
 53939481689: 'Conservador',
 47014057561: 'Conservador',
 57183542047: 'Conservador',
 68518284363: 'Moderado',
 65806049885: 'Moderado',
 54128073086: 'Moderado',
 41306785494: 'Moderado',
 65234831039: 'Moderado',
 50964498067: 'Moderado',
 50810951429: 'Moderado',
 48765044397: 'Moderado',
 41960083761: 'Moderado',
 76657763082: 'Moderado',
 64726487742: 'Agressivo',
 75746566283: 'Agressivo',
 78576734793: 'Agressivo',
 56440141847: 'Agressivo',
 66827423000: 'Agressivo',
 45267873396: 'Agressivo',
 46387191493: 'Agressivo',
 54273611732: 'Agressivo',
 75135392881: 'Agressivo',
 64703873108: 'Moderado'}

In [7]:
# definição da lista a ser treinada
nonclasse = list()
nonclasse = [i[2] for i in no_class]


In [101]:
        
for classe in classes:
    listclasse = [i[2] for i in data if i[1] == classe]
    print(classe)
    
    for noncarteira in nonclasse:
        print(noncarteira)
        
        distancias = list()
        for carteira in listclasse:
            distancia = disteucl(carteira, noncarteira)
            distancias.append(distancia)
            print("Distancia euclidiana entre {} to {}: {}".format(carteira, noncarteira, distancia))
        print('Soma da distancia: {}'.format(sum(distancias)))
    

Conservador
(5800.0, 4000.0, 1200.0, 200.0)
Distancia euclidiana entre (5100.0, 3500.0, 1400.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 883.1760866327846
Distancia euclidiana entre (4900.0, 3000.0, 1400.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 1360.1470508735442
Distancia euclidiana entre (4700.0, 3200.0, 1300.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 1363.8181696985855
Distancia euclidiana entre (4600.0, 3100.0, 1500.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 1529.7058540778355
Distancia euclidiana entre (5000.0, 3600.0, 1400.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 916.515138991168
Distancia euclidiana entre (5400.0, 3900.0, 1700.0, 400.0) to (5800.0, 4000.0, 1200.0, 200.0): 678.2329983125268
Distancia euclidiana entre (4600.0, 3400.0, 1400.0, 300.0) to (5800.0, 4000.0, 1200.0, 200.0): 1360.1470508735442
Distancia euclidiana entre (5000.0, 3400.0, 1500.0, 200.0) to (5800.0, 4000.0, 1200.0, 200.0): 1044.030650891055
Distancia euclidiana entre (4400.0, 2900.0, 1400.

Distancia euclidiana entre (7700.0, 3000.0, 6100.0, 2300.0) to (6700.0, 3100.0, 4400.0, 1400.0): 2170.2534414210704
Distancia euclidiana entre (6300.0, 3400.0, 5600.0, 2400.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1640.1219466856726
Distancia euclidiana entre (6400.0, 3100.0, 5500.0, 1800.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1208.3045973594571
Distancia euclidiana entre (6000.0, 3000.0, 4800.0, 1800.0) to (6700.0, 3100.0, 4400.0, 1400.0): 905.5385138137417
Distancia euclidiana entre (6900.0, 3100.0, 5400.0, 2100.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1236.9316876852981
Distancia euclidiana entre (6700.0, 3100.0, 5600.0, 2400.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1562.049935181331
Distancia euclidiana entre (6900.0, 3100.0, 5100.0, 2300.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1157.5836902790224
Distancia euclidiana entre (5800.0, 2700.0, 5100.0, 1900.0) to (6700.0, 3100.0, 4400.0, 1400.0): 1307.669683062202
Distancia euclidiana entre (6800.0, 3200.0, 5900.0, 2300.0) to (6700.0, 310

Distancia euclidiana entre (5600.0, 2700.0, 4200.0, 1300.0) to (6100.0, 2900.0, 4700.0, 1400.0): 741.6198487095663
Distancia euclidiana entre (5700.0, 3000.0, 4200.0, 1200.0) to (6100.0, 2900.0, 4700.0, 1400.0): 678.2329983125268
Distancia euclidiana entre (5700.0, 2900.0, 4200.0, 1300.0) to (6100.0, 2900.0, 4700.0, 1400.0): 648.074069840786
Distancia euclidiana entre (6200.0, 2900.0, 4300.0, 1300.0) to (6100.0, 2900.0, 4700.0, 1400.0): 424.26406871192853
Distancia euclidiana entre (5100.0, 2500.0, 3000.0, 1100.0) to (6100.0, 2900.0, 4700.0, 1400.0): 2034.6989949375804
Distancia euclidiana entre (5700.0, 2800.0, 4100.0, 1300.0) to (6100.0, 2900.0, 4700.0, 1400.0): 734.8469228349534
Soma da distancia: 31985.398114765554
(5600.0, 2900.0, 3600.0, 1300.0)
Distancia euclidiana entre (7000.0, 3200.0, 4700.0, 1400.0) to (5600.0, 2900.0, 3600.0, 1300.0): 1808.3141320025125
Distancia euclidiana entre (6400.0, 3200.0, 4500.0, 1500.0) to (5600.0, 2900.0, 3600.0, 1300.0): 1256.9805089976535
Distan

In [86]:
for classe in classes:
    listclasse = [i[2] for i in data if i[1] == classe]
    print(classe)
    
    for noncarteira in no_class:
        for carteira in listclasse:
            distancia = disteucl(carteira, noncarteira)
            print("Distancia euclidiana entre {} to {}: {}".format(carteira, noncarteira, distancia))
        

Conservador


TypeError: unsupported operand type(s) for -: 'float' and 'str'

In [64]:
def disteucl(x,y):
    ed = (sum([(a - b) ** 2 for a, b in zip(x, y)]))**(0.5)
    return ed

agressivo = [i[2] for i in data if i[1] == 'Agressivo']
agressivo = [i[2] for i in data if i[1] == 'Agressivo']

y = (5800., 4000., 1200., 200.)

for i in agressivo:
    distancia = disteucl(i,y)
    print("Distancia euclidiana entre x to y: ", distancia)

    

Distancia euclidiana entre x to y:  5391.660226683429
Distancia euclidiana entre x to y:  4448.595283907045
Distancia euclidiana entre x to y:  5328.226721902888
Distancia euclidiana entre x to y:  4835.286961494633
Distancia euclidiana entre x to y:  5162.363799656123
Distancia euclidiana entre x to y:  6083.584469702052
Distancia euclidiana entre x to y:  4024.9223594996215
Distancia euclidiana entre x to y:  5659.505278732408
Distancia euclidiana entre x to y:  5174.939613174244
Distancia euclidiana entre x to y:  5605.354582896607
Distancia euclidiana entre x to y:  5148.786264742401
Distancia euclidiana entre x to y:  4290.6875905849865
Distancia euclidiana entre x to y:  6208.059278067502
Distancia euclidiana entre x to y:  4264.973622427225
Distancia euclidiana entre x to y:  5015.974481593781
Distancia euclidiana entre x to y:  5310.367218940702
Distancia euclidiana entre x to y:  4137.63217311544
Distancia euclidiana entre x to y:  4164.132562731403
Distancia euclidiana entre 

In [57]:
[i[1:3] for i in data if i[1] == 'Conservador']

[['Conservador', (5100.0, 3500.0, 1400.0, 200.0)],
 ['Conservador', (4900.0, 3000.0, 1400.0, 200.0)],
 ['Conservador', (4700.0, 3200.0, 1300.0, 200.0)],
 ['Conservador', (4600.0, 3100.0, 1500.0, 200.0)],
 ['Conservador', (5000.0, 3600.0, 1400.0, 200.0)],
 ['Conservador', (5400.0, 3900.0, 1700.0, 400.0)],
 ['Conservador', (4600.0, 3400.0, 1400.0, 300.0)],
 ['Conservador', (5000.0, 3400.0, 1500.0, 200.0)],
 ['Conservador', (4400.0, 2900.0, 1400.0, 200.0)],
 ['Conservador', (4900.0, 3100.0, 1500.0, 100.0)],
 ['Conservador', (5400.0, 3700.0, 1500.0, 200.0)],
 ['Conservador', (4800.0, 3400.0, 1600.0, 200.0)],
 ['Conservador', (4800.0, 3000.0, 1400.0, 100.0)],
 ['Conservador', (4300.0, 3000.0, 1100.0, 100.0)],
 ['Conservador', (4800.0, 3400.0, 1900.0, 200.0)],
 ['Conservador', (5000.0, 3000.0, 1600.0, 200.0)],
 ['Conservador', (5000.0, 3400.0, 1600.0, 400.0)],
 ['Conservador', (5200.0, 3500.0, 1500.0, 200.0)],
 ['Conservador', (5200.0, 3400.0, 1400.0, 200.0)],
 ['Conservador', (4700.0, 3200.

In [32]:
# Distancia entre x e y
#[55695397315, 'Conservador', (4900., 3000., 1400., 200.)],
#[63743886918, 'Conservador', (4700., 3200., 1300., 200.)],
#[55941368774, 'Conservador', (4600., 3100., 1500., 200.)],

#[54850120580, 'Moderado', (7000., 3200., 4700., 1400.)],
#[71457789994, 'Moderado', (6400., 3200., 4500., 1500.)],
#[67692777563, 'Moderado', (6900., 3100., 4900., 1500.)],
 
#[47432932248, 'Agressivo', (6300., 3300., 6000., 2500.)],
#[39321991579, 'Agressivo', (5800., 2700., 5100., 1900.)],
#[46283759608, 'Agressivo', (7100., 3000., 5900., 2100.)],

#[45926320819, '', (5800., 4000., 1200., 200.)
#[52559670741, '', (5700., 4400., 1500., 400.)
#[59016004832, '', (5400., 3900., 1300., 400.)
    
x = (7100., 3000., 5900., 2100.)
y = (6300., 2700., 4900., 1800.)

def disteucl(x,y):
    ed = (sum([(a - b) ** 2 for a, b in zip(x, y)]))**(0.5)
    return ed

distancia = disteucl(x,y)
print("Distancia euclidiana entre x to y: ",distancia)


Distancia euclidiana entre x to y:  1349.0737563232042


In [28]:
# Raiz quadrada
def sqrt(number):
    root = number**(0.5)
    return root



import math

#x = (5, 6, 7)
#y = (8, 9, 9)
x = (7100., 3000., 5900., 2100.)
y = (6300., 2700., 4900., 1800.)

distance = math.sqrt(sum([(a - b) ** 2 for a, b in zip(x, y)]))
print("Euclidean distance from x to y: ",distance)



Euclidean distance from x to y:  1349.0737563232042


In [None]:
class KNN:
    def __init__(self, k):
        self.k = k
        
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        
    def distance(self, X1, X2):
        distance = scipy.spatial.distance.euclidean(X1, X2)
    
    def predict(self, X_test):
        final_output = []
        for i in range(len(X_test)):
            d = []
            votes = []
            for j in range(len(X_train)):
                dist = scipy.spatial.distance.euclidean(X_train[j] , X_test[i])
                d.append([dist, j])
            d.sort()
            d = d[0:self.k]
            for d, j in d:
                votes.append(y_train[j])
            ans = Counter(votes).most_common(1)[0][0]
            final_output.append(ans)
            
        return final_output
    
    def score(self, X_test, y_test):
        predictions = self.predict(X_test)
        return (predictions == y_test).sum() / len(y_test)
    

In [13]:
def sqrt(number):
    root = number**(0.5)
    return root

a = sqrt(36)


6.0


In [6]:
# Example of getting neighbors for an instance
from math import sqrt

# calculate the Euclidean distance between two vectors
def euclidean_distance(row1, row2):
	distance = 0.0
	for i in range(len(row1)-1):
		distance += (row1[i] - row2[i])**2
	return sqrt(distance)


# Locate the most similar neighbors
def get_neighbors(train, test_row, num_neighbors):
	distances = list()
	for train_row in train:
		dist = euclidean_distance(test_row, train_row)
		distances.append((train_row, dist))
	distances.sort(key=lambda tup: tup[1])
	neighbors = list()
	for i in range(num_neighbors):
		neighbors.append(distances[i][0])
	return neighbors

# Test distance function
dataset = [[2.7810836,2.550537003,0],
	[1.465489372,2.362125076,0],
	[3.396561688,4.400293529,0],
	[1.38807019,1.850220317,0],
	[3.06407232,3.005305973,0],
	[7.627531214,2.759262235,1],
	[5.332441248,2.088626775,1],
	[6.922596716,1.77106367,1],
	[8.675418651,-0.242068655,1],
	[7.673756466,3.508563011,1]]

neighbors = get_neighbors(dataset, dataset[0], 3)
for neighbor in neighbors:
	print(neighbor)

[2.7810836, 2.550537003, 0]
[3.06407232, 3.005305973, 0]
[1.465489372, 2.362125076, 0]


In [16]:
# Example of making predictions
from math import sqrt

# calculate the Euclidean distance between two vectors
def euclidean_distance(row1, row2):
	distance = 0.0
	for i in range(len(row1)-1):
		distance += (row1[i] - row2[i])**2
	return sqrt(distance)

# Locate the most similar neighbors
def get_neighbors(train, test_row, num_neighbors):
	distances = list()
	for train_row in train:
		dist = euclidean_distance(test_row, train_row)
		distances.append((train_row, dist))
	distances.sort(key=lambda tup: tup[1])
	neighbors = list()
	for i in range(num_neighbors):
		neighbors.append(distances[i][0])
	return neighbors

# Make a classification prediction with neighbors
def predict_classification(train, test_row, num_neighbors):
	neighbors = get_neighbors(train, test_row, num_neighbors)
	output_values = [row[-1] for row in neighbors]
	prediction = max(set(output_values), key=output_values.count)
	return prediction

# Test distance function
dataset = [[2.7810836,2.550537003,0],
	[1.465489372,2.362125076,0],
	[3.396561688,4.400293529,0],
	[1.38807019,1.850220317,0],
	[3.06407232,3.005305973,0],
	[7.627531214,2.759262235,1],
	[5.332441248,2.088626775,1],
	[6.922596716,1.77106367,1],
	[8.675418651,-0.242068655,1],
	[7.673756466,3.508563011,1]]
prediction = predict_classification(dataset, dataset[0], 3)
print('Expected %d, Got %d.' % (dataset[0][-1], prediction))

Expected 0, Got 0.


In [15]:
# k-nearest neighbors on the Iris Flowers Dataset
from random import seed
from random import randrange
from csv import reader
from math import sqrt

# Load a CSV file
def load_csv(filename):
	dataset = list()
	with open(filename, 'r') as file:
		csv_reader = reader(file)
		for row in csv_reader:
			if not row:
				continue
			dataset.append(row)
	return dataset

# Convert string column to float
def str_column_to_float(dataset, column):
	for row in dataset:
		row[column] = float(row[column].strip())

# Convert string column to integer
def str_column_to_int(dataset, column):
	class_values = [row[column] for row in dataset]
	unique = set(class_values)
	lookup = dict()
	for i, value in enumerate(unique):
		lookup[value] = i
	for row in dataset:
		row[column] = lookup[row[column]]
	return lookup

# Find the min and max values for each column
def dataset_minmax(dataset):
	minmax = list()
	for i in range(len(dataset[0])):
		col_values = [row[i] for row in dataset]
		value_min = min(col_values)
		value_max = max(col_values)
		minmax.append([value_min, value_max])
	return minmax

# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
	for row in dataset:
		for i in range(len(row)):
			row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

# Split a dataset into k folds
def cross_validation_split(dataset, n_folds):
	dataset_split = list()
	dataset_copy = list(dataset)
	fold_size = int(len(dataset) / n_folds)
	for _ in range(n_folds):
		fold = list()
		while len(fold) < fold_size:
			index = randrange(len(dataset_copy))
			fold.append(dataset_copy.pop(index))
		dataset_split.append(fold)
	return dataset_split

# Calculate accuracy percentage
def accuracy_metric(actual, predicted):
	correct = 0
	for i in range(len(actual)):
		if actual[i] == predicted[i]:
			correct += 1
	return correct / float(len(actual)) * 100.0

# Evaluate an algorithm using a cross validation split
def evaluate_algorithm(dataset, algorithm, n_folds, *args):
	folds = cross_validation_split(dataset, n_folds)
	scores = list()
	for fold in folds:
		train_set = list(folds)
		train_set.remove(fold)
		train_set = sum(train_set, [])
		test_set = list()
		for row in fold:
			row_copy = list(row)
			test_set.append(row_copy)
			row_copy[-1] = None
		predicted = algorithm(train_set, test_set, *args)
		actual = [row[-1] for row in fold]
		accuracy = accuracy_metric(actual, predicted)
		scores.append(accuracy)
	return scores

# Calculate the Euclidean distance between two vectors
def euclidean_distance(row1, row2):
	distance = 0.0
	for i in range(len(row1)-1):
		distance += (row1[i] - row2[i])**2
	return sqrt(distance)

# Locate the most similar neighbors
def get_neighbors(train, test_row, num_neighbors):
	distances = list()
	for train_row in train:
		dist = euclidean_distance(test_row, train_row)
		distances.append((train_row, dist))
	distances.sort(key=lambda tup: tup[1])
	neighbors = list()
	for i in range(num_neighbors):
		neighbors.append(distances[i][0])
	return neighbors

# Make a prediction with neighbors
def predict_classification(train, test_row, num_neighbors):
	neighbors = get_neighbors(train, test_row, num_neighbors)
	output_values = [row[-1] for row in neighbors]
	prediction = max(set(output_values), key=output_values.count)
	return prediction

# kNN Algorithm
def k_nearest_neighbors(train, test, num_neighbors):
	predictions = list()
	for row in test:
		output = predict_classification(train, row, num_neighbors)
		predictions.append(output)
	return(predictions)

# Test the kNN on the Iris Flowers dataset
seed(1)
filename = 'iris.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])-1):
	str_column_to_float(dataset, i)
# convert class column to integers
str_column_to_int(dataset, len(dataset[0])-1)
# evaluate algorithm
n_folds = 5
num_neighbors = 5
scores = evaluate_algorithm(dataset, k_nearest_neighbors, n_folds, num_neighbors)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

FileNotFoundError: [Errno 2] No such file or directory: 'iris.csv'