Distâncias são importantes! Elas são utilizadas em alguns modelos de machine learning, mais notadamente em KNN e KMeans. Entender o que são distancias e como calculá-las é importante porque elas não só impactam diretamente no resultado do nosso trabalho, mas porque a escolha da medida correta de distância influencia tanto quanto um bom trabalho de tratamento dos dados.

O KNN pertence a um campo de algoritmos chamados de 'instance-based learning algorithms'. Esse algoritmos são aqueles que, ao invés de generelizar de forma explícita, ou seja calcular um valor por si só, ele compara o novo problema (nova instância) as instâncias já treinadas que são mantidas em memória, por isso esses algoritmos também podem ser chamados de 'memory-based learning algorithms'. [wiki - instance-based learning](https://en.wikipedia.org/wiki/Instance-based_learning)

Essa comparação de novas instâncias com outras já em memória são feitas utilizando medidas de distância!! Uma listinha rápidas de algoritmos que usam medidas de distância como base para sua decisões:

- K-Nearest Neighbors
- Learning Vector Quantization (LVQ)
- Self-Organizing Map (SOM)
- K-Means Clustering

Vamos calcular 4 medidas de distância:

- Hamming Distance
- Euclidean Distance
- Manhattan Distance
- Minkowski Distance

### Hamming Distance

___

Calcula a distância entre vetores com valores puramente binários. Bastante utilizada para calcular distância entre features categoricas e que receberam algum tipo de tratamento, tipo OneHotEncoding.

In [17]:
def hamming_distance(a,b):
    return sum(abs(e1-e2) for e1,e2 in zip(a,b)) / len(a)

É a média das distâncias entre cada coordenada dos pontos a e b.

In [23]:
a = [0, 0, 0, 0, 0, 1]
b = [0, 0, 0, 0, 1, 0]

hamming_distance(a,b)

0.3333333333333333

In [19]:
from scipy.spatial.distance import hamming

hamming(a,b)

0.3333333333333333

![hamming1](hamming.png)
![hamming2](hamming2.png)

### Euclidean Distance

___

Calcula a distância entre vertores com valores float ou interger. É MUITO IMPORTANTE entender que necessário normalizar os valores antes que essa distância seja calculada, pois features de valores muito altos podem influenciar e enviesar o resultado.

In [35]:
from math import sqrt

def euclidean_distance(a,b):
    return sqrt(sum((e1-e2)**2 for e1,e2 in zip(a,b)))

In [37]:
row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

euclidean_distance(row1,row2)

6.082762530298219

In [40]:
## normalização min-max

def normalization(ls):
    
    values = []
    
    for i in ls:
        
        values.append((i - min(ls))/(max(ls) - min(ls)))

    return values

In [42]:
## row1 normalizada

row1_norm = normalization(row1)
row1_norm

[0.3333333333333333, 1.0, 0.6666666666666666, 0.3333333333333333, 0.0]

In [44]:
## row2 normalizada

row2_norm = normalization(row2)
row2_norm

[0.29411764705882354, 1.0, 0.6470588235294118, 0.058823529411764705, 0.0]

In [45]:
euclidean_distance(row1_norm,row2_norm)

0.2779891544854475

Existe um diferença GRNADE entre efetuar o calculo da distância normalizando e não normalizando.

In [47]:
from scipy.spatial.distance import euclidean

euclidean(row1, row2)

6.082762530298219

In [48]:
euclidean(row1_norm, row2_norm)

0.27798915448544753

### Manhattan Distance

___

Calcula a distância entre vetores com valores float ou interger. É utilizada para calcular a distância dentre vetores que descrevem uma grade.

In [6]:
def manhattan_distance(a,b):
    return sum(abs(e1-e2) for e1, e2 in zip(a,b))

In [7]:
row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

manhattan_distance(row1,row2)

13

In [8]:
from scipy.spatial.distance import cityblock

cityblock(row1,row2)

13

![manhattan](manhattan.png)

A linha vermelha acima descreve a distância manhattan... em manhattan.

### Minkowski Distance

___

Calcula a distância entre vetores com valores float ou interger. É uma generalização das distâncias manhattan e euclidiana. Adiciona um parâmetro a mais, chamado de p ou ordem. Se a ordem for 1 temos a distância manhattan e se a ordem for 2 temos a distância euclidiana.

In [12]:
def minkowski_distance(a,b,p):
    return sum(abs(e1-e2)**p for e1, e2 in zip(a,b))**(1/p)

In [13]:
row1 = [10, 20, 15, 10, 5]
row2 = [12, 24, 18, 8, 7]

minkowski_distance(row1, row2, 1)

13.0

In [14]:
minkowski_distance(row1, row2, 2)

6.082762530298219

In [17]:
from scipy.spatial.distance import minkowski

minkowski(row1,row2,1)

13.0

In [18]:
minkowski(row1,row2,2)

6.082762530298219