# Distance

- 얼마나 떨어져 있는지에 대한 수학적인 측정
- Metrics의 Distance는 function을 이용해 계산
- 유형별로 1 to 1과 1(or many) to many


- 중요성: 유사도를 측정함으로써 데이터 사이의 연관성을 파악하는 데에 도움을 줍니다.


- 적용: 이메일 사용자가 특정 메일을 스팸 메일로 분류하였다면 이 메일과 유사도가 높은, 비슷한 메일들은 스팸 메일일 확률이 높을 것입니다. 이런 일을 결정하기 위해 그 유사도를 측정하는 데에 적용할 수 있습니다.


1. Euclidean Distance : Pair-wise


- 여러 Dimension 표현 가능

![image.png](attachment:image.png)

In [2]:
from math import *

def euclidean_distance(x,y):
    return sqrt(sum(pow(a-b,2) for a, b in zip(x, y)))
    
x = [0, 0]
y = [1, 2]

print('유클리디안 거리:', euclidean_distance(x,y))

유클리디안 거리: 2.23606797749979


In [3]:
from scipy.spatial import distance

print('유클리디안 거리:', distance.euclidean(x, y))

유클리디안 거리: 2.23606797749979


2. Manhattan Distance (Taxicab Geometry) : Pair-wise

![image.png](attachment:image.png)
ex) 체스에서 킹이 이동하는 경로, 통신

In [2]:
def manhattan_distance(x,y): 
    if len(x)==len(y):
        r = 0 
        for i in range(0, len(x)):
            r+=abs(x[i]-y[i])
        return r
    else:
        return "error"
    
print('맨허튼 거리:', manhattan_distance(x,y))

맨허튼 거리: 3


In [4]:
print('맨허튼 거리:', distance.cityblock(x,y))

맨허튼 거리: 3


3. Minkowski Distance : Pair-wise

유클리디언 거리가 각 속성들 간의 차이를 모두 고려한 거리라면, 민코스키 거리는 가장 큰 차이만을 가지고 거리를 이야기한다. 
계산값이 0에 가까울수록 유사한 것이다.

![image.png](attachment:image.png)

- 3가지 조건

- zero vector: if f(v) = 0 then v = 0
- Scalar Factor: if f(cv) = |c|*f(v)
- Triangle Inequelity: f(u + v) ≤ f(u) + f(v)

P-Norm

- p = 1 -> Manhattan Norm
- p = 2 -> Euclidian Norm
- p = lim -> Maximum Norm

In [3]:
from math import*
from decimal import Decimal

def nth_root(value, n_root):
    root_value = 1/float(n_root)
    return round (Decimal(value) ** Decimal(root_value),3)

def minkowski_distance(x,y,p_value):
    return nth_root(sum(pow(abs(a-b),p_value) for a,b in zip(x, y)),p_value)

print('민코스키 거리:', minkowski_distance([0,3,4,5],[7,6,3,-1],3))

민코스키 거리: 8.373


4. Cosine Distance : Pair-wise

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖게 된다. 즉, 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다.

![image.png](attachment:image.png)


In [4]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
       return dot(A, B)/(norm(A)*norm(B))
    
x = np.array([0,1,1,1])
y = np.array([1,0,1,1])

print('코사인 거리:', cos_sim(x, y))

코사인 거리: 0.6666666666666667


In [6]:
print('코사인 거리:', distance.cosine([1, 1, 0], [1, 0, 1]))

코사인 거리: 0.5
