# Distance Metrics

우리는 흔히 A지점과 B지점이 있다면 이 두 점사이가 얼마나 멀고 가까운지를 판단하기위해서 거리라는 개념을 도입했다.

거리는 두 물체사이의 간격이라고 한다.

그러나 데이터 분석같은 경우에는 두 데이터의 거리가 왜 쓰일까?

데이터측면에서의 거리는 유사도와 밀접하게 연관지을 수 있다.

여기서 유사도는 무엇을 의미하는 것일까?

##### 유사도의 정의

유사도(similarity)란 두 개체가 닮은 정도에 대한 수치적인 척도를 가리키는 말이다.
두 데이터의 특징이 많이 닮을수록 유사도는 높아진다.

그러면 데이터의 다른 점에 중점을 맞추는 말은 없을까?

있다. 그것은 비유사도라고 일컫는다. 비유사도는 두 데이터가 서로 다른 정도에 대한 수치적인 척도를 가리키는 말이다.

즉 두 데이터가 서로 다를수록 비유사도는 높아진다.

우리는 이것에 중점하도록 한다. 비유사도는 거리라고도 하기 때문이다. 두 데이터가 거리가 멀수록 유사한 점이 없다는 말과
같다는 뜻이다.

# 왜 우리는 거리에 중점을 두어야 할까?

거리를 표현하게 되면 데이터측면에서 봤을 때 서로의 다른 점을 파악할 수 있다. 즉 각 데이터의 특징을 잘 살릴 수 있다는 뜻이다.

데이터를 분석하기 위해서는 각각의 특징들이 중요하다. 그 특징들을 가지고 우리는 데이터의 연관성을 주목하게 되고 그에 대한 모

델을 구현할 때 도움이 되기 때문이다. => 데이터의 특징을 살리기위해 Distance Metric을 이용하면 좋다.

거리는 다양하게 나타낼 수 있다.

직선거리로도 나타낼 수 있고 지도상으로 가로 세로의 합으로 거리를 나타낼 수도 있고 구의 평면에서의 거리를 구할 수 있다.

### Distance Metric의 정의

거리 매트릭스는 거리함수를 사용하지만 데이터셋의 각 원소들 사이의 관계를 정의할 수 있는 거리 함수를 사용하는 배열의 형태이다.

###  Distance Metric의 종류

1. 1 to 1 (PairWise) Distance Metric
2. 1 to Many Distance Metric

# PairWise distance Metric

1대1 거리 알고리즘에는 우리가 흔히알고 있는 피타고라스 공식이 존재하고 유클리디안 공식, 맨하탄 공식이 존재한다.

1. 피타고라스 공식

2. 유클라디안 거리 공식

3. 맨하탄 거리 공식

4. 코사인 거리 공식


피타고라스 거리 공식
![image.png](attachment:image.png)

흔히 두 점사이의 거리를 구하는 공식으로 많이 알고 있으며 구하는 공식은 각 좌표의 제곱하고 더한 다음 제곱근을 해준다.

위 공식을 이용하여 거리를 구하는 코드는 다음과 같다.

In [2]:
import numpy as np

A1 = np.array([3,4])
A2 = np.array([4,2])

distance = 0
for i in range(len(A1)):
    distance += (A1[i] - A2[i]) ** 2
    
distance = distance ** 0.5

print(distance)

2.23606797749979


유클리디안 거리 공식
![image.png](attachment:image.png)

유클리디안 거리 공식은 피타고라스 공식과 유사하다. 하지만 차이점은 피타고라스는 2차원 형태이고 유클리디안은 다차원 형태에서도 적용이 가능하다는 점이 차이점이다.

위 공식을 이용하여 거리를 구하는 코드는 다음과 같다.

In [6]:
import numpy as np

A1 = np.array([[1,2,3,4],
               [3,4,5,6],
               [6,4,8,9],
               [10,5,4,8],
               [3,4,5,6]])
distance_arr = np.zeros((5, 5))

for i in range(5):
    for j in range(5):
        temp_p = A1[i]
        
        temp_q = A1[j]
        
        distance = 0
        
        for k in range(4):
            distance += (temp_p[k] - temp_q[k]) ** 2
            
        distance_arr[i][j] = distance ** 0.5
distance_arr

array([[ 0.        ,  4.        ,  8.88819442, 10.34408043,  4.        ],
       [ 4.        ,  0.        ,  5.19615242,  7.41619849,  0.        ],
       [ 8.88819442,  5.19615242,  0.        ,  5.83095189,  5.19615242],
       [10.34408043,  7.41619849,  5.83095189,  0.        ,  7.41619849],
       [ 4.        ,  0.        ,  5.19615242,  7.41619849,  0.        ]])

위의 배열을 보면 각 차원에 해당하는 각각의 거리를 배열로 나타낸 값이다 특징으로 보면 대각선 형태에서 다 0값을 나타낸다
는것을 볼수 있는데 이 것은 자기 자신이라서 0을 나타낸 것이다.

맨하탄 거리 공식
![image.png](attachment:image.png)

흔히 Taxicab distance라고 부르며 p,q라는 두 벡터가 n차원 공간에서 존재한다면 그 길이들의 합을 나타낸 것이라고 보면된다.

위 공식을 이용하여 맨하탄 거리를 구하는 코드는 다음과 같다.

In [9]:
import numpy as np

A1 = np.array([[1,2,3,4],
               [3,4,5,6],
               [6,4,8,9],
               [10,5,4,8],
               [3,4,5,6]])
distance_arr = np.zeros((5, 5))

for i in range(5):
    for j in range(5):
        temp_p = A1[i]
        
        temp_q = A1[j]
        
        distance = 0
        
        for k in range(4):
            distance += abs(temp_p[k] - temp_q[k])
            
        distance_arr[i][j] = distance
distance_arr

array([[ 0.,  8., 17., 17.,  8.],
       [ 8.,  0.,  9., 11.,  0.],
       [17.,  9.,  0., 10.,  9.],
       [17., 11., 10.,  0., 11.],
       [ 8.,  0.,  9., 11.,  0.]])

### 우리는 모든 거리 배열을 통합할 수 있을까?

가능하다 이 통합하는 거리 공식을 Minkowski distance라고 일컫는다. 

Minkowski distance는 정규화된 벡터를 가지고 유클리디안과 맨하탄을 일반화 한 것이다.

이것을 공식화 하면

![image.png](attachment:image.png)

이러한 공식을 가지게 된다 p값이 1이되면 맨하탄 2값이 되면 유클리디안 3 이상부터는 맥시멈 디스턴스라고 일컫는다.

코사인 거리 공식

코사인 거리 공식은 두 벡터의 각도를 측정할 수 있다.

이 배열은 두 벡터의 크기를 판단할 때는 사용하지 않고 벡터들의 방향에 접근할 때 많이 쓰인다.

![image.png](attachment:image.png)

두 벡터의 내적값은 결국 a,b의 magnitude * 둘 사이의 각도로 나타낼 수 있는데

둘 사이의 각도값을 우리는 cosine similarity (코사인 유사도)를 가지고 나타낼 수 있다.

각 위치의 각도값을 구했다면 거리를 구하는 공식은 마지막과 같다.

여기서 주목해야할 점은 이 거리값은 항상 0 ~ 1사이 값을 가진다는 것을 명심해야한다.

## Distribution-WISE Distance

전까지는 1대1 거리공식이라면 이번 거리공식은 1대다 거리공식이다.

1대다 거리공식에서 많이쓰이는 거리공식은 마할라노비스 거리공식이다.

마할라노비스는 하나의 점이 D라는 분포 중심까지의 거리를 일컫는다.

마할라노비스 공식을 하기 전에는 상관관계에 대해서 알아야한다.
![image.png](attachment:image.png)

그림과 같이 상관관계에서 음의 상관관계를 가지거나 아예 상관관계가 없거나 양의 상관관계를 가지는 것을 볼 수 있다.

저런 점 하나하나가 Data고 Component가 된다 하나의 컴포넌트가 달라질 때, 다른 컴포넌트가 달라진다면 서로 상관관계가 가지고 있다는 것을 알 수 있다.



마할라노비스 거리공식의 구현방법

1. 각 컴포넌트들의 상관관계를 제거

2. scale에 민감하지 않게 정규화(0~1)

3. 유클리디안 처럼 거리를 계산

![image.png](attachment:image.png)

마할라노비스를 구하는 공식이다. (x - y)T(x - y)는 각 컴포넌트의 거리공식에 해당되고 상관관계를 제거하고 정규화 해주는 과정이
공분산을 구하는 과정이다.

위와 같은 공식을 이용해 마할라노비스를 구현한 코드이다.

In [10]:
import numpy as np

array = np.array([
[64.0, 580.0, 29.0],    
[66.0, 570.0, 33.0], 
[68.0, 590.0, 37.0], 
[69.0, 660.0, 46.0],
[73.0, 600.0, 55.0],
])

mean = np.mean(array, axis=0)
# 평균값 구하기
cov = np.cov(array.T)

# 공분산 구하기
cov_inv = np.linalg.inv(cov)

diff = array[0] - mean
# x - y값
mahalanobis_distance = np.dot(diff.T, cov_inv)
mahalanobis_distance = np.dot(mahalanobis_distance, diff)
mahalanobis_distance = np.sqrt(mahalanobis_distance)
# 마할라노비스 공식 구현
mahalanobis_distance

1.4436997557204867

In [11]:
from scipy.spatial import distance
mahalanobis_distance = distance.mahalanobis(array[0], mean, cov_inv)
display(mahalanobis_distance)

# 라이브러리 구현 값
# 차이가 나지 않음

1.4436997557204867

# Wrap-up

우리는 거리공식을 통해서 두 데이터간의 연관관계를 파악한다.

거리공식에는 유클리디안 피타고라스 맨하탄 코사인 마할라노비스 공식이 있고

1대1인지 1대다인지에 따라 거리공식이 달라지며

연산을 통해 나온 결과를 통해 우리는 데이터의 특징을 쉽게 파악할 수 있다.