<h1><center>연속형 데이터 거리 측정</center></h1>

<h2><center>1. Euclidean distance</center></h2>

#### 예시: 연속형 2차원 벡터의 Euclidean 거리 계산
* (3,4)와 (6,6)의 Euclidean 거리를 계산한다.

In [1]:
from scipy.spatial.distance import euclidean

point1 = [3, 4]
point2 = [6, 6]
euclidean(point1, point2)

3.605551275463989

<h2><center>2. Manhattan distance</center></h2>

#### 예시: 연속형 2차원 벡터의 Manhattan 거리 계산
* (3,4)와 (6,6)의 Manhattan 거리를 계산한다.

In [2]:
from scipy.spatial.distance import cityblock

point1 = [3, 4]
point2 = [6, 6]
cityblock(point1, point2)

5

<h2><center>3. Cosine distance</center></h2>

#### 예시: 연속형 2차원 벡터의 Cosine 거리 계산
* (3,4)와 (6,6)의 Cosine 거리를 계산한다.

In [3]:
from scipy.spatial.distance import cosine
point1 = [3, 4]
point2 = [6, 6]
cosine(point1, point2)

0.010050506338833531

<h2><center>4. Mahalanobis distance</center></h2>

In [4]:
import numpy as np
from scipy.spatial.distance import mahalanobis
np.random.seed(1)
x = np.random.uniform(0.5,5,size=100)
y = x + np.random.normal(0,0.5,size=100)

# numpy의 함수를 이용해서 데이터의 표본 공분산을 계산하고 그 역행렬을 구한다.
V_inv = np.linalg.inv(np.cov(x,y))

vector1 = [x[0], y[0]]
vector2 = [x[50], y[50]]

mahalanobis( vector1, vector2 , V_inv)

2.889345293278125

<h2><center>5. 범주형 거리</center></h2>

In [5]:
import pandas as pd
blood_type = ['A','B','AB','O']
df = pd.DataFrame({'blood_type':blood_type})
df = pd.get_dummies(blood_type)[['A','B','AB','O']]
df

Unnamed: 0,A,B,AB,O
0,1,0,0,0
1,0,1,0,0
2,0,0,1,0
3,0,0,0,1


<h1><center>이산형 데이터 거리 측정</center></h1>

<h2><center>1. Jaccard distance</center></h2>

#### 예시: 문자열 기반 Jaccard 거리 계산

In [6]:
from distance import jaccard
s1 = '데이터사이언스'
s2 = '빅데이터'
jaccard(s1, s2)

0.5714285714285714

#### 예시: 토큰 기반 Jaccard 거리 계산

In [7]:
# 예시 문장
sent1 = '빅데이터는 여러 분야에서 주목받고 있습니다'
sent2 = '빅데이터는 통계와 밀접한 관련이 있습니다'

# 토큰화 (tokenize)
tokens_sent1 = sent1.split(' ')
tokens_sent2 = sent2.split(' ')

def jaccard_distance_tokens(lst1, lst2):
    set1 = set(lst1)
    set2 = set(lst2)
    intersect = set1 & set2
    union = set1 | set2
    return 1 - len(intersect) / len(union)

jaccard_distance_tokens(tokens_sent1, tokens_sent2)

0.75

<h2><center>2. Levenshtein distance</center></h2>

In [8]:
from distance import levenshtein
s1 = '데이터사이언스'
s2 = '빅데이터'
levenshtein(s1, s2)

5

<h2><center>3. Jaro-Winkler distance</center></h2>

In [9]:
# Jaro 거리 계산
from jellyfish import jaro_distance
s1 = 'integration'
s2 = 'interaction'
jaro_distance(s1, s2)

0.9393939393939394

In [10]:
jaro_dist = jaro_distance(s1, s2)
# Jaro-Winkler 거리 계산
def jaro_winkler(s1, s2, prefix_weight, jaro_dist):
    
    prefix = 0
    for i in range(min(len(s1), len(s2))) : 

            if (s1[i] == s2[i]) : 
                prefix += 1
            else : 
                break

    prefix = min(4, prefix)
    
    return jaro_dist + prefix*prefix_weight*(1-jaro_dist)

jaro_winkler(s1, s2, prefix_weight=0.1, jaro_dist=jaro_dist)

0.9636363636363636