### 벡터 생성하기

In [1]:
import numpy as np # numpy를 사용해서 벡터와 행렬 생성

In [2]:
a = np.array([1,2]) # array()를 이용하는 경우는 보통 리스트를 인자로 입력

In [3]:
a

array([1, 2])

In [4]:
a.shape # 아래 결과는 종벡터를 의미

(2,)

In [5]:
len(a)

2

### 거리 구하기 

In [9]:
# 벡터 a의 길이 구하기
np.linalg.norm(a)

2.23606797749979

norm() 함수를 이용해서 두 벡터 사이의 유클리디안 거리 구하기

In [15]:
a = np.array([1,2])
b = np.array([2,2])
c = np.array([-3, -3])

In [16]:
print(np.linalg.norm(b-a))
print(np.linalg.norm(c-a))

1.0
6.4031242374328485


### scipy 모듈에서 제공되는 거리 함수 사용하기

In [18]:
import scipy.spatial.distance as dst

시티블록 거리 (L1 norm) 계산하기

In [19]:
dst.cityblock(a,b)

1

In [23]:
dst.cityblock(a,c)

9

linalg 모듈의 norm() 함수를 이용한 L1-norm 거리 계산

In [27]:
np.linalg.norm(c-a, 1)

9.0

distance 모듈에서 제공되는 함수를 이용한 유클리디안 거리 계산

In [28]:
dst.euclidean(a,b)

1.0

In [29]:
dst.euclidean(a,c)

6.4031242374328485

norm() 함수의 두 번째 인자로 2를 입력하는 경우의 예

In [31]:
np.linalg.norm(c-a, 2)

6.4031242374328485

In [32]:
np.linalg.norm(c-a)

6.4031242374328485

Jaccard distance

In [33]:
d = np.array([1,0,0])
e = np.array([1,1,0])

In [34]:
dst.jaccard(d,e)

0.5

Hamming distance

In [35]:
dst.hamming(d,e)

0.3333333333333333

# Cosine similarity

#### 내적 (dot product)

In [36]:
a = np.array([1,2])
b = np.array([2,2])
np.dot(a,b)

6

In [37]:
np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))

0.9486832980505138

#### cosine distance

In [38]:
dst.cosine(a,b)

0.05131670194948623

In [39]:
1-np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))

0.05131670194948623

# 예제 데이터 사용해 보기

In [40]:
import pandas as pd
data = pd.read_csv('vector_example.csv')

In [41]:
data

Unnamed: 0,Age,Experience
0,30,1
1,33,2
2,55,25


In [42]:
data_np = data.values

In [43]:
data_np

array([[30,  1],
       [33,  2],
       [55, 25]], dtype=int64)

In [44]:
# 첫 번째 관측치에 대한 벡터
data_np[0]

array([30,  1], dtype=int64)

In [45]:
# 첫 번째 벡터와 두 번째 벡터 간의 유클리디안 거리
np.linalg.norm(data_np[1]-data_np[0])

3.1622776601683795

In [46]:
np.linalg.norm(data_np[2]-data_np[0])

34.655446902326915

In [47]:
# 첫 번째 벡터와 두 번째 벡터 간의 코사인 세타
np.dot(data_np[0],data_np[1])/(np.linalg.norm(data_np[0])*np.linalg.norm(data_np[1]))

0.999629802932285

In [48]:
# 첫 번째 벡터와 세 번째 벡터 간의 코사인 세타
np.dot(data_np[0],data_np[2])/(np.linalg.norm(data_np[0])*np.linalg.norm(data_np[2]))

0.9236469142237134