### 벡터 생성

In [1]:
import numpy as np

# 크기가 (3, )인 1차원 배열 표현
x = np.array([1, 2, 3])
print(x)

[1 2 3]


In [2]:
# 크기가 (1, 3)인 2차원 배열 표현 (행 벡터)
u = np.array([[1, 2, 3]])
print(u)

[[1 2 3]]


In [3]:
# 크기가 (3, 1)인 2차원 배열 표현 (열 벡터)
v = np.array([[1], [2], [3]])
print(v)

[[1]
 [2]
 [3]]


### 단위 벡터 계산

In [4]:
from scipy import linalg

s = np.array([2, 3, 1])

# numpy의 서브패키지인 linalg에서 제공하는 함수 norm()을 사용하여 벡터의 크기를 계산한 후 기존 벡터로 나누기
v_hat01 = s / linalg.norm(s)
print(v_hat01)

[0.53452248 0.80178373 0.26726124]


### 영 벡터 구현

In [5]:
# zeros() 함수를 사용하여 0으로 채워지는 배열을 만들 수 있는데, np.zeros(5)는 0으로 5행을 채운다는 의미
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [6]:
# array 크기 확인
np.zeros(5).shape

(5,)

In [7]:
# s 변수에 (2, 2) 배열을 저장한 후 영 벡터로 표현
s = (2, 2)
np.zeros(s)

array([[0., 0.],
       [0., 0.]])

### 선형 결합 (linear combination)

In [9]:
# 파이썬에서는 선형 결합을 할 수 있는 함수가 없기 때문에 일반 연산으로 해야함

a = np.array([2, 4])
b = np.array([1, 6])
c = (4*a) + ((-3)*b)
print(c)

[ 5 -2]


### 행렬의 랭크 계산

In [10]:
X1 = np.array([[2, 7], [5, 1]]) # 선형 독립인 경우
np.linalg.matrix_rank(X1)

2

In [11]:
X1 = np.array([[2, 4], [3, 6]]) # 선형 종속인 경우
np.linalg.matrix_rank(X1)

1

### 벡터의 덧셈

In [12]:
# 파이썬 기본 라이브러리를 사용한 벡터의 덧셈

x = [2, 3]
y = [3, 1]

# zip() 함수를 사용하여 두 벡터의 첫 번째 원소끼리 더하고, 두 번째 원소끼리 더한다. 그리고 그 결과를 리스트 형태로 z 변수에 저장.
z = [i+j for i, j in zip(x, y)]
print(z)

[5, 4]


In [13]:
# NumPy 라이브러리를 사용한 벡터의 덧셈

u = np.array(x)
v = np.array(y)

w = u + v
print(w)

[5 4]


### 벡터의 뺄셈

In [14]:
# 파이썬 기본 라이브러리를 사용한 벡터의 뺄셈

x = [2, 3]
y = [3, 1]

# zip() 함수를 사용하여 벡터 뺄셈 연산
z = [i-j for i, j in zip(x, y)]
print(z)

[-1, 2]


In [15]:
# NumPy 라이브러리를 이용한 벡터의 뺄셈

u = np.array(x)
v = np.array(y)

w = u - v
print(w)

[-1  2]


### 벡터의 곱셈

In [16]:
# 파이썬 기본 라이브러리를 사용한 벡터의 합

x = [3, 4]
c = 8        # 스칼라 상수

# x 리스트의 원소 각각에 c 상수를 곱한 결과를 리스트로 변환
z = [c*I for I in x]
print(z)

[24, 32]


In [17]:
# NumPy 라이브러리를 이용한 벡터의 합

u = np.array([3, 4])
c = 8

w = u * c
print(w)

[24 32]


### 벡터의 내적

In [18]:
# NumPy 라이브러리를 이용한 벡터의 합

u = np.array([6, 6])
v = np.array([12, 0])

# numpy.dot()으로 벡터의 내적을 구한 후 uv 변수에 저장
uv = np.dot(u, v)
print(uv)

72


In [24]:
A = np.arange(1*2*3).reshape((1, 2, 3)) # np.arange(1*2*3) = np.arange(6): 0부터 5까지 reshape: 1차원, 2행 3열
print(A)

[[[0 1 2]
  [3 4 5]]]


In [25]:
B1 = np.arange(1*2*3).reshape((1, 2, 3))
print(B1)

[[[0 1 2]
  [3 4 5]]]


In [26]:
B2 = np.arange(1*2*3).reshape((1, 3, 2))
print(B2)

[[[0 1]
  [2 3]
  [4 5]]]


In [27]:
B3 = np.arange(1*2*3).reshape((2, 1, 3)) # 2차원, 1행 3열
print(B3)

[[[0 1 2]]

 [[3 4 5]]]


In [30]:
B4 = np.arange(1*2*3).reshape((2, 3, 1))
print(B4)

[[[0]
  [1]
  [2]]

 [[3]
  [4]
  [5]]]


In [29]:
B5 = np.arange(1*2*3).reshape((3, 1, 2))
print(B5)

[[[0 1]]

 [[2 3]]

 [[4 5]]]


In [31]:
B6 = np.arange(1*2*3).reshape((3, 2, 1))
print(B6)

[[[0]
  [1]]

 [[2]
  [3]]

 [[4]
  [5]]]


In [32]:
np.dot(A, B1) # 결과 오류

ValueError: shapes (1,2,3) and (1,2,3) not aligned: 3 (dim 2) != 2 (dim 1)

In [34]:
np.dot(A, B2)

array([[[[10, 13]],

        [[28, 40]]]])

In [35]:
np.dot(A, B3) # 결과 오류

ValueError: shapes (1,2,3) and (2,1,3) not aligned: 3 (dim 2) != 1 (dim 1)

In [36]:
np.dot(A, B4)

array([[[[ 5],
         [14]],

        [[14],
         [50]]]])

In [37]:
np.dot(A, B5) # 결과 오류

ValueError: shapes (1,2,3) and (3,1,2) not aligned: 3 (dim 2) != 1 (dim 1)

In [38]:
np.dot(A, B6) # 결과 오류

ValueError: shapes (1,2,3) and (3,2,1) not aligned: 3 (dim 2) != 2 (dim 1)

### 벡터의 외적

In [40]:
# 외적에 대한 일반적(수학적) 계산
a = (1, 3, 5)
b = (2, 4, 6)

# 벡터의 외적을 위한 수식을 함수로 구현
def cross(a, b):
    c = [a[1]*b[2] - a[2]*b[1],
         a[2]*b[0] - a[0]*b[2],
         a[0]*b[1] - a[1]*b[0]]
    return c

cross(a, b)

[-2, 4, -2]

In [41]:
# NumPy를 이용한 벡터 외적 계산

print(np.cross(a, b))

[-2  4 -2]


### 벡터 크기 계산

In [42]:
a = np.array([1, 2]) # 크기가 (1, 2)인 2차원 배열의 표현
print(a)

[1 2]


In [43]:
np.linalg.norm(a) # a의 길이

2.23606797749979

In [44]:
# ord = 1: L1 Norm 구하기, 주로 컴퓨터 비전에서 쓰임
np.linalg.norm(a, ord = 1) 

3.0

In [45]:
# ord = 2: L2 Norm 구하기, 주로 K-평균 클러스트링과 K-최근접 이웃 알고리즘에 쓰임
np.linalg.norm(a, ord = 2)

2.23606797749979

### 유클리드 거리

In [46]:
from scipy.spatial import distance

p1 = (1, 2, 3)
p2 = (4, 5, 6)

d = distance.euclidean(p1, p2)
print("Euclidean distance: ", d)

Euclidean distance:  5.196152422706632


### 맨해튼 거리

In [47]:
from math import *

p1 = (1, 2, 3)
p2 = (4, 5, 6)

def manhattan_distance(x, y):
    return sum(abs(a-b) for a,b in zip(x, y))

manhattan_distance(p1, p2)

9

### 코사인 유사도

In [52]:
import pandas as pd

# 다음과 같이 문서가 세 개 있다고 가정

# 문서 1: 나는 과일과 채소를 좋아합니다.
# 문서 2: 나는 채소를 싫어합니다.
# 문서 3: 나는 과일을 좋아합니다. 그리고 나는 채소를 싫어합니다.

# 위의 문서를 행렬로 표현
documents = [["문서 1", "1", "1", "1", "1", "0"], 
             ["문서 2", "1", "0", "1", "0", "0"],
             ["문서 3", "2", "1", "1", "1", "1"]]

df = pd.DataFrame(documents, columns = ["구분", "나는", "과일", "채소", "좋아합니다.", "싫어합니다."])

df

Unnamed: 0,구분,나는,과일,채소,좋아합니다.,싫어합니다.
0,문서 1,1,1,1,1,0
1,문서 2,1,0,1,0,0
2,문서 3,2,1,1,1,1


In [54]:
# Numpy 라이브러리를 호출하고 코사인 공식을 적용하기 위해 내적(dot)과 벡터의 크기(norm)을 호출
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

# 위의 표의 행렬을 배열로 저장
doc1 = np.array([1, 1, 1, 1, 0])
doc2 = np.array([1, 0, 1, 0, 1])
doc3 = np.array([2, 1, 1, 1, 1])

print(cos_sim(doc1, doc2))
print(cos_sim(doc1, doc3)) # 유사도가 가장 높음
print(cos_sim(doc2, doc3))

0.5773502691896258
0.8838834764831843
0.8164965809277259


### 역행렬 계산

In [55]:
A = np.matrix([[1, 0, 0, 0], [2, 1, 0, 0], [3, 0, 1, 0], [4, 0, 0, 1]])
print(np.linalg.inv(A))

[[ 1.  0.  0.  0.]
 [-2.  1.  0.  0.]
 [-3.  0.  1.  0.]
 [-4. -0. -0.  1.]]


### 전치행렬 (Transposed matrix)

In [56]:
a = np.arange(15).reshape(3, 5) # 원소가 총 15개 들어있는 배열 afmf 3x5로 배치
np.transpose(a)

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### 고유 값과 고유 벡터

In [58]:
a = np.array([[5, -1], [-1, 2]]) # 2차원 행렬

# np.linalg.eig(a)는 고유 값과 고유 벡터 도출을 위한 함수
w, v = np.linalg.eig(a)

# 고유 값 구하기
print(w) # 고유 값에 대한 결괏값
print(v) # 고유 벡터에 대한 결괏값

[5.30277564 1.69722436]
[[ 0.95709203  0.28978415]
 [-0.28978415  0.95709203]]
