### 행렬

#### 넘파이의 행렬 계산

In [1]:
import warnings
warnings.filterwarnings(action='ignore')

import math
import numpy as np

a = np.array([2, 1])
print(a)

b = np.array([3, 2, 1])
print(b)

A = np.array([[2, 4, 1], [6, 3, 5]]) # 2차원 배열, 행렬
print(A)

[2 1]
[3 2 1]
[[2 4 1]
 [6 3 5]]


#### 넘파이로 벡터의 합, 차, 크기 계산

In [7]:
a = np.array([3, 2])
b = np.array([1, 4])

print(a + b)               # 벡터의 합
print(a - b)               # 벡터의 차
print('벡터 a의 크기:', np.linalg.norm(a))   # 벡터 a의 크기를 스칼리로 표현
print('벡터 b의 크기:', np.linalg.norm(b))   # 벡터 b의 크기를 스칼리로 표현

[4 6]
[ 2 -2]
벡터 a의 크기: 3.605551275463989
벡터 b의 크기: 4.123105625617661


In [6]:
# 벡터의 크기를 함수로 계산
# √3²+ √2²= √13
a = np.array([3, 2])
b = np.array([1, 4])
def norm(x):
    return math.sqrt(sum([i ** 2 for i in x]))

print('벡터 a의 크기:', norm(a))             # 벡터 a의 크기
print('벡터 b의 크기:', norm(b))             # 벡터 b의 크기

벡터 a의 크기: 3.605551275463989
벡터 b의 크기: 4.123105625617661


#### dot 함수로 벡터의 내적 계산
- 벡터의 내적을 통해 벡터의 방향을 알 수 있음
- a = (3, 2), b = (1, 4)
- 3 X 1 + 2 X 4 = 11
- 내적이 0이면 두 벡터는 직각(90도)을 만나는 상태
- 양수이면 같은 방향을 가르키고 있음, 유사성이 있음
- 음수이면 다른 방향을 가르키고 있음, 유사성이 없음.

In [8]:
import numpy as np

a = np.array([2, 3])
b = np.array([1, 4])

print(a.dot(b))   # 벡터 a와 b의 내적, 2 X 1 + 3 X 4 = 14

c = np.array([2, 1])
d = np.array([-1, 2])

print(c.dot(d))   # 벡터 c와 d의 내적, 2 X -1 + 1 X 2 = 0

e = np.array([-2, -3])
f = np.array([1, 2])

print(e.dot(f))   # 벡터 e와 f의 내적, -2 X 1 + -3 X 2 = -8


14
0
-8


#### 넘파이로 행렬의 합과 차 계산

In [9]:
import numpy as np

X = np.array([[1, 2, 3],
              [3, 4, 5]])
Y = np.array([[3, 4, 5],
              [4, 5, 6]])

print(X + Y)
print(X - Y)

[[ 4  6  8]
 [ 7  9 11]]
[[-2 -2 -2]
 [-1 -1 -1]]


#### 행렬의 곱 계산
- 첫번째 행렬의 열과 두번째 행렬의 행의수가 같아야함.
- 행렬의 곱 결과는 첫번째 행렬의 행의 수, 두번째 행렬의 열의 수가 됨.
- 여러개의 입력 값과 여러개의 인공 뉴런 사이에 발생하는 가중치와 편향은 행렬 연산을 통하여 update 된다.

In [12]:
import numpy as np

A = np.array([[1, 2, 3],
              [3, 4, 5]])
B = np.array([[3, 4],
              [4, 5], 
              [5, 6]])
# 26 = (1 * 3) + (2 * 4) + (3 * 5) 
# 32 = (1 * 4) + (2 * 5) + (3 * 6)
# 50 = (3 * 3) + (4 * 4) + (5 * 5)
# 62 = (3 * 4) + (4 * 5) + (5 * 6)

print(A.dot(B)) 

[[26 32]
 [50 62]]


In [12]:
C = np.matrix([[1, 2, 3], [3, 4, 5]]) # 행렬
D = np.matrix([[3, 4], [4, 5], [5, 6]])

print(C * D)  # matrix 함수를 사용한 행렬의 곱 계산
print(A @ B)  # 파이썬 3.5 이후에 포함된 @ 연산자 사용

[[26 32]
 [50 62]]
[[26 32]
 [50 62]]


In [13]:
# 행과 열의 변경
a = np.arange(15).reshape(3, 5)
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [16]:
# 전치행렬
print(np.transpose(a))
# analysis     ai
#    70       100
#    80        90
#    90        75 

# analysis  70   80  90
# ai        100  90  75

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


### 유클리드 거리(Euclidean distance)

In [17]:
# 벡터의 거리, 유사도
# Python을 활용한 벡터의 거리계산(유클리드 거리)
# 수치가 작을 수록 거리가 같음
# SQRT((x2 - x1)²+ (y2 - y1)²)
# SQRT((1 - 1)²+ (2 - 2)²+ (3 - 3)²)= √0

# scipy.spatia 모듈로부터 distance 함수 호출
from scipy.spatial import distance

# 3개의 점
p1 = (1, 2, 3)
p2 = (1, 2, 3)

# P1과 P2 사이의 유클리드 거리 계산
d = distance.euclidean(p1, p2)
print("Euclidean distance: ",d)

Euclidean distance:  0.0


In [18]:
# √(x2 - x1)²+ (y2 - y1)²
# √(2 - 1)²+ (3 - 2)²+ (4 - 3)²= √3

# 3개의 점
p1 = (1, 2, 3)
p2 = (2, 3, 4)

# P1과 P2 사이의 유클리드 거리 계산
d = distance.euclidean(p1, p2)
print("Euclidean distance: ",d)

Euclidean distance:  1.7320508075688772


In [19]:
p1 = (1, 2, 3)
p2 = (4, 5, 6)

# P1과 P2 사이의 유클리드 거리 계산
d = distance.euclidean(p1, p2)
print("Euclidean distance: ",d)

Euclidean distance:  5.196152422706632


### 맨해튼 거리(Manhattan distance)

In [2]:
# 두 점 P1과 P2 정의
p1 = (1, 2, 3)
p2 = (1, 2, 3)

# 맨해튼 거리를 계산하기 위한 사용자 정의 함수 생성
def manhattan_distance(x,y):
    return sum(abs(a-b) for a,b in zip(x,y))

# P1과 P2 사이의 맨해튼 거리 계산
manhattan_distance(p1,p2)

0

In [3]:
# 두 점 P1과 P2 정의
p1 = (1, 2, 3)
p2 = (4, 5, 6)

# 맨해튼 거리를 계산하기 위한 사용자 정의 함수 생성
def manhattan_distance(x,y):
    return sum(abs(a-b) for a,b in zip(x,y))

# P1과 P2 사이의 맨해튼 거리 계산
manhattan_distance(p1,p2)

9

### 코사인 유사도(Cosine Similarity)
- 1에 가까울수록 각이 작고 유사도가 높음.
- -1에 가까울수록 각이 크고 유사도가 낮음.
- NLP 자연어 처리에 사용 
- 예) 긍정 문서들은 서로 비슷한 값을 갖음, 부정 문서들은 서로 비슷한 값을 갖음

In [5]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B)) # norm(A): 벡터 a의 크기

doc1=np.array([1,1,1,1,0])
doc2=np.array([1,0,1,0,1])
doc3=np.array([2,1,1,1,1])

print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도

0.5773502691896258
0.8838834764831843
0.8164965809277259
