# 행렬 개념

## 1. n차원 행렬

In [1]:
import numpy as np
A = np.array([1,2,3,4])
print(A)
print(np.ndim(A))
print(A.shape)
print(A.shape[0])

[1 2 3 4]
1
(4,)
4


In [2]:
B = np.array([[1,2],[3,4],[5,6]])
print(B)
print(np.ndim(B))
print(B.shape)

[[1 2]
 [3 4]
 [5 6]]
2
(3, 2)


## 2. 행렬 곱 연산

In [3]:
# 행렬 곱 ==> np.dot(A,B) == A@B
A = np.array([[1,2,3],[4,5,6]])
B = np.array([[1,2], [3,4], [5,6]])
print(np.dot(A, B))
print(A@B)
# A의 1번째 차원의 원소 수와 행렬 B의 0번째 차원의 원소 수가 같아야 곱 연산이 가능하다.
# B가 1차원일때에도 B의 원소 수가 A의 1번째 차원의 원소 수와 같아야한다.

[[22 28]
 [49 64]]
[[22 28]
 [49 64]]


# np.array로 신경망 만들기

In [4]:
# 활성화 함수는 시그모이드 함수 활용.
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [5]:
X = np.array([1,2])
print("입력층\n", X)
W = np.array([[1,3,5], [2,4,6]])
print("가중치\n", W)
Y = np.dot(X, W)
print("출력층\n", Y)

입력층
 [1 2]
가중치
 [[1 3 5]
 [2 4 6]]
출력층
 [ 5 11 17]


In [6]:
# 0 ==> 1
X = np.array([1.0, 0.5])
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
B1 = np.array([0.1, 0.2, 0.3])

print(W1.shape)
print(X.shape)
print(B1.shape)

A1 = np.dot(X, W1) + B1
print(A1)
Z1 = sigmoid(A1)
print(Z1)

(2, 3)
(2,)
(3,)
[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]


In [7]:
# 1 ==> 2
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

print(Z1.shape)
print(W2.shape)
print(B2.shape)

A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)
print(A2)
print(Z2)

(3,)
(3, 2)
(2,)
[0.51615984 1.21402696]
[0.62624937 0.7710107 ]


## 구현 정리

In [8]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [9]:
def identity_function(x):
    return x

In [10]:
def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])    
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])    
    network['b2'] = np.array([0.1, 0.2])    
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])    
    network['b3'] = np.array([0.1, 0.2])    
    
    return network

In [11]:
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']
    
    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)
    
    return y

In [12]:
network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y)

[0.31682708 0.69627909]


## 출력층 설계 --> 활성화 함수 설정
***
일반적으로   
회귀 ==> 항등함수 (identity function)   
분류 ==> 소프트맥스 함수 (softmax function)

In [13]:
a = np.array([0.3, 2.9, 4.0])

exp_a = np.exp(a)
print(exp_a)

[ 1.34985881 18.17414537 54.59815003]


In [14]:
sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

74.1221542101633


In [15]:
y = exp_a / sum_exp_a
print(y)

[0.01821127 0.24519181 0.73659691]


In [17]:
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

### 소프트맥스 함수의 특징   
출력은 0 ~ 1.0 사이의 실수.   
출력의 총합은 1   
==> 함수의 출력을 확률로 해석할 수 있다!

In [18]:
a = np.array([0.3, 2.9, 4.0])
y = softmax(a)
print(y)

[0.01821127 0.24519181 0.73659691]


In [19]:
np.sum(y)

1.0

분류 문제에서 [2]번째 원소의 확률이 가장 크니, [2]번째 원소가 정답이다! 라고 할 수 있음.

소프트맥스 함수를 적용해도 원소들 사이의 대소관계는 변하지 않음. 결과적으로 소프트맥스 함수를 생략해도 된다.