
## 23-2 신경망 구성 (1) 개요

신경망이란?   
   
신경계 뉴런이 그물망 형태로 이루고 있는 것을 신경망이라고 부른다   
   
### MNIST Revisited
___
MNIST 이미지 모델 분류기 살펴보기

In [2]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt

mnist = keras.datasets.mnist
(x_train, y_train), (x_test, y_test)= mnist.load_data()

# 모델에 맞게 데이터 가공
x_train_norm, x_test_norm = x_train / 255.0, x_test / 255.0
x_train_reshaped = x_train_norm.reshape(-1, x_train_norm.shape[1]*x_train_norm.shape[2])
x_test_reshaped = x_test_norm.reshape(-1, x_test_norm.shape[1]*x_test_norm.shape[2])

# 딥러닝 모델 구성 - 2 Layer Perceptron
model=keras.models.Sequential()
model.add(keras.layers.Dense(50, activation='sigmoid', input_shape=(784,)))  # 입력층 d=784, 은닉층 레이어 H=50
model.add(keras.layers.Dense(10, activation='softmax'))   # 출력층 레이어 K=10
model.summary()

# 모델 구성과 학습
model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=['accuracy'])
model.fit(x_train_reshaped, y_train, epochs=10)

# 모델 테스트 결과
test_loss, test_accuracy = model.evaluate(x_test_reshaped,y_test, verbose=2)
print("test_loss: {} ".format(test_loss))
print("test_accuracy: {}".format(test_accuracy))

Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 50)                39250     
_________________________________________________________________
dense_1 (Dense)              (None, 10)                510       
Total params: 39,760
Trainable params: 39,760
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
10000/10000 - 0s - loss: 0.1072 - acc: 0.9671
test_loss: 0.10717004598863424 
test_accuracy: 0.9671000242233276


### 다층 퍼셉트론 Overview
___
   
입력값이 있는 입력층(input layer), 최종 출력값이 있는 출력층(output layer), 그리고 그 사이에 있는 층인 은닉층(hidden layer)이 있습니다.    
  
  보통 그림으로 인공신경망을 표현할 때에는 노드를 기준으로 레이어를 표시해서 3개의 레이어라고 생각할 수 있지만, 실제로는 총 2개의 레이어를 가졌습니다. 레이어 개수를 셀 때에는 노드와 노드 사이의 연결하는 부분이 몇 개 존재하는지 세면 보다 쉽게 알 수 있습니다.--> 이해안감 ㅡㅡ
  
  
  Fully-Connected Neural Network 는 MLP와 다른 용어. 
  
  
### Parameters/Weights
___
입력층 - 은닉층, 은닉층 - 출력층 사이에는 각각 행렬(Matrix)가 존재  
  
  예를들어 입력값이 100개, __은닉 노드가 20개__ 라면 사실 이 입력층_은닉층 사이에는 100*20의 형태를 가진 행렬이 존재합니다. 동일하게, MNIST 데이터처럼 10개의 클래스를 맞추는 문제를 풀기 위해 출력층이 10개의 노드를 가진다면 은닉층-출력층 사이에는 20X10의 형태를 가진 행렬이 존재  
  
  이 행렬들을 Parameter 혹은 Weight라고 부른다.  
  (보통 동일한 뜻이지만 parameter는 bias 노드도 포함한다.)
  
  인접한 레이어 사이에는 아래와 같은 관계가 성립  
  y = W * X + b
    
    MLP 기반 딥러닝 모델을 Numpy로 다시 만들어 보면 다음과 같다

In [3]:
# 입력층 데이터의 모양(shape)
print(x_train_reshaped.shape)

# 테스트를 위해 x_train_reshaped의 앞 5개의 데이터를 가져온다
X = x_train_reshaped[:5]
print(X.shape)

(60000, 784)
(5, 784)


In [4]:
weight_init_std = 0.1
input_size = 784
hidden_size = 50

# 인접 레이어간 관계를 나타내는 파라미터 W를 생성하고 random 초기화
W1 = weight_init_std * np.random.randn(input_size, hidden_size)
#바이어스 파라미터 b를 생서앟고 Zero로 초기화
b1 = np.zeros(hidden_size)

a1 = np.dot(X,W1) + b1 # 은닉층 출력

print(W1.shape)
print(b1.shape)
print(a1.shape)

(784, 50)
(50,)
(5, 50)


In [6]:
# 첫번째 데이터의 은닉층 출력을 확인해 봅시다.  50dim의 벡터가 나오나요?

a1[0]

array([ 0.90424991, -0.06582491, -0.4749633 , -0.58904961,  1.31726849,
        0.8706947 , -0.20706891, -0.00722531, -0.09464077, -0.8503871 ,
       -0.54988447, -0.49131439,  0.34979755,  0.29225337,  0.34283354,
        0.77840756,  1.55780878,  0.63100142,  0.42710623,  0.79578388,
       -0.5688044 ,  2.10271063, -0.06246996,  0.12921172, -1.40927656,
        0.47354288,  1.55185669,  0.51318324, -0.26806489, -0.63239754,
       -0.46556499,  1.54568701, -0.58518157,  0.81196124, -2.56901332,
        0.93961687,  0.12743145, -0.32600434,  0.94859037,  1.9347575 ,
       -0.72616086, -0.72589847, -0.20110807,  1.70398102, -1.05195366,
       -1.41251112, -1.23644629, -0.30585811, -1.38249328, -1.06845948])

## 23-3. 신경망 구성 (2) 활성화 함수와 손실 함수

### 활성화 함수 (Activation Functions)
___
MLP의 중요한 구성 요소는 활성화 함수.  
활성화 함수는 보통 비선형 함수를 사용한다. 
비선형 함수를 MLP 안에 포함시키면 모델의 표현력이 좋아진다.( 비선형 함수가 포함되지 않으면 한 층을 가진 MLP와 다른 점이 없음)
   
   활성화 함수의 종류는 다음과 같다 
   1. Sigmoid
   2. Tanh
   3. ReLU

In [7]:
model.add(keras.layers.Dense(50, activation='sigmoid', input_shape=(784)))

TypeError: 'int' object is not iterable

첫번째 은닉층의 출력 a1에 sigmoid를 적용

In [8]:
# 위 수식의 sigmoid 함수 구현
def sigmoid(x):
    return 1/(1+np.exp(-x))

z1 = sigmoid(a1)
print(z1[0]) # sigmoid의 출력은 모든 엘리먼트가 0에서 1 사이

[0.71182208 0.48354971 0.38344217 0.35685295 0.7887269  0.70489023
 0.44841695 0.49819368 0.47635745 0.29935166 0.36589121 0.37958398
 0.58656848 0.5725477  0.58487866 0.6853368  0.8260387  0.6527165
 0.60518245 0.68907189 0.36151275 0.89116636 0.48438759 0.53225806
 0.19634819 0.61622196 0.82518173 0.6255524  0.43338222 0.3469671
 0.38566649 0.82428993 0.35774119 0.69252728 0.07115949 0.71902226
 0.53181482 0.41921315 0.7208316  0.87377507 0.32603776 0.32609543
 0.44989175 0.84605396 0.25885012 0.19583829 0.22505517 0.42412605
 0.20060887 0.25569616]


요즘은 ReLU 함수를 더 많이 사용한다 그 이유는
- Gradient Vanishing 현상이 발생
- exp 함수 사용시 비용이 크다

2. tanh   
    - tanh 함수는 함수의 중심값을 0으로 올며 sigmoid의 최저화 과정이느려지는 문제를 해결
    - gradient vanishing 문제 존재

3. ReLU
    - sigmoid, tanh 함수와 비교 시 학습 빠름.
    - 연산 비용이 크지 않고, 구현이 매우 간단하다

In [33]:
def affine_layer_forward(X, W, b):
    y= np.dot(X, W) + b
    cache = (X, W, b)
    return y, cache

print('go~')

go~


In [34]:
input_size = 784
hidden_size = 50
output_size = 10

W1 = weight_init_std * np.random.randn(input_size, hidden_size)
b1 = np.zeros(hidden_size)
W2 = weight_init_std * np.random.randn(hidden_size, output_size)
b2 = np.zeros(output_size)

a1, cache1 = affine_layer_forward(X, W1, b1)
z1 = sigmoid(a1)
a2, cache2 = affine_layer_forward(z1, W2, b2) # z1이 다시 두번째 레이어의 입력

print(a2[0]) # 최종 출력이 output_size만큼의 백터가 됨

[ 0.2506976   0.15168819 -0.18062349 -0.29890787  0.01935595  0.5536517
 -0.34700708  0.17918931 -0.47877658  0.50332013]


In [35]:
def softmax(x):
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis =0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

In [36]:
y_hat = softmax(a2)
y_hat[0] # 10개의 숫자 중 하나일 확률

array([0.11722637, 0.10617593, 0.07615615, 0.06766042, 0.09301541,
       0.1587072 , 0.06448304, 0.10913641, 0.05652216, 0.15091691])

### 손실함수 (Loss Function)
___
__평균제곱오차(MSE: Mean Square Error)__


__교차 엔트로피(cross Entropy)__
- Cross Entropy는 두 확률분포 사이의 유사도가 클수록 작아지는 값
- softmax 값 y_hat은 10개의 숫자 각각의 확률이 대부분 0,1 근처를 오가는 정도


In [37]:
# 정답 라벨을 One-hot 인코딩 하는 함수
def _change_ont_hot_label(X, num_category):
    T = np.zeros((X.size, num_category))
    for idx, row in enumerate(T):
        row[X[idx]] = 1
        
    return T

Y_digit = y_train[:5]
t = _change_ont_hot_label(Y_digit, 10)
t

array([[0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [38]:
y_train.shape

(60000,)

In [39]:
print(y_hat[0])
print(t[0])


[0.11722637 0.10617593 0.07615615 0.06766042 0.09301541 0.1587072
 0.06448304 0.10913641 0.05652216 0.15091691]
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]


In [40]:
def cross_entropy_error(y,t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    # 훈련 데이터가 원-핫 벡터라면 정답 레이블의 인덱스로 반환
    if t.size == y.size:
        t = t.argmax(axis = 1)
        
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t])) / batch_size

Loss = cross_entropy_error(y_hat, t)
Loss

2.066680617029902

## 23-4 경사하강법

경사하강법: 각 단계에서의 기울기를 구해 해당 기울기가 가리치는 방향으로 이동하는 방법

Learning rate를된다면, 잘 정하는게 중요하다

1) rate를 매우 크게 했을 경우
경사를 내려가는 Step이 매우 크게 된다면, 기울기의 최소값이 아니라 바로 다시 올라갈 수 있다. overshoothg이라고 한다.

2) 반대로 rate를 매우 작게했을 경우
굉장한 시간이 소요되며, 시간 제한이 있을 경우 경사면이 다 돌기전에 멈춘다.
따라서 미리 cost함수를 실행하며 rate의 비율을 찍어보고 테스트 후에 돌리는 것이 좋다!
  
    
Overfitting  
  
  
머신러닝은 학습을 통해서 모델을 만들다보니 학습 데이터에 딱 맞는 모델을 만들 수 있다.
이 경우에는 실제 테스트 데이터를 적용하면 적용이 잘 되지 않는다.

*Overgitting을 줄이는 방법
  
  1) 트레이닝 데이터가 많으면 좋다
  2) feature 개수를 줄인다.
  3) 정규화(일반화-regulaztion)시킨다.
  
 

In [41]:
batch_num = y_hat.shape[0]
dy = (y_hat - t) / batch_num
dy # softmax값의 출력으로 loss를 미분한 값

array([[ 0.02344527,  0.02123519,  0.01523123,  0.01353208,  0.01860308,
        -0.16825856,  0.01289661,  0.02182728,  0.01130443,  0.03018338],
       [-0.17675774,  0.02162488,  0.01448357,  0.01450077,  0.01478216,
         0.03079713,  0.01461303,  0.02315593,  0.01027108,  0.03252919],
       [ 0.02149603,  0.0240629 ,  0.01438086,  0.01400344, -0.1837814 ,
         0.03695156,  0.01258247,  0.01957587,  0.00951324,  0.03121505],
       [ 0.0237693 , -0.17680012,  0.01350527,  0.01368356,  0.01553494,
         0.03505766,  0.0121488 ,  0.01914191,  0.0105897 ,  0.03336899],
       [ 0.02254   ,  0.02234497,  0.01502386,  0.01239339,  0.01737142,
         0.02845726,  0.01488629,  0.01738709,  0.01209791, -0.16250219]])

In [42]:
dw2 = np.dot(z1.T, dy)
db2 = np.sum(dy, axis=0)

In [43]:
def sigmoid_grad(x):
    return (1.0 - sigmoid(x)) * sigmoid(x)

In [44]:
dz1 = np.dot(dy, W2.T)
da1 = sigmoid_grad(a1) * dz1
dW1 = np.dot(X.T, da1)
db1 = np.sum(dz1, axis=0)

In [45]:
learning_rate=0.1

def update_params(W1, b1, W2, b2, dW1, db1, dW2, db2, learning_rate):
    W1 = W1 - learning_rate*dW1
    b1 = b1 - learning_rate*db1
    W2 = W2 - learning_rate*dW2
    b2 = b2 - learning_rate*db2
    
    return W1, b1, W2, b2

### 23-5 오차역전파법이란?

기울기들을 입력층까지 전달하며 파라미터들을 조정해 나갈 수 있을까요? 이 과정에서 쓰이는 개념이 오차역전파법(Backpropagation)

In [48]:
def affine_layer_backward(dy, cache):
    X, W, b = cache
    dX = np.dot(dy,W.T)
    dW = np.dot(X.T, dy)
    db = np.sum(dy, axis = 0)
    return dX, dW, db

In [49]:
# 파라미터 초기화
W1 = weight_init_std * np.random.randn(input_size, hidden_size)
b1 = np.zeros(hidden_size)
W2 = weight_init_std*np.random.randn(hidden_size, output_size)
b2 = np.zeros(output_size)

# Forward Propagation
a1, cache1 = affine_layer_forward(X, W1, b1)
z1 = sigmoid(a1)
a2, cache2 = affine_layer_forward(z1, W2, b2)

# 추론과 오차(Loss) 계산
y_hat = softmax(a2)
t = _change_ont_hot_label(Y_digit, 10) # 정답 One-hot 인코딩
Loss = cross_entropy_error(y_hat, t)

print(y_hat)
print(t)
print('Loss:', Loss)

dy = (y_hat - t)/ X.shape[0]
dz1, dW2, db2 = affine_layer_backward(dy, cache2)
da1 = sigmoid_grad(a1)*dz1
dX, dW1, db1 = affine_layer_backward(da1, cache1)

# 경사하강법을 통한 파라미터 업데이트
learning_rate=0.1
W1, b1, W2, b2 = update_params(W1,b1, W2,b2, dW1, db1, dW2, db2, learning_rate)

[[0.10645674 0.07661421 0.11119531 0.06818998 0.14758097 0.12919525
  0.12442905 0.08984575 0.04911006 0.09738268]
 [0.1201585  0.0681808  0.08975143 0.08430668 0.15169484 0.12166741
  0.13424342 0.10220282 0.05133659 0.07645751]
 [0.12278131 0.0811323  0.11469548 0.07757755 0.14801436 0.11842983
  0.10078021 0.11047744 0.05146025 0.07465126]
 [0.11045187 0.06900392 0.104791   0.071402   0.15180773 0.10767011
  0.12943798 0.11030525 0.05768182 0.08744831]
 [0.13161297 0.07340368 0.09575113 0.08027874 0.1337489  0.1141776
  0.13287518 0.11005451 0.05129072 0.07680657]]
[[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
Loss: 2.2631754304800227


### 23-6 모델 학습 Step-by-Step

In [50]:
W1 = weight_init_std*np.random.randn(input_size, hidden_size)
b1 = np.zeros(hidden_size)
W2 = weight_init_std*np.random.randn(hidden_size, output_size)
b2 = np.zeros(output_size)

def train_step(X, Y, W1, b1, W2, b2, learning_rate=0.1, verbose=False):
    a1, cache1 = affine_layer_forward(X, W1, b1)
    z1 = sigmoid(a1)
    a2, cache2 = affine_layer_forward(z1, W2, b2)
    y_hat = softmax(a2)
    t = _change_ont_hot_label(Y,10)
    Loss = cross_entropy_error(y_hat, t)
    
    if verbose:
        print('-------------')
        print(y_hat)
        print(t)
        print('Loss',Loss)
        
    dy = (y_hat-t) / X.shape[0]
    dz1, dW2, db2, = affine_layer_backward(dy, cache2)
    da1 = sigmoid_grad(a1)*dz1
    dX, dW1, db1 = affine_layer_backward(da1, cache1)
    
    W1, b1, W2, b2 = update_params(W1, b1, W2, b2, dW1, db1, dW2, db2, learning_rate)
    
    return W1, b1, W2, b2, Loss

In [52]:
X = x_train_reshaped[:5]
Y = y_train[:5]

# train_step을 다섯 번 반복 돌립ㄴ디ㅏ.
for i in range(5):
    W1, b1, W2, b2,_ = train_step(X, Y, W1, b1, W2, b2, learning_rate=0.1, verbose=True)

-------------
[[0.1171     0.15830946 0.07874161 0.10007629 0.07719725 0.1290722
  0.12584864 0.07895927 0.07201578 0.0626795 ]
 [0.11714037 0.14452867 0.08066462 0.09669471 0.08533504 0.11712469
  0.11672343 0.07625519 0.08956766 0.07596561]
 [0.14516133 0.1284979  0.07619369 0.09091259 0.07982995 0.11147801
  0.14867563 0.08093971 0.0721466  0.0661646 ]
 [0.1067322  0.13924183 0.0872282  0.09712625 0.07810169 0.12868761
  0.13694858 0.07026543 0.08600053 0.06966767]
 [0.11979432 0.13403693 0.08273048 0.09508308 0.06443005 0.11872501
  0.14125779 0.07325104 0.08144877 0.08924254]]
[[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
Loss 2.2215125304835746
-------------
[[0.13025075 0.16936733 0.06727686 0.08408857 0.09051951 0.15195159
  0.10020574 0.06832143 0.06216325 0.07585499]
 [0.13596728 0.15355614 0.06880545 0.08124676 0.09977769 0.13203945
  0.09369308 0.06647959 

## 23-7 추론 과정 구현과 정확도(Accuracy) 계산

In [53]:
def predict(W1, b1, W2, b2, x):
    a1 = np.dot(X, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    y = softmax(a2)
    
    return y

In [54]:
# X = x_train[:100]에 대해 몯레 추론을 시도합니다.

X = x_train_reshaped[:100]
Y = y_test[:100]
result = predict(W1, b1, W2, b2, X)
result[0]

array([0.1531612 , 0.17908182, 0.03822781, 0.04608571, 0.12506892,
       0.2156145 , 0.05016994, 0.03966276, 0.03636257, 0.11656478])

In [55]:
def accuracy(W1, b1, W2, b2, x,y):
    y_hat = predict(W1, b1, W2, b2, x)
    y_hat = np.argmax(y_hat, axis=1)
    # t = np.argmax(t,axis=1)
    
    accuracy = np.sum(y_hat == y) / float(x.shape[0])
    return accuracy

In [56]:
acc = accuracy(W1, b1, W2, b2, X, Y)

t = _change_ont_hot_label(Y,10)
print(result[0])
print(t[0])
print(acc)

[0.1531612  0.17908182 0.03822781 0.04608571 0.12506892 0.2156145
 0.05016994 0.03966276 0.03636257 0.11656478]
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
0.08


In [57]:
x.shape[0]

NameError: name 'x' is not defined

## 23-8 전체 학습 사이클 수행

In [None]:
def init_params(input_size, hidden_size, output_size, weight_size_init_std=0.01):
    
    W1 = weight_init_std * np.random.randn(input_size, hidden_size)
    b1 = np.zeros(hidden_size)
    W2 = weight_init_std