# 경사 하강법을 이용한 얕은 신경망 학습


### 모델의 학습과 최적화 이론
- 지도학습 vs 비지도 학습
 - 지도 학습(Supervised Learning) : 입력과 함께 '정답'을 알려주고 그 정답을 맞추도록 하는 학습 방법
 - 비지도 학습(Unsupervised Learning) : 정답의 제공 없이 학습 데이터로부터 유용한 정보를 추출하는 학습 방법

- 학습 매개변수(Trainable Parameters)
 - 학습 과정에서 값이 변화하는 매개변수, 이 값이 변화하면 알고리즘 출력이 변화
 - y = ax + b 에서 a,b가 학습 매개변수
 
- 손실함수(Loss Function) 
 - 알고리즘이 얼마나 잘못 하고 있는지를 표현하는 지표
 - 값이 낮을수록 학습이 잘된 것
 - 정답과 알고리즘 출력을 비교하는 데에 사용한다.
 > 평균 제곱 에러(Mean Squared Error; MSE) : 에러를 내고 제곱을 한 뒤 평균을 냄
     - 정답과 출력이 완전히 같으면 0이 되고 차이가 나면 양수값으로 더해짐
 > 교차 엔트로피 오차(Cross entropy error;CEE)
     - 정답과 출력이 같으면 0 이 되고 차이가 나면 무한대로 증가

- 학습 환경의 정의
 - 학습에 필요한 세가지 요소 : Data, Model, Loss
  - Data : Model에 들어가는 입력, Loss function에 비교값으로 들어가는 정답(label)
  - Model : 입력에서 출력으로 계산해주는 수학적인 수식모델
   - model 안에 변화를 줄 수 있는 부분 : *Trainable Parameters*
  - Loss function : 정답과 비교
 
- 학습 환경의 입력과 출력
 - Training data, Model, loss function이 정의가 되어있다고 가정하면
 - 입력은 trainable parameter가 됨
  - 학습 대상, 변경 가능한 값
 - loss function의 에러 값이 출력이 됨
  - 학습 결과, 작을 수록 좋은 값
  
 ==> 알고리즘 학습 : 입력을 바꿔가면서, 출력 값이 점점 작아지게 한다.

 ==> 최적화 이론 : 출력 값을 가장 작게(또는 크게) 하는 입력 값을 찾는다.

- #### 최적화 이론 : 손실 함수를 최소로 하는 입력 값(최적 값)을 찾아내는 연구
 - 무차별 대입법(Brute-Force) : 가능한 모든 수를 대입해 보는 방법
     - 가장 단순한 방법으로 함수를 알 수 있음
     - 다음과 같은 문제로 최적화에 이용할 수 없다
         - 최적값이 존재하는 범위를 알아야 함
         - 최적값을 정확히 찾기 위해 무한히 촘촘하게 조사해야 함
         - f(x)의 계산 복잡도가 매우 높음
 - 경사 하강법(Gradient Descent) : 경사를 따라 여러 번의 스텝을 통해 최적점으로 다가간다. 경사는 기울기(미분, gradient)를 이용해 계산한다.
    - 학습률(Learning rate)에 비례하여 이동한다. 적절한 학습률을 선택하는 것은 매우 중요하다.
    
 - 볼록 함수(Convex Function): 어디서 시작하더라도 경사 하강법으로 최적 값에 도달할 수 있다.
 - 비볼록 함수(Non-convex Function) : 시작 위치에 따라 다른 최적 값을 찾는다. 즉 지엽 최적값(Local Minimum)에 빠질 위험이 있다.

### 최적화 이론 Optimization Theory
 - 가능한 모든 해 중 최적의 해를 찾는 문제를 해결하는 이론
 - 연속 변수와 불연속 변수에 따라 크게 둘로 나누어짐(여기에선 연속 변수만 다룸)
 - 부등식 및 등식 제약 조건을 지키면서, 목적 함수가 최소가 되게 하는 x를 찾는 문제
 - 최소화 문제(Minimization problem) <-> 최대화 문제(Maximization problem)
 - f(x)의 형태에 따라 다양한 문제 해결 알고리즘이 있으나, 여기서는 다루지 않음
 - 딥러닝에서는 대부분 제약 조건은 사용하지 않음
 
 #### 분석적 vs 수치적 방법
 - 분석적 방법(Analytical method) : 함수의 모든 구간을 수식으로 알 때 사용하는 수식적인 해석 방법
 - 수치적 방법(Numerical method) : 함수의 형태와 수식을 알지 못할 때 사용하는 계산적인 해석 방법(ex. 경사하강법)
 
 #### 전역 vs 지역 솔루션
 - 전역 솔루션(Global solution)은 정의역(Domain)에서 단 하나 존재한다.
 - 지역 솔루션(Local solution)은 여러 개 일 수 있으며, 일반적으로 하나의 솔루션을 찾았을 때 local인지 global인지 확신할 수 없다.
 
#### 딥러닝과 최적화 이론
- 딥러닝 네트워크의 학습은 손실 함수가 최소가 되게 하는 파라미터를 구하는 최적화 문제로 볼 수 있다.

### 경사하강법
- 기울기(Gradient)는 스칼라를 벡터로 미분한 것이며, 벡터의 각 요소로 미분하면 된다
- 경사하강법은 f(x)의 값이 변하지 않을 때 까지 스텝을 반복한다

    #### 학습률의 선택
    - 학습률은 단지 기울기에 곱하는 상수
    - a가 너무 작은 경우 : 수렴이 늦음
    - a가 너무 큰 경우 : 진동
    - 한 스텝의 크기는 기울기의 크기에도 비례하므로, 학습률이 극단적으로 크면 값이 발산한다.
    
    
### 심화 경사 하강법
- 우리가 마주칠 대부분의 문제는 비볼록 함수이므로, 단순한 경사 하강법으로는 한계가 있다.
- 초기값에 따라 local minimum에 빠질 위험이 있다.
- 안정점(Saddle point)은 기울기가 0이 되지만 극값이 아닌 지점을 말한다.
- 경사 하강법은 안장점에서 벗어나지 못한다.

 #### 관성 Momentum
 - 돌이 굴러 떨어지듯, 이동 벡터를 이용해 이전 기울기에 영향을 받도록 하는 방법
 - 관성(momentum)을 이용하면 local minimum과 잡음에 대처할 수 있다
 - 이동벡터를 추가로 사용하므로 경사하강법 대비 2배의 메모리를 사용한다.
 
 #### 적응적 기울기 AdaGrad
 - 적응적 기울기(Adaptive gradient) : 변수별로 학습률이 달라지게 조절하는 알고리즘
 - 기울기가 커서 학습이 많이 된 변수는 학습율을 감소시켜, 다른 변수들이 잘 학습되도록 한다.
 - gt가 계속해서 커져서 학습이 오래 진행되면 더이상 학습이 이루어지지 않는다는 단점이 있다.
 
 #### RMSProp
 - RMSProp : AdaGrad의 문제점을 개선한 방법으로, 합 대신 지수 평균을 사용
 - 변수 간의 상대적인 학습율 차이는 유지하면서 gt가 무한정 커지지 않아 학습을 오랜시간 유지할 수 있다
 
 #### Adam
 - Adaptive moment estimation(Adam) : RMSprop과 Momentum의 장점을 결합한 알고리즘
 - Adam최적화 방법은 가장 최신의 기술(state-of-the-art)이며, 딥러닝에서 가장 많이 사용된다

In [1]:
import tensorflow as tf
import numpy as np

## 하이퍼 파라미터 설정

In [2]:
EPOCHS = 1000

## 네트워크 구조 정의
### 얕은 신경망
#### 입력 계층 : 2, 은닉 계층 : 128 (Sigmoid activation:*가장 일반적으로 얕은 신경망에 사용되는 activation function*), 출력 계층 : 10 (Softmax activation)

In [13]:
#numpy 아닌 tensorflow이용해서 구현
class MyModel(tf.keras.Model): #tensorflow에서 네트워크 구조를 정의하기 위해서는 keras상속
    def __init__(self):#어떤 layer를 사용할지 정의
        super(MyModel, self).__init__() #initailize function 정의할때 상속을 했다면 반드시 상속한 상위 class를 initialize
        #얕은 신경망 모델이기 때문에 두개의 fully connected model로 정의가 됨(1-128, 128-10)
        #keras에서는 fully connected model을 dense라고 표현
        self.d1 = tf.keras.layers.Dense(128, input_dim=2, activation='sigmoid')
        self.d2 = tf.keras.layers.Dense(10, activation='softmax')
    
    def call(self, x, training=None, mask=None):#모델이 실제 call이 될 때 입력에서 출력으로 어떻게 연결될지
        x = self.d1(x)
        return self.d2(x)

## 학습 루프 정의

In [32]:
@tf.function
def train_step(model, inputs, labels, loss_object, optimizer, train_loss, train_metric):
    #gradient를 계산해 optimizer에 넣어서 학습을 진행하는게 가장 중요
    with tf.GradientTape() as tape: #gradient계산에 필요한걸 tape로 집어넣는 과정
        predictions = model(inputs)
        loss = loss_object(labels, predictions)
    # 첫번째 argument를 두번째 argument로 미분해서 gradient를 구해줌
    # loss : scalar 를 model에 있는 모든 trainable variable로 미분 해줌
    # 스칼라를 벡터로 미분하기 때문에 gradient도 벡터가 됨
    gradients = tape.gradient(loss, model.trainable_variables)
    # zip을 이용해 gradient와 그를 이용해 학습할 것을 넣어줌
    # trainable variables의 특정 variable에 대한 미분값이 gradient의 같은 인덱스에 존재할 것
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    train_loss(loss)#train_loss가 loss값들을 종합하는 역할
    train_metric(labels, predictions)#정답과 predcition을 계산해서 평가지표를 계산(accuracy 사용, argmax를 이용해 어떤 calss가 predict가 됐는지 구해줌)
    #몇%가 정확하게 prediction이 되었는지 구해줌

## 데이터셋 생성, 전처리

In [33]:
#numpy이용
np.random.seed(0) # 코드를 여러번 실행을 해도 random값이 항상 동일하게 나옴
#10개의 클래스를 가지는 포인트들을 생성할 것
#10개 점들에 대해서 가우시안 형태로 점들을 뿌려줄 것 (하나당 100개)

pts = list() #입력값(네트워크 계층의 입력길이가 2, 2가지 계층의 scalar가 들어온다는 말)
#x,y형태의 길이가 2인 스칼라가 들어오게 됨
labels = list() #출력값(출력계층이 10이므로 10개의 클래스중에 하나를 표현하는 sparse표현)
center_pts = np.random.uniform(-8.0,8.0,(10,2)) #10개의 포인트를 2개의 demension을 가지게
for label, center_pt in enumerate(center_pts): 
    for _ in range(100):
        pts.append(center_pt + np.random.randn(*center_pt.shape))
        labels.append(label)
        
pts = np.stack(pts, axis=0).astype(np.float32)#pt가 list형태이니 stack을 이용해 numpy형태로 바꿔줌 
labels = np.stack(labels, axis=0)

train_ds = tf.data.Dataset.from_tensor_slices((pts, labels)).shuffle(1000).batch(32) #train dataset으로 합쳐줌


## 모델 생성

In [34]:
model = MyModel()

## 손실 함수 및 최적화 알고리즘 설정
### CrossEntropy, Adam Optimizer

In [35]:
loss_object = tf.keras.losses.SparseCategoricalCrossentropy()
optimizer = tf.keras.optimizers.Adam()

## 평가 지표 설정
### Accuracy

In [36]:
train_loss = tf.keras.metrics.Mean(name='train_loss')
train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(name='train_accuracy')
#0-1까지의 직관적인 숫자가 나옴

## 학습 루프

In [39]:
for epoch in range(EPOCHS):
    for x, label in train_ds: #train dataset만들때 넣었던 input과 정답쌍이 계속해서 나옴(32개의 입력과 정답이)
        train_step(model, x, label, loss_object, optimizer, train_loss, train_accuracy)
        
    template = 'Epoch {}, Loss: {}, Accuracy: {}'
    print(template.format(epoch +1,
                        train_loss.result(),
                        train_accuracy.result() * 100))

Epoch 1, Loss: 0.28095588088035583, Accuracy: 89.2274169921875
Epoch 2, Loss: 0.28091326355934143, Accuracy: 89.2287826538086
Epoch 3, Loss: 0.28087347745895386, Accuracy: 89.23005676269531
Epoch 4, Loss: 0.28083473443984985, Accuracy: 89.23112487792969
Epoch 5, Loss: 0.28080570697784424, Accuracy: 89.23188781738281
Epoch 6, Loss: 0.28076621890068054, Accuracy: 89.23294830322266
Epoch 7, Loss: 0.2807263731956482, Accuracy: 89.23390197753906
Epoch 8, Loss: 0.2807018458843231, Accuracy: 89.2349624633789
Epoch 9, Loss: 0.28067803382873535, Accuracy: 89.23602294921875
Epoch 10, Loss: 0.2806430459022522, Accuracy: 89.23747253417969
Epoch 11, Loss: 0.2806180417537689, Accuracy: 89.23822784423828
Epoch 12, Loss: 0.280582994222641, Accuracy: 89.23907470703125
Epoch 13, Loss: 0.28055325150489807, Accuracy: 89.24031829833984
Epoch 14, Loss: 0.280515193939209, Accuracy: 89.24137115478516
Epoch 15, Loss: 0.28047817945480347, Accuracy: 89.2423095703125
Epoch 16, Loss: 0.28044259548187256, Accuracy:

Epoch 131, Loss: 0.27680641412734985, Accuracy: 89.35458374023438
Epoch 132, Loss: 0.2767738997936249, Accuracy: 89.35550689697266
Epoch 133, Loss: 0.27674826979637146, Accuracy: 89.35661315917969
Epoch 134, Loss: 0.276716023683548, Accuracy: 89.35762023925781
Epoch 135, Loss: 0.2766965329647064, Accuracy: 89.35845184326172
Epoch 136, Loss: 0.2766716480255127, Accuracy: 89.35945892333984
Epoch 137, Loss: 0.27663955092430115, Accuracy: 89.36028289794922
Epoch 138, Loss: 0.2766091227531433, Accuracy: 89.3611068725586
Epoch 139, Loss: 0.27658215165138245, Accuracy: 89.36210632324219
Epoch 140, Loss: 0.2765471041202545, Accuracy: 89.36310577392578
Epoch 141, Loss: 0.2765233516693115, Accuracy: 89.36409759521484
Epoch 142, Loss: 0.27649348974227905, Accuracy: 89.36457061767578
Epoch 143, Loss: 0.27646324038505554, Accuracy: 89.36538696289062
Epoch 144, Loss: 0.27643367648124695, Accuracy: 89.36629486083984
Epoch 145, Loss: 0.276408851146698, Accuracy: 89.36693572998047
Epoch 146, Loss: 0.27

Epoch 262, Loss: 0.2733122408390045, Accuracy: 89.46016693115234
Epoch 263, Loss: 0.27328628301620483, Accuracy: 89.4608383178711
Epoch 264, Loss: 0.2732578217983246, Accuracy: 89.46189880371094
Epoch 265, Loss: 0.2732301950454712, Accuracy: 89.46248626708984
Epoch 266, Loss: 0.27320596575737, Accuracy: 89.46346282958984
Epoch 267, Loss: 0.2731785178184509, Accuracy: 89.46388244628906
Epoch 268, Loss: 0.273149698972702, Accuracy: 89.46493530273438
Epoch 269, Loss: 0.2731264531612396, Accuracy: 89.46582794189453
Epoch 270, Loss: 0.2730991542339325, Accuracy: 89.46688079833984
Epoch 271, Loss: 0.2730730175971985, Accuracy: 89.46800994873047
Epoch 272, Loss: 0.2730526924133301, Accuracy: 89.46858215332031
Epoch 273, Loss: 0.2730256915092468, Accuracy: 89.46923828125
Epoch 274, Loss: 0.2729989290237427, Accuracy: 89.47019958496094
Epoch 275, Loss: 0.27297037839889526, Accuracy: 89.47093200683594
Epoch 276, Loss: 0.27294400334358215, Accuracy: 89.4716567993164
Epoch 277, Loss: 0.27291983366

Epoch 395, Loss: 0.2702484130859375, Accuracy: 89.55479431152344
Epoch 396, Loss: 0.2702333927154541, Accuracy: 89.5553207397461
Epoch 397, Loss: 0.27020934224128723, Accuracy: 89.55586242675781
Epoch 398, Loss: 0.2701890766620636, Accuracy: 89.55660247802734
Epoch 399, Loss: 0.2701665759086609, Accuracy: 89.5574951171875
Epoch 400, Loss: 0.2701503038406372, Accuracy: 89.55838012695312
Epoch 401, Loss: 0.2701289653778076, Accuracy: 89.55926513671875
Epoch 402, Loss: 0.2701098322868347, Accuracy: 89.56029510498047
Epoch 403, Loss: 0.27008652687072754, Accuracy: 89.56082153320312
Epoch 404, Loss: 0.27006271481513977, Accuracy: 89.56170654296875
Epoch 405, Loss: 0.27004119753837585, Accuracy: 89.5623779296875
Epoch 406, Loss: 0.2700241506099701, Accuracy: 89.56324768066406
Epoch 407, Loss: 0.27000829577445984, Accuracy: 89.56391906738281
Epoch 408, Loss: 0.26999568939208984, Accuracy: 89.56444549560547
Epoch 409, Loss: 0.2699727416038513, Accuracy: 89.56503295898438
Epoch 410, Loss: 0.269

Epoch 522, Loss: 0.2677238881587982, Accuracy: 89.63569641113281
Epoch 523, Loss: 0.2677091062068939, Accuracy: 89.63594055175781
Epoch 524, Loss: 0.26769107580184937, Accuracy: 89.6365737915039
Epoch 525, Loss: 0.2676728367805481, Accuracy: 89.63700866699219
Epoch 526, Loss: 0.2676509618759155, Accuracy: 89.6375732421875
Epoch 527, Loss: 0.26763153076171875, Accuracy: 89.63819885253906
Epoch 528, Loss: 0.2676173448562622, Accuracy: 89.6386947631836
Epoch 529, Loss: 0.2675962746143341, Accuracy: 89.63919830322266
Epoch 530, Loss: 0.2675767242908478, Accuracy: 89.63956451416016
Epoch 531, Loss: 0.2675553560256958, Accuracy: 89.6399917602539
Epoch 532, Loss: 0.26754188537597656, Accuracy: 89.640625
Epoch 533, Loss: 0.26753371953964233, Accuracy: 89.64125061035156
Epoch 534, Loss: 0.2675201892852783, Accuracy: 89.6418685913086
Epoch 535, Loss: 0.2675013542175293, Accuracy: 89.6422348022461
Epoch 536, Loss: 0.2674821615219116, Accuracy: 89.64299011230469
Epoch 537, Loss: 0.2674647271633148

Epoch 652, Loss: 0.2655097246170044, Accuracy: 89.70449829101562
Epoch 653, Loss: 0.2654975354671478, Accuracy: 89.7051010131836
Epoch 654, Loss: 0.26547956466674805, Accuracy: 89.70558166503906
Epoch 655, Loss: 0.2654648423194885, Accuracy: 89.70587921142578
Epoch 656, Loss: 0.2654454708099365, Accuracy: 89.70648193359375
Epoch 657, Loss: 0.2654290795326233, Accuracy: 89.70689392089844
Epoch 658, Loss: 0.26540902256965637, Accuracy: 89.70755767822266
Epoch 659, Loss: 0.26539480686187744, Accuracy: 89.70809936523438
Epoch 660, Loss: 0.2653783857822418, Accuracy: 89.70851135253906
Epoch 661, Loss: 0.26536133885383606, Accuracy: 89.709228515625
Epoch 662, Loss: 0.26534464955329895, Accuracy: 89.70976257324219
Epoch 663, Loss: 0.2653256058692932, Accuracy: 89.71054077148438
Epoch 664, Loss: 0.2653118073940277, Accuracy: 89.71125793457031
Epoch 665, Loss: 0.2652990221977234, Accuracy: 89.7119140625
Epoch 666, Loss: 0.265286922454834, Accuracy: 89.7123794555664
Epoch 667, Loss: 0.2652681469

Epoch 780, Loss: 0.2635442018508911, Accuracy: 89.76433563232422
Epoch 781, Loss: 0.26352933049201965, Accuracy: 89.76480865478516
Epoch 782, Loss: 0.2635144293308258, Accuracy: 89.76533508300781
Epoch 783, Loss: 0.263498455286026, Accuracy: 89.76564025878906
Epoch 784, Loss: 0.26348212361335754, Accuracy: 89.76605224609375
Epoch 785, Loss: 0.2634662091732025, Accuracy: 89.76606750488281
Epoch 786, Loss: 0.263450026512146, Accuracy: 89.7664794921875
Epoch 787, Loss: 0.26343458890914917, Accuracy: 89.76677703857422
Epoch 788, Loss: 0.2634216845035553, Accuracy: 89.76724243164062
Epoch 789, Loss: 0.26341304183006287, Accuracy: 89.76776123046875
Epoch 790, Loss: 0.26339614391326904, Accuracy: 89.76822662353516
Epoch 791, Loss: 0.2633804976940155, Accuracy: 89.76891326904297
Epoch 792, Loss: 0.2633638083934784, Accuracy: 89.7694320678711
Epoch 793, Loss: 0.2633531391620636, Accuracy: 89.77000427246094
Epoch 794, Loss: 0.2633395791053772, Accuracy: 89.77019500732422
Epoch 795, Loss: 0.26333

Epoch 911, Loss: 0.26173093914985657, Accuracy: 89.81979370117188
Epoch 912, Loss: 0.261718213558197, Accuracy: 89.82009887695312
Epoch 913, Loss: 0.26171401143074036, Accuracy: 89.82024383544922
Epoch 914, Loss: 0.261701375246048, Accuracy: 89.82080841064453
Epoch 915, Loss: 0.2616862654685974, Accuracy: 89.82115936279297
Epoch 916, Loss: 0.26167288422584534, Accuracy: 89.8214111328125
Epoch 917, Loss: 0.26165974140167236, Accuracy: 89.82186889648438
Epoch 918, Loss: 0.26164519786834717, Accuracy: 89.82217407226562
Epoch 919, Loss: 0.2616298198699951, Accuracy: 89.82252502441406
Epoch 920, Loss: 0.2616159915924072, Accuracy: 89.82298278808594
Epoch 921, Loss: 0.2616012394428253, Accuracy: 89.8233871459961
Epoch 922, Loss: 0.26158854365348816, Accuracy: 89.82373809814453
Epoch 923, Loss: 0.2615748345851898, Accuracy: 89.82403564453125
Epoch 924, Loss: 0.26155969500541687, Accuracy: 89.82449340820312
Epoch 925, Loss: 0.26154643297195435, Accuracy: 89.824951171875
Epoch 926, Loss: 0.2615

## 데이터셋 및 학습 파라미터 저장

In [40]:
np.savez_compressed('ch2_dataset.npz', inputs=pts, labels=labels)
#hidden layer에 weight와 bias
W_h, b_h = model.d1.get_weights()
#output layer에 weight와 bias
W_o, b_o = model.d2.get_weights()
#tensorflow에서 사용하는 convention과 얕은 신경망을 구현할때 사용하는 convention이 약간 달라서
#transpose가 되어있음
W_h = np.transpose(W_h)
W_o = np.transpose(W_o)
np.savez_compressed('ch_parameters.npz',
                   W_h = W_h,
                   b_h = b_h,
                   W_o = W_o,
                   b_o = b_o)