In [1]:
""" Stochastic Gradient Descent """
# ** Stochastic Gradient Descent 마지막 부분에 4 가지 GD 방법에 대한 비교 및 차이가 잘 나와있다 !!

# >> 실제로는 Gradient Descent 보다 SGD (Stochastic Gradient Descent) 를 더 많이 사용한다.
# '확률적인 경사 하강법' 이라는 의미를 갖고 있음.

' Stochastic Gradient Descent '

In [2]:
""" 기존의 GD 는 확장된 개념으로 Full-batch Gradient Descent 를 사용 """

# 한 점이 아닌, 한번에 여러 개의 점의 gradient 를 업데이트 하는 방법이다.
# >> 이를 Full-batch Gradient Descent 라고 한다.

# < 장점 >
# - GD 가 1 개의 데이터를 기준으로 미분하는 것과는 달리, 동시에 여러 데이터를 미분한다.
# - 앞으로 일반적으로 GD = (full) batch GD 라고 가정한다.
# - 모든 데이터 셋으로 학습
# - 업데이트 감소 -> 계산상 속도의 효율성을 높임
# - 안정적인 Cost 함수 수렴

# < 단점 >
# - 지역 최적화 가능 (전체 data 를 한번에 같이 넣기 때문)
# - 메모리 문제 (-> 수십 억개의 데이터를 한번에 업데이트 하기엔 무리가 있음)
# - 대규모 data set (-> model / parameter 업데이트가 느려짐)

# => 즉, 메모리 문제 등으로 딥러닝, 초대규모 data set 에선 사용하기 힘들다.
# => 이를 보완할 방법으로 SGD 사용 (특히 mini-batch SGD 는 제일 많이 사용함)

' 기존의 GD 는 확장된 개념으로 Full-batch Gradient Descent 를 사용 '

In [3]:
""" SGD 원리 """

# - GD 처럼 차례대로 한 점씩 접근하는 것이 아닌, 
#   한 번에 랜덤한 여러 점에서 접근한다.

# > 원래 용도는 data set 에서 random 하게 training sample 을 뽑은 후 학습할 때 사용한다.

# < Pseudo Code >
# - data (X) 를 넣기 전에 random shuffle.
# - shuffle 한 X 를 한개 한개씩 불러와서 update
#
# procedure SGD:
#     shuffle(X)
#     for i in number of X:
#         theta_j := (theta_j - a * (y^(i) - y(i)) * x_j(i))

# < 장점 >
# - 일부 문제에 대해 GD 보다 더 빨리 수렴
# - 지역 최적화 회피

# < 단점 >
# - 빈번한 업데이트로 인해 전체적인 시간이 좀 오래 걸림
# - 대용량 데이터 작업 시 시간이 오래 걸림
# - 더 이상 cost 가 줄어들지 않는 시점의 발견이 어려움

# => 이를 보완하기 위해 'Mini-batch (Stochastic) Gradient Descent' 개념이 나옴

' SGD 원리 '

In [4]:
""" Mini-batch (Stochastic) Gradient Descent """

# 처리할 데이터의 영역을 분할하여 연산을 수행한다.

# - 한 번에 일정량의 데이터를 랜덤하게 뽑아서 학습
# - SGD 와 Batch GD 를 혼합한 기법
# - 가장 일반적으로 많이 쓰이는 기법
#   (딥러닝의 optimization 된 알고리즘의 기본이다.)

' Mini-batch (Stochastic) Gradient Descent '

In [5]:
""" Epoch & Batch-size """

# - Epoch ?
#   :: 전체 데이터가 Training data 에 들어가는 횟수 (들어갈 때 카운팅)
# - Full-batch 를 n 번 실행하면 n epoch
# - Batch-size ?
#   :: 한 번에 학습되는(update 되는) 데이터의 갯수

# ex) 총 5,120 개의 Training data 에 512 batch-size 면
#     몇 번 학습을 해야 1 epoch 가 되는가 ?
# ans) 10 번

# < Pseudo Code >
# procedure Mini_Batch_SGD:
#     shuffle(X)
#     BS <- Batch Size
#     // NB <- Number of Batches (== 1 epoch 이 되기 위해 도는 횟수)
#     NB <- len(X)//BS
#     for i in NB:
#         theta_j := theta_j- a * sum(y^(k) - y(k), from: k = i*BS, to: (i+1)*BS) * x_j(k)

' Epoch & Batch-size '

In [6]:
""" SGD 구현 """

# 여러가지 고려사항이 있다.
# 1. Hyper Parameter (사용자 입력 인자) 를 특히 신경써야 한다.
#    (iteration 을 몇 번 해야 할지, 
import numpy as np


def GD_SGD(X, epochs, is_SGD):
    for epoch in range(epochs):  # 전체 epoch 이 iteration 되는 횟수
        X_copy = np.copy(X)
        if is_SGD:  # SGD 여부 -> SGD 일 경우 shuffle
            np.random.shuffle(X_copy)  # data shuffling
        batch = len(X_copy)  # 한 번에 처리하는 BATCH_SIZE
        for batch_count in range(batch):  # 한 번 온전히 돌면 1 epoch 이다.
            # BATCH_SIZE 크기 만큼 X_batch 생성
            X_batch = np.copy(X_copy[batch_count * batch: (batch_count + 1) * batch])
        print("Number of epoch : %d" % epoch)

In [7]:
# 예제에선 LinearRegressionGD 를 썼는데 어딨는지 모르겠다 ...
# LinearRegressionGD 는 위의 알고리즘을 구체화 한 것이라고 한다.

# 일단 개념을 잡기 위해 적어보겠다.
# (하나의 함수로 모든 GD 를 구현 가능하다)
from sklearn import linear_model

# eta0 == running rate, epochs == iteration 횟수, batch_size == BATCH_SIZE, shuffle == shuffle 여부
gd_lr = linear_model.LinearRegressionGD(eta0=0.001, epoches=10000, batch_size=1, shuffle=False)
fbgd_lr = linear_model.LinearRegressionGD(eta0=0.001, epoches=10000, batch_size=len(X), shuffle=False)
sgd_lr = linear_model.LinearRegressionGD(eta0=0.001, epochs=10000, batch_size=1, shuffle=True)
msgd_lr = linear_model.LinearRegressionGD(eta0=0.001, epochs=10000, batch_size=100, shuffle=True)

AttributeError: module 'sklearn.linear_model' has no attribute 'LinearRegressionGD'

In [8]:
""" 성능 비교 """

# MSGD 는 떨림이 심하다. (랜덤하게 data 를 input 하기 때문)
# GD, FGD 는 전체 data 가 들어가기 떄문에 안정적으로 수렴한다.

# 실제로 시간 및 속도를 비교해보면,
# 한 점씩 update 하는 GD 와 SGD 가 비교적 오래 걸리고, (약 1.37 s)
# 모든 데이터를 update 하는 FGD 가 제일 빠르다. (약 3.74 ms)
# MSGD 는 두번째로 빠르다 (약 122 ms)

' 성능 비교 '

In [9]:
""" Learning-rate Decay """

# rate 수치가 크다면 수렴하지 못하고 계속 왕복하게 된다.
# >> 즉, rate 수치를 시간이 지날수록 점점 조금씩 줄여주면 된다 !
#    이를 Learning-rate decay 라고 한다.
#    (SGD 에선 필수적으로 사용해야 한다 !)

# Learning-rate ??
# - 일정한 주기로 Learning rate 를 감소시키는 방법
# - 특정 epoch 마다 Learning rate 를 감소
#   (self._eta0 = self.eta0 * self._learning_rate_decay)
# - Hyper-parameter 설정의 어려움

# - 지수 감소 : a = a0 * e^(-k*t)
# - 1/t 감소 : a = a(0) / (1 + k*t)

# Learning-rate 종료 조건 ??
# - SGD 과정에서 특정 값 이하로 cost function 이 줄어들지 않을 경우 GD 를 멈추는 방법
# - 성능이 좋아지지 않는(필요 없는) 연산을 방지함
# - 종료조건을 설정
#   (- tol > loss - previous_loss)
# - tol 은 hyper-parameter 로 사람이 설정한다.

' Learning-rate Decay '

In [10]:
""" Overfitting """
# SGD 와 같은 방식의 가장 큰 문제점은 Overfitting 이 발생할 수 있다는 것이다.

# Overfitting ?
#  :: 도출된 모델이 Training data 에만 최적화 되어 있어서, 새로운 데이터의 예측이 힘든 상황
# 즉, 모델은 generalization 이 중요하다. -> 평범해야 한다.

# 신조 : 보다 적은 수의 논리(parameter)로 설명이 가능한 경우, 만은 수의 논리(parameter)를 세우지 말라
#   ( - Occam's razor)
# >> 즉, 되도록 적은 parameter 로 모델을 만들 것.

#########################################################################################################

# < Bias - Variance Trade-off >
#  1. High Bias
#   - 원래 모델과 많이 떨어짐
#   - 잘못된 데이터만 계속 학습함
#    >> 잘못된 weight 만 update

#  2. High Variance
#   - 모든 데이터에 민감하게 학습
#   - Error 를 고려하지 않음
#    >> 모든 weight 가 update

#########################################################################################################

# < Overfitting 을 극복하는 방법 ? >

# - 더 많은 data 를 활용한다. (data 의 갯수를 늘린다.) -> 제일 좋은 방법
# - feature 의 갯수를 줄인다.
# - 적절히 parameter 를 선정한다.
#
# - Regularization (매우 중요 !!)
#   (수식은 강의 뒷부분 참조 ... )
#   >> 식 맨 뒤에 (+ 1000 * theta_1) 등의 패널티를 줘서 theta 값이 많이 안늘어나게 하는 방법이다.
#      (cost function 의 수치를 높인다.)

' Overfitting '

In [11]:
""" Regularization """
# 자세한 식과 그래프는 강의 참조 ...
# norm ? 
#  >> 벡터의 길이 혹은 크기를 측정하는 방법

# < L2 Regularization >
# - 기존 cost function 에 L2(norm) penalty term 을 추가
# (L2 ? 
#   >> euclidean distance (원점에서 벡터 좌표까지의 거리 - 피타고라스 정리를 이용함))
#   >> 원의 접점과의 거리로 구함

# < L1 Regularization >
# - 기존 cost function 에 L1(norm) penalty term 을 추가
# - L2 와 달리, 절대값을 이용하여 penalty 를 주는 방법. (L2 보단 penalty 가 적다.)
# (L1 ?
#   >> manhattan distance (원점에서 벡터 좌표까지의 거리))
#   >> 마름모의 절편과의 접점을 통해 구함. (즉, 여러 점에서 만날 수 있다.)
#      즉, L1 에서 weight 값이 0 이 되는 값은, 중요하지 않은 weight 값 임을 알 수 있다.


# => L2 가 L1 보다 더 stable 하다.


' Regularization '