In [63]:
# 파이썬 ≥3.5 필수
import sys
assert sys.version_info >= (3, 5)

# 사이킷런 ≥0.20 필수
import sklearn
assert sklearn.__version__ >= "0.20"

# 공통 모듈 임포트
import numpy as np
import os

# 노트북 실행 결과를 동일하게 유지하기 위해
np.random.seed(42)

# 깔끔한 그래프 출력을 위해
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 그림을 저장할 위치
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "training_linear_models"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("그림 저장:", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 입력데이터, 정답값 설정
* 입력 데이터(X), 정답값(y)를 정해놓는다
* theat 구하는 방법 (선형회귀)
    1. 정규방정식
    2. 배치 경사 하강법
    3. 확률적 경사 하강법
    4. 미니배치 경사 하강법

In [64]:
import numpy as np
X = 2 * np.random.rand(100, 1) # rand : 0 ~ 1의 균일분포
y = 4 + 3 * X + np.random.randn(100, 1) # y = 3x + 4 + 가우시안 잡음

# 1. 정규방정식
## $\hat{\boldsymbol{\theta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$ 
## $\hat{y} = \mathbf{X} \boldsymbol{\hat{\theta}}$

In [65]:
X # (100, 1)인 열벡터. x1을 나타냄

array([[0.74908024],
       [1.90142861],
       [1.46398788],
       [1.19731697],
       [0.31203728],
       [0.31198904],
       [0.11616722],
       [1.73235229],
       [1.20223002],
       [1.41614516],
       [0.04116899],
       [1.9398197 ],
       [1.66488528],
       [0.42467822],
       [0.36364993],
       [0.36680902],
       [0.60848449],
       [1.04951286],
       [0.86389004],
       [0.58245828],
       [1.22370579],
       [0.27898772],
       [0.5842893 ],
       [0.73272369],
       [0.91213997],
       [1.57035192],
       [0.39934756],
       [1.02846888],
       [1.18482914],
       [0.09290083],
       [1.2150897 ],
       [0.34104825],
       [0.13010319],
       [1.89777107],
       [1.93126407],
       [1.6167947 ],
       [0.60922754],
       [0.19534423],
       [1.36846605],
       [0.88030499],
       [0.24407647],
       [0.99035382],
       [0.06877704],
       [1.8186408 ],
       [0.51755996],
       [1.32504457],
       [0.62342215],
       [1.040

## 입력 X에 bias에 곱해지는 값(x0) 붙이기

In [66]:
# x0에 해당하는 1(bias에 곱해지는 값)을 넣어주기
X_b = np.c_[np.ones((100, 1)), X] # X와 똑같은 크기인데, 값을 1만가지는 array를 만들고(np.ones(100, 1)) X에 concat 한다
X_b

array([[1.        , 0.74908024],
       [1.        , 1.90142861],
       [1.        , 1.46398788],
       [1.        , 1.19731697],
       [1.        , 0.31203728],
       [1.        , 0.31198904],
       [1.        , 0.11616722],
       [1.        , 1.73235229],
       [1.        , 1.20223002],
       [1.        , 1.41614516],
       [1.        , 0.04116899],
       [1.        , 1.9398197 ],
       [1.        , 1.66488528],
       [1.        , 0.42467822],
       [1.        , 0.36364993],
       [1.        , 0.36680902],
       [1.        , 0.60848449],
       [1.        , 1.04951286],
       [1.        , 0.86389004],
       [1.        , 0.58245828],
       [1.        , 1.22370579],
       [1.        , 0.27898772],
       [1.        , 0.5842893 ],
       [1.        , 0.73272369],
       [1.        , 0.91213997],
       [1.        , 1.57035192],
       [1.        , 0.39934756],
       [1.        , 1.02846888],
       [1.        , 1.18482914],
       [1.        , 0.09290083],
       [1.

## 정규방정식을 이용해서 theta 값 구하기(정규방정식을 이용하면 바로 theta 값을 구할 수 있다)

$\hat{\boldsymbol{\theta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$

In [67]:
# 정규방정식을 이용해서 theta 값 구하기
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
theta_best # [x0에 곱해지는 값(bias), x1에 곱해지는 값]
# y = 3x + 4 
# 원했던 theta0(bias) : 4, theta1 : 3
# 결과로 나온 값 : theta0 : 4.21, theta1 : 2.77 
# 원하던 값과 비슷하게 나온 것을 알 수 있음
# 완전히 [4, 3]으로 나올 수 없는 이유 : 가우시안 잡음을 더했기 때문에

array([[4.21509616],
       [2.77011339]])

## 구한 theta_best 값으로 y값 예측하기

$\hat{y} = \mathbf{X} \boldsymbol{\hat{\theta}}$

In [68]:
X_new = np.array([[0], [2]]) # 테스트할 때 입력할 값을 만든다. (2, 1)인 열벡터
X_new_b = np.c_[np.ones((2, 1)), X_new] # bias와 곱해줄 1값을 붙여준다
y_predict = X_new_b.dot(theta_best) # x0*theta0 + x1*theta1
y_predict

array([[4.21509616],
       [9.75532293]])

# 2. 배치 경사 하강법(BGD, Batch Gradient Descent)
* 모든 train data를 사용해서 theat update

**식 4-6: 비용 함수의 그레이디언트 벡터**

$
\dfrac{\partial}{\partial \boldsymbol{\theta}} \text{MSE}(\boldsymbol{\theta})
 = \dfrac{2}{m} \mathbf{X}^T (\mathbf{X} \boldsymbol{\theta} - \mathbf{y})
$

**식 4-7: 경사 하강법의 스텝**

$
\boldsymbol{\theta}^{(\text{next step})} = \boldsymbol{\theta} - \eta \dfrac{\partial}{\partial \boldsymbol{\theta}} \text{MSE}(\boldsymbol{\theta})
$


In [69]:
eta = 0.1 # eta : learning rate(학습율)
n_iterations = 1000 # 반복 횟수
m = 100 # 데이터 갯수

theta = np.random.randn(2, 1) # random 값으로 theta 초기화

for iteration in range(n_iterations) :
    gradients = 2 / m * X_b.T.dot(X_b.dot(theta) - y) # gradient 계산
    theta = theta - eta * gradients # theat update

In [70]:
theta

array([[4.21509616],
       [2.77011339]])

# 3. 확률적 경사 하강법(SGD, stochastic gradient descent)
* 하나의 train data를 사용해 theta update

In [71]:
m = len(X_b) # 100
np.random.seed(42)

In [72]:
# github 코드(반복문 2번 - 관습적으로)
n_epochs = 50
t0, t1 = 5, 50 # 반복문 마다 eta를 다르게 한다

def learning_schedule(t) :
    return t0 / (t + t1)

theta = np.random.randn(2, 1)

for epoch in range(n_epochs) :
    for i in range(m) :
        random_index = np.random.randint(m) # 0 ~ m-1 random number
        xi = X_b[random_index:random_index + 1] # random으로 하나의 data를 뽑는다
        yi = y[random_index:random_index + 1] # xi에 대한 정답값
        gradients = 2 * xi.T.dot(xi.dot(theta) - yi) # 2 / m 인데 m = 1이므로(m : 사용한 데이터 갯수. sgd에서는 랜덤으로 하나만 선택)
        eta = learning_schedule(epoch * m + 1)
        theta = theta - eta * gradients

In [73]:
theta

array([[4.21035883],
       [2.74821986]])

In [74]:
# 교수님이 수정하신 코드
n_epochs = 50
t0, t1 = 5, 50
m = 100

def learning_schedule(t) :
    return t0 / (t + t1)

theta = np.random.randn(2, 1)

for epoch in range(n_epochs) :
    random_index=  np.random.randint(m)
    xi = X_b[random_index:random_index + 1] # random으로 하나의 data를 뽑는다
    yi = y[random_index:random_index + 1] # xi에 대한 정답값
    gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
    eta = learning_schedule(epoch)
    theta = theta - eta * gradients

In [75]:
theta

array([[4.16056356],
       [2.69320909]])

# 4. Mini Batch Gradient Descent

In [77]:
# github 코드
n_iterations = 50
minibatch_size = 20

np.random.seed(42)
theta = np.random.randn(2,1)  # 랜덤 초기화

t0, t1 = 200, 1000
def learning_schedule(t):
    return t0 / (t + t1)

t = 0
for epoch in range(n_iterations):
    shuffled_indices = np.random.permutation(m)
    X_b_shuffled = X_b[shuffled_indices]
    y_shuffled = y[shuffled_indices]
    for i in range(0, m, minibatch_size):
        t += 1
        xi = X_b_shuffled[i:i+minibatch_size]
        yi = y_shuffled[i:i+minibatch_size]
        gradients = 2/minibatch_size * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(t)
        theta = theta - eta * gradients

In [78]:
theta

array([[4.25214635],
       [2.7896408 ]])

In [81]:
# 교수님 코드
n_iterations = 50
minibatch_size = 20

np.random.seed(42)
theta = np.random.randn(2, 1) # random initialization

t0, t1 = 200, 1000
def learning_schedule(t) :
    return t0 / (t + t1)

t = 0

import random
xy = list(zip(X_b, y))
for epoch in range(n_iterations * minibatch_size) :
    mini_batch = random.sample(xy, minibatch_size) # minibatch_size만큼 sample을 고른다
    t +=1 
    xi = np.array([data[0] for data in mini_batch])
    yi = np.array([data[1] for data in mini_batch])
    gradients = 2 / minibatch_size * xi.T.dot(xi.dot(theta) - yi)
    eta = learning_schedule(t)
    theta = theta - eta * gradients

In [82]:
theta

array([[4.26467644],
       [2.79474425]])