# Chapter.6.01 Polynomial Regression
이번 PA 6.01에서는 Polynomial Regression을 진행하는데<br>
실제 M차원에 따라서 어떻게 학습되는지 확인할 것입니다<br>
모델은 다음과 같이 형성됩니다
$$\hat{y} =\theta_{m}x^m +  \theta_{m-1}x^{m-1} +...+ \theta_{1}x^1 +  \theta_{0}$$

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import copy
import basic_nodes as nodes
import affine_MSE
from tqdm import trange
def get_data_batch(dataset, batch_idx, batch_size, n_batch):
    if batch_idx is n_batch -1:
        batch = dataset[batch_idx*batch_size:]
    else:
        batch = dataset[batch_idx*batch_size : (batch_idx+1)*batch_size]
    return batch
plt.style.use('seaborn')
np.random.seed(0)

### Step.1 Dataset Generator
200개의 Data Sample을 생성합니다<br>
Input x_data는 [0.05 ~ 1 - 0.05]의 범위에서 생성합니다(np.linspace 사용)<br>
y_data는 sin함수를 따라서 만들며 x_data를 통한 sin함수에 Noise를 추가합니다<br>
h_oreder는 3차원으로 진행합니다

In [3]:
### Start Dataset Preparation ###
n_sample = 200
h_order = 3

x_data1 = np.linspace(0.05, 1-0.05, n_sample).reshape(-1, 1)
y_data = np.sin(2*np.pi*x_data1)
### End Dataset Preparation ###
x_data = np.zeros(shape = (n_sample, 1))
for order in range(1, h_order + 1):
    order_data = np.power(x_data1, order)
    x_data = np.hstack((x_data, order_data))

data = np.hstack((x_data, y_data))
 

In [5]:
data.shape

(200, 5)

### Step.2 Parameter 설정
학습에 필요한 Parameter를 설정하고<br>
5장 Multi-Variate-Linear-Regression에서 사용했던<br>
Affine_Function과 MSE_Cost를 import하여 사용합니다<br>

* batch_size = 32
* epochs = 300000
* lr = 0.01

In [8]:
batch_size = 32
n_batch = np.ceil(data.shape[0]/batch_size).astype(int)
feature_dim = x_data.shape[1]-1
Th = np.ones(shape = (feature_dim + 1,), dtype = np.float).reshape(-1, 1)

affine = affine_MSE.Affine_Function(feature_dim, Th)
cost = affine_MSE.MSE_Cost()
### Start Parameter Set ###
epochs, lr = 300000, 0.01

### End Parameter Set ###
th_accum = Th.reshape(-1, 1)
cost_list = []

### Step.3 Learning
mini-batch를 통한 Data를 MVLR에서 Learning했던 것과 동일하게<br>
Learning을 진행한다

다만 $\theta$가 데이터셋을 따라 자리 잡기까지<br>
시간이 굉장히 오래 걸립니다<br>
따라서 밤에 실행후 주무시고 일어나시면 될 것같습니다<br>
보여드릴 코드는 h_order를 [3, 5, 7, 11] 4가지 Case를 통해서<br>
동일한 Epoch동안 어떻게 학습되는지를 관찰 할 것인데<br>
시간이 너무 오래 걸린다면 h_order 한가지만 해보셔도 됩니다<br>
또한 Epoch를 300000이 아니라 줄이시고 해보셔도 됩니다

In [9]:
for epoch in trange(epochs):
    np.random.shuffle(data)
    for batch_idx in range(n_batch):
        batch = get_data_batch(data, batch_idx, batch_size, n_sample)
        X, Y = batch[:,:-1], batch[:,-1]
        Pred = affine.forward(X)
        J = cost.forward(Y, Pred)
        
        dPred = cost.backward()
        affine.backward(dPred, lr)
        
        th_accum = np.hstack((th_accum, affine._Th))
        cost_list.append(J)

  2%|▏         | 4601/300000 [00:05<05:47, 849.68it/s]


KeyboardInterrupt: 

### Step.4 Visualization

In [None]:
plt.scatter(x_data1,y_data,color = 'r')
tmp_Th = copy.deepcopy(affine._Th)
tmp_Th = tmp_Th.reshape((h_order+1))
tmp_y_data = []
for i in range(200):
    tmp_y_data.append(np.sum(x_data[i] * tmp_Th))
plt.plot(x_data1,tmp_y_data)
plt.show()

**Expected Output**
<img src='./img/6_h3.png' width = 600>

## With h_order 5
다른 조건들은 동일하게 진행하고 h_order를 5로 변경하여<br>
학습을 진행합니다

In [None]:
n_sample = 200
h_order = 5

x_data1 = np.linspace(0.05, 1 - 0.05, n_sample).reshape(-1, 1)
y_data = np.sin(2*np.pi*x_data1) + 0.2*np.random.normal(0, 1, size = (n_sample,1))

x_data = np.zeros(shape = (n_sample, 1))
for order in range(1, h_order + 1):
    order_data = np.power(x_data1, order)
    x_data = np.hstack((x_data, order_data))

data = np.hstack((x_data, y_data))

In [None]:
batch_size = 32
n_batch = np.ceil(data.shape[0]/batch_size).astype(int)
feature_dim = x_data.shape[1]-1
Th = np.ones(shape = (feature_dim + 1,), dtype = np.float).reshape(-1, 1)

affine = affine_MSE.Affine_Function(feature_dim, Th)
cost = affine_MSE.MSE_Cost()

epochs, lr = 300000, 0.01
th_accum = Th.reshape(-1, 1)
cost_list = []

In [None]:
for epoch in trange(epochs):
    np.random.shuffle(data)
    for batch_idx in range(n_batch):
        batch = get_data_batch(data, batch_idx, batch_size, n_sample)
        X, Y = batch[:,:-1], batch[:,-1]
        Pred = affine.forward(X)
        J = cost.forward(Y, Pred)
        
        dPred = cost.backward()
        affine.backward(dPred, lr)
        
        th_accum = np.hstack((th_accum, affine._Th))
        cost_list.append(J)

In [None]:
plt.scatter(x_data1,y_data,color = 'r')
tmp_Th = copy.deepcopy(affine._Th)
tmp_Th = tmp_Th.reshape((h_order+1))
tmp_y_data = []
for i in range(200):
    tmp_y_data.append(np.sum(x_data[i] * tmp_Th))
plt.plot(x_data1,tmp_y_data)
plt.show()

**Expected Output**
<img src='./img/6_h5.png' width = 600>

## With h_order 7
다른 조건들은 동일하게 진행하고 h_order를 7로 변경하여<br>
학습을 진행합니다

In [None]:
n_sample = 200
h_order = 7

x_data1 = np.linspace(0.05, 1 - 0.05, n_sample).reshape(-1, 1)
y_data = np.sin(2*np.pi*x_data1) + 0.2*np.random.normal(0, 1, size = (n_sample,1))

x_data = np.zeros(shape = (n_sample, 1))
for order in range(1, h_order + 1):
    order_data = np.power(x_data1, order)
    x_data = np.hstack((x_data, order_data))

data = np.hstack((x_data, y_data))

In [None]:
batch_size = 32
n_batch = np.ceil(data.shape[0]/batch_size).astype(int)
feature_dim = x_data.shape[1]-1
Th = np.ones(shape = (feature_dim + 1,), dtype = np.float).reshape(-1, 1)

affine = affine_MSE.Affine_Function(feature_dim, Th)
cost = affine_MSE.MSE_Cost()

epochs, lr = 300000, 0.01
th_accum = Th.reshape(-1, 1)
cost_list = []

In [None]:
for epoch in trange(epochs):
    np.random.shuffle(data)
    for batch_idx in range(n_batch):
        batch = get_data_batch(data, batch_idx, batch_size, n_sample)
        X, Y = batch[:,:-1], batch[:,-1]
        Pred = affine.forward(X)
        J = cost.forward(Y, Pred)
        
        dPred = cost.backward()
        affine.backward(dPred, lr)
        
        th_accum = np.hstack((th_accum, affine._Th))
        cost_list.append(J)

In [None]:
plt.scatter(x_data1,y_data,color = 'r')
tmp_Th = copy.deepcopy(affine._Th)
tmp_Th = tmp_Th.reshape((h_order+1))
tmp_y_data = []
for i in range(200):
    tmp_y_data.append(np.sum(x_data[i] * tmp_Th))
plt.plot(x_data1,tmp_y_data)
plt.show()

**Expected Output**
<img src='./img/6_h7.png' width = 600>

## With h_order 11
다른 조건들은 동일하게 진행하고 h_order를 11로 변경하여<br>
학습을 진행합니다

In [None]:
n_sample = 200
h_order = 11

x_data1 = np.linspace(0.05, 1 - 0.05, n_sample).reshape(-1, 1)
y_data = np.sin(2*np.pi*x_data1) + 0.2*np.random.normal(0, 1, size = (n_sample,1))

x_data = np.zeros(shape = (n_sample, 1))
for order in range(1, h_order + 1):
    order_data = np.power(x_data1, order)
    x_data = np.hstack((x_data, order_data))

data = np.hstack((x_data, y_data))

In [None]:
batch_size = 32
n_batch = np.ceil(data.shape[0]/batch_size).astype(int)
feature_dim = x_data.shape[1]-1
Th = np.ones(shape = (feature_dim + 1,), dtype = np.float).reshape(-1, 1)

affine = affine_MSE.Affine_Function(feature_dim, Th)
cost = affine_MSE.MSE_Cost()

epochs, lr = 300000, 0.01
th_accum = Th.reshape(-1, 1)
cost_list = []

In [None]:
for epoch in trange(epochs):
    np.random.shuffle(data)
    for batch_idx in range(n_batch):
        batch = get_data_batch(data, batch_idx, batch_size, n_sample)
        X, Y = batch[:,:-1], batch[:,-1]
        Pred = affine.forward(X)
        J = cost.forward(Y, Pred)
        
        dPred = cost.backward()
        affine.backward(dPred, lr)
        
        th_accum = np.hstack((th_accum, affine._Th))
        cost_list.append(J)

In [None]:
plt.scatter(x_data1,y_data,color = 'r')
tmp_Th = copy.deepcopy(affine._Th)
tmp_Th = tmp_Th.reshape((h_order+1))
tmp_y_data = []
for i in range(200):
    tmp_y_data.append(np.sum(x_data[i] * tmp_Th))
plt.plot(x_data1,tmp_y_data)
plt.show()

**Expected Output**
<img src='./img/6_h11.png' width = 600>

## Dataset Without Noise
기존의 데이터셋에서 노이즈를 제거한 모습을 보게 되면<br>
다음과 같다

In [None]:
n_sample = 200

x_data1 = np.linspace(0.05, 1 - 0.05, n_sample).reshape(-1, 1)
y_data = np.sin(2*np.pi*x_data1) #+ 0.2*np.random.normal(0, 1, size = (n_sample,1))
plt.scatter(x_data1,y_data,color = 'r')

## Result
결과를 비교해보면 h_order 가 3일때가 Dataset에 가장 맞는 학습 결과로 볼수 있다<br>
강의에서 소개했던 Pattern Recognition and Machine learning을 보게되면<br>
아래 사진과 같이 h_order가 높아질수록 overfitting의 위험성이 높아진다<br>
하지만 h_order 11에서도 overfitting이 크게 발생하지 않았다<br>

<img src='./img/6_5.png' width = 600>

그 이유는 다음의 그림과 같이 많은 데이터셋을 통해서<br>
학습을 진행했기 때문에 Overfitting의 발생을 억제한 것이다<br>

<img src='./img/6_6.png' width = 600>