## SNU PPSML - Machine Learning Exercise 2

#### **Contents**
---
* ML exercise 1: Gradient Descent [Optimization @ ML] (HW05)  

---
* **ML exercise 2: Neural Network [Representation @ ML] (실습과제 11/5-8 & 11/9 강의)**
    - 입력 속성데이터와 지도라벨값 $\{(x_i, y_i)\}$ @ 인코딩: 입력과 출력층의 설정  

    - 순전파 신경망(def feedforward())의 구성을 위한 여러가지 파라메터들     
        - $N_{layers}$ & $N_{nodes}$ in each layer
        - 가중치와 편향치 ($W$ & $B$)
        - 가중합(퍼셉트론 입력) : 
        
        > $a_j=W_{ji} f_i(a_i)+B_j$ (전층의 출력 $f_i$에 대한 가중합)
        
        - 활성화 함수(출력) : $f_j(a_j)$
        
        > $f(a)=\frac{1}{1+\exp^{-a}}$ for sigmoid  
        
        > $f(a)=\tanh(a)$ for tanh  
        
        > $f(a_k)=\frac{\exp[a_k]}{\sum_{k'}\exp[a_{k'}]}$ for softmax  
        
        > $f(a)=a$ for $ a > 0$ otherwise $0$ (ReLU)
        
        - 데이터의 순전파를 통한 최종 출력값 얻기: def feedforward(input)
        - ...
        
    - 오차보정의 역전파:  
    
        - 지도라벨값의 인코딩과 오차함수($E(w;x)$)의 정의
        - $\delta_j$ (가중합 $a_j$에 대한 오차보정항 $\equiv\frac{\partial E}{\partial a_j}$)
        - $\delta_j$를 통한 가중치보정 역전파의 구현
        - ...
        
    - 많은 데이터에 대한 학습 알고리즘 구현
    - check a contour of MLP's probability output for classification of 2D data  
    
---   
* ML exercise 3: Training a NN for Regression & Classification [Evaluation, Rep, Opt @ ML] (HW06)
    - batch GD, mini-batch GD, stochastic GD  
        - Visualize the minimizers in 2D
    - Validation of model, Over-fitting, Bias & Variance  
        - Visualize an over-fitted status
    - Evaluation of model performance
        - error(loss), accuracy (...)
        - NN score & ROC(Receiver Operating Characteristic) curve


In [0]:
# Printing all outputs in a cell (not only the last output)
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

----
### ** 2. Neural Netowrk Representation for ML ** 

### For Supervised Learning (Classification)




---
#### ** 1) [이종분류(Binary Classification)]** 
   
   $x_1,\,x_2$ 2차원 평면에 **두 종류**의 데이터가 분포해있을때, 임의의 $(x_1,x_2)$위치의 테스트 데이터가 각각의 종에 속할 확률을 예측하는, 이종 분류 신경망을 건설하고 훈련시켜보자.

    - 훈련한 모형의 예측치를 matplotlib를 활용하여 시각화해보자.
    - 각 epoch마다 성능을 평가하여 학습곡선을 그려보자.
    - 여러가지 학습률값에 대하여 학습곡선의 차이를 시각화해보자
    

* 훈련 & 테스트 데이터의 로딩 그리고 시각화 
- [[훈련데이터 폴더]](https://drive.google.com/open?id=1nhuCjcgovMkyy08FhTlqw_GTSei1FNNI) 에서 다운받은 data폴더를 본 노트북 폴더안에 위치시킨다. 

In [0]:
import numpy as np
data_np_circles = np.load('data/2Classes_2d_circles.npy')
data_np_moons = np.load('data/2Classes_2d_moons.npy')
data_np_spirals = np.load('data/2Classes_2d_spirals.npy')


print (len(data_np_circles))
print (len(data_np_moons))
print (len(data_np_spirals))


In [0]:
# Check your data
data = data_np_circles
print (data.shape) 
# 각행(/10000행): 하나의 데이터 (10000개의 행 = 총 10000개의 데이터) 
# 각열(/3열): 각 데이터 하나하나가 가진 속성들, {1열: 데이터의 종류/클래스(정수형 인코딩, 0:빨간공, 1:파란공, ...etc), 2열: 데이터속성변수(x)값, 3열: 데이터속성변수(y)값}]
print (data[:10])

In [0]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from itertools import cycle, islice
%matplotlib inline

data = data_np_circles

fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111)

cm = plt.cm.RdBu
cm_bright = ListedColormap(['#FF0000', '#0000FF'])
ax.scatter(data[:,1],data[:,2], c=data[:,0], cmap=cm, marker='.')

ax.grid(True)

plt.show()

* NNfactory 모듈의 로딩과 MLP 인스턴스의 선언 

In [0]:
# (모듈로서) NNfactory.py의 로딩
# autoreload 구문을 통해 
# NNfactory.py에의 최신 수정 사항이 재import시마다 반영되도록 한다. 
%reload_ext autoreload
%autoreload 2

# NNfactory.py 참조 
import NNfactory

In [0]:
# 완전연결순방향앞먹임 신경망 (fully connected feed-forward neural network, MLP) 구조의 설정
model_str = '2:identity|'+2*'10:tanh|'+'2:softmax'
# 학습률
lr = 0.01
# 모델이름
name_tag = 'circle_lr'+str(lr)

In [0]:
# mynn이라는 이름의 신경망(MLP) 클래스 인스턴스를 선언.
mynn = NNfactory.MLP(model_structure=model_str, \
                     model_nametag=name_tag, \
                     learning_rate=lr, \
                     encoding='one-hot')

* 로드한 데이터(2차원 속성변수공간에 분포한 2종의 데이터)들을 분류해내는 확률모형을, 갓 빚어낸 mynn신경망에 학습시켜보자.

In [0]:
from time import sleep
import sys
import numpy as np

# 데이터 준비
data_type=None # = 'mnist' for MNIST-data, or None for others 
encoding='one-hot' #'integer' # 'float'
training_data_list = data_np_circles # 학습에 쓸 데이터

n_class = int(training_data_list[:,0].max()+1) # 분류모형에서의 클래스 갯수 추출
dim_x = len(training_data_list[0])-1 # 데이터의 속성변수(x)의 차원 추출
print(' * n_class = ',n_class)
print(' * dim_x = ',dim_x)

In [0]:
# 최대 학습 주기 설정
epochs = 100

n_data_tot=len(training_data_list)
n_data_max=5000  # 훈련에 사용할 데이터 갯수
n_data_test=min(int((n_data_tot-n_data_max)*0.5),int(n_data_max*0.5))
n_data = len(training_data_list[:n_data_max])
dn_data = int(n_data/20)
print (dn_data)

for e in range(epochs):
    # go through all data in the training data set
    print(' * epoch = {}'.format(e+1))
    id_data = 0
    
    for data in training_data_list[:n_data_max]:
        
        # 프로세스 게이지
        id_data += 1
        if (id_data%dn_data==0):
            sys.stdout.write('\r')
            sys.stdout.write(' [%-20s] %d%%' % ( '='*(id_data//dn_data), 5*(id_data//dn_data)))
            sys.stdout.flush()
            sleep(0.25)
        
        # 입력/지도 데이터 가공 
        if data_type == 'mnist':
            # split the mnist data by the ',' commas
            all_values = data.split(',')
            # 입력 데이터 스케일링 
            input_list = (np.asfarray(all_values[1:]) / 255.0 * 0.99) + 0.01
            # 지도 라벨 벡터 가공 (shape = (10,))
            target_list = np.zeros(10) #mynn.n_nodes[-1])
            # all_values[0] is the target label for this data
            target_list[int(all_values[0])] = 1.0
            
        else:
        
            input_list = data[1:] #np.asfarray(all_values[1:])        
            target_origin = data[0]
            
            if encoding == 'one-hot':

                target_list = np.zeros(mynn.n_nodes[-1])
                target_list[int(data[0])] = 1
    
            elif encoding == 'integer':
                
                target_list = np.zeros(1)
                target_list[0] = int(data[0])

            elif encoding == 'float':
                
                target_list = np.zeros(1)
                target_list[0] = data[0]
                
            else:
                raise ValueError(' => check your encoding scheme. ')

        
        mynn.train(input_list, target_list)

        
        pass
    
    print('')
    print(' > 훈련 샘플에 대한 성능 (정확도 & 평균에러) ')
    mynn.check_accuracy_error(training_data_list, 0, n_data_max, data_type=None)
    print('')
    print(' > 테스트 샘플에 대한 성능 (정확도 & 평균에러) ')
    mynn.check_accuracy_error(training_data_list, n_data_max, n_data_max + n_data_test, data_type=None)
        
    print('\n')
    
    pass

---
* 훈련한 모형의 저장

훈련된 모형은 NNfactory클래스 안의 save_model메소드를 사용하여 .npy포맷의 numpy array로 저장할 수 있다.

In [0]:
mynn.save_model(fname='mlp_circle_2tanh.npy', nametag='circle_2tanh')


---
* 저장된 모형 불러오기 :

저장된 .npy파일로부터 신경망정보가 담긴 넘파이 배열을 직접 로드하고, 이 넘파이 배열을 새 신경망 인스턴스 생성에 사용하여 저장된 모형과 똑같은 신경망을 로드한다.

In [0]:
mynn_npy = np.load('mlp_circle_2tanh.npy')
mynn_load = NNfactory.MLP(load_model_np=mynn_npy)

---
* 학습한 확률 모형을 시각화해보기 (확률모형의 출력을 2d에 contour plot해보자)

In [0]:
# event 하나에 대한 출력값 테스트
data = data_np_circles

print(type(data))
print(data.shape)
print(data[0,:])
print(mynn_load.feedforward(data[0,1:]))

In [0]:

# ==================================== #
# * Plotting model prediction contour 
# ==================================== #
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from itertools import cycle, islice


# 데이터 로드 & 저장파일이름설정
data = data_np_circles
savefigfile = 'prediction_model_given_circle_data.png'


# 등고선 플랏을 위한 그리드 설정
x_min, x_max = data[:,1].min(), data[:,1].max()
y_min, y_max = data[:,2].min(), data[:,2].max()
n_x = 100
n_y = 100
x = np.linspace(x_min, x_max, n_x)
y = np.linspace(y_min, y_max, n_y)
X, Y = np.meshgrid(x, y)

# 각 (X[j,i],Y[j,i]) 위치에서의 신경망 출력(~첫번째 클래스일 확률)을 담을 배열 설정
P = np.zeros(n_x*n_y).reshape(n_y,n_x)

for j in range(n_y):
    for i in range(n_x):    
        P[j,i] = mynn_load.feedforward([X[j,i],Y[j,i]])[0]
    
print('x_mesh.shape  = ',X.shape)
print('y_mesh.shape  = ',Y.shape)
print('P_mesh.shape  = ',P.shape)


# 신경망이 학습한 확률모형의 등고선을 데이터와 함께 시각화
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111)

cm = plt.cm.RdBu
cm_bright = ListedColormap(['#0000FF', '#FF0000'])

ax.contourf(X, Y, P, cmap=cm, alpha=.8)
ax.scatter(data[:,1],data[:,2], c=data[:,0], cmap=cm_bright, alpha=0.8, marker='.')

ax.grid(True)
fig.savefig(savefigfile)

plt.show()

---
#### ** 2) [회귀(Regressions)]** 1D data $x$ with continous label $y$, $x\rightarrow y(x)$

   - 회귀모형에서는 출력층의 활성화함수를 항등원 $f(a)=a$를 사용한다. 이에 맞도록 역전파식이 적절히 수정된 신경망 클래스를 작성해보고, 훈련시켜보자.  
   - 훈련한 모형의 예측치를 matplotlib를 활용하여 시각화해보자.
   - 각 epoch마다 성능을 평가하여 학습곡선을 그려보자. 


In [0]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

# 2-1,2-2) Data generation

T = np.random.uniform(0,2,1000)
# T.sort()

# model
a = 1.
b = 0.
X = a*np.sin(2*np.pi*T) + b
# noise 
dX = (X/10) * np.random.randn(len(X))
# experimental value = model + noise
X_exp = X  + dX


# 2-3) Plotting

## plot objects (figure & axes)
fig1 = plt.figure(figsize=(12,8))
ax1 = fig1.add_subplot(111)

ax1.plot(T, X_exp, 'g.')
ax1.set_xlabel('time (s)', fontsize=20)
ax1.set_ylabel('spring ocillation, $x(t)$', fontsize=20)
ax1.grid(True)

plt.show()
