# Neural network(deep learning)

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

## Neural network(인공신경망)
> **Neural network**는 사람의 신경을 본따 만든 머신러닝 알고리즘이다.  
종속변수가 있어야 하는 **지도학습** 모델이며 출력 구분에 따라 **예측/분류 문제에 모두 사용**이 가능하다.  
기존 선형회귀/로지스틱회귀 뿐 아니라 훨씬 더 복잡한 다차원의 비선형성 모델까지 표현이 가능하다.  
>> `DNN`, `RNN`, `CNN`, `LSTM`을 기본으로 한 수 많은 네트워크 구조가 지속적으로 연구되고 있다.  
이미지 처리에 `CNN`, 자연어 처리에 `LSTM`을 기본구조로 많이 사용  
최근에는 데이터에 따른 기본구조를 따르지 않고 모델 전환에 관한 연구가 진행되고 있다.  

### 기본적인 구조
>기본적인 신경망의 layer 단위로 구성이 되는데 기본적인 구조는 아래와 같다.  
>> **input layer** : **설명변수(X)**를 받아들이는(저장)하는 레이어  
**hidden layer** : 연산 layer, **input과 output layer를 제외 한 모든 layer**는 hidden layer이다.  
**output layer** : 출력 layer, 목적식 혹은 **예측/분류에 따라 출력 layer를 다르게** 설정하여 모델링.  
**node** : layer에 포함 된 동그라미 하나  
**weight(가중치)** : node 와 node간 연결되어 있는 회색 화살표  
![nnet](./image/nnet.png)

#### 선형결합 함수
# $$ z = w^Tx + b $$
> hidden layer에 도달하는 값은 결국 X와 w의 선형 함수식으로 나타낼 수 있으며 벡터/매트릭스 연산으로 계산한다.  
>>![nnet2](./image/nnet2.png)


#### perceptron(퍼셉트론)
# $$ \hat{y} = g(\sum_{i=1}^m x_iw_i)$$
> 인공신경망의 가장 기본이 되는 단위.  
위의 기본적인 신경망 구조에서 hidden layer의 노드 하나에 대한 자세한 구조를 살펴본다면 아래와 같은 구조를 갖는다.  
각 노드의 선형 함수의 합에 비선형 **활성함수 g(activation function)를 적용**하여 비선형 변환을 만든다.  
>>![perceptron](./image/perceptron2.png)

#### activation function(활성화함수)
> 노드의 선형식 결과를 비선형 출력결과로 만들어주는 함수  
딥러닝 강의가 아니기에 각 함수별 특징은 참고링크를 확인해주세요  
https://deepinsight.tistory.com/113
>>![activation](./image/activation2.png)

## 모델 학습
### Cost functions
> 일반적인 머신러닝 모델과 마찬가지로 **비용함수(cost function)를 정의하고 최소화 하는 방향**으로 학습시킨다.  

모델 출력값에 따른 비용함수는 아래와 같다.

> **MAE**(회귀모델)
>>![cost3](./image/cost3.png)

> **Cross entropy loss**(이진 분류)
>>![cost2](./image/cost2.png)

> **Softmax**(다중 클래스 분류)
>>![cost2](./image/softmax.jpeg)

### 최적화(순전파)
> 결국 cost function이 의미하고자 하는 바는 **비용함수를 최소화 시키는 가중치를 찾고싶다** 이다.
>>![gd1](./image/gd1.png)  
![gradient](./image/gradient_decent2.gif)

일반적인 머신러닝 알고리즘이 가정에 따른 비용함수 최소화를 목적으로 했다면 신경망의 최적화는 **가중치에 따른 비용함수 최소화**를 목적으로 한다.  
즉, 학습이 진행되는 스텝마다 가중치를(그래디언트 반대방향으로)업데이트 하면서 최적값을 찾는 과정을 거친다.

### 역전파(back propagation)
> 오차에 대한 가중치를 업데이트 하기 위한 방법론으로 가중치의 변화가 최종 비용함수에 어떤 영향을 미치는지를 계산  
chain rule을 활용 비용함수로부터 역방향으로 계산한다.
>> w2에 대한 가중치 업데이트
![back1](./image/back1.png)
>> w2에 대한 비용함수의 편미분 식을 ($\hat{y}$에 대한 비용함수 편미분) X (w2에 대한 $\hat{y}$ 편미분)의 식으로 전개
![back2](./image/back2.png)
>> 이후 w1에 대한 가중치 업데이트도 마찬가지 방법으로 편미분 chain rule 활용한다.
![back3](./image/back3.png)
>>![back4](./image/back4.png)

### 학습률(learning rate)
> 신경망 학습에는 학습률이 중요한데 chain rule을 통해 구해지는 업데이트 값에 학습률을 곱해 가중치를 업데이트 한다.  
적절한 학습률은 너무 큰 업데이트값을 사용함으로서 모델 학습이 되지 않거나 너무 작은 업데이트 값을 곱해 학습이 더뎌지는 문제를 해결할 수 있다.  
가중치 X 학습률 $\eta$ 만큼 업데이트 하면서 최적값을 찾는 과정을 거친다.
# $$W \leftarrow W - \eta{{\partial j}(W)\over{\partial W}}$$

## neural network 실습

In [8]:
# 데이터 불러오기
df = pd.read_csv('./data/kospi.csv', encoding='cp949', engine='python')
df.head()

Unnamed: 0,전경련BSI,주택매매가격,건설BSI(전망),"실업률(계절조정,%)",어음부도율,일별수출액YoY,내국인출국자수YoY,코스피 200 변동성지수,통안채 364일,공사채 AAA 3년,...,재화수출,내수,GDP디플레이터,총저축률,총투자율,Reuter CRB(EW)상품선물지수,Reuter CRB(EW)에너지지수,Reuter CRB(EW)산업지수,Reuter CRB(EW)귀금속지수,코스피지수
0,96.4,70.13,83.3,3.7,0.09,14.5,-37.03,25.5,4.06,4.97,...,1.6,-0.4,3.1,32.8,32.3,243.7,247.7,217.5,322.4,633.4
1,90.3,70.83,86.7,3.7,0.08,10.56,-9.67,20.83,4.24,4.83,...,7.8,-0.4,4.0,33.3,32.3,247.6,255.7,247.3,326.4,669.9
2,91.4,70.57,86.7,3.8,0.06,14.83,0.93,26.98,4.6,4.43,...,7.8,0.3,4.0,33.3,31.8,249.9,268.7,232.3,340.1,713.5
3,109.6,69.99,92.4,3.9,0.06,24.13,2.85,28.33,4.66,4.74,...,7.8,0.3,4.0,33.3,31.8,255.3,283.3,256.6,364.1,759.5
4,110.3,69.7,64.1,3.8,0.08,25.49,14.34,25.35,4.51,5.21,...,10.9,0.3,3.3,34.7,31.8,262.6,292.7,262.0,368.3,697.5


In [28]:
# 데이터 분할
X = df.drop('코스피지수', axis = 1)
y = df['코스피지수']

In [30]:
# 테스트 데이터 분할
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [14]:
# 모델 import
from sklearn.neural_network import MLPRegressor

In [65]:
# 모델 생성
model = MLPRegressor(hidden_layer_sizes=(128, 128, 4), activation='relu', max_iter=4000)
'''
hidden_layer_sizes=(100,) : 히든레이어 구조(40, 40, 60) 튜플로 전달
activation='relu': 활성함수
learning_rate_init=0.001: 학습률
max_iter=200 : 학습 반복 횟수

데이터에 맞는 히든레이어 구조는 다 다릅니다. 
큰 데이터라도 깊이가 얕은 모델의 성능이 좋을 수 있어 파라메터 서칭이 필요합니다.
일반적으로는 구조가 복잡해질수록 학습률을 줄이면서 반복횟수를 많이 가져가게 됩니다.

이 외 파라메터는 최적화 관련 파라메터인데 현재 가장 좋은 알고리즘이 기본적으로 탑재되어 있으니 그냥 쓰시면 됩니다.
수업시간에 모두 다루기 어렵습니다.
'''

"\nhidden_layer_sizes=(100,) : 히든레이어 구조(40, 40, 60) 튜플로 전달\nactivation='relu': 활성함수\nlearning_rate_init=0.001: 학습률\nmax_iter=200 : 학습 반복 횟수\n\n데이터에 맞는 히든레이어 구조는 다 다릅니다. \n큰 데이터라도 깊이가 얕은 모델의 성능이 좋을 수 있어 파라메터 서칭이 필요합니다.\n일반적으로는 구조가 복잡해질수록 학습률을 줄이면서 반복횟수를 많이 가져가게 됩니다.\n\n이 외 파라메터는 최적화 관련 파라메터인데 현재 가장 좋은 알고리즘이 기본적으로 탑재되어 있으니 그냥 쓰시면 됩니다.\n수업시간에 모두 다루기 어렵습니다.\n"

In [66]:
# 모델 학습
model.fit(X_train, y_train)

MLPRegressor(hidden_layer_sizes=(128, 128, 4), max_iter=4000)

In [67]:
# 모델 평가
from sklearn.metrics import mean_squared_error
import math

predicted = model.predict(X_test)
RMSE = math.sqrt(mean_squared_error(y_test, predicted))

print(RMSE) # 488.65

393.4359939270654


## grid search 실습

In [68]:
from sklearn.model_selection import GridSearchCV

In [69]:
# grid 파라메터 설정
model = MLPRegressor()
parameter = {'hidden_layer_sizes': [(64, 64, 4), (128, 64, 4), (128, 128, 4), (256, 256, 4)], 
             'max_iter': [1000, 2000, 3000, 4000]}

In [91]:
# grid 인스턴스 설정
grid = GridSearchCV(model, parameter, cv=3, verbose=2, scoring='neg_root_mean_squared_error')
'''
estimator : 모델 딕셔너리
param_grid : 파라메터 딕셔너리
scoring=None : 평가방법
n_jobs=None : 학습에 사용할 컴퓨터 코어 갯수
verbose=0 : 리포트 형식 0, 1, 2

scoring 참고
https://scikit-learn.org/stable/modules/model_evaluation.html
'''

'\nestimator : 모델 딕셔너리\nparam_grid : 파라메터 딕셔너리\nscoring=None : 평가방법\nn_jobs=None : 학습에 사용할 컴퓨터 코어 갯수\nverbose=0 : 리포트 형식 0, 1, 2\n\nscoring 참고\nhttps://scikit-learn.org/stable/modules/model_evaluation.html\n'

In [92]:
# grid 학습
grid.fit(X_train, y_train)

Fitting 3 folds for each of 16 candidates, totalling 48 fits
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=1000 ...................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.9s remaining:    0.0s


[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=1000, total=   0.9s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=1000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=1000, total=   0.0s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=1000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=1000, total=   0.0s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=2000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=2000, total=   0.0s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=2000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=2000, total=   0.0s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=2000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=2000, total=   1.1s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=3000 ...................
[CV] .... hidden_layer_sizes=(64, 64, 4), max_iter=3000, total=   0.0s
[CV] hidden_layer_sizes=(64, 64, 4), max_iter=3000 ...................
[CV] .



[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=1000, total=   1.1s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=1000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=1000, total=   0.0s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=2000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=2000, total=   0.3s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=2000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=2000, total=   0.0s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=2000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=2000, total=   0.0s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=3000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=3000, total=   0.1s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=3000 ..................
[CV] ... hidden_layer_sizes=(128, 64, 4), max_iter=3000, total=   0.3s
[CV] hidden_layer_sizes=(128, 64, 4), max_iter=3000 ..................
[CV] .



[CV] .. hidden_layer_sizes=(128, 128, 4), max_iter=3000, total=   4.5s
[CV] hidden_layer_sizes=(128, 128, 4), max_iter=4000 .................
[CV] .. hidden_layer_sizes=(128, 128, 4), max_iter=4000, total=   0.0s
[CV] hidden_layer_sizes=(128, 128, 4), max_iter=4000 .................
[CV] .. hidden_layer_sizes=(128, 128, 4), max_iter=4000, total=   0.1s
[CV] hidden_layer_sizes=(128, 128, 4), max_iter=4000 .................
[CV] .. hidden_layer_sizes=(128, 128, 4), max_iter=4000, total=   0.0s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=1000 .................




[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=1000, total=   3.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=1000 .................




[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=1000, total=   3.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=1000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=1000, total=   0.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=2000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=2000, total=   0.0s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=2000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=2000, total=   0.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=2000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=2000, total=   0.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=3000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=3000, total=   0.1s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=3000 .................
[CV] .. hidden_layer_sizes=(256, 256, 4), max_iter=3000, total=   0.0s
[CV] hidden_layer_sizes=(256, 256, 4), max_iter=3000 .................
[CV] .

[Parallel(n_jobs=1)]: Done  48 out of  48 | elapsed:   33.1s finished


GridSearchCV(cv=3, estimator=MLPRegressor(),
             param_grid={'hidden_layer_sizes': [(64, 64, 4), (128, 64, 4),
                                                (128, 128, 4), (256, 256, 4)],
                         'max_iter': [1000, 2000, 3000, 4000]},
             scoring='neg_root_mean_squared_error', verbose=2)

In [88]:
# 최고 결과 확인
grid.best_estimator_, grid.best_score_

(MLPRegressor(hidden_layer_sizes=(256, 256, 4), max_iter=2000),
 -802.9495713573738)

In [None]:
for (model, parameter_dic) in zip([SVM_model, tree_model, NB_model, NN_model], [SVM_parameter, tree_parameter, NB_parameter, NN_parameter]):
    grid = GridSearchCV(estimator = model, param_grid = parameter_dic, cv = 5, scoring = 'accuracy')
    grid.fit(X, Y)
    print(best_score)
    if best_score < grid.best_score_:
        best_score = grid.best_score_              
        best_model = grid.best_estimator_

print(best_model)
print(best_score)