# Neural network(deep learning)

In [1]:
import numpy as np
import pandas as pd

## Neural network(인공신경망)
> **Neural network**는 사람의 신경을 본따 만든 머신러닝 알고리즘이다.  
종속변수가 있어야 하는 **지도학습** 모델이며 출력 구분에 따라 **예측/분류 문제에 모두 사용**이 가능하다.  
기존 선형회귀/로지스틱회귀 뿐 아니라 훨씬 더 복잡한 다차원의 비선형성 모델까지 표현이 가능하다.  
>> `DNN`, `RNN`, `CNN`, `LSTM`을 기본으로 한 수 많은 네트워크 구조가 지속적으로 연구되고 있다.  
이미지 처리에 `CNN`, 자연어 처리에 `LSTM`을 기본구조로 많이 사용  
최근에는 데이터에 따른 기본구조를 따르지 않고 모델 전환에 관한 연구가 진행되고 있다.  

### 기본적인 구조
>기본적인 신경망의 layer 단위로 구성이 되는데 기본적인 구조는 아래와 같다.  
>> **input layer** : **설명변수(X)**를 받아들이는(저장)하는 레이어  
**hidden layer** : 연산 layer, **input과 output layer를 제외 한 모든 layer**는 hidden layer이다.  
**output layer** : 출력 layer, 목적식 혹은 **예측/분류에 따라 출력 layer를 다르게** 설정하여 모델링.  
**node** : layer에 포함 된 동그라미 하나  
**weight(가중치)** : node 와 node간 연결되어 있는 회색 화살표  
<img src="https://drive.google.com/uc?id=1qjjXfWEPnVVnD_rwqHsq8enC9Vgzyggm">

#### 선형결합 함수
# $$ z = w^Tx + b $$
> hidden layer에 도달하는 값은 결국 X와 w의 선형 함수식으로 나타낼 수 있으며 벡터/매트릭스 연산으로 계산한다.  
>><img src="https://drive.google.com/uc?id=1NRXuxc1qx_EwIZ9A63_JAkKD6uSpivHb">


#### perceptron(퍼셉트론)
# $$ \hat{y} = g(\sum_{i=1}^m x_iw_i)$$
> 인공신경망의 가장 기본이 되는 단위.  
위의 기본적인 신경망 구조에서 hidden layer의 노드 하나에 대한 자세한 구조를 살펴본다면 아래와 같은 구조를 갖는다.  
각 노드의 선형 함수의 합에 비선형 **활성함수 g(activation function)를 적용**하여 비선형 변환을 만든다.  
>><img src="https://drive.google.com/uc?id=1-KcMMdqfEHYwPeDuGQQ5623VAvp7oxXm">

#### activation function(활성화함수)
> 노드의 선형식 결과를 비선형 출력결과로 만들어주는 함수  
딥러닝 강의가 아니기에 각 함수별 특징은 참고링크를 확인해주세요  
https://deepinsight.tistory.com/113
>><img src="https://drive.google.com/uc?id=1G95TtpGcYZ75-P4tjSX3EzpP6hfi5loO">

## 모델 학습
### Cost functions
> 일반적인 머신러닝 모델과 마찬가지로 **비용함수(cost function)를 정의하고 최소화 하는 방향**으로 학습시킨다.  

모델 출력값에 따른 비용함수는 아래와 같다.

> **MAE**(회귀모델)
>><img src="https://drive.google.com/uc?id=1RnkdTrErpOEK_pqPgrJASSpaYZMaQtII">

> **Cross entropy loss**(이진 분류)
>><img src="https://drive.google.com/uc?id=1cWDiTXKPaKPMSmZ2wpPyhtUEcZml3k4i">

> **Softmax**(다중 클래스 분류)
>><img src="https://drive.google.com/uc?id=1oNzYAkccbohXOEEK3gifvWP_H69AZOAs">

### 최적화(순전파)
> 결국 cost function이 의미하고자 하는 바는 **비용함수를 최소화 시키는 가중치를 찾고싶다** 이다.
>><img src="https://drive.google.com/uc?id=1vpAbQJAhkYKUG6sNmb3CgvtBdY4vyten">
<img src="https://drive.google.com/uc?id=1ImhFj4qtiYazwUb7YLjAqo38g2HHjyLO">

일반적인 머신러닝 알고리즘이 가정에 따른 비용함수 최소화를 목적으로 했다면 신경망의 최적화는 **가중치에 따른 비용함수 최소화**를 목적으로 한다.  
즉, 학습이 진행되는 스텝마다 가중치를(그래디언트 반대방향으로)업데이트 하면서 최적값을 찾는 과정을 거친다.

### 역전파(back propagation)
> 오차에 대한 가중치를 업데이트 하기 위한 방법론으로 가중치의 변화가 최종 비용함수에 어떤 영향을 미치는지를 계산  
chain rule을 활용 비용함수로부터 역방향으로 계산한다.
>> w2에 대한 가중치 업데이트
<img src="https://drive.google.com/uc?id=1NqlnOVAJCCDeWnk9r_5AK1x_b6Y_R62A">
>> w2에 대한 비용함수의 편미분 식을 ($\hat{y}$에 대한 비용함수 편미분) X (w2에 대한 $\hat{y}$ 편미분)의 식으로 전개
<img src="https://drive.google.com/uc?id=1hOIW7EXow5gQab68QOo5HII2JAzhDg0u">
>> 이후 w1에 대한 가중치 업데이트도 마찬가지 방법으로 편미분 chain rule 활용한다.
<img src="https://drive.google.com/uc?id=1WmhbYLibGLvxuxdLAKKREnkC9zkuedff">
>><img src="https://drive.google.com/uc?id=1itEcg3mgJWvdH0n7odwHBRbm3ieg6cB_">

### 학습률(learning rate)
> 신경망 학습에는 학습률이 중요한데 chain rule을 통해 구해지는 업데이트 값에 학습률을 곱해 가중치를 업데이트 한다.  
적절한 학습률은 너무 큰 업데이트값을 사용함으로서 모델 학습이 되지 않거나 너무 작은 업데이트 값을 곱해 학습이 더뎌지는 문제를 해결할 수 있다.  
가중치 X 학습률 $\eta$ 만큼 업데이트 하면서 최적값을 찾는 과정을 거친다.
# $$W \leftarrow W - \eta{{\partial j}(W)\over{\partial W}}$$

## neural network 실습

In [30]:
# kospi 데이터 불러오기


Unnamed: 0.1,Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,y
0,0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [38]:
# 불필요한 데이터 삭제


0        0
1        1
2        2
3        3
4        4
      ... 
501    501
502    502
503    503
504    504
505    505
Name: Unnamed: 0, Length: 506, dtype: int64

In [39]:
# 데이터 분할


In [40]:
# 테스트 데이터 분할


In [41]:
# 모델 import


In [42]:
# 모델 생성

'''
hidden_layer_sizes=(39,) : 히든레이어 구조(40, 40, 60) 튜플로 전달
activation='relu': 활성함수
learning_rate_init=0.001: 학습률
max_iter=200 : 학습 반복 횟수

데이터에 맞는 히든레이어 구조는 다 다릅니다. 
큰 데이터라도 깊이가 얕은 모델의 성능이 좋을 수 있어 파라메터 서칭이 필요합니다.
일반적으로는 구조가 복잡해질수록 학습률을 줄이면서 반복횟수를 많이 가져가게 됩니다.

이 외 파라메터는 최적화 관련 파라메터인데 현재 가장 좋은 알고리즘이 기본적으로 탑재되어 있으니 그냥 쓰시면 됩니다.
수업시간에 모두 다루기 어렵습니다.
'''

"\nhidden_layer_sizes=(39,) : 히든레이어 구조(40, 40, 60) 튜플로 전달\nactivation='relu': 활성함수\nlearning_rate_init=0.001: 학습률\nmax_iter=200 : 학습 반복 횟수\n\n데이터에 맞는 히든레이어 구조는 다 다릅니다. \n큰 데이터라도 깊이가 얕은 모델의 성능이 좋을 수 있어 파라메터 서칭이 필요합니다.\n일반적으로는 구조가 복잡해질수록 학습률을 줄이면서 반복횟수를 많이 가져가게 됩니다.\n\n이 외 파라메터는 최적화 관련 파라메터인데 현재 가장 좋은 알고리즘이 기본적으로 탑재되어 있으니 그냥 쓰시면 됩니다.\n수업시간에 모두 다루기 어렵습니다.\n"

In [43]:
# 모델 학습




In [44]:
# 모델 예측 결과값 저장


In [45]:
# 모델 평가


R2 score :0.7207748398384975
RMSE :4.4219159198837
