# 12.1 딥러닝 소개

인간의 각 뉴런은 시냅스로 연결되는데, 자극의 크기가 특정값 이상이면 다른 뉴런에 전달하고, 특정값 이하라면 다른 뉴런에 전달하지 않는다. 이때, 자극을 전달하는 기준인 특정값을 임계치라고 한다. 그래서 인간은 임계치를 넘긴 자극을 신호로 전달받고 그에 해당하는 반응을 하게 되는 것이다.<br>

<p style = "font-size : 15px ; font-weight : bold"> 1. 인공 신경망(Artificial Neural Network) </p>

   * 생명 과학 분야의 아이디어를 머신러닝에 도입한 것<br>
 
<p style = "font-size : 15px ; font-weight : bold"> 2. 딥러닝(Deep Learning) </p>

   * 신경망을 기반으로 학습하는 방법

# 12.2 퍼셉트론, 딥러닝의 기본

### 12.2.1 퍼셉트론의 개념

<p style = "font-size : 15px ; font-weight : bold"> 1. 퍼셉트론(Perceptron) </p>

 * 신경망의 최소 단위
 * n개의 입력값(Input)을 합쳐 입력값 벡터 **x**로 표현<br>
 * n개의 가중치 값을 합쳐 가중치 벡터 **w**로 표현<br>
 * 입력값 벡터와 가중치 벡터의 내적값은 출력값(Output) **z**로 표현<br>
 ![perceptron](https://blog.kakaocdn.net/dn/biE5T3/btqB3qPkNmb/ZfUn6Xo2Np6kJutwdKQO6k/img.png)<br>
 
 * 가중합(Weight Sum) : 입력 데이터에 가중치를 곱한 후 더한 값<br>
 * 활성화 함수(Activation Function) : 출력값을 결정하는 함수<br>
  * 계단 함수, 시그모이드(Sigmoid), 렐루(ReLU), 리키 렐루(Leaky ReLU) 등<br>
 * 가중합은 활성화 함수를 거치면서 최종 출력값 **y**를 반환<br>
  * 가중합과 활성화 함수는 하나의 노드(Node)라고 생각<br><br>
  
### 12.2.2 퍼셉트론으로 분류하기

 * 입력값(Input) : 이미지 데이터<br>

 1. 이미지 픽셀값에 기반한 행렬을 신경망에 넣기 위해 벡터로 변환
  * 행렬을 벡터로 변환 = 행렬 원소를 길게 늘어뜨려 벡터의 형태로 만드는 것<br>
 2. 입력 데이터와 가중치 벡터, 편향을 이용하여 가중합을 구함<br>
 3. 활성화 함수를 통해 점수를 출력<br>
 4. 점수를 비교한 후 최종적으로 점수가 더 높은 것으로 분류<br><br>

### 12.2.3 퍼셉트론 실습<br>

```python
import numpy as np

# 입력층
input_data = np.array([[2, 3], [5, 1]])
x = input_data.reshape(-1)

#가중치 및 편향
w1 = np.array([2, 1, -3, 3])
w2 = np.array([1, -3, 1, 3])
b1 = 3
b2 = 3

# 가중합
W = np.array([w1, w2])
b = np.array([b1, b2])
weight_sum = np.dot(W, x) + b

# 출력층
res = 1 / (1 + np.exp(-weight_sum))
```

In [1]:
# 행렬을 다루기 위한 라이브러리
import numpy as np

In [2]:
# 입력층
input_data = np.array([[2, 3], [5, 1]]) # array method를 이용하여 행렬 데이터 생성
print(input_data) # 2행 2열

x = input_data.reshape(-1) # 기존 행렬을 벡터로 바꾸기 위해 reshape 함수를 사용하고 인자 값으로 -1 입력
print(x) # 벡터로 변환

[[2 3]
 [5 1]]
[2 3 5 1]


In [3]:
#가중치 및 편향
w1 = np.array([2, 1, -3, 3]) # 가중치 벡터 1
w2 = np.array([1, -3, 1, 3]) # 가중치 벡터 2
b1 = 3 # 편향 1
b2 = 3 # 편향 2

In [4]:
# 가중합
W = np.array([w1, w2]) # 가중치 벡터 1, 2를 합쳐 가중치 행렬 W 설정
print(W) # 2행 4열

b = np.array([b1, b2]) # 편향 1, 2를 합쳐 편향 벡터 구함
print(b)

weight_sum = np.dot(W, x) + b # 가중합을 구하기 위해 np.dot을 이용하여 행렬곱 계산
print(weight_sum) # 가중합 결과

[[ 2  1 -3  3]
 [ 1 -3  1  3]]
[3 3]
[-2  4]


In [5]:
# 출력층
res = 1 / (1 + np.exp(-weight_sum)) # Sigmoid 함수를 활성화 함수로 사용
print(res) # 최종 점수

[0.11920292 0.98201379]


# 12.3 인공 신경망으로 하는 딥러닝

### 12.3.1 신경망의 개념

* 다층 퍼셉트론(Multi-Layer Perceptron) : 퍼셉트론의 층이 여러 개<br>
* 기존의 데이터 공간을 변형함으로써 기존의 하나의 퍼셉트론으로는 해결할 수 없었던 문제를 해결할 수 있게 되는 것<br>
  
<p style = "font-size : 15px ; font-weight : bold"> 1. 인공 신경망(Artificial Neural Network) </p>

* **신경망(Neural Network)**
 * 다수의 뉴런을 사용해 만든 것<br>
 ![neural](https://mblogthumb-phinf.pstatic.net/MjAxNzExMTdfMTMy/MDAxNTEwOTA3OTg2MjMy.oPFQMQQh_8p2McfTuxwbtju0IJj8zoVYi_ExH74FH4Ig.W9_cpin9YT53sATdFPyz3n9liWZi_Wj3sUxXORjQrW4g.PNG.samsjang/%EC%BA%A1%EC%B2%98.PNG?type=w2)<br>
 
 **Example. 신경망 예제 - 붓꽃 데이터를 이용하여 꽃의 종류(클래스)를 분류**<br>
  1) 입력층에 붓꽃 데이터의 피처(꽃받침 길이, 넓이, 꽃잎 길이, 넓이, ...) 입력<br>
  2) 해당 데이터들은 은닉층을 거침<br>
  3) 출력층을 통해 출력<br>
     * 출력층의 노드 개수는 분류하려는 클래스의 수와 같음<br><br>
   
* **스코어(Score)** : 출력층의 각 노드가 나타내는 수<br>
 * 스코어가 높을수록 해당 클래스에 속할 확률이 높다는 뜻<br>
 * 최종적으로 스코어가 가장 높은 클래스를 선정<br>
  
<p style = "font-size : 15px ; font-weight : bold"> 2. 신경망의 합성 함수 형태 </p>

* $f(x) = f_3(f_2(f_1(x)))$
  * $f_1$ : 첫 번째 신경망 층
  * $f_2$ : 두 번째 신경망 층
  * $f_3$ : 세 번째 신경망 층<br><br>
 
* 입력층 → 은닉층 : Vector-to-Vector<br>
* 딥러닝(Deep Learning)에서의 함수 : Vector-to-Scalar<br><br>
 
### 12.3.2 오차 역전파

* **오차 역전파(Back Propagation)** : 다층 퍼셉트론에서 최적값을 찾아가는 과정<br>
* 순전파(Forward Propagation) : 입력층 → 은닉층 → 출력층 순서대로 흘러가는 것
* 역전파(Backward Propagation) : 출력층 → 은닉층 → 입력층 순서대로 반대로 거슬러 올라가는 것<br>

1. **가중치 초기화**<br><br>
 
2. **순전파(Forward Propagation)를 통한 출력값 계산**<br><br>
   1. 입력층 → 은닉층<br>
     * $\mathrm{W}_1^{T}x + b_1 = g$<br>
       * $\mathrm{W}_1^{T}x$ : 가중치 × 입력값<br>
       * $b_1$ : 편향값 1<br>
       * $g$ : 입력층 → 은닉층 결과값<br>
     
   2. 은닉층 → 출력층<br>
     * $\mathrm{W}_2^{T}h + b_2 = z$<br>
       * $\mathrm{W}_2^{T}h$ : 가중치 × 활성화 함수를 거친 은닉층 결과값
       * $b_2$ : 편향값 2
       * $z$ : 은닉층 → 출력층 결과값<br>
  
   3. 최종 결과값 $y$<br><br>
  
3. **비용 함수(Cost Function) 정의 및 1차 미분식 구하기**<br>
 * 오차 제곱합 : 신경망 모형을 이용해 구한 계산값 $y$와 실제값 $t$의 차를 제곱하고 모두 더한 것<br>
 * $C = {1\over2}[(y_1 - t_1)^2 + (y_2 - t_2)^2]$<br>
   * ${dC\over dy_1} = y_1 - t_1$<br>
   * ${dC\over dy_2} = y_2 - t_2$<br><br>
   
4. **역전파(Backward Propagation)를 통한 1차 미분값 구하기**<br>
   1. 출력층 → 은닉층<br>
     * $\mathrm{W}_2^{T}h + b_2 = z$<br>
       * ${dz\over dW_2} = h$<br>
       * ${dz\over db_2} = 1$<br>
     * $\begin{pmatrix} w_41 & w_51 \\ w_42 & w_52 \end{pmatrix}\begin{pmatrix} h_1 \\ h_2 \end{pmatrix} + \begin{pmatrix} b_2 \\ b_2 \end{pmatrix} = \begin{pmatrix} z_1 \\ z_2 \end{pmatrix}$<br>
       * $w_{41}h_1 + w_{51}h_2 + b_2 = z_1$<br>
       * $w_{42}h_1 + w_{52}h_2 + b_2 = z_2$<br>
    
   2. 은닉층 → 입력층<br>
     * $\mathrm{W}_1^{T}x + b_1 = g$<br>
       * ${dg\over dW_1} = x$<br>
       * ${dg\over db_1} = 1$<br>
     * $\begin{pmatrix} w_11 & w_21 & w_31 \\ w_12 & w_22 & w_32 \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} + \begin{pmatrix} b_1 \\ b_1 \end{pmatrix} = \begin{pmatrix} g_1 \\ g_2 \end{pmatrix}$<br>
       * $w_{11}x_1 + w_{21}x_2 + w_{31}x_3 + b_1 = g_1$<br>
       * $w_{12}x_1 + w_{22}x_2 + w_{31}x_3 + b_1 = g_2$<br><br>
   
5. **파라미터(Parameter) 업데이트**<br>
 * 가중치를 업데이트하는 과정<br>
 * $w_{nm} → w_{nm} - \eta {dC\over dw_{nm}}$<br>
 * $b_n → b_n - \eta {dC\over db_n}$
    * $\eta$ : 학습률<br><br>
 
6. **과정 반복(2 ~ 6)**<br><br>

### 12.3.3 활성화 함수

1. **계단 함수(Step Function)**<br>
 * $\phi(x) = \begin{cases} 0, & \mbox{x }\le\mbox{0} \\ 1, & \mbox{x }>\mbox{0} \end{cases}$<br>
 * 입력값이 0 이하일 경우에는 0을 출력, 0을 초과할 때만 1을 출력<br>
 * 계단 함수의 출력값은 0 또는 1<br>
 ![step](https://blog.kakaocdn.net/dn/bVAgGW/btqv3sTf0pi/jdzlln0jIGmLnz6LVUl0FK/img.png)<br>
 
 * 장점 : 사용하기 간단함<br>
 * 단점 : 미분이 가능하지 않음<br><br>
 
2. **부호 함수(Sign Function)**<br>
 * $\phi(x) = \begin{cases} 1, & \mbox{x }>\mbox{0} \\ 0, & \mbox{x }=\mbox{0} \\ -1, & \mbox{x }<\mbox{0} \end{cases}$<br>
 ![sign](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4f/Signum_function.svg/1200px-Signum_function.svg.png)<br>
 
 * -1, 0, 1 값을 출력<br><br>
 
3. **시그모이드 함수(Sigmoid Function)**<br>
 * $\phi(x) = {1 \over {1 + \exp(-x)}}$<br>
 ![sigmoid](https://images.velog.io/images/arittung/post/6765d80c-34ec-4360-94f9-79797b3dd7e1/image.png)<br>
 
 * 0과 1 사이의 값을 출력<br>
 * 단점 : 그래디언트 소실 문제(Vanishing Gradient Problem) 발생<br>
    * 학습하는 과정에서 미분을 반복하면서 발생<br>
    * x 값이 지나치게 크거나 작을 경우, 미분값이 0에 가까워지므로 발생시켜 학습 속도를 느리게 함<br><br>

4. **하이퍼볼릭 탄젠트 함수(Hyperabolic Tangent, tanh)**<br><br>
 * $\phi(x) = 2 \times \phi_{sigmoid}(x) - 1 = {\exp(x) - \exp(-x) \over \exp(x) + \exp(-x)}$<br>
 ![tanh](https://nrms.kisti.re.kr/bitextimages/TRKO201500004103/TRKO201500004103_73_image_45.jpg)<br>
 
 * 시그모이드 함수를 변형한 함수<br>
 * -1부터 1 사이의 값을 출력<br><br>
 
5. **렐루 함수(ReLU, Rectified Linear Unit)**<br>
 * $\phi(x) = \begin{cases} x, & \mbox{x }>\mbox{0} \\ 0, & \mbox{x }\le\mbox{0} \end{cases}$<br>
 * $\phi(x) = max(x, 0)$<br>
 ![relu](https://blog.kakaocdn.net/dn/cFtDSg/btq5rOn4fBs/NQpRbwc9xXAZKjkAEvYoe0/img.png)<br>
 
 * x 값이 0 이하라면 0을 출력, 양수이면 x 값을 그대로 출력<br>
 * 상한선이 없음<br><br>
 
6. **리키 렐루(Leaky ReLU)**<br>
 * $\phi(x) = \begin{cases} x, & \mbox{x }>\mbox{0} \\ ax, & \mbox{x }\le\mbox{0} \end{cases}$<br>
 * $\phi(x) = max(x, ax) (if a \le 1)$<br>
 ![reaky](https://kh-kim.github.io/nlp_with_deep_learning_blog/assets/images/1-09/05-leaky_relu.png)<br>
 
 * 일반적으로 a = 0.01<br><br>
 
7. **항등 함수(Identity Function)**<br>
 * $\phi(x) = x$<br>
 ![linear](https://upload.wikimedia.org/wikipedia/commons/thumb/e/eb/Function-x.svg/1200px-Function-x.svg.png)<br>
 
 * 선형 함수(Linear Function)<br>
 * 주로 회귀 문제에서의 출력층 활성화 함수로 사용<br>
 * 입력값 = 출력값<br>
 * 결괏값의 범위 제한이 없음<br>
 * x로 미분했을 때 항상 동일한 값을 가짐<br><br>

8. **소프트맥스 함수(Softmax Function)**<br>
 * $\phi(x_k) = {\exp(x_k) \over \sum_{i = 1}^n \exp(x_i)}$<br>
    * 최종 출력층에 사용되는 함수<br>
    * 분류 문제일 경우 소프트맥스 함수를 사용<br>
  
 * **오버플로우(Overflow)** : 출력값이 컴퓨터가 표현할 수 있는 수의 한계를 초과하는 문제<br>
 * 오버플로우를 해결하기 위한 변형식 : $\phi(x_k) = {\exp(x_k \pm C) \over \sum_{i = 1}^n \exp(x_i \pm C)}$<br>
 * 상수 C : 일반적으로 입력값의 최댓값을 이용<br>
 * 각 확률은 입력값에 비례<br><br>
 
### 12.3.4 배치 정규화

**배치 정규화(Batch Normalization)**<br>
 * 해당 층 값의 분포를 변경하는 방법<br>
 * 평균과 분산을 고정시키는 방법<br>
 * 그래디언트 소실 문제를 줄임<br>
 * 신경망의 학습 속도를 향상시킴<br>

1. 전체 데이터 셋이 $x_n$이라고 했을 때, 미니 배치를 $B = {x_1, ..., x_m}$이라고 함<br><br>

2. 배치 정규화의 인풋(Input)<br>
 * 미니 배치 $B = {x_1, ..., x_m}$<br>
 * 학습 대상이 되는 파라미터 $\gamma$, $\beta$<br><br>
 
3. 배치 정규화를 위한 계산<br>
 * 미니 배치 평균 : $\mu_b = {1/m}\sum_{i = 1}^m x_i$<br>
 * 미니 배치 분산 : $\sigma_B^2 = {1/m}\sum_{i = 1}^m (x_i - \mu_B)^2$<br>
 * 정규화 : $\widehat{x}_i = {{x_i - \mu_B} \over \sqrt{\sigma_B^2 + \epsilon}}$<br>
 * scale and shift : $y_i = \gamma\widehat{x}_i + \beta$<br>
    * 미니 배치의 평균, 분산을 이용해 정규화시켜 평균 0, 분산 1의 분포를 따르게 만듦<br>
    * 정규화 단계에서 분모에 있는 $\epsilon$은 상수로 분산이 0일 경우 분모가 0이 되는 경우를 방지<br>
    * scale 파라미터 $\gamma$와 shift 파라미터 $\beta$를 이용해 정규화시킨 값을 아핀 변환(Affine Transformation)하면 scale과 shift가 가능<br><br>
  
4. 배치 정규화의 아웃풋(Output) : $y_i$<br><br>

### 12.3.5 드롭아웃

**드롭아웃(Dropout)**
 * 신경망의 모든 노드를 사용하는 것이 아닌, 일부 노드를 사용하지 않는 방법<br>
 ![dropout](https://velog.velcdn.com/images%2Fcha-suyeon%2Fpost%2F2884e4ca-d90d-4c39-bd4c-c9a95fa77258%2Fimage.png)<br>
 
 * 어떤 노드를 신경망에서 일시적으로 제거할지는 각 층에서 무작위로 선택<br>
 * 신경망의 노드 수가 줄어듦에 따라 연산량도 줄어듦<br>
 * 오버피팅 방지<br>