# **딥러닝 알고리즘의 발전(2010~)**

[![Open in Colab](http://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/thekimk/All-About-Deep-Learning/blob/main/Lecture4-1_DeepLearning_AdvancedAI_KK.ipynb)

## 위기극복의 계기

- **NN의 두번째위기:** (1) `Vanishing Gradients`, (2) `Local Minimum`, (3) Low Learning Time, (4) Curse of Dimensionality

> **"RBM 이외에도, `Supervised Learning 문제에서의 아이디어로` 해법 개발 노력"**

---

**1) Vanishing Gradients의 해결:** `활성화 함수 ReLU`

<center><img src='Image/Expert/DL_ActivationFunction_Type.png' width='700'></center>

- `Sigmoid`는 신경망이 깊어지면 여전히 `비용함수 최적화가 어려운 이슈` 발견
- `다양한 미분가능한 비선형 활성화 함수` 필요성이 증가했고 `ReLU`가 Vanishing Gradient의 문제를 해결(Hinton et al. 2010)
- 기존 활성화 함수는 양끝의 기울기가 0이 되는 이슈가 있었으나, ReLU는 `기울기가 0으로 감소하는 현상이 없고 일반적으로 학습성능도 향상`

<center><img src='Image/Expert/Logistic_ReLU.png' width='400'></center>

- 미세변화(미분) 중첩의 문제가 해결되면서 `선학습(Pre Training)도 불필요` (Bordes and Bengio. 2011)
- 많은 종류의 비선형적 `활성화 함수가 지금도 개발중`

<center><img src='Image/Expert/DL_ActivationFunction_Type_All.png' width='1100'>(https://miro.medium.com/max/814/1*F9-nc6ez5GOJ1mdB3TLlow.png)</center>

---

**2) Local Minimum의 해결:** `Global Minimum` $\approx$ `Local Minimum`

> - `고차원 데이터나 Non-convex 형태의 비용함수에서의 최적화`를 하더라도 Local Minimum들은 서로 유사할 것이며 Global Minimum과 큰 차이가 없을 것(Bengio et al. 2014)

## 가중치 추정 최적화

> **"`비용함수가 가능한 낮은 가중치`를 찾아가는 과정"**  
> - **Prerequisite:** Derivatives, Partial Derivatives, Chain Rule

---

**1) 추정 프로세스:**

<center><img src='Image/Expert/DNN_Process.PNG' width='700'>(https://www.inf.ufpr.br/todt/IAaplicada/CNN_Presentation.pdf)</center>

> **(1) 네트워크 초기화:** `가중치의 초기값`이 필요하며 일반적으로 `무작위로 초기화` 됨   
>
> - 초기값이 모두 같으면 모든 노드들의 입력값에 동일 가중치가 반영되어 `같은 값이 출력되고` 역전파로 인해 `비용함수 변화량도 모두 동일`해지므로 다른값 필요   
>
> **(2) 순전파:** 초기화된 가중치들의 출력이 퍼셉트론을 거쳐 Output Layer에 도달
>
> - $\hat{Y}_{init} = f(\sum_{i}^{k} w_i x_i - \theta)$  
>
> **(3) 비용함수 평가:**
>
> - **회귀문제:** $MSE = \frac{1}{k} \sum_{i=1}^{k} (\hat{Y}_{init} - Y)^2$    
>
> - **분류문제:** $Cross Entropy = \sum_{i=1}^{k} \left[ - \color{red}{\hat{Y}_{init} log (Pr(\hat{Y}_{init}))} - \color{blue}{(1-\hat{Y}_{init}) log (1-Pr(\hat{Y}_{init}))} \right]$    
>
> **(4) 역전파:** `각 가중치 별 현재 비용함수에 미치는 영향` 계산 
>
> - $\frac{\delta E}{\delta w} = \frac{\delta}{\delta w} \frac{1}{k} \sum_{i=1}^{k} (\hat{Y}_{init} - Y)^2$  
>
> **(5) 가중치 업데이트:** 비용함수를 줄이는 방향으로 각 가중치 업데이트
>
> <center><img src='Image/Expert/DL_GD.PNG' width='400'></center>
>
>$$
\begin{aligned}
W_1 &:= W_0 - \alpha \frac{\partial}{\partial w} \left[ \text{Cost Function} \right] \\ &= W_0 - \alpha \frac{\partial C(W)}{\partial W} |_{W=W_0} \\
W_2 &:= W_1 - \alpha \frac{\partial C(W)}{\partial W} |_{W=W_1} \\
W_3 &:= W_2 - \alpha \frac{\partial C(W)}{\partial W} |_{W=W_2} \\
& \vdots \\
W &:= W - \alpha \frac{\partial C(W)}{\partial W}
\end{aligned}
$$
>
> $$W_i^{new} = W_i^{old} - \alpha \Delta W_i^{old} = W_i^{old} - \alpha \frac{\delta C}{\delta w_i}$$  
>
> - **$\alpha$:** `학습률(Learing Rate)`이 낮으면 추정이 느리고, 높으면 최적점을 벗어나 오차가 증가될 수 있음

---

**2) 예시:**

> <center>$총비용(Y) = w_{정장}X_{정장} + w_{셔츠}X_{셔츠} + w_{타이}X_{타이}$</center>
> <center><img src='Image/Expert/DL_Optimization_Example.png' width='400'></center>
>
> **(1+2) 네트워크 초기화 및 순전파:**  초기가중치($w^{initial}$)가 모두 150원이라면 `총비용은 1500원 출력`    
>
> **(3) 비용함수 평가:** 
>
> - **회귀문제:** $MSE = \frac{1}{k} \sum_{i=1}^{k} (\hat{Y}_{init} - Y)^2 = 423200$    
>
> **(4) 역전파:** $\frac{\delta E}{\delta w} = \frac{\delta}{\delta w} \frac{1}{k} \sum_{i=1}^{k} (\hat{Y}_{init} - Y)^2$  
>
> - $\frac{\partial MSE}{\partial w_i} = \frac{\partial Y}{\partial w_i} \frac{d MSE}{dY} = X_i (\hat{Y} - Y)$
>
> **(5) 가중치 업데이트:** $$W_i^{new} = W_i^{old} - \alpha \Delta W_i^{old} = W_i^{old} - \alpha \frac{\delta C}{\delta w_i}$$  
>
> $$\rightarrow W_i^{new} = W_i^{initial} - \alpha \frac{\delta MSE}{\delta W_i} = W_i^{initial} - \alpha X_i(\hat{Y} - Y)$$ 
>
> - **정장:** $$W_{정장}^{new} = W_{정장}^{initial} - \alpha X_{정장} (\hat{Y} - Y) \\ = 150 - (1/500)2(920) = 146.32$$
>
> - **셔츠:** $$W_{셔츠}^{new} = W_{셔츠}^{initial} - \alpha X_{셔츠} (\hat{Y} - Y) \\ = 150 - (1/500)5(920) = 140.8$$
>
> - **타이:** $$W_{타이}^{new} = W_{타이}^{initial} - \alpha X_{타이} (\hat{Y} - Y) \\ = 150 - (1/500)3(920) = 144.48$$
>
> **(2') 순전파:** `총비용은 1430.08원`(69.92 감소)
>
> **(3') 비용함수 평가:** $MSE = \frac{1}{2}(580 - 1430.08)^2 = 361318$ (14.6% 감소)
>
> **(4') 역전파:** $\frac{\delta E}{\delta w} = \frac{\delta}{\delta w} \frac{1}{k} \sum_{i=1}^{k} (\hat{Y}_{init} - Y)^2$ 
>
> **(5') 가중치 업데이트:** $$W_i^{new} = W_i^{old} - \alpha \Delta W_i^{old} = W_i^{old} - \alpha \frac{\delta C}{\delta w_i}$$  
>
> (...) **`비용함수가 더이상 변하지 않는` 최소값이 될때까지 반복하여 `목표값(580원)에 가까운 추정치 확보`**

---

**3) 결론:**

<center><img src='Image/Expert/DL_MLP_Learning.PNG' width='600'></center>

- **이슈:** 딥러닝은 추정해야할 가중치($W$)가 너무 많아 선형/로지시틱회귀분석에서의 `모든 가중치를 수학적 및 통계적으로 하나씩 규명 또는 추정하기 어려움`

- **대응:** `비용함수를 최소`로 하는 위치의 가중치(W)를 추정하는 `최적화 알고리즘` 활용

> - **Gradient Descent Algorithm:** 예시처럼 비용함수의 변화에 따라 `가중치 업데이트하는 대표적 알고리즘 `
>
> $$W_i^{new} = W_i^{old} - \alpha \Delta W_i^{old} = W_i^{old} - \alpha \frac{\delta C}{\delta w_i}$$  
>
> - **변화량크기:** 기울기 변화 크기로 `크면 가중치가 크게` 변경되고 `작으면 가중치가 작게` 변경
> - **학습율(Learning Rate):** 이동속도로 `크면 가중치가 크게` 변경되고 `작으면 가중치가 작게` 변경
>
> <center><img src='Image/Expert/DL_Optimization_Flow.png' width='600'></center>

---

**4) 최적화 알고리즘 종류 및 방향:**

<center><img src='Image/Expert/DL_Optimization_Direction.png' width='700'></center>

<!-- <center><img src='Image/Expert/DL_Optimization_Direction_KR.png' width='700'>(https://www.slideshare.net/yongho/ss-79607172)</center> -->


## 과적합 개선 아이디어

> **"Layer를 증가시킬수록 성능은 향상되지만 `연산이 기하급수적으로 늘어나 학습시간이 오래걸리고 과적합(Overfitting) 가능성 높아짐`"**

---

**1) Regularization:** `비용함수를 개선`하여 과적합 낮춤

> **"`추정 가중치가 커지면` 활성함수를 통해 `기울기가 급변`하게되어 비용함수 최소화가 어렵고 `과적합 높아짐`"**   
>
> **(0) Linear Regression:** `MSE`를 비용함수로 사용
>
> <center> $\hat{w} = \underset{w}{\arg\min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k w_i x_{ij}\Bigr)^2\Biggr]$ </center>
>
> **(1) L1 Panelty:** `LASSO Regression`에 사용한 비용함수 반영    
>
> \begin{align*}
\hat{w} = \underset{w}{\arg\min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k w_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k \left|w_i \right|\Biggr] \\ where~\lambda~is~hyper~parameter(given~by~human)
\end{align*}
>
> - `중요도가 낮은 변수`의 가중치는 0으로 출력하여 과적합 방지
> - `변수선택 효과`가 있어 모델 복잡도를 효과적으로 제약
> - 샘플 수보다 변수가 많더라도 변수선택 효과 때문에 `고차원의 데이터도 적용가능`
> - `패널티의 정도`는 Hyperparameter로 사전 결정되며 교차검증이나 유사 방법으로 결정
> - `모델에 제약`을 주며 정확도를 상승시킴   
>
> **(2) L2 Panelty:** `Ridge Regression`에 사용한 비용함수 반영   
>
> \begin{align*}
\hat{w} = \underset{w}{\arg\min} \Biggl[\displaystyle \sum_{j=1}^t \Bigl(y_j - \displaystyle \sum_{i=0}^k w_i x_{ij}\Bigr)^2 + \lambda \displaystyle \sum_{i=0}^k w_i^2\Biggr] \\ where~\lambda~is~hyper~parameter(given~by~human)
\end{align*}
>
> - `모든 가중치`를 일률적으로 `작게 만드는 경향`
> - `중요도 낮은 변수`라도 0이 아닌 가중치를 출력하므로 `일반화 및 변수비교 효과`
> - 일반화 및 패널티 효과를 높이기 위해 `L1 보다 L2를 많이 사용하는 경향`

<center><img src='Image/Expert/DL_CF_L1L2.png' width='600'></center>

<center><img src='Image/Expert/DL_CF_L1L2_Compare.png' width='600'></center>
<!-- (https://kevinthegrey.tistory.com/110) -->

---

**2) Drop Out:** 은닉층의 `일부 뉴런을 무작위 확률로 제외`하면서 학습 

> **"`모든 직원`이 함께 일하는 것 < `소그룹`의 결과를 통합하는 것 $\rightarrow$ 더욱 효율적일수도"**    
>
> **"각 단계의 줄어든 뉴런은 약한 학습이지만 `약한 모델들이 합쳐져 강력한 예측력`"**   
>
> - `Labeled 데이터의 부족`과 `Overfitting 문제 해결`을 위해 Drop Out 제안 (Hinton et al. 2012)
> - 학습할 때마다 `일부 유닛만을 사용하고 이를 반복해서 합치는 방식`으로 `Ensemble과 유사`
> - 빠진 뉴런들로 예측 하기에 `여러개의 국소적 독립적 내부패턴 학습가능`
> - 네트워크가 `뉴런의 특정 가중치에 덜 민감해짐`
> - `더욱 일반화에 기여가 가능`하고 훈련 데이터에만 과적합 가능성 적어짐
> - 너무 낮은 비율은 효과가 적고 너무 높은 비율은 과소적합 하기에 `20~50% 권장`
> - 일반적으로 `Learning Rate(LR, 10->100)과 Momentum(0.9 or 0.99)을 높여 사용`
> - LR을 높여 가중치의 크기를 줄이면 Ridge와 유사하게 `과적합이 줄어 높은 성능`

<center><img src='Image/Expert/DL_DropOut.png' width='500'></center>
<!-- (https://t1.daumcdn.net/cfile/tistory/99324B335D383CBD1B) -->

> - 랜덤한 뉴런을 사용하는 것 대신, `연결선을 랜덤하게 사용하는 DropConnect 방법`도 존재 (Wan et al. 2013)

<center><img src='Image/Expert/DL_Dropout_Dropconnect.png' width='700'></center>

---

**3) Early Stopping:** Test 성능이 빠르게 높아진 경우 `계속 학습하지 않고 일찍 종료`하는 방법   

> **"데이터가 Train/Validation/Test로 구분되어 있을때, `Validation/Test의 비용함수가 낮으면 멈추므로 Train을 계속 학습하는 과적합 가능성 낮춤`"**   

<center><img src='Image/Expert/DL_Overfitting_Epoch.png' width='600'></center>

<center><img src='Image/Expert/DL_Overfitting_EarlyStopping.png' width='600'></center>
<!-- (https://kevinthegrey.tistory.com/110) -->


## 하이퍼파라미터 최적화

> **"최종적으로 `미래 데이터 예측에 적합한 최적 가이드를 하이퍼파라미터로 표현`"**

<center><img src='Image/Expert/Hyperparameter_Tuning.png' width='900'>(Hyperparameter tuning for big data using Bayesian optimisation)</center>

---

**0) 에러분석:** `에러를 수동으로 분석`하여 `모델링에 도움될 패턴을 찾아내어 반영`

**1) 학습성능변화:** 하이퍼파라미터의 변화에 따른 `성능변화를 추적하여 최적 하이퍼파라미터 선택`    

> - `데이터 분리 비율`
> - `가중치 초기값`
> - `은닉층의 수`
> - `Regularized 비중`
> - `DropOut 비율`
> - `Cost Function 선정`
> - `Learning Rate 크기`
> - `Early Stopping 고려기간`
> - `Batch 크기`
> - `Epoch 횟수`

---

- **예시:**

<center><img src='Image/Expert/DL_hyperparameter_epoch.png' width='600'></center>

<center><img src='Image/Expert/DL_hyperparameter_search_simple.jpg' width='800'></center>

<center><img src='Image/Expert/DL_hyperparameter_table_simple.png' width='350'></center>


## 딥러닝 발전 요약

> **1) 1950년대 `퍼셉트론(Perceptron)`에서 시작된 인공신경망 연구는 1980년대 `오류의 역전파알고리즘(Error Backpropagation Algorithm)`으로 `다층퍼셉트론(Multilayer perceptron)`을 학습할 수 있게 되면서 발전을 이루었다.**
>
> **2) 하지만 `Gradient Vanishing, Labeled 데이터의 부족, Overfitting, Local Minimum 등`이 잘 해결되지 못해 2000년대 초까지 인공신경망 연구는 잠시 지지부진 하였고,** 
>
> **3) 2006년부터 `볼츠만머신을 이용한 Unsupervised Learning`인 Restricted Boltzmann Machine(RBM), Deep Belief Network(DBN), Deep Boltzmann Machine(DBM), Convolutional Deep Belief Network 등이 개발되면서 Unlabeled data를 이용하여 `Pre-training을 수행할 수 있게 되어 위에 언급된 다층퍼셉트론의 한계점이 극복`되었다.**
>
> **4) 2010년부터 `빅데이터를 적극적으로 이용`함으로서 수많은 Labeled 데이터를 사용할 수 있게 되었고,**
>
> **5) `Rectified Linear Unit (ReLU), DropOut, DropConnect 등의 발견`으로 Vanishing Gradient문제와 Overfitting 이슈를 해결하여 Supervised Learning이 가능하게 되었으며, `Local Minimum 문제도 High Dimension Non-convex Optimization에서 얼마나 Global Minimum과 차이가 나는지 연구되고 있으며 큰 차이가 없다`라는 연구도 있다.**


# **다양한 딥러닝 알고리즘의 등장**

> **"인공지능 알고리즘은 지난 60여 년 동안 `두 번의 침체기와 두 번의 전성기`를 겪었고
현재 인공지능은 `세 번째 전성기 대두`"**
>
> - **1차 전성기(1950년대 후반~1960년대 초):** 추론과 탐색 기법 중심이었으나 `간단한 문제를 해결`하는 것 외에 `뚜렷한 가능성을 제시하지 못하고` 곧바로 1차 침체기를 경험함
>
> - **2차 전성기(1980년대 후반~1990년대 초):** `특정 분야`에서 `정해진 규칙에 따라 전문가시스템`을 구축하는 방식이었으나 `확장성 측면에서 한계`를 보이며 2차 침체기를 맞이함
>
> - `2012년 ImageNet Challenge 대회`에서 딥러닝이 압도적 성능으로 우승한 이후 `DNN/CNN/RNN 등 알고리즘이 비약적으로 발전`
>
> - 신경망의 `고전적 문제들은 대부분 해결`되고 `빅데이터`의 폭발적인 증가와 `하드웨어 기술의 발전`으로 산업에 본격적으로 활용


---

**0) MLP(Multi-Layered Perceptron):** 데이터의 `패턴 또는 지식`을 추론하는 방법

- 은닉층의 수가 증가하면 더욱 어려운 문제를 풀수 있는데, 통상 `은닉층을 최소 2개이상 가진 알고리즘`을 `딥러닝(Deep Learning)` 알고리즘 이라고 함

<center><img src='Image/Expert/DL_MLP_Custom.PNG' width='500'></center>

 ## Convolutional Neural Network(CNN) 발전

<center><img src='Image/Expert/CNN_Example.webp' width='900'></center>

- `기존`의 방식은 `데이터에서 지식을 추출`해 학습이 이루어졌지만, CNN은 `데이터의 특징을 추출하여 특징들의 패턴을 파악`하는 구조

- `이미지처리`를 위해 특수 고안된 구조로 `데이터의 패턴을 추출하고(Convolution) 차원을 줄여 일반적인 패턴으로 정교화(Pooling)`하는 층으로 구성

> - `Lenet5 (1998)`
> - `Alexnet (2012)`
> - `ZFNet (2013)`
> - `VGGNet (2014)`
> - `GoogLeNet (2014)`
> - `ResNet (2015)`

---

**1) Lenet5 (1998)**

> <center><img src='Image/Expert/CNN_Lenet5.PNG' width='800'>(A Shallow Convolutional Neural Network for Accurate Handwritten Digits Classification, 2017)</center>
>
> - Image Classification에 거의 보편적으로 사용되는 `Convolutional Neural Network(CNN)을 최초로 제안한 논문`인 Yann LeCun의 LeNet-5
> - MLP가 가지는 한계점인 `입력 pixel수가 많아지면 parameter가 기하급수적으로 증가`하는 문제, `국소 이미지의 왜곡 문제 등`을 지적하며, 이러한 문제를 해결할 수 있는 `Convolutional Neural Network 구조를 처음 제안`
> - `입력층을 1차원적 관점에서 2차원으로 확장`하였고, `추정 가중치를 공유`하기 때문에 입력 데이터수가 증가해도 `파라미터 수가 변하지 않아 학습속도가 빠르고 일반화 능력 우수`
> - `그레이스케일 입력 이미지`로 `디지털화된 수표(수표)의 손으로 쓴 숫자를 인식`하기 위해 여러 `은행에서 적용`

---

**2) Alexnet (2012)**

> <center><img src='Image/Expert/CNN_AlexNet.PNG' width='700'>(ImageNet Classification with Deep Convolutional)</center>
>
> - Classification 성능을 겨루는 대회인 `ILSVRC 대회`가 2010년부터 매년 열렸는데, SuperVision 이라는 이름의 팀이 `2012년 압도적인 성능으로 우승`하게 되고 이때 사용한 모델이 AlexNet
> - AlexNet은 Alex Krizhevsky, Geoffrey Hinton 및 Ilya Sutskever 교수진이 개발한 `딥러닝의 혁명을 일으킨 CNN 모델`
> - `활성함수는 ReLU + GPU를 사용한 Convolution 연산`
> - Lenet5에 비해 학습시간 단축 및 `Dropout 및 PCA를 이용한 Data Augmentation으로 과적합 방지`

---

**3) ZFNet (2013)**

> <center><img src='Image/Expert/CNN_ZFNet.PNG' width='800'>(Visualizing and Understanding Convolutional Networks)</center>
>
> - `ILSVRC 2013 대회에서 우승`한 Clarifai 팀의 Zeiler와 Fergus의 이름을 따서 지은 ZFNet
> - `AlexNet을 기반`으로 첫 Conv layer의 filter size를 11에서 7로, stride를 4에서 2로 바꾸고, 그 뒤의 Conv layer들의 filter 개수를 키워주는 등(Conv3,4,5: 384, 384, 256 –> 512, 1024, 512) 약간의 튜닝
> - 학습이 진행됨에 따라 `Feature Map을 시각화`하는 방법과, 모델이 `어느 영역을 보고 예측을 하는지 관찰`하기 위한 Occlusion 기반의 Attribution 기법 등 `시각화 측면에 집중`

---

**4) VGGNet (2014)**

> <center><img src='Image/Expert/CNN_VGGNet_Comparison.png' width='600'>(http://cs231n.stanford.edu/)</center>
>
> - `옥스포드 연구진에서 2014년` 발표한 VGG로 `ILSVRC 2014 대회에서 2위`의 성적
> - 이전 방식들과는 다르게 `비교적 작은 크기인 3x3 convolution filter를 깊게 쌓는다`는 것이 VGG의 핵심
> - 현재 `이미지 패턴 추출 커뮤니티에서 가장 선호되는` 방식 중 하나
> - 오류율이 7.3%로 줄어들어 `정상적인 사람의 이미지 분류성능과 매우 근접한 수준`

---

**5) GoogLeNet (2014)**

> <center><img src='Image/Expert/CNN_GoogLeNet.png' width='800'>(Design and Development of Diabetes Management System Using Machine Learning)</center>
>
> - `ILSVRC 2014 대회에서 1위`를 하였으며 `Inception Architecture라는 예명`
> - GoogLeNet을 기점으로 `거대 기업들이 뛰어들었다는 점`이 주목할만 하고 `Google과 LeNet을 합쳐서 작명`
> - `Global Average Pooling(GAP)`를 사용하여 총 1024개의 노드를 만든 뒤 class 개수(ImageNet=1000)의 output을 출력하도록 하나의 Fully-Connected layer만 사용하여 AlexNet, ZFNet, VGG 등에 비해 `훨씬 적은 수의 파라미터`
> - 22층의 `CNN으로 입센셥 모듈이라는 블록을 반복 사용`하는 모델
> - 인셉션 모듈은 `CNN의 최적 희소구조를 찾아내고 이를 사용가능한 패턴으로 근사`

---

**6) ResNet (2015)**

> <center><img src='Image/Expert/CNN_ResNet.PNG' width='1000'>(Deep Residual Learning for Image Recognition)</center>
>
> - `Microsoft Research`에서 제안한 구조이며 `ILSVRC 2015 대회에서 1위`를 차지하며 `최초로 사람의 분류 성능을 뛰어넘은 모델`로 평가
> - Layer의 개수에 따라 `ResNet-18, ResNet-34, ResNet-50, ResNet-101, ResNet-152 등 5가지 버전`으로 나타낼 수 있으며, ILSVRC 2015 대회에선 ResNet-152로 1위를 차지
> - `152개의 레이어`로 훈련할 수 있고 `인간 수준의 성능을 능가하는 3.57% 오류율`
> - 층이 많아지다 보니 연산량도 많아지게 되는데, Inception module에서 보았던 `Bottleneck 구조를 차용하여 Bottleneck Residual Block 을 중첩하여 사용`하는 점이 특징
> - 이후 모델은 `ResNeXt, DenseNet, MobileNets 등`

## Recurrent Neural Network(RNN) 발전

> **"일상 생활에서의 `기계변역, 음성인식, 텍스트분류, DNA 시퀀싱 분석 등` Sequential Modeling 이슈는 항상 존재하며 `대부분 지도학습`에 속하고, `입력과 출력의 크기는 가변적`"**
>
> - 1986년에 개발되어 `반복적이고 순차적인 데이터(Sequential data)학습에 특화`된 인공신경망의 한 종류로써 내부 뉴런들이 순환구조로 연결되어 `과거 정보를 기억하는 특징`이 있고 `입출력의 크기를 가변적 조절 가능`

<center><img src='Image/Expert/RNN_Example.webp' width='400'>(https://medium.datadriveninvestor.com/recurrent-neural-network-with-keras-b5b5f6fe5187)</center>

- 순환구조를 이용하여 `과거의 학습을 Weight를 통해 현재 학습에 반영`
- 기존의 지속적이고 `반복적이며 순차적인 데이터학습의 한계를 해결`한 알고리즘
- `현재의 학습과 과거의 학습의 연결`을 가능하게 하고 `시간에 종속`된다는 특징
- 훨씬 많은 정보와 공간이 있는 이미지와 달리, `RNN 아키텍처의 수는그렇게 다채롭지 않음` 
- RNN 발전의 핵심은 `과거의 중요한 정보를 최대한 많이 기억하려는 방향`
- CNN으로도 적절한 데이터 처리로 가능할 순 있지만 `쉽지 않으며 굳이 성격이 다른 모델을 고려할 필요 없음`

> - `RNN (1986)`
> - `LSTM (1997)`
> - `GRU (2014)`
> - `Sequence-to-Sequence (Seq2Seq, 2014)`
> - `Attention (2015)`
> - `Transformer (2017)`

---

**0) RNN의 다양한 입출력 처리:** `일반적 신경망`은 `다양한 크기의 입출력 처리 어려움`

- **장점:** 크게 4가지 유형으로 분류되며 `무엇을 입력/출력하는지에 따라 유연하게 활용` 가능

<center><img src='Image/Expert/DL_RNN_Type.PNG' width='700'></center>

> - **One-to-One:** Vanilla Neural Networks
> - **Many-to-One:** Classification, Time Series Analysis, Sentiment Analysis, Spam Detection
> - **One-to-Many:** Image Captioning, Target Explanation
> - **Many-to-Many:** Time Series Analysis, Machine Translation, Prediction of Next Word, Video Classification (`return_sequences = True`)

- **단점:** `과거를 기억하는 어려움` 및 기울기가 0이 되거나 폭발하여 `메모리 부족`

---

**1) LSTM (1997)**

> <center><img src='Image/Expert/LSTM_Architecture.PNG' width='700'>(https://blog.mlreview.com/understanding-lstm-and-its-diagrams-37e2f46f1714)</center>
>
> - `기존 RNN`이 소수의 매개변수가 너무 많은 과거 정보를 처리 및 기억하여 `쉽게 과부화 되는 이슈를 해결`한 가장 인기있는 아키텍처
> - 과거의 정보 중`잊어도 되는 정보 + 강조되어야 하는 정보 + 출력할 것`으로 선택적 처리 반영
> - 서로 다른 목적의 `3가지의 논리층`이 `장단기 정보의 기억 성능`을 크게 향상

---

**2) GRU (2014)**

> <center><img src='Image/Expert/DL_LSTM_GRU.png' width='700'>(https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21)</center>
>
> - `LSTM보다 간략화한 구조`로 한국인 뉴욕대 조경현 교수님이 개발 (Cho et al. 2014)
> - LSTM의 개념은 유지한 채 `매개변수를 줄여 계산 시간을 크게 줄임`
> - LSTM과 하이퍼파라미터 설정에 따라 성능이 달라지겠지만, `데이터셋이 적거나 모델의 반복 시도가 많은 경우` 특히 적합할 수 있음

---

**3) Sequence-to-Sequence (Seq2Seq, 2014)**

> <center><img src='Image/Expert/Seq2Seq_Arch1.PNG' width='800'>(https://wikidocs.net/24996)</center>
>
> <center><img src='Image/Expert/Seq2Seq_Arch2.PNG' width='800'>(https://jeddy92.github.io/)</center>
>
> - Encoder와 Decoder라는 개념을 사용한 `2개의 RNN을 연결(Many-to-One + One-to-Many)`하여 `하나의 시계열 데이터를 다른 시계열로 변환`
> - 구조적으로 `고정 크기의 벡터에 정보를 압축`하다보니 `정보손실 발생`
> - 여전히 `병렬처리가 어렵고 많은 계산 복잡도`
> - `입력데이터가 길어지면 성능이 크게 하락`되는 현상 존재
> - 이후 개발된 `Attention & Transformer`가 등장하기 전까지 `딥러닝 기반 번역의 돌파구 역할`
---

**4) Attention (2015)**

> <center><img src='Image/Expert/Attention_Architecture.PPM' width='600'>(Neural Abstractive Text Summarization with Sequence-to-Sequence Models)</center>
>
> - Seq2Seq의 Encoder에서 `일정 크기로 정보를 압축하다 정보손실이 발생하는 문제 보완`
> - Encoder의 압축정보 이외에 `Encoder의 전체 입력 데이터를 구가 검토하여 중요도 반영`
> - 해당 시점에 `예측해야 할 데이터와 관련있는 입력데이터를 조금 더 집중`해서 반영
> - 즉, 반영되지 않은 은닉층의 정보 중 `출력층과 연관성이 높은데이터에 가중치` 
> - Decoder가 Encoder에 입력되는 모든 단어의 정보를 활용할 수 있기 때문에 `장기 의존성 문제를 해결`
> - 여전히 `병렬처리가 어려운 근본적인 단점과 많은 계산 복잡도`

---

**5) Transformer (2017)**

> <center><img src='Image/Expert/Transformer_Architecture.PNG' width='900'>([CS224n] Lecture 14: Transformers and Self-Attention for Generative Models)</center>
>
> - `RNN을 기반으로 하지 않는` 또다른 Encoder-Decoder 구조
> - 인간의 뇌에서 정보를 `잠재공간(Latent Space)`에 저장 후 `다양한 분야에 재활용` 응용
> - Attention 알고리즘의 단점인 `계산 복잡도를 줄임`
> - 입력 데이터의 관계정보를 `병렬처리를 통한 Self-attention`을 사용하여 미리 계산 및 저장하여 `미래 데이터를 효율적으로 예측`
> - Self-attention을 동시에 여러개로 수행하고 `Step마다 다른 Attention 결과`가 제시되어 `앙상블과 유사한 효과`
> - 데이터를 학습할 때 `CNN과 RNN 보다 유의하게 더욱 빠르며 입출력 데이터의 거리에 관계없이 동작가능`
