# GRU 구조와 동작원리

## <span style="font-size:25px">GRU 단점 - 개요</span>

<dl>
<dt style="font-size:20px">▶ GRU는 LSTM 구조와 비슷하지만, 더 간단한 구조여서 계산상으로 이점이 있음
</dt><br>
<dd style="font-size:18">
✔ GRU는 LSTM에서 사용되는 cell state가 업슨 대신에 GRU 출력 H값이 그 역할을 대신함
<br><br>
✔ GRU 내부 구조 또한 Reset Gate, Updata Gate 두 가지만 존재하며, 이때 사용되는 활성화 
<br>　 함수는 sigmoid 2번과 tanh 1번만 사용되기 때문에 LSTM에 비해 연산량을 줄일 수 있음
<br><br>
<img src="picture/TF_img_22_1.png" alt="TF_img_22_1" width=650>
</dd>
</dl>

## <span style="font-size:25px">LSTM vs GRU</span>

<span style='font-size:20px'>
LSTM 구조의 cell state 역할 => GRU 계층 출력 값 H 수행
<br><br>
LSTM 구조의 활성화 함수 5개 => GRU 구조의 활성화 함수 3개
</span>

## <span style="font-size:25px">GRU 구조</span>

### <span style="font-size:23px">Reset Gate</span>

<img src="picture/TF_img_22_2.png" alt="TF_img_22_2" width=650>
<br><br>

<span style="font-size:20px; color:#FF5454">

&nbsp;&nbsp; $\text{R}_\text{t} = \text{sigmoid}(\text{U}_\text{r}\text{X}_\text{t} \,+\, \text{W}_\text{r}\text{H}_\text{t-1} \,+\, \text{b}_\text{r})$ 

</span>


- <span style='font-size:18px'>Reset Gate는 과거의 정보를 얼마나 잊을 지(또는 기억할 지) 결정하는 게이트임.
<br>즉 현 시점의 데이터 $\text{x}_\text{t}$ 와 과거의 은닉층 값 $\text{H}_\text{t-1}$ 에 각각의 가중치 $\text{W}_\text{f}$ , $\text{U}_\text{f}$ 
<br>곱하여 더한 후에 sigmoid 함수를 적용하여, 과거의 정보를 얼마나 리셋할 지
<br>에 대해 $\text{R}_\text{t}$ (0~1) 값을 출력하는 과정을 나타냄
</span>

### <span style="font-size:23px">Update Gate</span>

<img src="picture/TF_img_22_3.png" alt="TF_img_22_3" width=650>
<br><br>

<span style="font-size:20px; color:#FF5454">

&nbsp;&nbsp; $\text{U}_\text{t} = \text{sigmoid}(\text{U}_\text{u}\text{X}_\text{t} \,+\, \text{W}_\text{u}\text{H}_\text{t-1} \,+\, \text{b}_\text{u})$ 

</span>


- <span style='font-size:18px'>Update Gate는 과거와 현재의 정보 가운데 어떤 정보를 더 많이 업데이트 할 지를 
<br>결정하는 게이트임. 출력값 $\text{U}_\text{t}$ 는 현 시점에서의 가져가야 할 데이터의 양을 결정
<br>하는 값이며, $1 \,-\, \text{U}_\text{t}$ 는 잊어버려야 할 데이터의 양이라고 생각하면 됨
</span>

- <span style='font-size:18px'>GRU Update Gate는 LSTM의 Input Gate와 Forget Gate를 합쳐놓은 개념임
</span>

### <span style="font-size:23px">Candidate (데이터 산정)</span>

<img src="picture/TF_img_22_4.png" alt="TF_img_22_4" width=650>
<br><br>

<span style="font-size:20px; color:#FF5454">

&nbsp;&nbsp; $\text{\~{H}}_\text{t} = \text{tanh}(\text{U}_\text{c}\text{X}_\text{t} \,+\, \text{W}_\text{c}\text{H}_\text{t-1} \,*\, \text{R}_\text{t} \,+\, \text{b}_\text{c})$ 

</span>


- <span style='font-size:18px'>GRU에서 Candidate 단계는 다음 시점으로 전달하는 데이터 
$\text{H}_\text{t}$ 를 만들기 위해, 
<br>현 시점의 데이터를 선정하는 단계
</span>

- <span style='font-size:18px'>데이터 선정단계에서의 핵심은 과거 GRU 층의 출력값 
$\text{H}_\text{t-1}$ 과 리셋된 데이터 $\text{R}_\text{t}$
<br>값을 이용해 pointwise(*) 곱 연산을 함으로서, 현 시점의 데이터 
$\text{X}_\text{t}$ 와 일정 부분 
<br>리셋된 과거 데이터를 가지고서 $\text{\~{H}}_\text{t}$ 데이터를 생성하는 것임
</span>

### <span style="font-size:23px">Output (출력값 계산)</span>

<img src="picture/TF_img_22_5.png" alt="TF_img_22_5" width=650>
<br><br>

<span style="font-size:20px; color:#FF5454">

&nbsp;&nbsp; $\text{H}_\text{t} = (1 \,-\, \text{U}_\text{t}) \,*\, \text{H}_\text{t-1} \,+\, \text{U}_\text{t} \,*\, \text{\~{H}}_\text{t}$ 

</span>


- <span style='font-size:18px'>수식의 
$\text{U}_\text{t}$ 부분은 현 시점의 데이터 중 얼마나 가져갈 것인지를 나타내며, $1 \,-\, \text{U}_\text{t}$
<br>부분은 얼마나 잊을 지를 나타냄
</span>

- <span style='font-size:18px'>즉 
$(1 \,-\, \text{U}_\text{t}) \,*\, \text{H}_\text{t}$ 수식은 이전 단계의 출력값 $\text{H}_\text{t-1}$ 에서 얼마나 잊을 지를 나타내
<br>며, $\text{U}_\text{t} \,*\, \text{\~{H}}_\text{t}$ 는 현 시점의 데이터 가운데 얼마만큼 다음 단계로 가져갈 것인지를 계
<br>산하는 것이므로, 현재와 과거 데이터를 학습된 비율로 모두 합한 값이, GRU 층의 출
<br>력값 $\text{H}_\text{t}$ 임
</span>

## <span style="font-size:25px">GRU summary</span>

<img src="picture/TF_img_22_6.png" alt="TF_img_22_6" width=650>
<br>
<table style="font=size:20px">
<tr>
<td style="text-align:center">계층</td>
<td style="text-align:center" colspan='2'>수식</td>
<td style="text-align:center">학습 파라미터</td>
</tr>

<tr>
<td style="text-align:center" rowspan='4'>GRU<br>계층</td>

<td style="text-align:center">Reset Gate</td>
<td>

$\text{R}_\text{t} = \text{sigmoid}(\text{U}_\text{f}\text{X}_\text{t} \,+\, \text{W}_\text{r}\text{H}_\text{t-1} \,+\, \text{b}_\text{r})$
</td>
<td style="text-align:center">

$\text{U}_\text{r}$ , $\text{W}_\text{r}$ , $\text{b}_\text{r}$
</td>
</tr>

<tr>
<td style="text-align:center">Update<br>Gate</td>
<td>

$\text{U}_\text{t} = \text{sigmoid}(\text{U}_\text{u}\text{X}_\text{t} \,+\, \text{W}_\text{u}\text{H}_\text{t-1} \,+\, \text{b}_\text{u})$
</td>
<td style="text-align:center">

$\text{U}_\text{u}$ , $\text{W}_\text{u}$ , $\text{b}_\text{u}$
</tr>

<tr>
<td style="text-align:center">Candidate</td>
<td>

$\text{\~{H}}_\text{t} = \text{tanh}(\text{U}_\text{c}\text{X}_\text{t} \,+\, \text{W}_\text{c}\text{H}_\text{t-1} \,*\, \text{R}_\text{t} \,+\, \text{b}_\text{c})$
</td>
<td style="text-align:center">

$\text{U}_\text{c}$ , $\text{W}_\text{c}$ , $\text{b}_\text{c}$
</td>
</tr>

<tr>
<td style="text-align:center">output gate</td>
<td>

$\text{H}_\text{t} = (1 \,-\, \text{U}_\text{t}) \,*\, \text{H}_\text{t-1} \,+\, \text{U}_\text{t}\text{\~{H}}_\text{t}$
</td>
<td style="text-align:center">
---
</td>
</tr>

<tr>
<td style="text-align:center" colspan='2'>출력 계층</td>

<td>

$\text{y}_\text{t} = \text{activation\_function}(\text{V}_\text{out}\text{H}_\text{t} \,+\, \text{b}_\text{out})$
</td>
<td style="text-align:center">

$\text{V}_\text{out}$ , $\text{b}_\text{out}$
</td>
</tr>
</table>