# Sequential Data Modeling

Sequential Data: 데이터의 순서가 중요한 데이터

MLP의 경우는 순서를 고려하지 않고 **모든 데이터 간의 관계**를 파악하는 데 집중 <br>
CNN의 경우 순서를 고려하지 않고 **특정 범위 내의 관계**를 파악하는 데 집중 <br>
따라서, **순서 정보가 중요한 데이터를 모델링하기 위한 구조의 필요성**이 대두됨 <br>


## RNN (Recurrent Nueral Network)

<img src="https://miro.medium.com/v2/resize:fit:720/format:webp/1*iP_ahgzkiMNu2hPYhkjlXw.png" width="600" height="300"/>

<br>
<br>

<img src="https://wikidocs.net/images/page/160068/7_Backpropagation-in-RNNs.jpg" width="600" height="300"/>

<br>
<br>

<font style="font-size:20px"> Equation </font> <br>
$ a_t = \textbf{W}_x\textbf{x}_t + \textbf{W}_h\textbf{h}_{t-1} + \textbf{b} $ <br>
$ h_t = tanh(a_t) $

<br>
<br>

<font style="font-size:20px"> 구조 </font> <br>
이전 셀의 hidden state 정보를 받아 현재 cell의 input으로 입력 <br>
&nbsp;&nbsp;&nbsp;&nbsp; 이전 셀의 hidden state는 이전 셀 까지의 정보를 나타내는 vector <br>
위의 두 정보를 결합(add)하여 현재 cell의 input으로 입력 <br>

<br>
<br>

<font style="font-size:20px"> 장점 </font> <br>

1. RNN은 순차적 데이터를 처리
2. 과거 데이터의 패턴을 식별

<br>

<font style="font-size:20px"> 단점 </font> <br>

1. 기울기 소실(Gradient Vanishing)
2. 위의 문제로 장기 메모리를 저장하기에는 부적합
3. 기울기 폭주(Gradient Exploding)

<br>
<br>

1. 기울기 소실

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcJa1Yt%2FbtrO2pbrnzZ%2FJB0yolOkMyzjT5l2KEMT8K%2Fimg.png" width="600" height="300"/>

위의 빨간 선(Back Propagation)에서 tanh와 MatMul 연산을 통해 기울기 업데이트 진행 <br>
여기서 tanh함수의 미분은 아래와 같음

y = tanh(x) = $ \frac{e^x - e^{-x}}{e^x + e^{-x}} $

$ \frac{dy}{dx} = \frac{\partial \tanh(x)}{\partial x} = \frac{(e^x + e^{-x})*(e^x + e^{-x}) - (e^x - e^{-x})(e^x - e^{-x})}{(e^x - e^{-x})^2} $

$ = 1 - \frac{(e^x - e^{-x})(e^x - e^{-x})}{(e^x + e^{-x})^2} $

$ = 1 - \{\frac{(e^x - e^{-x})^2}{(e^x + e^{-x})^2}\}^2 $

$ = 1 - tanh^2(x) $

이를 그림으로 나타내면 아래와 같음

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcaZOSF%2FbtrOYv530Pr%2FnUpvCwWZ4bTVZ8TnIw4zjk%2Fimg.png" width="600" height="300"/>

여기서 $\frac{dy}{dx}$의 그래프 값은 0~1이고, x가 0에서 멀어질수록 작아짐 <br>
이는 역전파에서 기울기가 tanh 노드를 지날 때마다 계속 작아지는 것을 의미 (0보다 작은 값이 계속 곱해짐) <br>

<br>

2. 기울기 폭주

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FzZ16q%2FbtrO00b8Tv2%2F1oNKWoDxDRGkeZvKqDd3SK%2Fimg.png" width="600" height="200"/>


기울기 폭주는 MatMul에 의해 발생 <br>
dh라고 하는 기울기가 들어올 때 MatMul에서 dh와 $\textbf{W}_h^T$의 행렬 곱으로 연산 <br>
위의 연산을 길이 만큼 반복하는데 ($ (dh \textbf{W}_h^T)^t $), 이 때 행렬 곱에서 매번 똑같은 가중치가 사용되고, 가중치의 값에 따라 기울기가 **지수적으로 증가 혹은 감소**

### Tasks

<img src="https://media.springernature.com/full/springer-static/image/chp%3A10.1007%2F978-3-030-82184-5_7/MediaObjects/469466_1_En_7_Fig2_HTML.png?as=webp" width="600" height="300"/>

입력과 출력의 조합에 따라 다양한 task 수행 가능

### Bidirectional


<img src="https://media.geeksforgeeks.org/wp-content/uploads/20230302163012/Bidirectional-Recurrent-Neural-Network-2.png" width="600" height="300"/>

일반적인 RNN 계열은 순방향에서의 정보만을 전달 <br>
이 경우 역방향에서의 정보를 받을 수 없음 <br>
Black is a lawyer이라는 문장이 있을 시 black이 색상인지 사람인지 구분하려고 함 <br>
이 경우 순방향에서의 정보만을 이용해서는 black이 어느 것을 지칭하는지 알기 어려움 <br>
하지만 역방향으로부터 정보를 받으면 lawyer라는 단어를 통하여 사람이라는 것을 유추 가능 <br>
이러한 sequential 데이터의 특성을 반영하기 위해 고안된 것이 bidirectional 기능 <br>

<br>

<font style="font-size:20px"> 사용 방법 </font> <br>

RNN계열의 셀에서 bidirectional 옵션 사용 <br>
옵션 사용 시 hidden_state가 두 배가 됨 (forward, backward 각각의 뉴런의 합) <br>


### 사용 방법

> ```python
> import torch.nn as nn
> 
> rnn = nn.RNN(
>    input_size,
>    hidden_size,
>    num_layers=,
>    bidirectional=False,
>    batch_first=True,
> )
> output, h_n = rnn(x)
> output, h_n = rnn(x, h_0) # (초기 hidden state를 줄 때)
> 
> # x: 입력 텐서 (batch, seq_len, n_feature)
> # output: 매 t에 대한 output layer
> # h_n: final hidden state
> ```

<br>

<font style="font-size:16px"> 주요 parameter </font> <br>
- input_size (int): 입력 tensor의 크기 (feature의 수)
- hidden_size (int): hidden state의 neuron의 수
- num_layers (int): stack의 수
- bidirectional (bool): bidirectional RNN 유무
- batch_first (bool): shape에서 batch를 제일 처음으로 둘 건지 결정
    - True: (batch, seq_len, n_feature)
    - False: (seq_len, batch, n_feature)

In [33]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn

In [36]:
rnn = nn.RNN(input_size=10, hidden_size=20)
x = torch.rand(32, 128, 64)  # (batch, seq_len, n_feature)
rnn(x)

RuntimeError: input.size(-1) must be equal to input_size. Expected 10, got 64

In [56]:
rnn = nn.RNN(input_size=10, hidden_size=20, batch_first=True)
x = torch.rand(32, 128, 10)  # (batch, seq_len, n_feature)
output, h_n = rnn(x)         # output: 모든 시점의 hidden state, h_n: 마지막 step에 대한 hidden_state
output.shape

torch.Size([32, 128, 20])

In [58]:
rnn = nn.RNN(input_size=48, hidden_size=100, batch_first=True)
x = torch.rand(32, 256, 48)  # (batch, seq_len, n_feature)
output, h_n = rnn(x)         # output: 모든 시점의 hidden state, h_n: 마지막 step에 대한 hidden_state
output.shape

torch.Size([32, 256, 100])

In [59]:
rnn = nn.RNN(
    input_size=48,
    hidden_size=100,
    batch_first=True,
    bidirectional=True,
)
x = torch.rand(32, 256, 48)  # (batch, seq_len, n_feature)
output, h_n = rnn(x)         # output: 모든 시점의 hidden state, h_n: 마지막 step에 대한 hidden_state
output.shape

torch.Size([32, 256, 200])

In [107]:
data = pd.read_csv('./data/samsung_2023.csv', encoding='cp949', usecols=['일자', '종가', '거래량'])
data = data.sort_values(by=['일자'])
data.일자 = pd.to_datetime(data.일자)
data = data.set_index('일자')

In [109]:
# batch, seq_len, n_feature
x = np.lib.stride_tricks.sliding_window_view(data, 5, axis=0)[:-1].transpose(0, 2, 1)
y = data.종가.iloc[5:]
x = torch.from_numpy(x).float()
rnn = nn.RNN(
    input_size=2,
    hidden_size=10,
    batch_first=True,
    bidirectional=True,
)
output, h_n = rnn(x)
output.shape

torch.Size([240, 5, 20])

In [85]:
x = output.flatten(start_dim=1) # 241 x 100
output_layer = nn.Linear(100, 1)
output_layer(x).shape

torch.Size([241, 1])

In [93]:
x = h_n.permute(1, 0, 2).flatten(start_dim=1)
output_layer = nn.Linear(20, 1)
output_layer(x).shape

torch.Size([241, 1])

In [122]:
data.head(10)

Unnamed: 0_level_0,종가,거래량
일자,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-02,55500,10031448
2023-01-03,55400,13547030
2023-01-04,57800,20188071
2023-01-05,58200,15682826
2023-01-06,59000,17334989
2023-01-09,60700,18640107
2023-01-10,60400,14859797
2023-01-11,60500,12310751
2023-01-12,60500,16102561
2023-01-13,60800,12510328


In [119]:
np.lib.stride_tricks.sliding_window_view(data.iloc[:-3], 5)

array([[55500, 55400, 57800, 58200, 59000],
       [55400, 57800, 58200, 59000, 60700],
       [57800, 58200, 59000, 60700, 60400]])

In [120]:
np.lib.stride_tricks.sliding_window_view(data.종가[:10].iloc[5:], 3)

array([[60700, 60400, 60500],
       [60400, 60500, 60500],
       [60500, 60500, 60800]])

In [130]:
# 미세먼지 데이터에서 구분이 평균인 row만 선택
fine_dust = pd.read_csv(
    './data/서울시 대기질 자료 제공_2022.csv',
    encoding='cp949',
)
fine_dust = fine_dust.query('구분=="평균"')
fine_dust = fine_dust.drop(columns=['구분'])
fine_dust.일시 = pd.to_datetime(fine_dust.일시)
fine_dust = fine_dust.sort_values(by=['일시'])
fine_dust = fine_dust.set_index(['일시'])

# 미세먼지와 초미세먼지의 평균을 target으로 설정
fine_dust['target'] = fine_dust.mean(axis=1)

# rnn을 통하여 이전 10시간의 미세먼지 데이터를 통하여 
#   미래 5시간의 미세먼지 평균을 예측하는 모델 구성



In [131]:
fine_dust.columns

Index(['미세먼지(PM10)', '초미세먼지(PM2.5)', 'target'], dtype='object')

In [None]:
x = h_n.permute(1, 0, 2).flatten(start_dim=1)
output_layer = nn.Linear(20, 1)
output_layer(x).shape

torch.Size([241, 1])