# 순차 데이터(sequential data)

- 텍스트나 시계열 데이터(time series data)와 같이 순서에 의미가 있는 데이터
    - 예) "I am a boy"는 의미를 이해할 수 있지만 "boy am I a"는 의미를 이해할 수 없음
    - 일별 온도 데이터에서 날짜 순서가 섞인다면 내일의 온도를 쉽게 예상하기 어려움
    
- 감성 분석에서는 이전에 입력된 데이터를 기억하는 기능이 중요할 수 있음
    - 예) "별로지만 추천해요"에서 "추천해요"를 해석할 때 앞의 "별로지만"을 기억하고 있어야 무조건 긍정이라고 판단하는 실수를 하지 않음
    - CNN은 이런 기억 장치가 없음
        - 하나의 배치를 사용하여 정방향 연산을 수행하고 나면 해당 샘플은 다음 샘플을 처리할 때 사용하지 않음
        - 이처럼 입력 데이터의 흐름이 앞으로만 전달되는 신경망을 피드포워드 신경망(feedforward neural network:FFNN)이라고 함
    - 신경망이 이전에 처리했던 샘플을 다음 샘플을 처리할 때 재사용하기 위해서는 데이터가 신경망 층에서 순환을 해야 함

# 순환 신경망(recurrent neural network : RNN)

<img src =  "./img/rnn.png">

## 순환 신경망 구조

- 피드포워드 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가된 형태
    - 바로 이전에 사용했던 데이터를 재사용하는 구조

<img src =  "./img/rnn_image1.png">

1. 첫 번째 샘플 x0를 처리하고 출력 h0가 다시 뉴런으로 입력됨
    - h0에는 x0에 대한 정보가 포함되어 있음
    
2. x1을 처리할 때 h0를 함께 사용
    - h0와 x1을 사용해서 만든 h1에는 x0에 대한 정보가 어느정도 포함되어 있음
    
3. x2를 처리할 때 h1을 함께 사용
    - 결과물 h2에는 x1과 x0에 대한 정보도 담겨있음
    
- 위의 과정처럼 샘플을 처리하는 각 단계를 타임스텝(timestep)이라고 말함
    - 순환 신경망은 이전 타임스텝의 샘플을 기억한다
    
- 타임스텝이 오래될수록 순환되는 정보는 희미해짐

- 순환신경망에서는 layer를 셀(cell)이라고 부름
    - 하지만 입력에 가중치를 곱하고 활성화 함수를 통과시켜 다음 층으로 전달하는 기본 구조는 똑같음
    - 한 셀에는 여러 개의 뉴런이 있지만 일반적으로 모든 뉴런을 표시하지 않고 하나의 뉴런으로 층을 표현함
    
- 셀의 출력을 은닉 상태(hidden state)라고 부름

## 하이퍼볼릭 탄젠트 함수

<img src = "./img/tanh.png">

- 일반적으로 은닉층의 활성화 함수로는 하이퍼볼릭 탄젠트(hyperbolic tangent)함수인 tanh가 많이 사용됨
    - tanh함수는 -1 ~ 1 사이의 범위를 가짐

## 가중치 공유

<img src = "./img/rnn_weight.png">

- 순환 신경망도 피드포워드 신경망과 같이 입력값과 가중치를 곱하지만 이전 타임스텝의 은닉상태에 곱해지는 가중치가 하나 더 있음
- 모든 타임스텝에서 사용되는 가중치는 W 하나임
    - 가중치 W는 타임스텝에 따라 변화되는 뉴런의 출력을 학습
- 맨 처음 타임스텝1에서 사용되는 이전 은닉상태 h0는 이전 타임스텝이 없기 때문에 0으로 초기화

## 파라미터 수

<img src ="./img/rnn_param.png">

- 각 뉴런의 은닉 상태가 다음 스텝에 재사용 될 때 모든 뉴런에 값이 전달됨
    - 즉, 이전 타임스텝의 은닉상태는 다음 타임스텝의 모든 뉴런에 완전연결됨
- 순환신경망의 파라미터 수 = (유닛 수 * 유닛 수) + (입력값의 수 * 유닛 수) + 유닛 수