# 순차 데이터(sequential data)

- 텍스트나 시계열 데이터(time series data) 와 같이 순서에 의미가 있는 데이터
    - 예) "I am a boy" 는 의미를 이해할 수 있지만 "boy am I a "는 의미를 이해할 수 없음
    - 일별 온도 데이터에서 날짜 순서가 섞인다면 내일의 온도를 쉽게 예상하기 어려움

- 감성분석에서는 이전에 입력된 데이터를 기억하는 기능잉 중요할 수 있음
    - 예) "별로지만 추천해요"에서 "추천해요"를 해설할 때 앞의 "별로지만"을 기억하고 있어야 무조건 긍정이라고 판단하지 않음
 
    - 퍼셉트론이나 CNN 은 이런 기억장치가 없음!
        - 하나의 배치를 사용하여 정방향 연산을 수행하고 나면 샘플은 다음 샘플을 처리할때 사용안함
     
        - 이처럼 입력 데이터의 흐름이 앞으로만 전달되는 신경망을 피드포워드 신경망이라고 함(FFNN)
     
        - 신경망이 이전에 처리했던 샘플을 다음 샘플을 처리할 때 재사용하기 위해서는 데이터가 신경망 층에서 순환을 해야 함

# 순환 신경망(recurrent neural network : RNN)

<img src ="./image/rnn.png" width=500>

## 순환 신경망 구조

- 피드포워드 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가된 형태
    - 바로 이전에 사용했던 데이터를 재사용하는 구조

<img src ="./image/rnn_image1.png">

- x는 단어 하나하나다~ <br/>
![image.png](attachment:916d248f-a519-421e-8a16-76995d8edc74.png)
- 이거 반복 h... 에는 모든 문장이 들어 있게 된다....

1. 첫 번째 샘플을 처리하고 출력되어 유닛으로 입력됨
       - h0 에는 x0 에 대한 정보 있음

2. x1을 처리할때 h0 와 함께 사용...
    - h1 에는 x0 에 대한 정보가 어느정도 있음
      
3. x2를 처리할 때 h1을 함께 사용
    - 결과물 h2에는 x1과 x0 에 대한 정보도 담겨있음
      
- 위의 과정처럼 샘플을 처리하는 각 단계를 타임스텝 이라고함
    - 순환신경망은 이전 타임스템의 샘플을 기억함

![image.png](attachment:c50e63f2-7aa9-496c-9539-c400caad47d5.png)

- 타임스텝이 오래될수록 순환되는 정보는 희미해짐

- 순환 신경망에서는 layer를 셀(cell)이라고 부름
    - 하지만 입력에 가중치를 곱하고 활성화 함수를 통과시켜 다음 층으로 전달하는 기본 구조는 똑같음
    - 한 셀에는 여러 개의 유닛이 있지만 일반적으로 모든 유닛을 표시하지 않고 하나의 셀로 층을 표현함
      
- 셀의 출쳑은 은닉 상태(hidden state)라고 부름

## 하이퍼볼릭 탄젠트 함수

<img src="./image/tanh.png">

- 일반적으로 은닉층의 활성화 함수로는 하이퍼 볼릭 탄젠트 함수인 tanh 이 많이활용
    - tanh 함수는 -1~ 1 범위 가짐

## 가중치 공유
<img src ="./image/rnn_weight.png">

- 순환 신경망도 피드포워드 신경망과 같이 입력값과 가중치를 곱하지만 이전 타임스템의 은닉상태에 곱해지는 가중치가 하나 더 있음

- 모든 타임 스텝에서 사용되는 가중치 W는 하나임

    - 가중치 W는 타임스텝에 따라 변화되는 유닛의 출력을 학습

- 맨 처음 타임스텝1 에서 사용되는 이전 은닉 상태 h0는 이전 타임스테이 없기 땜누에 0으로 초기화

## 파라미터 수
<img src ="./image/rnn_param.png" width="500">


![image.png](attachment:4b7b0ac2-3089-4ef6-a6e4-1bc919ed19c3.png)

- 각 유닛의 은닉 상태가 다음 스텝에 재사용될 때 모든 유닛에 값이 전달됨
- 즉, 이전 타임스템의 은닉 상태는 다음 타임스템의 모든 유닛에 완전 연결됨
- 순환 신경망의 파라미터 수 = (유닛 수 * 유닛 수 ) + (입력값 수 * 유닛 수) + 유닛 수

## 입력

- 합성곱 층의 입력은 하나의 샘플이 3개의 차원을 가짐
    - 너비, 높이, 채널
 
- 순환층은 일반적으로 샘플마다 2개의 차원을 가짐
    - 하나의 샘플을 하나의 시퀀스로(sequence) 라고 말함 (한 시퀀스 = 한 문장)
 
    - 하나의 시퀀스 안에는 여러 개의 아이템이 들어 있음
 
    - 시퀀스의 길이가 타임스텝의 길이가 됨
        - 예) 샘플 "I am a boy"는 4개의 아이템으로 구성된 시퀀스
     
        - 각 아이템을 3개의 숫자로 표현한다면 (1, 4, 3)
     
- 입력이 순환층을 통과하면 순환층의 유닛 개수만큼 출력됨
    - 하나의 샘플을 (단어의 개수, 단어 표현)의 2차원 배열
 
    - 순환층을 통과하면 1차원의 배열로 바뀜
 
        - ![image.png](attachment:1d830a99-a66c-41ee-b39e-c2a75a9278ee.png)
        - 이 1차원 배열의 크기는 순환층의 유닛의 개수
        - 아니 왜 1차원으로 바뀌는 거임??? : (None, 4)
    - 기본적으로 순환층은 마지막 타임스템(말을 끝까지 들어야지여)의 은닉상태만 출력으로 내보냄
        -  입력된 시퀀스를 모두 읽어서 정보를 마지막 은닉 상태에 압축 전달.
     
- 만약 순환층을 여러 개 쌓는다면??????
    - 순환층의 입력은 샘플마다 타임스ㅌ과 단어 표현으로 이루어진 2차원 배열이어야함
        - 첫 번째 셀이 마지막 타이스텝의 은닉 상태만 출력한다면 입력 형식이 맞지않음!!!!
        - (타입스텝수, 유닛수)
        - 이 경우에는 마지막 셀을 제외한 몯느 셀은 모든 타임스텝의 은닉 상태를 출력 

## 출력

- 순환 신경망도 합성곱 신경망과 마찬가지로 마지막에 밀집층을 두어 클래스를 분류
    - 다중 분류 : 출력층에 클래스 개수만큼 유닛을 두고 소프트맥스 출력층 함수 사용
    - 이진 분류 : 하나의 유닛을 두고 시그모이드 출력층을 함수 사용

- 합성곱 신경망과 차이점은 **마지막 셀의 출력이 1차원이기 때문에 Faltten 필요없음!**