## RNN
- 시계열 데이터 및 자연어 처리하는데 주로 사용
- LSTM (Long short term memory), GRU(Gated recurrent unit)등이 언어 모델링(language modeling), 텍스트 감정 분석(text sentiment analysis, 기계 번역(machine translation) 등의 분야에서 활발하게 이용되고 있음

### RNN 종류
- 1) one to one (일대일) : 일반적인 신경망, CNN과 동일
- 2) one to many (일대다) : 이미지를 보고 이미지 안의 상황을 글로 설명하는 문제
- 3) many to one (다대일) : 감정 분석 같이 순차적인 데이터를 보고 하나를 내는 경우
- 4) many to many1 (다대다1) : 챗봇과 기계 번역 같이 순차적인 데이터를 보고 순차적인 데이터를 출력하는 문제
- 5) many to many2 (다대다2) : 비디오 분류 같이 매 프레임을 레이블링 할 때 사용됨
![rnn](readme_image/rnn.png)

### 영화 리뷰 감정 분석
- 다대일
- IMDB 데이터
    - 긍정은 2, 부정은 1
    - 영화 리뷰 데이터 5만 건

### 데이터 전처리
- 텍스트를 전처리 과정을 거쳐 숫자로 나타내어야 함.

- (1) 토크나이징 (Tokenization)
    - 언어의 최소 단위인 토큰으로 나누는 것
    - split() 함수 또는 Spacy 오픈 소스 라이브러리 사용 가능
    - 데이터셋의 모든 단어 수만큼의 벡터를 담는 사전을 정의
        - ex) quick brown fox jumps over the lazy dog => ['quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']

- (2) 워드임베딩(word embedding)
    - 문장 속 모든 토큰을 각각의 벡터로 나타내주는 것



In [None]:
import os
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchtext import data, datasets # 자연어 처리 데이터셋

batch_size =64
lr = 0.001
epochs = 40

USE_CUDA = torch.cuda.is_avialable()
DEVICE = torch.device("cuda" if USE_CUDA else "cpu")

# sequential 파라미터를 이용해 데이터셋이 순차적인 데이터셋인지 명시해줌
TEXT = data.Field(sequential=True, batch_first=True, lower=True)
LABEL = data.Field(sequential=False, batch_first = True)

trainset, testset = datasets.IMDB.splits(TEXT, LABEL)

TEXT.build_vocab(trainset, min_freq = 5) # 
LABEL.build_vocab(trainset)