# 영화 리뷰 감정 분석
1. 다대일 RNN 방식
2. 후반부에 softmax로 긍정의 감정인지 부정의 감정인지 구분

## 리뷰를 토큰으로 나누기
토큰 : 언어의 최소 단위(한글에서는 형태소)

In [25]:
import os
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchtext import data, datasets # torchtext==0.4버전을 다운받아야 에러가 안먹음

### 하이퍼파라미터 정의
하이퍼파라미터 : 인공지능 학습 모델에 있어 성능에 영향을 미치는 인간이 정해주는 변수(선험적 지식에 의해, 감에 의해 정해지는 경우가 다수)

In [35]:
BATCH_SIZE = 64
lr = 0.001
EPOCHS = 40
USE_CUDA = torch.cuda.is_available() # gpu 사용설정
DEVICE = torch.device("cuda" if USE_CUDA else "cpu")

### 데이터셋 제작
1. 훈련 데이터
2. 테스트 데이터
3. 검증 데이터

In [27]:
TEXT = data.Field(sequential=True, batch_first=True, lower = True) # 순차적인 데이터셋(RNN 적용할 것이기 때문), 영어 소문자로 표시
LABEL = data.Field(sequential=False, batch_first=True)

# 훈련 데이터와 테스트 데이터로 분리
trainset, testset = datasets.IMDB.splits(TEXT, LABEL) 

TEXT.build_vocab(trainset, min_freq=5) # 만들어진 데이터셋으로 워드 임베딩에 필요한 word 사전을 제작(최소 5번 이상 등장한 단어만 사전에 등재, 5번 미만은 unk로 표시됨.)
LABEL.build_vocab(trainset)

In [28]:
# 검증 데이터

trainset, valset = trainset.split(split_ratio=0.8) # 훈련 : 검증 = 8 : 2

# 배치단위로 훈련, 검증, 테스트 데이터를 생성해주는 반복 iterator 생성
train_iter, val_iter, test_iter = data.BucketIterator.splits(
    datasets=(trainset, valset, testset),
    batch_size=BATCH_SIZE,
    shuffle=True,
    repeat=False
)

In [29]:
# 사전 속 단어들의 개수와 레이블의 수를 정해주는 변수

vocab_size = len(TEXT.vocab)
n_classes = 2

In [30]:
# 데이터셋 확인
print("[학습셋] : {}, [검증셋] : {}, [테스트셋] : {}, [단어수] : {}, [클래스] : {}".format(len(trainset), len(valset), len(testset), vocab_size, n_classes))

[학습셋] : 20000, [검증셋] : 5000, [테스트셋] : 25000, [단어수] : 46159, [클래스] : 2


### 다대일 RNN 모델 구현

왜 RNN이 아니라 GRU인가?
=> 시계열 데이터를 학습하다보면 데이터가 길 경우 앞에 있던 맥락을 잊기 쉽다. 그리고 이 과정에서 기울기가 너무 작아지거나 너무 커지는 "기울기 폭발/소실" 현상이 발생한다. 이를 방지하고자 "게이트"라는 개념을 도입한 GRU를 통해 앞 내용을 얼마나 기억할지 조합할지를 구분한다.

In [31]:
class BasicGRU(nn.Module):
    
    def __init__(self, n_layers, hidden_dim, n_vocab, embed_dim, n_classes, dropout_p=0.2):
        super(BasicGRU, self).__init__()
        
        print("Building Basic GRU model...")
        
        self.n_layers = n_layers # 층 
        self.embed = nn.Embedding(n_vocab, embed_dim) # 임베딩된 단어 텐서가 지니는 차원값
        self.hidden_dim = hidden_dim # 은닉 벡터의 차원값
        self.dropout = nn.Dropout(dropout_p) # 정규화를 위한 드롭아웃
        self.gru = nn.GRU(embed_dim, self.hidden_dim, num_layers=self.n_layers, batch_first=True) # 경사도 폭발 및 소실을 막기 위해 GRU를 사용
        self.out = nn.Linear(self.hidden_dim, n_classes) # 긍정인지 부정인지 클래스 분류
    
    def forward(self, x):
        x = self.embed(x) # x = 하나의 배치 속에 들어있는 영화 리뷰들, embed 함수를 통하여 문장을 벡터 배열로 변환
        h_0 = self._init_state(batch_size=x.size(0)) # h_0은 은닉벡터로 여기서 처음 정의함.
        x, _ = self.gru(x, h_0) # 영화 리뷰 벡터들과 은닉벡터들을 시계열 벡터 형태로 변환해서 재할당
        h_t = x[:,-1,:] # 시계열 벡터 중 은닉벡터 부분만 할당 (이게 곧 영화 리뷰 배열들을 압축한 은닉벡터)
        self.dropout(h_t) # 드롭아웃 설정
        logit = self.out(h_t) # 신경망에 압축한 은닉벡터를 입력하여 결과 출력
        return logit
    
    def _init_state(self, batch_size=1): # 초기 상태를 제작
        weight = next(self.parameters()).data # GRU 모듈에서 첫번째 가중치 텐서를 추출
        return weight.new(self.n_layers, batch_size, self.hidden_dim).zero_() # 모델의 가중치 모양과 맞게 조정함.

In [32]:
# 학습(모델을 최적화해나가는 과정, 답을 맞춰나가는 모델을 만드는 과정)
def train(model, optimizer, train_iter):
        model.train()
        
        for b, batch in enumerate(train_iter): # 매 반복마다 훈련 데이터 배치 하나를 갖고 처리
            
            x, y = batch.text.to(DEVICE), batch.label.to(DEVICE)
            y.data.sub_(1) # label값을 0과 1로 변환(핫인코딩)
            optimizer.zero_grad() # 기울기 초기화
            
            logit = model(x) # 학습 데이터를 입력하여 예측값을 반환
            loss = F.cross_entropy(logit, y) # 예측값과 실제값의 오차를 반환
            loss.backward() # 오차로 역전파를 시행
            optimizer.step() # 오차 업데이트에서 optim에 반영

# 모델 평가(검증 데이터와 비교했을 때 훈련에서의 예측이 잘 맞았는지 검증)
def evaluate(model, val_iter):
    model.eval()
    corrects, total_loss = 0, 0 # 맞은 개수와 오차의 총합

    for batch in val_iter:
        x, y = batch.text.to(DEVICE), batch.label.to(DEVICE)
        y.data._sub_(1)
        logit = model(x)
        loss = F.cross_entropy(logit, y, reduction="sum") # 오차의 합을 구함.
        total_loss += loss.item()
        corrects += (logit.max(1)[1].view(y.size()).data == y.data).sum() 

    size = len(val_iter.dataset)
    avg_loss = total_loss / size
    avg_accuracy = 100.0 * corrects / size

    return avg_loss, avg_accuracy

In [33]:
model = BasicGRU(n_layers=2, hidden_dim=256, n_vocab=vocab_size, embed_dim=128, n_classes=n_classes, dropout_p=0.5)
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

Building Basic GRU model...


### 학습

In [34]:
best_val_loss = None # 검증오차가 가장 적은 모델이 가장 좋은 모델이므로 검증오차가 제일 적을 때 모델을 저장하자

for e in range(1, EPOCHS + 1):
    
    train(model, optimizer, train_iter)
    
    val_loss, val_accuracy = evaluate(model, val_iter)
    
    print("[{}회차] 검증 오차 : {:5.2f} | 검증 정확도 : {:5.2f}".format(e, val_loss, val_accuracy))
    
    
    # 검증 오차가 가장 적은 최적의 모델을 저장
    if not best_val_loss or val_loss  < best_val_loss:
        
        if not os.path.isdir("snapshot"):
            os.makedirs("snapshot")
        
        torch.save(model.state_dict(), "./snapshot/txtclassification.pt")
        
        best_val_loss = val_loss

KeyboardInterrupt: 

In [None]:
model.load_state_dict(torch.load("./snapshot/txtclassification.pt"))
test_loss, test_acc = evaluate(model, test_iter)

print("테스트 오차 : {:5.2f} | 테스트 정확도 : {:5.2f}".format(test_loss, test_acc))