## IMDB데이터를 가지고 텍스트 감정분석

#### IMDB 는 50000건의 영화리뷰 (영어문장)으로 구성.
#### 긍정적리뷰=2, 부정적리뷰=1 로 labeling

- 목표 : 영화평의 전체 내용을 압축, 압축된 리뷰가 긍정적 부정적인지 파단해주는 분류모델을 만드는것
1. 데이터로드
2. 단어사전만들기
3. 검증셋나누기
4. 단어임베딩 
5. 모델정의
6. 학습 및 평가 

In [3]:
import os
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchtext import data, datasets

In [4]:
# 학습에 필요한 하이퍼파라미터 정의
batch_size=64
lr=0.001
epochs=40
use_cuda=torch.cuda.is_available()
device=torch.device("cuda" if use_cuda else "cpu") #gpu가있으면 gpu로 그렇지않으면 cpu로 환경설정

torchtext를 이용하면 정보가 담긴 TEXT와 LABEL이라는 객체를 쉽게 생성할 수 있다.\
torchtext.data.Field : 필드만 정의. 어떤전처리도 되지않은 상태
- sequential파라미터 : 데이터셋이 순차적인 데이터셋인 것을 명시
- batch_first : 신경망에 입력되는 텐서의 첫번째 차원값이  batch_size가 되도록
- lower : 데이터속 모든 영문이 소문자가 되도록.


In [5]:
# IMDB로딩
text=data.Field(sequential=True, batch_first=True, lower=True) 
label= data.Field(sequential=False, batch_first=True) # label은 순서가 필요없음

In [6]:
trainset, testset = datasets.IMDB.splits(text, label)

downloading aclImdb_v1.tar.gz


.data\imdb\aclImdb_v1.tar.gz: 100%|███████████████████████████████████████████████| 84.1M/84.1M [01:13<00:00, 1.14MB/s]


In [14]:
print(type(trainset))
print(trainset.shape)
print(trainset.examples[0])

<class 'torchtext.datasets.imdb.IMDB'>
<generator object Dataset.__getattr__ at 0x00000216FB0DB048>
<torchtext.data.example.Example object at 0x00000216D57DC6A0>


In [None]:
# 워드임베딩에 필요한 단어사전을 만듬  ( field.build_vocab(sample))
text.build_vocab(trainset, min_freq=5) # 학습데이터에서, min_freq : 최소 n번 이상 등장한 단어만을 사전에 담겠다.
label.build_vocab(trainset)
# 생성된 단어집합 내의 단어들은 stoi를 통해 확인가능
print(text.vocab.stoi)

- IMDB에선 val set이 따로 존재하지 않기 때문에 train set을 쪼개어 validation set으로 사용

In [16]:
trainset, valset=trainset.split(split_ratio=0.8)

#비슷한 길이의 예제들을 묶어주는 반복자(iterator)를 정의. 
train_iter, val_iter, test_iter=data.BucketIterator.splits((trainset,valset,testset),batch_size=batch_size,shuffle=True, repeat=False)

In [17]:
vocab_size=len(text.vocab) # 사전 속 단어의 개수
n_classes=2 # 레이블의 수

In [18]:
print("[학습셋]: %d [검증셋]: %d [테스트셋]: %d [단어수]: %d [클래스] %d"
      % (len(trainset),len(valset), len(testset), vocab_size, n_classes))

[학습셋]: 20000 [검증셋]: 5000 [테스트셋]: 25000 [단어수]: 46159 [클래스] 2


In [33]:
# RNN모델구현
class BasicGRU(nn.Module):
    def __init__(self, n_layers, hidden_dim, n_vocab, embed_dim, n_classes, dropout_p=0.2):
        # n_layers : 은닉벡터들의 층 수, 아주복잡한게 아닌이상 2 이하로..
        super(BasicGRU,self).__init__()
        print("Building Basic GRU model...")
        self.n_layers=n_layers
        self.embed=nn.Embedding(n_vocab,embed_dim) # Embedding은 사전에 등재된 단어수, 임베딩된 단어텐서가 지니는 차원값
        self.hidden_dim=hidden_dim #은닉벡터 개수
        self.dropout=nn.Dropout(dropout_p)
        self.gru=nn.GRU(embed_dim, self.hidden_dim, num_layers=self.n_layers, batch_first=True)
        #class예측을 출력
        self.out=nn.Linear(self.hidden_dim,n_classes)
    def _init_state(self, batch_size=1):
        # 첫번째 은닉벡터 정의하는 함수
        weight=next(self.parameters()).data #nn.GRU모듈의 첫번째 가중치텐서를 추출, self.parameters() 모델의 가중치정보를 반복하는 생성기매소드 (model.parameters())
        return weight.new(self.n_layers, batch_size,self.hidden_dim).zero_()
    def forward(self,x):
        x=self.embed(x) 
        print(x.size, x.size(0))
        h_0=self._init_state(batch_size=x.size(0))
        x, _=self.gru(x,h_0) #batch_size, 입력 x의 길이, hidden_dim의 모양을 지닌 3d텐서
        h_t=x[:,-1,:] # 시계열은닉벡터의 마지막 토큰들을 내포한 3d모양의 텐서를 추출 즉, 영화리뷰배열을 압축한 은닉벡터로 만든것
        self.dropout(h_t) #드롭아웃과정 수행
        logit=self.out(h_t) #출력
        return logit

In [34]:
def train (model,optimizer,train_iter):
    model.train()
    #enumerate는 반복마다 배치데이터를 반환한다.
    # b 는 배치카운트
    # batch는 batch_size만큼의 단어들 (문장)
    for b,batch in enumerate(train_iter):
        x,y=batch.text.to(device), batch.label.to(device)
        # 2와 1을 가진 레이블데이터를 좀더 깔끔하게 하기위해 1과 0으로 변환
        y.data.sub_(1) # y의 모든값에서 1씩 뺴줌
        #매번 기울기를 새로계산하므로 기울기를 0으로 초기화
        optimizer.zero_grad()
        logit=model(x) #예측값 계산
        loss=F.cross_entropy(logit,y)
        loss.backward() #역전파수행
        optimizer.step() # 가율가 저장

In [35]:
def evaluate(model, val_iter):
    """evaluate model"""
    model.eval()
    corrects, total_loss=0,0 
    for batch in val_iter :
        x,y=batch.text.to(device), batch.label.to(device)
        y.data.sub(1) 
        logit=model(x)
        loss=F.cross_entropy(logit,y,reduction='sum') # reduction=sum을 통해 오차의 합을 구함
        total_loss=total_loss+loss.item #loss의 총합을 구함.
        corrects=corrects+(logit.max(1)[1].view(y.size()).data==y.data.sum()) #모델이 맞힌 수를 저장.
    size=len(val_iter.dataset)
    avg_loss=total_loss/size
    avg_acc=100.0*corrects/size
    return avg_loss, avg_acc

In [36]:
# 학습 시작전 모델객체를 정의
# 모델내 은닉벡터의 차원값은 256, 임베딩된 토큰의 차원값은 128
model=BasicGRU(1,256,vocab_size,128,n_classes,0.5).to(device)
optimizer=torch.optim.Adam(model.parameters(),lr=lr)

Building Basic GRU model...


In [37]:
best_val_loss = None
for e in range(1, epochs+1):
    train(model, optimizer, train_iter)
    val_loss, val_accuracy = evaluate(model, val_iter)

    print("[이폭: %d] 검증 오차:%5.2f | 검증 정확도:%5.2f" % (e, val_loss, val_accuracy))
    
    # 검증 오차가 가장 적은 최적의 모델을 저장
    if not best_val_loss or val_loss < best_val_loss:
        if not os.path.isdir("snapshot"):
            os.makedirs("snapshot")
        torch.save(model.state_dict(), './snapshot/txtclassification.pt')
        best_val_loss = val_loss

<built-in method size of Tensor object at 0x000002168D3FC900> 64
<built-in method size of Tensor object at 0x000002168D3FCEE8> 64
<built-in method size of Tensor object at 0x00000216925165E8> 64
<built-in method size of Tensor object at 0x0000021692516438> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of Tensor object at 0x000002168C393990> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of Tensor object at 0x0000021692516438> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of Tensor object at 0x000002168D3FCEE8> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of Tensor object at 0x00000216925165E8> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of Tensor object at 0x000002168D3FCB88> 64
<built-in method size of Tensor object at 0x000002168C4A4828> 64
<built-in method size of 

KeyboardInterrupt: 

In [None]:
# Test
model.load_state_dict(torch.load('./snapshot/txtclassification.pt'))
test_loss, test_acc = evaluate(model, test_iter)
print('테스트 오차: %5.2f | 테스트 정확도: %5.2f' % (test_loss, test_acc))