# Pytorch의 nn.Embedding
- Pytorch의 Embedding Layer는 word2vec과 마찬가지로 word embedding vector를 찾는 **Lookup Table**이다.
    - 단어의 **정수의 고유 index**가 입력으로 들어오면 Embedding Layer의 **그 index의 Vector**를 출력한다.
    - 모델이 학습되는 동안 모델이 풀려는 문제에 맞는 값으로 Embedding Layer의 vector들이 업데이트 된다.
    - Word2Vec의 embedding vector 학습을 nn.Embedding은 자신이 포함된 모델을 학습 하는 과정에서 한다고 생각하면 된다.

In [48]:
import torch
import torch.nn as nn

embed = nn.Embedding(
    num_embeddings=20_000,  # vocab size (단어사전의 단어 수(== 토큰 수)). 총 몇 개의 단어에 대해 embadding vector를 만들 지 결정.
    embedding_dim=200,  # embedding vector의 차원 수 -> 개별 단어를 몇 개의 숫자(feature 수)로 표현 할 지. 
)

In [49]:
embed.weight  # 20_000개에 해당하는 단어의 embedding vector를 담고 있는 tensor
              # embedding vector의 값은 무작위로 초기화됨.
'''
tensor([[ 1.5497, -0.6362, -0.9478,  ...,  0.4937, -0.4673,  1.4794],   -> 0번 단어(token)의 embedding 값
        [-1.1480,  0.6673, -0.4344,  ..., -0.2853,  0.0451, -1.9179],   -> 1번 단어(token)의 embedding 값
        [ 1.4725, -0.7229, -1.2255,  ...,  0.3216, -1.2296, -0.3463],
        ...,
'''

embed.weight.shape  # torch.Size([20000, 200]) -> torch.Size([num_embeddings, embedding_dim])

torch.Size([20000, 200])

In [50]:
# embedding layer의 입력 - 문서를 구성하는 토큰들의 ID(**정수-int type**)를 1차원으로 묶어서 전달.

# embedding layer의 예시
doc = "나는 어제 밥을 먹었다"   # 단어 별 토큰화
                                # ex) doc = [[30, 159, 9000, 326]]  -> seq_len = 4, input_size = 1
                                #                                     *sequence 길이 == time_step 수
                                
doc = torch.tensor([[30, 159, 9000, 326]], dtype=torch.int64)  # 예시 문장을 토큰화 후 ID 부여

embedding_vector = embed(doc)  # 토큰화된 문장을 embedding layer에 전달하여 embedding vector를 얻음.

embedding_vector.shape  # 출력 결과: torch.Size([1, 4, 200])
                        #                   -> 1: batchsize
                        #                   -> 4: seq_len
                        #                   -> 200: embedding vector 차원 수 => 단어(token)의 featurem 수. 즉, 30이란 token ID를를 200개의 feature로 나타낸 것.


torch.Size([1, 4, 200])

In [51]:
# embedding_vector.shape: [1, 4, 200]
embedding_vector[0, 0]  # 0번째 문장의 0번째 (30) embedding vector

tensor([ 0.6657,  0.4116, -1.7745, -0.0978, -0.8752, -0.3223, -0.5641,  0.3059,
         1.1604,  0.0379,  0.6180, -1.7750, -0.6011, -0.3279, -0.4463,  0.7045,
         0.5704, -0.7167, -0.2083,  1.0096, -0.4165, -1.0775, -1.2167,  2.0459,
        -0.0848,  1.3473,  1.6597, -0.2916, -1.1846,  0.1877,  1.1153, -0.6476,
         0.0448, -0.4741,  0.4166, -1.5208, -0.0779, -0.2276, -0.4149,  0.7858,
         1.0090,  0.8358,  0.1742, -0.7842, -0.0117,  1.4755,  0.1195,  0.0318,
         0.7897,  0.2237, -0.6638, -0.6256,  0.0619,  0.7602,  0.5940,  0.0337,
        -1.0785,  0.3337,  0.3544,  1.1741, -0.6078, -0.9147,  0.5228, -0.0117,
        -1.5240, -0.2734, -0.5126,  0.6076, -1.3849, -0.4501, -0.8736,  1.9471,
         0.5603,  1.2699, -1.8705,  0.8010,  0.1377, -1.6554,  0.2187,  0.1139,
         0.1282,  0.4043, -0.5875,  0.1476, -0.0491,  0.9401, -1.5108, -0.6377,
        -0.5647,  1.0183, -0.3836, -1.0143,  0.3740, -0.8967,  0.1636, -0.5421,
         0.1026,  2.1196, -1.3440, -0.76

In [52]:
embed.weight[30]
'''
tensor([-0.4142, -0.2189, -0.9280, -1.4293, -0.7182, -0.2556,  1.4292, -0.4343,
         1.0944,  0.6558,  0.3721, -0.5488, -0.8708,  0.4970, -1.3736, -0.5881,
         0.7018, -1.8683,  0.9138, -1.0242,  0.7297,  0.5519,  0.0266,  1.1024,
'''

# embedding_vector[0, 0] == embed.weight[30]

'\ntensor([-0.4142, -0.2189, -0.9280, -1.4293, -0.7182, -0.2556,  1.4292, -0.4343,\n         1.0944,  0.6558,  0.3721, -0.5488, -0.8708,  0.4970, -1.3736, -0.5881,\n         0.7018, -1.8683,  0.9138, -1.0242,  0.7297,  0.5519,  0.0266,  1.1024,\n'

In [53]:
import torch
import torch.nn as nn

# 어휘사전 어휘 수: 10개
# 임베딩 벡터 차원 수: 3차원

e_layer = nn.Embedding(num_embeddings=10, embedding_dim=3)  # 10 x 3 크기의 임베딩 벡터 생성
                                                            # row == token(단어) ID 의미, column == embedding word feature 수

sent = "오늘 날씨 좋다"  # ["오늘":0, "날씨":4, "좋다":2]
# token = tokenizer.encode(sent).ids
token = torch.tensor([0, 4, 2], dtype=torch.int64)  # 예시로 단어 ID를 직접 지정
embedding_vector = e_layer(token)  # 임베딩 레이어에 토큰 ID를 전달하여 임베딩 벡터를 얻음
print(embedding_vector)  # 임베딩 벡터 출력
print(e_layer.weight[0])  # "오늘" 단어의 임베딩 벡터 출력
print(e_layer.weight[4])  # "날씨" 단어의 임베딩 벡터 출력
print(e_layer.weight[2])  # "좋다" 단어의 임베딩 벡터 출력                                              

tensor([[-0.4019,  1.0784,  2.2429],
        [ 0.9573,  0.6114, -1.0296],
        [ 0.6087,  0.6695, -0.1070]], grad_fn=<EmbeddingBackward0>)
tensor([-0.4019,  1.0784,  2.2429], grad_fn=<SelectBackward0>)
tensor([ 0.9573,  0.6114, -1.0296], grad_fn=<SelectBackward0>)
tensor([ 0.6087,  0.6695, -0.1070], grad_fn=<SelectBackward0>)


# 네이버 영화 댓글 감성분석(Sentiment Analysis)

## 감성분석(Sentiment Analysis) 이란
입력된 텍스트가 **긍적적인 글**인지 **부정적인**인지 또는 **중립적인** 글인지 분석하는 것을 감성(감정) 분석이라고 한다.   
이를 통해 기업이 고객이 자신들의 기업 또는 제품에 대해 어떤 의견을 가지고 있는지 분석한다.

# Dataset, DataLoader 생성

## Korpora에서 Naver 영화 댓글 dataset 가져오기
- https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/nsmc.html
- http://github.com/e9t/nsmc/
    - input: 영화댓글
    - output: 0(부정적댓글), 1(긍정적댓글)
### API
- **corpus 가져오기**
    - `Korpora.load('nsmc')`
- **text/label 조회**
    - `corpus.get_all_texts()` : 전체 corpus의 text들을 tuple로 반환
    - `corpus.get_all_labels()`: 전체 corpus의 label들을 list로 반환
- **train/test set 나눠서 조회**
    - `corpus.train`
    - `corpus.test`
    - `LabeledSentenceKorpusData` 객체에 text와 label들을 담아서 제공.
        - `LabeledSentenceKorpusData.texts`: text들 tuple로 반환.
        - `LabeledSentenceKorpusData.labels`: label들 list로 반환.

## 데이터 로딩

In [54]:
import os
import time

from Korpora import Korpora

corpus = Korpora.load('nsmc')


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\Playdata\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\

In [55]:
# 입력: 영화 댓글
# 출력: 댓글의 긍정 or 부정

# 모델의 구성 순서
# --------------------------------- 데이터 준비
# 1) 데이터셋 준비
# 2) 데이터의 토큰화 및 단어사전(vocabulary) 구축
#   2-1) cleasing - ex) .lower()
#   2-2) stop word 처리 (불용어 처리) - ex) 구두점 제거
#   2-3) normalize - ex) 원형 복원, 비속어 처리...
#   2-4) 위 과정을 거쳐 토큰화 된 문장 성분들을 다시 문장으로 변환. - ex) ["나는", "어제", "밥을", "먹었다"] -> "나는 어제 밥을 먹었다"
#                                                                                                              code: ' '.join(token)
#   2-5) subword 단위 처리  - ex) ["나", "는", "어제", "밥", "을", "먹", "었", "다"]
#   2-6) vocabulary 구축 - Tokenizer() 사용
#   2-7) vocabulary에 없는 단어 처리 - ex) OOV(Out Of Vocabulary) 처리
#
# 3) dataset, dataloader 구성
#
# --------------------------------- 모델 설정
# 4) 모델

In [56]:
all_inputs = corpus.get_all_texts()  # inptus: 댓글들 전체
all_labels = corpus.get_all_labels()  # outputs: labels 전체 - 0: 부정, 1: 긍정

In [57]:
all_inputs[:5]

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [58]:
all_labels[:5]

[0, 1, 0, 0, 1]

In [59]:
len(all_inputs)

200000

In [60]:
corpus.train  # NSMC.train: size=150000
corpus.test  # NSMC.test: size=50000
             # - NSMC.test.texts : list[str]
             # - NSMC.test.labels : list[int]

NSMC.test: size=50000
  - NSMC.test.texts : list[str]
  - NSMC.test.labels : list[int]

In [61]:
corpus.test.texts[:5]

('굳 ㅋ',
 'GDNTOPCLASSINTHECLUB',
 '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아',
 '지루하지는 않은데 완전 막장임... 돈주고 보기에는....',
 '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??')

## 토큰화
1. 형태소 단위 token화(분절)를 먼저 한다.
    - konlpy로 token화 한 뒤 다시 한 문장으로 만든다.
2. 1에서 처리한 corpus를 BPE 로 token화
   
### 전처리 함수

#### 형태소 단위 분절

In [62]:
from konlpy.tag import Okt
import string
import re

# 전처리 >> cleasing / normalize
okt = Okt()
def text_preprocessing(text):
    """
    1. 영문 -> 소문자로 변환
    2. 구두점 제거
    3. 형태소 기반 토큰화
    4. 형태소로 토큰화 한 뒤 다시 하나의 문자열로 묶어서 반환.
    """
    text = text.lower()

    # 구두점 제거 (stop word(불용어))
    text = re.sub(f"[{string.punctuation}]", " ", text)

    # 정규화
    tokens = okt.morphs(text, stem=True)  # stem: 원형 복원
                                          # nomr=True >> 비속어 필터링  

    return ' '.join(tokens)  # ["단어", "단어", ...] -> str "단어 단어 단어"
                             # tokens를 공백으로 구분하여 하나의 문자열로 묶어서 반환 

In [63]:
print(all_inputs[101])  # 출력: 재미없음 진심 1이훨나 캐스팅두못한듯
text_preprocessing(all_inputs[101])

재미없음 진심 1이훨나 캐스팅두못한듯


'재미없다 진심 1 이훨 나 캐스팅 두 못 한 듯'

In [64]:
s = time.time()

train_texts = corpus.train.texts
train_inputs = [text_preprocessing(txt) for txt in train_texts]
train_labels = corpus.train.labels

test_texts = corpus.test.texts
test_inputs = [text_preprocessing(txt) for txt in test_texts]
test_labels = corpus.test.labels

e = time.time()

print('전처리 걸린시간(s): ', e-s)

전처리 걸린시간(s):  373.9900949001312


In [65]:
import pickle
import os

os.makedirs("datasets/nsmc", exist_ok=True)

with open('datasets/nsmc/preProcessing_trainset.pkl', "wb") as fw:
    pickle.dump({"input": train_inputs, "output":train_labels}, fw)

with open('datasets/nsmc/preprocessing_testset.pkl', "wb") as fw:
    pickle.dump({"input": test_inputs, "output": test_labels}, fw)

In [66]:
import pickle
import os

with open('datasets/nsmc/preProcessing_trainset.pkl', "rb") as fr:
    train_dict = pickle.load(fr)
with open('datasets/nsmc/preprocessing_testset.pkl', "rb") as fr:
    test_dict = pickle.load(fr)

In [67]:
train_inputs = train_dict['input']
train_labels = train_dict['output']

test_inputs = test_dict['input']
test_labels = test_dict['output']

print(train_inputs[:5])
print(test_inputs[:5])

['아 더빙 진짜 짜증나다 목소리', '흠 포스터 보고 초딩 영화 줄 오버 연기 조차 가볍다 않다', '너 무재 밓었 다그 래서 보다 추천 한 다', '교도소 이야기 구먼 솔직하다 재미 는 없다 평점 조정', '사이 몬페 그 의 익살스럽다 연기 가 돋보이다 영화 스파이더맨 에서 늙다 보이다 하다 커스틴 던스트 가 너무나도 이쁘다 보이다']
['굳다 ㅋ', 'gdntopclassintheclub', '뭐 야 이 평점 들 은 나쁘다 않다 10 점 짜다 리 는 더 더욱 아니다', '지루하다 않다 완전 막장 임 돈 주다 보기 에는', '3 d 만 아니다 별 다섯 개 주다 왜 3 d 로 나오다 제 심기 를 불편하다 하다']


In [68]:
all_inputs = train_inputs + test_inputs  # vocab 만들 때 사용.

### 토큰화
- Subword 방식 토큰화 적용
- Byte Pair Encoding 방식으로 huggingface tokenizer 사용
    - BPE: 토큰을 글자 단위로 나눈뒤 가장 자주 등장하는 글자 쌍(byte paire)를 찾아 합친뒤 어휘사전에 추가한다.
    - https://huggingface.co/docs/tokenizers/quicktour
    - `pip install tokenizers`

In [69]:
from tokenizers import Tokenizer
from tokenizers.models import BPE  # , Unigram, WordPiece
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

vocab_size = 30_000  # 어휘 사전의 최대 단어 수
min_frequency = 5  # 사전에 추가할 최소 빈도 수 (최소 5번은 나와야 사전에 추가)

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()  # 공백 기준으로 토큰화

trainer = BpeTrainer(
    vocab_size=vocab_size,
    min_frequency=min_frequency,
    special_tokens=["[PAD]", "[UNK]"],
    continuing_subword_prefix="##"  # 단어의 중간에 나오는 subword일 경우 앞에 ##을 붙인다.
                                    # ex) "시작하는" -> "시작", "##하는"
)

tokenizer.train_from_iterator(all_inputs, trainer=trainer)  # vocab 생성 == tokenizer 학습

In [70]:
# 총 vocab_size:
tokenizer.get_vocab_size()  #

26739

In [71]:
os.makedirs('saved_models/nsmc', exist_ok=True)
tokenizer.save("saved_models/nsmc/tokenizer_bpe.json")

# load_tokenizer = Tokenizer.from_file("saved_models/nsmc/tokenizer_bpe.json")

In [72]:
idx = 1557
print(all_inputs[idx])
tokens = tokenizer.encode(all_inputs[idx])
print(tokens.ids)
print(tokens.tokens)

내 인생 에서 극 장가 서 보다 영화 중 최악 의 영화
[820, 5568, 5430, 652, 7435, 1741, 5410, 5408, 2343, 5514, 2203, 5408]
['내', '인생', '에서', '극', '장가', '서', '보다', '영화', '중', '최악', '의', '영화']


In [73]:
tokenizer.decode(tokens.ids)

'내 인생 에서 극 장가 서 보다 영화 중 최악 의 영화'

## Dataset, DataLoader 생성

In [74]:
# dataset[0]
tokenizer.encode(train_inputs[0]).ids, train_labels[0]

([1986, 5881, 5426, 5667, 6087], 0)

In [75]:
# Pytorch 사용자 정의 Dataset(Custom Dataset) 정의
# 1. Dataset 상속
# 2. __len__(self): 총 데이터 개수 반환
# 3. __getitem__(self, index): index의 x, y 반환. subscriptable 타입으로 구현

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader

class NSMCDataset(Dataset):
    def __init__(self, texts, labels, max_length, tokenizer):
        """
        texts: list - 댓글 목록. 리스트에 댓글들을 담아서 받는다. ["댓글", "댓글", ...]
        labels: list - 댓글 label(감정) 목록. 
        max_length: 개별 댓글의 최대 token 개수. 모든 댓글의 토큰수를 max_length에 맞춘다.
        tokenizer: Tokenizer
        """
        self.max_length = max_length
        self.tokenizer = tokenizer

        # self.texts: 입력 댓글 - padding이 추가된 token ID로 변환된 댓글(문서). 글자 수는 max_length에 맞춤.
        #                         max_length보다 적으면 [PAD] 추가, max_length보다 많으면 잘라냄.
        self.texts = [self.__pad_token_sequences(tokenizer.encode(txt).ids) for txt in texts]
        self.labels = labels

    ###########################################################################################
    # id로 구성된 개별 문장 token list를 받아서 패딩 추가 [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
    # 토큰 리스트의 개수를 max_length에 맞추는 메소드
    ############################################################################################
    def __pad_token_sequences(self, token_sequences):  # __method name --> class 내부에서만 사용.
        """
        id로 구성된 개별 문서(댓글)의 token_id list를 받아서 max_length 길이에 맞추는 메소드
        max_length 보다 토큰수가 적으면 [PAD] 추가, 많으면 max_length 크기로 줄인다.
            ex) max_length = 5  [PAD] token id = 0
            [20, 2, 1] => [20, 2, 1, 0, 0]
            [20, 30, 40, 50, 60, 70, 80] => [20, 30, 40, 50, 60]
        """
        pad_token_id = self.tokenizer.token_to_id("[PAD]")
        seq_len = len(token_sequences)  # 입력받은 토큰 개수

        if seq_len > self.max_length:  # token 잘라내기
            result = token_sequences[:self.max_length]
        else:
            result = token_sequences + ([pad_token_id] * (self.max_length - seq_len))  # [PAD]를 최대 토큰 수 - 시퀀스 길이 만큼 반복해서 추가

        return result
        
    def __len__(self):
        return len(self.texts)  # 총 데이터 개수를 반환

    def __getitem__(self, idx):
        """
        idx 번째 text와 label을 학습 가능한 type으로 변환해서 반환
        Parameter
            idx: int 조회할 index
        Return
            tuple: (torch.LongTensor, torch.FloatTensor) - 댓글 토큰_id 리스트, 정답 Label
        """
        txt = self.texts[idx]
        label = self.labels[idx]

        return (torch.tensor(txt, dtype=torch.int64), torch.tensor([label], dtype=torch.float32))   # [label] 형태로 반환하여 batch에 맞게 처리할 수 있도록 함.
#                                                                                                   # tensor에 대한 이해가 필요....
    

In [77]:
# max_length를 어떻게 설정할거야!?

# 모든 댓글의 token 수 조회
all_input_length = [len(tokenizer.encode(txt)) for txt in all_inputs]

In [78]:
import numpy as np

np.min(all_input_length), np.max(all_input_length)
np.quantile(all_input_length, q=[0.9, 0.95])  # 분위수 출력
                                              # 90%: 30, 95%: 40
                                              # >> 토큰 수 기준 29개 미만은 90%, 41개 미만은 95%이다.

array([29., 41.])

In [79]:
MAX_LENGTH = 30
trainset = NSMCDataset(train_inputs, train_labels, MAX_LENGTH, tokenizer)
testset = NSMCDataset(test_inputs, test_labels, MAX_LENGTH, tokenizer)

In [80]:
len(trainset), len(testset)

(150000, 50000)

In [81]:
trainset[0]

(tensor([1986, 5881, 5426, 5667, 6087,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0]),
 tensor([0.]))

In [82]:
BATCH_SIZE = 64
train_loader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(testset, batch_size=BATCH_SIZE)

In [83]:
len(train_loader), len(test_loader)

(2343, 782)

# 모델링
- Embedding Layer를 이용해 Word Embedding Vector를 추출한다.
- LSTM을 이용해 Feature 추출
- Linear + Sigmoid로 댓글 긍정일 확률 출력
  
![outline](figures/rnn/RNN_outline.png)

## 모델 정의

In [84]:
import numpy as np

device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)

cpu


In [85]:
class NSMCClassifier(nn.Module):

    def __init__(self, vocab_size, embedding_dim, hidden_size, num_layers, bidirectional=True, dropout_rate=0.2):  # layer 구성성
        '''
        Args:
            vocab_size: int - 어휘 사전의 단어 수
            embedding_dim: int - 임베딩 벡터의 차원 수
            hidden_size: int - LSTM 의 은닉층 크기 >> LSTM 의 출력 feature 수
            num_layers: int - LSTM 레이어 수
            bidirectional: bool - 양방향 LSTM 여부
            dropout_rate: float - LSTM이 두 개 이상의 layer로 구셩된 경우 적용할 dropout layer의 드롭아웃 비율
        '''
        super().__init__()
        # 모델을 구성할 Layer들을 정의 - Embeddint layer, LSTM layer, Dropout layer, Linear(fully connected) layer, Sigmoid layer
        self.embedding = nn.Embedding(
            num_embeddings=vocab_size,  # vocab size
            embedding_dim=embedding_dim,  # embedding vector 차원 수
            padding_idx=0  # [PAD] token ID를 padding으로 사용. tokenizer.token_to_id("[PAD]")
                           # padding token은 학습하지 않는다.
        )
        # embedding layer의 출력 shape: [batch_size, seq_len, embedding_dim]
        #                               * batch_size: Dataloader에서 설정한 배치 크기 (LSTM의 입력 크기)
        #                               * seq_len: max_length (LSTM의 time_step 수 == 문서 토큰 수)
        #                               * embedding_dim: embedding vector 차원 수 (LSTM의 입력 feature 수)

        self.lstm = nn.LSTM(
            input_size=embedding_dim,  # LSTM의 입력 feature 수 == embedding vector 차원 수
            hidden_size=hidden_size,  # LSTM의 은닉층 크기
            num_layers=num_layers,  # LSTM 레이어 수
            bidirectional=bidirectional,  # 양방향 LSTM 여부 생성 모델이 아니라면 bidirectional=True로 설정
            dropout=dropout_rate if num_layers > 1 else 0.0,  # num_layers가 1보다 크면 dropout 적용
        )

        self.dropout = nn.Dropout(dropout_rate)  # LSTM과 Linear layer 사이에 과적합 방지를 위한 dropout layer 추가

        # LSTM의 출력 feature 수: hidden_size * 2 if bidirectional else hidden_size
        # LSTM의 출력: out, (hidden, cell)
        #              out: 모든 time step의 출력값.                shape: [batch_size, seq_len, hidden_size * 2 if bidirectional else hidden_size]
        #              hidden: 마지막 time step의 hidden state.     shape: [num_layers * bidirections, batch_size, hidden_size]
        #              cell: 마지막 time step의 cell state.         shape: [num_layers * bidirections, batch_size, hidden_size]

        input_features = hidden_size*2 if bidirectional else hidden_size  # LSTM의 출력 feature 수
                                                                          # bidirectional=True인 경우 정방향 / 역방향의 출력을 붙여서 사용하기 때문에 hidden_size * 2
        self.classifier = nn.Linear(input_features, 1)  # 출력 1: 이진분류 -> positive의 확률

        self.sigmoid = nn.Sigmoid()  # classifier의 출력값을 확률(0 ~ 1)로 변환하기 위한 Sigmoid layer


    def forward(self, X):  # layer 연산
        ''' 
        Args:
            X: torch.Tensor - 입력 데이터. shape: [batch_size, seq_len(max_length)]            
        '''

        embedding_vectors = self.embedding(X)  # embedding layer에 입력 데이터를 전달하여 embedding vector를 얻음.
        # embedding_vectors shape: [batch_size, seq_len, embedding_dim]
        # embedding_vectors: [64, 30, 100]  # batch_size=64, seq_len=30, embedding_dim=100

        # LSTM - batch_first=False: [seq_len, batch_size, input_size] / batch_first=True: [batch_size, seq_len, input_size]
        # batch_first=False라면 transpose 필요 - embedding_vectors = embedding_vectors.transpose(0, 1) -> 0번째와 1번째 차원 교환
        embedding_vectors = embedding_vectors.transpose(1, 0)
        out, _ = self.lstm(embedding_vectors)
        # out.shape: [seq_len, batch_size, hidden_size * 2 if bidirectional else hidden_size]
        # classifier(linear layer)에는 out의 마지막 index(마지막 seq) 값을 입력

        output = self.dropout(out[-1])  # dropout layer 적용

        output  = self.classifier(output)  # Linear layer를 통해 출력값을 계산
        
        last_output = self.sigmoid(output)  # Sigmoid layer를 통해 확률로 변환

        return last_output 

## 모델 생성

In [86]:
VOCAB_SIZE = tokenizer.get_vocab_size()  # vocab size
EMBEDDING_DIM = 100  # embedding vector 차원 수
HIDDEN_SIZE = 64  # LSTM의 은닉층 크기
NUM_LAYERS = 2  # LSTM 레이어 수
BIDIRECTIONAL = True  # 양방향 LSTM 여부
DROPOUT_RATE = 0.3  # dropout 비율

# 모델의 복잡도를 올린다 => EMBEDDING_DIM, HIDDEN_SIZE, NUM_LAYERS를 크게 설정. -> 너무 크면 overfitting 발생 가능성 있음.
# Auto regressive 모델이 아니라면 bidirectional=True로 설정

model = NSMCClassifier(
    vocab_size=VOCAB_SIZE,
    embedding_dim=EMBEDDING_DIM,
    hidden_size=HIDDEN_SIZE,
    num_layers=NUM_LAYERS,
    bidirectional=BIDIRECTIONAL,
    dropout_rate=DROPOUT_RATE
)

model.to(device)

print(model)

NSMCClassifier(
  (embedding): Embedding(26739, 100, padding_idx=0)
  (lstm): LSTM(100, 64, num_layers=2, dropout=0.3, bidirectional=True)
  (dropout): Dropout(p=0.3, inplace=False)
  (classifier): Linear(in_features=128, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


In [87]:
from torchinfo import summary

# summary
i = torch.randint(1, 10, (BATCH_SIZE, MAX_LENGTH), dtype=torch.int64)  # batch_size=64, seq_len=30
summary(model, input_data=i, device=device)
# summary(모델, input_shape=(batch_size, seq_len(max_length)), device=device) => 내부적으로 입력데이터를 생성하여 모델에 전달하고 출력값을 확인

Layer (type:depth-idx)                   Output Shape              Param #
NSMCClassifier                           [64, 1]                   --
├─Embedding: 1-1                         [64, 30, 100]             2,673,900
├─LSTM: 1-2                              [30, 64, 128]             184,320
├─Dropout: 1-3                           [64, 128]                 --
├─Linear: 1-4                            [64, 1]                   129
├─Sigmoid: 1-5                           [64, 1]                   --
Total params: 2,858,349
Trainable params: 2,858,349
Non-trainable params: 0
Total mult-adds (Units.MEGABYTES): 525.03
Input size (MB): 0.02
Forward/backward pass size (MB): 3.50
Params size (MB): 11.43
Estimated Total Size (MB): 14.95

## 학습

### Train/Test 함수 정의

In [88]:
# 1 epoch train하는 함수.
def train(model, dataloader, loss_fn, optimizer, device="cpu"):

    model.train()  # 모델을 학습 모드로 전환

    model = model.to(device)  # 모델을 device로 이동
    total_loss = 0.0  # 총 손실값 초기화

    # step 단위로 모델 학습 (batch_size 만큼의 데이터로 학습)
    for X, y in dataloader:

        # 1. 입력 데이터 X, 정답 레이블 y를 device로 이동
        X, y = X.to(device), y.to(device)

        # 2. 추론
        pred = model(X)  # 모델에 입력 데이터를 전달하여 예측값을 얻음

        # 3. 손실값(loss) 계산
        loss = loss_fn(pred, y)


        # 4. gradient 계산
        loss.backward()  # 손실값에 대한 gradient 계산

        # 5. 파라미터(가중치) 업데이트, w.data - w.grad * lr
        optimizer.step()

        # 6. gradient 초기화
        optimizer.zero_grad()

        # 7. 총 손실값 업데이트
        total_loss += loss.item()  # 손실값을 누적    

    return total_loss / len(dataloader)  # 평균 손실값 계산


In [89]:
# 1 epoch 평가 함수
def evaluate(model, dataloader, loss_fn, device="cpu"):
    # 모델을 평가 모드로 전환
    model.eval()

    # device로 모델 이동
    model = model.to(device)
    total_loss = 0.0  # 총 손실값 초기화
    total_accuracy = 0.0  # 정확도 초기화

    with torch.no_grad():  # 평가 시 gradient 계산을 하지 않음
        for X, y in dataloader:
            # 1. 입력 데이터 X, 정답 레이블 y를 device로 이동
            X, y = X.to(device), y.to(device)
            y = y  # y의 shape를 [batch_size, 1]로 변경

            # 2. 추론
            pred_proba = model(X)  # positive일 확률
            # pred_label = 1 if pred_proba >= 0.5 else 0  # 확률이 0.5 이상이면 positive(1), 아니면 negative(0)
            pred_label = (pred_proba >= 0.5).type(torch.int32)  # 확률이 0.5 이상이면 positive(1), 아니면 negative(0)

            # 3. 손실값(loss) 및 정확도 계산
            total_loss += loss_fn(pred_proba, y).item()
            total_accuracy += (pred_label == y).sum().item()

        avg_loss = total_loss / len(dataloader)  # 평균 손실값 계산
        avg_accuracy = total_accuracy / len(dataloader.dataset)  # 전체 데이터셋에 대한 정확도 계산

        return avg_loss, avg_accuracy  # 평균 손실값과 정확도 반환

### Train

In [90]:
LR = 1e-3  # learning rate
EPOCHS = 3  # 학습 epoch 수
loss_fn = nn.BCELoss()  # 이진 분류 손실 함수
optimizer = torch.optim.Adam(model.parameters(), lr=LR)  # Adam optimizer

In [91]:
import time

start_time = time.time()  # 학습 시작 시간

train_loss_list = []  # 학습 손실값을 저장할 리스트
val_loss_list = []  # 검증 손실값을 저장할 리스트
val_acc_list = []  # 검증 정확도를 저장할 리스트

# 학습 및 검증 반복
for epoch in range(EPOCHS):
    train_loss = train(model, train_loader, loss_fn, optimizer, device)
    val_loss, val_accuracy = evaluate(model, test_loader, loss_fn, device)
    
    train_loss_list.append(train_loss)  # 학습 손실값 저장
    val_loss_list.append(val_loss)  # 검증 손실값 저장
    val_acc_list.append(val_accuracy)  # 검증 정확도 저장

    print(f"Epoch {epoch+1}/{EPOCHS}, Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}, Val Accuracy: {val_accuracy:.4f}")

end_time = time.time()  # 학습 종료 시간

print("학습 시간(초): ", end_time - start_time)

Epoch 1/3, Train Loss: 0.4583, Val Loss: 0.3765, Val Accuracy: 0.8306
Epoch 2/3, Train Loss: 0.3314, Val Loss: 0.3575, Val Accuracy: 0.8421
Epoch 3/3, Train Loss: 0.2839, Val Loss: 0.3577, Val Accuracy: 0.8504
학습 시간(초):  1453.1993300914764


## 모델저장

In [92]:
torch.save(model, "saved_models/nsmc/model.pt")  # 모델 저장

In [93]:
load_model = torch.load("saved_models/nsmc/model.pt", weights_only=False)  # 모델 불러오기)

# 서비스

## 전처리 함수들

In [94]:
from konlpy.tag import Okt
import re
import string

morph_tokenizer = Okt()  # 형태소 기반 토큰화
def text_preprocessing(text):
    
    text = text.lower()
    text = re.sub(f"[{string.punctuation}]+", ' ', text)
    return ' '.join(morph_tokenizer.morphs(text, stem=True))

In [95]:
def pad_token_sequences(token_sequences, max_length):
    """padding 처리 메소드."""
    pad_token = tokenizer.token_to_id('[PAD]')  
    seq_length = len(token_sequences)           
    result = None
    if seq_length > max_length:                 
        result = token_sequences[:max_length]
    else:                                            
        result = token_sequences + ([pad_token] * (max_length - seq_length))
    return result

In [96]:
def predict_data_preprocessing(text_list):
    """
    모델에 입력할 수있는 input data를 생성
    Parameter:
        text_list: list - 추론할 댓글리스트
    Return
        torch.LongTensor - 댓글 token_id tensor
    """
   
    #cleansing & normalize
    text_list = [text_preprocessing(txt) for txt in text_list]  # 댓글 전처리
    token_list = [tokenizer.encode(txt).ids for txt in text_list]  # 토큰화
    # tokenization
    token_list = [pad_token_sequences(token, MAX_LENGTH) for token in token_list]

    return torch.tensor(token_list, dtype=torch.int64)

## 추론

In [97]:
comment_list = ["아 진짜 재미없다.", "여기 식당 먹을만 해요", "이걸 영화라고 만들었냐?", "기대 안하고 봐서 그런지 괜찮은데.", "이걸 영화라고 만들었나?", "아! 뭐야 진짜.", "재미있는데.", "연기 짱 좋아. 한번 더 볼 의향도 있다.", "뭐 그럭저럭"]

input_tensor = predict_data_preprocessing(comment_list)


In [98]:
def predict(model, comment_list, input_tensor, device="cpu"):
    """
    model로 input_tensor를 추론해서 긍정/부정적인 댓글인지 출력
    출력형식
        comment(댓글) label    확룔
        "아 재미없다:  부정     0.9
        "재밌다."
    """

    model.eval()

    model = model.to(device)

    with torch.no_grad():
        pred = model(input_tensor)

        for txt, pos_proba in zip(comment_list, pred):
            label = "긍정" if pos_proba.item() >= 0.5 else "부정"
            proba = pos_proba.item() if pos_proba.item() >= 0.5 else 1 - pos_proba.item()

            print(txt, label, round(proba, 3), sep="\t")


In [99]:
predict(load_model, comment_list, input_tensor, device)

아 진짜 재미없다.	부정	0.994
여기 식당 먹을만 해요	긍정	0.705
이걸 영화라고 만들었냐?	부정	0.99
기대 안하고 봐서 그런지 괜찮은데.	긍정	0.715
이걸 영화라고 만들었나?	부정	0.99
아! 뭐야 진짜.	부정	0.846
재미있는데.	긍정	0.959
연기 짱 좋아. 한번 더 볼 의향도 있다.	긍정	0.989
뭐 그럭저럭	부정	0.974
