# Pytorch의 nn.Embedding
- Pytorch의 Embedding Layer는 word2vec과 마찬가지로 word embedding vector를 찾는 **Lookup Table**이다.
    - 단어의 **정수의 고유 index**가 입력으로 들어오면 Embedding Layer의 **그 index의 Vector**를 출력한다.
    - 모델이 학습되는 동안 모델이 풀려는 문제에 맞는 값으로 Embedding Layer의 vector들이 업데이트 된다.
    - Word2Vec의 embedding vector 학습을 nn.Embedding은 자신이 포함된 모델을 학습 하는 과정에서 한다고 생각하면 된다.

In [8]:
import torch
import torch.nn as nn

embed = nn.Embedding(
    num_embeddings=20_000,  # vocab size(어휘사전에 있는 단어수(토큰수)) -> 총 몇개의 단어에 대한 embedding vector를 만들지에 대한 설정
    embedding_dim=200,      # embedding vector의 차원수 -> 개별단어를 몇개의 숫자(feature)로 표현할지에 대한 설정
)

In [None]:
embed.weight
# 아래 행렬을 보면, embed.weight[i]는 i번재 단어(token)의 embedding vector값을 나타낸다.
# 따라서 20000만개의 embedding vector, 200개의 feature를 가짐
# embed.weight.shape >>> 출력: torch.Size([20000, 200])

torch.Size([20000, 200])

In [None]:
# embedding layer의 입력 - 문서를 구성하는 토큰들의 ID(**정수-int**)를 1차원 묶어서 전달.

# 예를들어 doc = 나는-30|어제-159|밥을-9000|먹었다-326
doc = torch.tensor([[30,159,9000,326],[30,159,9000,326],[30,159,9000,326]], dtype=torch.int64) # 각 토큰에 대한 id를 지정하여 아래처럼 정보 조회 가능
                    # batch_size(문장 개수)가 3이라서 2차원리스트로 리스트 3개를 각각 넣어야한다.
embedding_vector = embed(doc)
embedding_vector.shape

# 출력 결과: torch.Size([1, 4, 200]) >>>  [1:batch_size, 4:seq_len, 200:embedding vector 차원수]
# 30, 159, 9000, 326 이라는 id가 200개의 차원을 갖는 vector로 바뀌는 것. 

torch.Size([3, 4, 200])

In [6]:
embedding_vector[0,0]

tensor([ 0.2615, -0.6480,  0.6542,  0.1267, -0.4590, -1.5807, -0.4225,  2.0638,
        -0.0388,  1.4628,  1.0835, -0.6870, -0.1393,  0.0141, -3.1681,  0.7286,
         0.3485, -1.6117,  1.0816,  0.3718,  1.2983,  0.6510,  0.5335,  0.9103,
        -0.6888,  0.5167, -0.6261, -0.3301, -0.3349,  0.1504, -0.6173, -0.3165,
        -0.6558, -0.8535,  1.9076,  0.0057,  0.1901, -0.3131,  1.3714, -0.0869,
         0.6757, -0.2383,  0.6748,  1.3897, -0.0878,  0.6294, -0.5268, -1.2177,
         0.2837,  0.4953, -1.5418, -0.4043,  0.7954,  1.6025, -2.2578, -0.4963,
        -0.8050,  0.5768, -0.9294, -1.0111, -0.1835,  1.0086, -0.5453, -0.4286,
        -0.3882,  1.1476, -1.0053,  1.6031,  1.2461, -0.3062, -1.2062, -2.8213,
        -1.1075, -0.5217,  0.2048, -0.1997,  1.7862,  0.1536,  1.6618,  0.1133,
        -0.1169,  0.7271,  0.8280,  2.5958,  1.0975,  0.1266, -0.1898,  0.3918,
         0.2049,  0.3505,  0.9007,  1.6800,  0.0518, -0.3274, -0.2015,  0.3683,
        -0.1802, -0.1015,  0.0472,  1.42

In [None]:
embed.weight[30] # 위와 결과 같음
# weight가 embedding_vector 값이다!

tensor([ 0.2615, -0.6480,  0.6542,  0.1267, -0.4590, -1.5807, -0.4225,  2.0638,
        -0.0388,  1.4628,  1.0835, -0.6870, -0.1393,  0.0141, -3.1681,  0.7286,
         0.3485, -1.6117,  1.0816,  0.3718,  1.2983,  0.6510,  0.5335,  0.9103,
        -0.6888,  0.5167, -0.6261, -0.3301, -0.3349,  0.1504, -0.6173, -0.3165,
        -0.6558, -0.8535,  1.9076,  0.0057,  0.1901, -0.3131,  1.3714, -0.0869,
         0.6757, -0.2383,  0.6748,  1.3897, -0.0878,  0.6294, -0.5268, -1.2177,
         0.2837,  0.4953, -1.5418, -0.4043,  0.7954,  1.6025, -2.2578, -0.4963,
        -0.8050,  0.5768, -0.9294, -1.0111, -0.1835,  1.0086, -0.5453, -0.4286,
        -0.3882,  1.1476, -1.0053,  1.6031,  1.2461, -0.3062, -1.2062, -2.8213,
        -1.1075, -0.5217,  0.2048, -0.1997,  1.7862,  0.1536,  1.6618,  0.1133,
        -0.1169,  0.7271,  0.8280,  2.5958,  1.0975,  0.1266, -0.1898,  0.3918,
         0.2049,  0.3505,  0.9007,  1.6800,  0.0518, -0.3274, -0.2015,  0.3683,
        -0.1802, -0.1015,  0.0472,  1.42

num_embeddings=20_000, embedding_dim=200 이므로,
단어수는 20000, 하나의 embedding vector를 이루는 값들은 200개
weight에 입력값을 넣을 때, 입력값은 ohe 된것(ex. [0,0,1,0,0,0])이라서 weight중 1row만 반영된다.
그렇게 학습이 된 후에, 예측하려는 문장을 토큰화한 후에 나온 숫자들은 각각 ohe되어 반영되었던 row와 idx가 같다.
따라서 embeddig vector에 반영되는 idx에 해당하는 weight의 row만 따로 모아보면, 양자는 같다.

즉, 어휘사전에 단어의 id는, 이후에 입력되는 문장이 토큰화 되어 결정되는 id와 같다.
아래는 그 예시

In [2]:
import torch
import torch.nn as nn

# 어휘사전 어휘 수 : 10개
# 임베딩 벡터 차원수 : 3차원 (1개의 단어에 대해서 3개의 값을 갖겠다.)

e_layer = nn.Embedding(
    num_embeddings=10,
    embedding_dim=3,
)
# 위에서 만든 embedding layer가 결국은 10X3 weight 행렬을 생성한 것이다. -> weight 행렬이 전체 어휘들의 embedding vectoer들

In [None]:
e_layer.weight
# weight의 row 한줄한줄이 어휘사전의 어휘에 대한 weight

Parameter containing:
tensor([[ 0.0258,  0.2443,  0.4804],
        [ 0.9972,  0.3877, -0.0814],
        [-0.0971,  0.4244,  0.0437],
        [ 0.2652, -1.4574, -1.0347],
        [ 1.5640, -0.5004,  0.5605],
        [-0.1732,  0.6381, -0.6108],
        [-0.5190,  0.5237, -1.5154],
        [ 0.1994,  1.1014,  0.8350],
        [-1.4112, -0.9116,  1.6399],
        [-0.4163,  0.2410,  1.7471]], requires_grad=True)

In [4]:
# 예를 들어 "오늘 날씨 좋다"의 문장을 입력할건데, 각 어휘의 토큰이 오늘:0, 날씨:4, 좋다:2 라면?
sent = "오늘 날씨 좋다"
# token = tokenizer.encode(sent).ids >> 이걸통해 문장을 토큰화하고 단어의 id를 찾아낸다.
token = torch.tensor([0,4,2], dtype=torch.int64)
e_layer(token)

tensor([[ 0.0258,  0.2443,  0.4804],
        [ 1.5640, -0.5004,  0.5605],
        [-0.0971,  0.4244,  0.0437]], grad_fn=<EmbeddingBackward0>)

In [None]:
""" 아래의 vector는 embedding layer를 다시 돌리면 값이 달라진다.
[
    [ 0.0258,  0.2443,  0.4804], <- 0:오늘
    [ 1.5640, -0.5004,  0.5605], <- 4:날씨
    [-0.0971,  0.4244,  0.0437]  <- 2:좋다
]
"""

# 네이버 영화 댓글 감성분석(Sentiment Analysis)

## 감성분석(Sentiment Analysis) 이란
입력된 텍스트가 **긍적적인 글**인지 **부정적인**인지 또는 **중립적인** 글인지 분석하는 것을 감성(감정) 분석이라고 한다.   
이를 통해 기업이 고객이 자신들의 기업 또는 제품에 대해 어떤 의견을 가지고 있는지 분석한다.

# Dataset, DataLoader 생성

## Korpora에서 Naver 영화 댓글 dataset 가져오기
- https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/nsmc.html
- http://github.com/e9t/nsmc/
    - input: 영화댓글
    - output: 0(부정적댓글), 1(긍정적댓글)
### API
- **corpus 가져오기**
    - `Korpora.load('nsmc')`
- **text/label 조회**
    - `corpus.get_all_texts()` : 전체 corpus의 text들을 tuple로 반환
    - `corpus.get_all_labels()`: 전체 corpus의 label들을 list로 반환
- **train/test set 나눠서 조회**
    - `corpus.train`
    - `corpus.test`
    - `LabeledSentenceKorpusData` 객체에 text와 label들을 담아서 제공.
        - `LabeledSentenceKorpusData.texts`: text들 tuple로 반환.
        - `LabeledSentenceKorpusData.labels`: label들 list로 반환.

## 데이터 로딩

In [4]:
import os
import time

from Korpora import Korpora

corpus = Korpora.load("nsmc")


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\Playdata\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\

In [5]:
all_inputs = corpus.get_all_texts() # inputs: 댓글들 전체
all_labels = corpus.get_all_labels() # outputs: labels 전체 - 0: 부정, 1:긍정
all_inputs[:5] #0~4번까지 댓글 슬라이싱

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [6]:
all_labels[:5]

# 출력결과: [0, 1, 0, 0, 1] >> 1번과 4번은 긍정적인 댓글로 파악한것
# 위 데이터는 평점을 반영한 데이터라서, '너무재밓었다그래서보는것을추천한다' >> 긍정댓글인듯 보이지만, 평점을 낮게 줘서 '0'이라서 나온것.

[0, 1, 0, 0, 1]

In [7]:
corpus.train

NSMC.train: size=150000
  - NSMC.train.texts : list[str]
  - NSMC.train.labels : list[int]

In [8]:
corpus.test 

NSMC.test: size=50000
  - NSMC.test.texts : list[str]
  - NSMC.test.labels : list[int]

In [9]:
corpus.test.texts[:5]

('굳 ㅋ',
 'GDNTOPCLASSINTHECLUB',
 '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아',
 '지루하지는 않은데 완전 막장임... 돈주고 보기에는....',
 '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??')

In [10]:
corpus.test.labels[:5]

[1, 0, 0, 0, 0]

## 토큰화
1. 형태소 단위 token화(분절)를 먼저 한다.
    - konlpy로 token화 한 뒤 다시 한 문장으로 만든다.
2. 1에서 처리한 corpus를 BPE 로 token화
   
### 전처리 함수

#### 형태소 단위 분절

In [11]:
from konlpy.tag import Okt
import string
import re

okt= Okt()
# 전처리 = cleansing + 정규화(normalize)
def text_preprocessing(text):
    """
    1. 영문 -> 소문자로 변환
    2. 구두점 제거
    3. 형태소 기반 토큰화
    4. 형태소로 토큰화 한 뒤 다시 하나의 문자열로 묶어서 반환.
    """
    text = text.lower()
    # 구두점 제거(stop word(불용어))
    text = re.sub(f"[{string.punctuation}]", " ", text)
    # 정규화
    tokens = okt.morphs(text, stem=True) # stem: 원형복원.
    return ' '.join(tokens) # list인 ["단어", "단어"....] -> str로 변환 "단어 단어 단어"

In [12]:
print(all_inputs[400])
text_preprocessing(all_inputs[400])   # 토큰화 결과 확인

좀 검증된 애들좀 출현시켜라이탈리아 특집 장난하냐


'좀 검증 되다 애 들 좀 출현 시키다 이탈리아 특집 장난 하다'

In [13]:
s = time.time()

# train set 전처리
train_texts = corpus.train.texts
train_inputs = [text_preprocessing(txt) for txt in train_texts]
train_labels = corpus.train.labels

# test set 전처리
test_texts = corpus.test.texts
test_inputs = [text_preprocessing(txt) for txt in test_texts]
test_labels = corpus.test.labels
e = time.time()

print('전처리 걸린시간(초):', e-s)

KeyboardInterrupt: 

In [None]:
import pickle
import os

os.makedirs("datasets/nsmc", exist_ok=True)
with open("datasets/nsmc/preprocessing_trainset.pkl", "wb") as fw:
    pickle.dump({"input":train_inputs, "output":train_labels}, fw)

In [None]:
with open("datasets/nsmc/preprocessing_testset.pkl", "wb") as fw:
    pickle.dump({"input":test_inputs, "output":test_labels}, fw)

In [None]:
# pickle로 저장한 전처리된 데이터셋 읽어오기.
import pickle

with open("datasets/nsmc/preprocessing_trainset.pkl", "rb") as fr:
    train_dict = pickle.load(fr)

with open("datasets/nsmc/preprocessing_testset.pkl", "rb") as fr:
    test_dict = pickle.load(fr)

In [None]:
train_inputs = train_dict['input']
train_labels = train_dict['output']

test_inputs = test_dict['input']
test_labels = test_dict['output']

In [None]:
all_inputs = train_inputs + test_inputs # vocab 만들때 사용.

In [None]:
len(train_inputs), len(test_inputs), len(all_inputs)

(150000, 50000, 200000)

In [None]:
# 여기까지는 전처리, 이하 토큰화

### 토큰화
- Subword 방식 토큰화 적용
- Byte Pair Encoding 방식으로 huggingface tokenizer 사용
    - BPE: 토큰을 글자 단위로 나눈뒤 가장 자주 등장하는 글자 쌍(byte paire)를 찾아 합친뒤 어휘사전에 추가한다.
    - https://huggingface.co/docs/tokenizers/quicktour
    - `pip install tokenizers`

In [14]:
from tokenizers import Tokenizer
from tokenizers.models import BPE #, Unigram, WordPiece
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

vocabs_size = 30_000  # 어휘사전의 최대 단어수
min_frequency = 5 # 어휘를 다 넣지 않고, 최소 5번은 나와야 넣겠다는 것

tokenizer = Tokenizer(
    BPE(unk_token="[UNK]")
)
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
    vocab_size=vocabs_size,
    min_frequency=min_frequency,
    special_tokens=["[PAD]", "[UNK]"],
    continuing_subword_prefix="##"
    # 단어 중간에 나오는 subword일 경우 앞에 ##을 붙인다.
    # "시작하는" -> "시작", "하는" => "시작", "##하는"
)
tokenizer.train_from_iterator(all_inputs, trainer=trainer) #vocab 생성 == tokenizer 학습.


In [None]:
# 총 vocab size:
tokenizer.get_vocab_size()

26739

In [None]:
e = tokenizer.encode("pytorch와 pandas와 numpy는 python의 라이브러리 입니다.")
e.tokens

# 마침표는 어휘사전에 없다. 그래서 [UNK]라고 나옴
# 위의 영단어는 영화 댓글에 대한 어휘사전에 있을리 없어서, 단어가 쪼개져서 토큰화됨.

['p',
 '##y',
 '##t',
 '##or',
 '##ch',
 '##와',
 'p',
 '##and',
 '##as',
 '##와',
 'n',
 '##um',
 '##p',
 '##y',
 '##는',
 'p',
 '##y',
 '##th',
 '##on',
 '##의',
 '라이브',
 '##러리',
 '입',
 '##니다',
 '[UNK]']

In [None]:
# 토큰을 옆으로 붙여보기
tokenizer.decode(e.ids)

'p ##y ##t ##or ##ch ##와 p ##and ##as ##와 n ##um ##p ##y ##는 p ##y ##th ##on ##의 라이브 ##러리 입 ##니다'

In [None]:
# 저장
os.makedirs("saved_models/nsmc", exist_ok=True)
tokenizer.save("saved_models/nsmc/tokenizer_bpe.json")

# 불러올땐?
# load_tokenizer = Tokenizer.from_file("saved_models/nsmc/tokenizer_bpe.json")

In [None]:
# 토큰화되어 id가 매칭되는 것 확인. 1000번은 예시를 든것

idx = 1000
print(all_inputs[idx])
tokens = tokenizer.encode(all_inputs[idx])
print(tokens.ids)
print(tokens.tokens)


정말 최고 의 명작 성인 이 되다 보다 이집트 의 왕자 는 또 다른 감동 그 자체 네 요
[5420, 5438, 2203, 5530, 6570, 2206, 5425, 5410, 14757, 2203, 9123, 923, 1152, 5617, 5450, 651, 5641, 856, 2128]
['정말', '최고', '의', '명작', '성인', '이', '되다', '보다', '이집트', '의', '왕자', '는', '또', '다른', '감동', '그', '자체', '네', '요']


In [None]:
tokenizer.decode(tokens.ids)

'정말 최고 의 명작 성인 이 되다 보다 이집트 의 왕자 는 또 다른 감동 그 자체 네 요'

## Dataset, DataLoader 생성

In [None]:
# Pytorch 사용자 정의 Dataset(Custom Dataset) 정의
# 1. Dataset 상속
# 2. __len__(self) : 총 데이터의 개수 반환 -> len()와 연동
# 3. __getitem__(self, index) : index의 x,y를 반환.- 객체[index]

In [15]:
import torch
from torch.utils.data import Dataset, DataLoader

class NSMCDataset(Dataset):
    def __init__(self, texts, labels, max_length, tokenizer):
        """
        texts: list - 댓글 목록. 리스트에 댓글들을 담아서 받는다. ["댓글", "댓글", ...]
        labels: list - 댓글 감정(labels의 긍/부정) 목록. 
        max_length: 개별 댓글의 token 개수. 모든 댓글의 토큰수를 max_length에 맞춘다. 댓글마다 길이가 달라서 sequence의 length(개수)를 맞춰주기 위함.
        tokenizer: Tokenizer
        """
        self.max_length = max_length
        self.tokenizer = tokenizer
        self.labels = labels
        self.texts = [self.__pad_token_sequences(tokenizer.encode(txt).ids) for txt in texts] # 한문장 한문장을 토크나이저하여 그 id로 이루어진 것으로 변환하여 하나씩 보낸다.
        # self.texts: 입력댓글 - token is로 변환된 댓글(문서). 글자수는 max_length에 맞춤.
        #             max_length 보다 적으면 [PAD] 추가, max_length보다 많으면 잘라낸다.
        #             아래의 __pad_token_sequences()가 그 역할을 한다.

    ############################################################################################
    # id로 구성된 개별 문장 token list를 받아서 패딩 추가 [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
    # max_length에 토큰리스트의 개수를 맞춰주는 함수.
    ############################################################################################
    def __pad_token_sequences(self, token_sequences): # 함수명 앞에만 '__'붙인 경우, class 안에서만 쓴다는 것(은닉성). 외부에서 호출 불가.
                                                      # 뒤에도 '__' 붙이면 앞에 붙인 은닉성이 해제됨
        """
        id로 구성된 개별 문서(댓글)의 token_id list를 받아서 max_length 길이에 맞추는 메소드
        max_length 보다 토큰수가 적으면 [PAD] 추가, 많으면 max_length 크기로 줄인다.
            ex) if)max_length = 5, [PAD] token id = 0 이라면?
            >>>>> [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
            >>>>> [20, 30, 40, 50, 60, 70, 80] -> [20, 30, 40, 50, 60]
            
        """
        pad_token_id = self.tokenizer.token_to_id("[PAD]")
        seq_len = len(token_sequences) # 입력받은 토큰 개수
        result = None
        if seq_len > self.max_length: # 잘라내기
            result = token_sequences[:self.max_length]
        else:
            result = token_sequences + ([pad_token_id] * (self.max_length - seq_len))
            #[PAD]는 리스트이므로 [PAD]에 숫자를 곱하면 그만큼 더해진다.
        return result

        
    def __len__(self):
        return len(self.labels) # 총 데이터개수를 반환.

    def __getitem__(self, idx):
        """
        idx 번째 text와 label을 학습 가능한 type으로 변환해서 반환
        Parameter
            idx: int 조회할 index
        Return
            tuple: (torch.LongTensor, torch.FloatTensor) - 댓글 토큰_id 리스트, 정답 Label
        """
        txt = self.texts[idx]
        label = self.labels[idx]

        return (torch.tensor(txt, dtype=torch.int64), torch.tensor([label], dtype=torch.float32))
        # [label]: 리스트화 한 이유. 정답과 모델이 예측한 값의 shape을 맞추기 위함. 안하면 y가 그냥 1차원이 된다.
    

In [None]:
# max_length = 5라고 두었지만, 5는 적절한 값일까?
# 댓글의 길이가 어떻게 분포되었는지도 모르는데, 5라고 임의로 적용한건 적절치 않다.
# 따라서 전체 댓글들의 토큰 수를 확인해보자!
# 모든 댓글의 토큰 수 조회
all_input_length = [len(tokenizer.encode(txt)) for txt in all_inputs]
all_input_length[:5]

[5, 11, 10, 9, 22]

In [None]:
import numpy as np
np.min(all_input_length), np.max(all_input_length)

(0, 89)

In [None]:
np.quantile(all_input_length, q=[0.9, 0.95])
# 전체 중 90%의 토큰수는 29 미만, 95%는 41개 미만
# 95%까진 반영하고 싶으면 max_length = 41로 두면된다. 아래는 max_length = 30으로 진행

array([29., 41.])

In [16]:
MAX_LENGTH = 30
trainset = NSMCDataset(train_inputs, train_labels, MAX_LENGTH, tokenizer)
testset = NSMCDataset(test_inputs, test_labels, MAX_LENGTH, tokenizer)

NameError: name 'train_inputs' is not defined

In [None]:
len(trainset), len(testset)

(150000, 50000)

In [None]:
trainset[0] # 30개 맞춘것 확인

(tensor([1986, 5881, 5426, 5667, 6087,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0]),
 tensor(0.))

In [None]:
BATCH_SIZE = 64
train_loader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(testset, batch_size=BATCH_SIZE)

In [None]:
len(train_loader), len(test_loader)

(2343, 782)

# 모델링
- Embedding Layer를 이용해 Word Embedding Vector를 추출한다.
- LSTM을 이용해 Feature 추출
- Linear + Sigmoid로 댓글 긍정일 확률 출력
  
![outline](figures/rnn/RNN_outline.png)

## 모델 정의

In [None]:
import torch
import torch.nn as nn
from torchinfo import summary
import numpy as np

device = 'cuda' if torch.cuda.is_available() else "cpu"
print(device)

cpu


In [17]:
# 모델 정의
class NSMCClassifier(nn.Module):

    def __init__(self, vocabs_size, embedding_dim, hidden_size, num_layers, bidirectional=True, dropout_rate=0.2):
        """
        Args:
            vocab_size(int) - 어휘사전의 총 어휘수
            embedding_dim(int) - (word) embedding vector의 차원수
            hideen_size(int) - LSTM의 hidden state의 feature수
            num_layers(int) - LSTM의 later의 개수
            bidirectional(bool) - LSTM의 양방향 여부
            dropout_rate(float) - LSTM이 두개 이상의 layer로 구성된 경우 적용할 dropout 비율. Dropout Layer의 dropout 비율
        """
        super().__init__()
        # 모델을 구성할 Layer들을 정의 - Embedding, LSTM, Dropout, Linear(추론기기), Sigmoid
        self.embedding = nn.Embedding(
            num_embeddings=vocabs_size,  # 총 단어수 -> tokenizer에 등록된 총 단어수.
            embedding_dim=embedding_dim, # 임베딩 벡터의 차원수
            padding_idx=0 # [PAD]의 토큰ID
                          # 원래는 >>> tokenizer.token_to_index("[PAD]")<<< 이렇게 넣어야하는데, 지금 우린 [PAD]=0인걸 알아서 그냥 0으로 넣음
                          # padding 토큰은 학습하지 않는다.
        )
        # Embedding layer의 출력 shape: (batch_size:64, seq_length: 문서 토큰수(30으로 맞췄으니 30이 될것), embedding_dim)

        self.lstm = nn.LSTM(
            input_size=embedding_dim, # 개별 토큰(단어)의 feature수(embedding에서 LSTM으로 넘어가므로 embedding 차원수를 넣는다.)
            hidden_size=hidden_size,
            num_layers=num_layers,
            bidirectional=bidirectional,
            dropout=dropout_rate if num_layers > 1 else 0  # LSTM 모델에 layer가 쌓이는 경우에만(stacked rnn) dropout을 적용한다.
        )

        self.dropout = nn.Dropout(dropout_rate) # LSTM 과 Linear 사이에 과적합 방지를 위해서 사용.

        input_features = hidden_size*2 if bidirectional else hidden_size
        self.classifier = nn.Linear(input_features, 1) # 출력 1: 이진분류 -> positive의 확률
        # 위의 nn.Linear의 입력값 대한 설명
        # 상기 그림을 보면, Feature Extractor 단계에서 보면 몇단계든 간에 마지막 hidden state의 출력값이 Linear의 입력값이 된다.
        # 그러나, 양방향인 경우 hidden state의 출력이 2개가 된다.
        # 따라서 단방향이면 2배로해서 넣고, 양방향이면 이미 2배이므로 그대로 넣는다.
        # 한편 lstm의 출력 형태는 아래와 같다.
        # lstm의 출력: out, (hidden, cell)
        # out: 모든 timestep의 hidden state값 - [seq_len, batch, hidden * bidirectional]
        # hidden: 마지막 timestep의 hidden state(단기기억) - [bidirectional * num_layers, batch, hidden] >>> 순/역방향 2개 >>> layer별로 2개
        # cell: 마지막 timestep의 cell state(장기기억) >>> 순/역방향 2개 >>> layer별로 2개
        # out을 이용하는 것이 더 편하다.
        
        self.sigmoid = nn.Sigmoid() # classifier의 출력값을 확률(0~1)값으로 변환하는 함수

    def forward(self, X):
        """
        Args:
            X(tensor): 입력 문서의 토큰 리스트. shape: [batch_size, seq_length(max_length:문서구성토큰수)] >>> [64, 30]
        """
        embedding_vectors = self.embedding(X)
        # 1) [batch, seq_len] -> embedding layers를 거치면 -> [batch, seq_len, embedding_차원수] 
        # 2) LSTM -batch)first=False: 입력 shape - [seq_len, batch_size, embedding_dim]
        # 1)과 2)를 비교해서 seq_len과 batch 자리가 반대이므로 축(값의 위치)을 바꿔줘야한다.
        embedding_vectors = embedding_vectors.transpose(1,0)
        out, _ = self.lstm(embedding_vectors)
        # out.shape : [seq_len, batch, hidden_size*(2 if bidirectional else 1)] >>> 여기서 seq_len만 쓴다는 것
        # classifier(linear)에는 ont의 마지막 index(마지막 seq) 값을 입력

        output = self.dropout(out[-1])
        output = self.classifier(output) # 윗 줄의 dropout을 입력
        last_output = self.sigmoid(output) # 윗 줄의 결과를 확률값으로 변환
        return last_output

In [None]:
# # transpose(1,0)???
# # 파라미터의 순서: index를 이동시킬 축 위치
# # 파라미터 값 : 이동할 대상 index의 축 위치
# # 1은 0으로, 0은 1로

# # 예시
# ev = [
#     [10,20,30],
#     [40,50,60]
# ] # shape: (2,3)

# a = ev.transpose(1,0)
# """
# 10 idx: [0,0] >>> [0,0]
# 20 idx: [0,1] >>> [1,0]
# 30 idx: [0,2] >>> [2,0]
# 40 idx: [1,0] >>> [0,1]
# 50 idx: [2,0] >>> [0,2]
# 60 idx: [3,0] >>> [0,3]
# """

# # 결과
# a = [
#     [10, 40],
#     [20, 50],
#     [30, 60]
# ]

# # reshape과 비교
# b = ev.reshape(3,2) = [
#     [10,20],
#     [30,40],
#     [50,60]
# ]

## 모델 생성

In [None]:
VOCAB_SIZE = tokenizer.get_vocab_size() # 총 어휘수
EMBEDDING_DIM = 100
HIDDEN_SIZE = 64
NUM_LAYERS = 2
BIDIRECTIONAL = True
DROPOUT_RATE = 0.3

# 모델의 복잡도를 올리려면? >>> EMBEDDING_DIM, HIDDEN_SIZE, NUM_LAYERS를 크게
# Auto regressive 모델이 아니면 BIDIRECTIONAL=True(양방향)

model = NSMCClassifier(
    vocabs_size=VOCAB_SIZE,
    embedding_dim=EMBEDDING_DIM,
    hidden_size=HIDDEN_SIZE,
    num_layers=NUM_LAYERS,
    bidirectional=BIDIRECTIONAL,
    dropout_rate=DROPOUT_RATE
)
model = model.to(device)
print(model)

NSMCClassifier(
  (embedding): Embedding(26739, 100, padding_idx=0)
  (lstm): LSTM(100, 64, num_layers=2, dropout=0.3, bidirectional=True)
  (dropout): Dropout(p=0.3, inplace=False)
  (classifier): Linear(in_features=128, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


In [None]:
# summary
i = torch.randint(1, 10, (64, MAX_LENGTH)) # int64 타입의 dummy 입력데이터
# 입력 shape: (batch, seq_len)
summary(model, input_data=i, device=device)
# summary(모델, input_shape) => 내부적으로 입력데이터(float32)를 생성해서 추론
# 아래에서 LSTM 의 축이 바뀐것도 확인할 수 있다.

Layer (type:depth-idx)                   Output Shape              Param #
NSMCClassifier                           [64, 1]                   --
├─Embedding: 1-1                         [64, 30, 100]             2,673,900
├─LSTM: 1-2                              [30, 64, 128]             184,320
├─Dropout: 1-3                           [64, 128]                 --
├─Linear: 1-4                            [64, 1]                   129
├─Sigmoid: 1-5                           [64, 1]                   --
Total params: 2,858,349
Trainable params: 2,858,349
Non-trainable params: 0
Total mult-adds (Units.MEGABYTES): 525.03
Input size (MB): 0.02
Forward/backward pass size (MB): 3.50
Params size (MB): 11.43
Estimated Total Size (MB): 14.95

## 학습

### Train/Test 함수 정의

In [None]:
# 1 epoch train 하는 함수
def train(model, dataloader, loss_fn, optimizer, device="cpu"):
    model.train()               # 모델을 train 모드로 변환
    model = model.to(device)    # 모델을 device로 이동
    total_loss = 0.0            # step별 loss 누적
    for X,y in dataloader:      # step 단위로 모델 학습 (batch)
        X,y = X.to(device), y.to(device)        # 1. X,y를 device로 이동 (항상 X,y,model은 같은 디바이스에 있어야한다.)
        pred = model(X)                         # 2. 추론
        loss = loss_fn(pred, y)                 # 3. loss 계산 (여기까지가 순전파)
        loss.backward()                         # 4. gradient 계산
        optimizer.step()                        # 5. 파라미터 업데이트 (w.data - w.grad *lr)
        optimizer.zero_grad()                   # 6. gradient 초기화
        total_loss += loss.item()               # 7. loss 누적
    # 1 epoch 학습 완료
    return total_loss / len(dataloader) # 1 epoch의 train loss를 반환. (toal loss/step수)

In [None]:
# 1 epoch 평가/검증 함수
def test(model, dataloader, loss_fn, device="cpu"):
    # 1. 모델을 eval 모드로 변경, model의 device 이동
    model.eval()
    model = model.to(device)
    # loss, accuracy
    total_loss = 0.0
    total_acc = 0.0
    with torch.no_grad():
        for X,y in dataloader:
            ###### 1 step 처리.
            # 1. X,y를 device로 이동
            X,y = X.to(device), y.to(device) 
            # 2. 추론
            pred_proba = model(X)                     # 양성일 확률
            pred_label = (pred_proba > 0.5).type(torch.int32) # >>> pred_proba의 값이 0.5보다 큰 것들은 true, 작으면 false. 이걸 int로 바꾸면 1,0 으로 바뀐다.
            total_loss += loss_fn(pred_proba, y).item()
            total_acc += (pred_label == y).sum().item() # >>> 예측한 것이 y와 같은지 확인하면 T/F로 바뀌고, 그걸 합치면 ture의 개수가 나오며 이것이 정답을 맞춘 개수가 된다.

        # return loss acc
        return total_loss / len(dataloader), total_acc / len(dataloader.dataset)

### Train

In [None]:
LR = 0.0001
EPOCHS = 3
loss_fn = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=LR)

In [40]:
import time
s = time.time()
train_loss_list = []
val_loss_list = []
val_acc_list = []
for epoch in range(EPOCHS):
    train_loss = train(model, train_loader, loss_fn, optimizer, device)
    val_loss, val_acc = test(model, test_loader, loss_fn, device)
    train_loss_list.append(train_loss)
    val_loss_list.append(val_loss)
    val_acc_list.append(val_acc)
    print(f"[{epoch}/{EPOCHS}] train loss: {train_loss}, val loss: {val_loss}, val acc: {val_acc}")
    
e = time.time()

print(e-s)


[0/3] train loss: 0.5798266239391144, val loss: 0.4566967289923402, val acc: 0.78334
[1/3] train loss: 0.42041753645234264, val loss: 0.40921463908822947, val acc: 0.81072
[2/3] train loss: 0.38301309498008684, val loss: 0.39265494723149275, val acc: 0.81976
930.4577136039734


## 모델저장

In [None]:
torch.save(model, "saved_models/nsmc/model.pt")

In [None]:
# 모델 로드할땐?
# load_model = torch.load("saved_models/nsmc/model.pt", weights_only=False)

# 서비스

## 전처리 함수들

In [31]:
from konlpy.tag import Okt

morph_tokenizer = Okt()
def text_preprocessing(text):
    
    text = text.lower()
    text = re.sub(f"[{string.punctuation}]+", ' ', text)
    return ' '.join(morph_tokenizer.morphs(text, stem=True))

In [32]:
def pad_token_sequences(token_sequences, max_length):
    """padding 처리 메소드."""
    pad_token = tokenizer.token_to_id('[PAD]')  
    seq_length = len(token_sequences)           
    result = None
    if seq_length > max_length:                 
        result = token_sequences[:max_length]
    else:                                            
        result = token_sequences + ([pad_token] * (max_length - seq_length))
    return result

In [33]:
def predict_data_preprocessing(text_list):
    """
    모델에 입력할 수 있는 input data를 생성
    Args:
        text_list: list - 추론할 댓글리스트
    Returns
        torch.LongTensor - 댓글 token_id tensor
    """
   

    text_list = [text_preprocessing(txt) for txt in text_list] # cleansing + 정규화
    token_list = [tokenizer.encode(txt).ids for txt in text_list] # 정규화된 text를 토큰화
    token_list = [pad_token_sequences(token, MAX_LENGTH) for token in token_list] # 토큰리스트의 크기(size)를 max_length에 맞추기

    return torch.tensor(token_list, dtype=torch.int64)

## 추론

In [34]:
comment_list = ["아 진짜 재미없다.", "여기 식당 먹을만 해요", "이걸 영화라고 만들었냐?", "기대 안하고 봐서 그런지 괜찮은데.", "이걸 영화라고 만들었나?", "아! 뭐야 진짜.", "재미있는데.", "연기 짱 좋아. 한번 더 볼 의향도 있다.", "뭐 그럭저럭"]
input_tensor = predict_data_preprocessing(comment_list) # commnt_list를 토큰화해서 바로 넣어주게 해준다.
input_tensor.shape

torch.Size([9, 30])

In [35]:
def predict(model, comment_list:list[str], input_tensor:torch.tensor, device="cpu"):
    """
    model로 input_tensor를 추론해서 긍정/부정적인 댓글인지 출력
    출력 형식
        | comment(댓글) | label | 확률 |
        | "아 재미없다." |  부정  | 0.9 |   >>> 부정적인 댓글일 확률
        | "재밌다."     |  긍정  | 0.87|   >>> 긍정적인 댓글일 확률
    """
    model.eval()
    model = model.to(device)
    with torch.no_grad():
        pred = model(input_tensor) # shape: batch, 1) -> pos일 확률
        for txt, pos_proba in zip(comment_list, pred):
            label = "긍정적" if pos_proba.item() > 0.5 else "부정적"
            proba = pos_proba.item() if pos_proba.item() > 0.5 else 1-pos_proba.item() # 확률
            # >>> 0.5 넘으면 긍정이므로 그냥 출력. 0.5 보다 작으면 부정이므로 1에서 빼서 부정일 확률로 표시
            print(txt, label, round(proba, 3), sep="\t")
            

In [36]:
predict(model, comment_list, input_tensor, device)

아 진짜 재미없다.	긍정적	0.535
여기 식당 먹을만 해요	부정적	0.546
이걸 영화라고 만들었냐?	부정적	0.927
기대 안하고 봐서 그런지 괜찮은데.	긍정적	0.803
이걸 영화라고 만들었나?	부정적	0.927
아! 뭐야 진짜.	부정적	0.534
재미있는데.	부정적	0.609
연기 짱 좋아. 한번 더 볼 의향도 있다.	부정적	0.631
뭐 그럭저럭	부정적	0.711


In [37]:
print("분석하려는 댓글을 입력하세요. 종료하려면 '!quit'을 입력하세요.")
while True:
    comment = input("댓글:")
    if comment == "!quit":
        print("종료")
        break
    comment_list = [comment]
    input_tensor = predict_data_preprocessing([comment])
    predict(model, comment_list, input_tensor, device)

분석하려는 댓글을 입력하세요. 종료하려면 '!quit'을 입력하세요.
돈 아깝다.	부정적	0.913
볼만하다	긍정적	0.735
노잼	부정적	0.527
짜증난다	긍정적	0.728
종료
