# Pytorch의 nn.Embedding
- Pytorch의 Embedding Layer는 word2vec과 마찬가지로 word embedding vector를 찾는 **Lookup Table**이다.
    - 단어의 **정수의 고유 index**가 입력으로 들어오면 Embedding Layer의 **그 index의 Vector**를 출력한다.
    - 모델이 학습되는 동안 모델이 풀려는 문제에 맞는 값으로 Embedding Layer의 vector들이 업데이트 된다.
    - Word2Vec의 embedding vector 학습을 nn.Embedding은 자신이 포함된 모델을 학습 하는 과정에서 한다고 생각하면 된다.

In [1]:
import torch
import torch.nn as nn

embed = nn.Embedding(
    num_embeddings=20_000,  # vocab size(어휘사전에 있는 단어수(토큰수)) -> 총 몇개의 단어에 대한 embedding vector를 만들지에 대한 설정
    embedding_dim=200,      # embedding vector의 차원수 -> 개별단어를 몇개의 숫자(feature)로 표현할지에 대한 설정
)

In [None]:
embed.weight
# 아래 행렬을 보면, embed.weight[i]는 i번재 단어(token)의 embedding vector값을 나타낸다.
# 따라서 20000만개의 embedding vector, 200개의 feature를 가짐
# embed.weight.shape >>> 출력: torch.Size([20000, 200])

torch.Size([20000, 200])

In [None]:
# embedding layer의 입력 - 문서를 구성하는 토큰들의 ID(**정수-int**)를 1차원 묶어서 전달.

# 예를들어 doc = 나는-30|어제-159|밥을-9000|먹었다-326
doc = torch.tensor([[30,159,9000,326],[30,159,9000,326],[30,159,9000,326]], dtype=torch.int64) # 각 토큰에 대한 id를 지정하여 아래처럼 정보 조회 가능
                    # batch_size(문장 개수)가 3이라서 2차원리스트로 리스트 3개를 각각 넣어야한다.
embedding_vector = embed(doc)
embedding_vector.shape

# 출력 결과: torch.Size([1, 4, 200]) >>>  [1:batch_size, 4:seq_len, 200:embedding vector 차원수]
# 30, 159, 9000, 326 이라는 id가 200개의 차원을 갖는 vector로 바뀌는 것. 

torch.Size([3, 4, 200])

In [6]:
embedding_vector[0,0]

tensor([ 0.2615, -0.6480,  0.6542,  0.1267, -0.4590, -1.5807, -0.4225,  2.0638,
        -0.0388,  1.4628,  1.0835, -0.6870, -0.1393,  0.0141, -3.1681,  0.7286,
         0.3485, -1.6117,  1.0816,  0.3718,  1.2983,  0.6510,  0.5335,  0.9103,
        -0.6888,  0.5167, -0.6261, -0.3301, -0.3349,  0.1504, -0.6173, -0.3165,
        -0.6558, -0.8535,  1.9076,  0.0057,  0.1901, -0.3131,  1.3714, -0.0869,
         0.6757, -0.2383,  0.6748,  1.3897, -0.0878,  0.6294, -0.5268, -1.2177,
         0.2837,  0.4953, -1.5418, -0.4043,  0.7954,  1.6025, -2.2578, -0.4963,
        -0.8050,  0.5768, -0.9294, -1.0111, -0.1835,  1.0086, -0.5453, -0.4286,
        -0.3882,  1.1476, -1.0053,  1.6031,  1.2461, -0.3062, -1.2062, -2.8213,
        -1.1075, -0.5217,  0.2048, -0.1997,  1.7862,  0.1536,  1.6618,  0.1133,
        -0.1169,  0.7271,  0.8280,  2.5958,  1.0975,  0.1266, -0.1898,  0.3918,
         0.2049,  0.3505,  0.9007,  1.6800,  0.0518, -0.3274, -0.2015,  0.3683,
        -0.1802, -0.1015,  0.0472,  1.42

In [None]:
embed.weight[30] # 위와 결과 같음
# weight가 embedding_vector 값이다!

tensor([ 0.2615, -0.6480,  0.6542,  0.1267, -0.4590, -1.5807, -0.4225,  2.0638,
        -0.0388,  1.4628,  1.0835, -0.6870, -0.1393,  0.0141, -3.1681,  0.7286,
         0.3485, -1.6117,  1.0816,  0.3718,  1.2983,  0.6510,  0.5335,  0.9103,
        -0.6888,  0.5167, -0.6261, -0.3301, -0.3349,  0.1504, -0.6173, -0.3165,
        -0.6558, -0.8535,  1.9076,  0.0057,  0.1901, -0.3131,  1.3714, -0.0869,
         0.6757, -0.2383,  0.6748,  1.3897, -0.0878,  0.6294, -0.5268, -1.2177,
         0.2837,  0.4953, -1.5418, -0.4043,  0.7954,  1.6025, -2.2578, -0.4963,
        -0.8050,  0.5768, -0.9294, -1.0111, -0.1835,  1.0086, -0.5453, -0.4286,
        -0.3882,  1.1476, -1.0053,  1.6031,  1.2461, -0.3062, -1.2062, -2.8213,
        -1.1075, -0.5217,  0.2048, -0.1997,  1.7862,  0.1536,  1.6618,  0.1133,
        -0.1169,  0.7271,  0.8280,  2.5958,  1.0975,  0.1266, -0.1898,  0.3918,
         0.2049,  0.3505,  0.9007,  1.6800,  0.0518, -0.3274, -0.2015,  0.3683,
        -0.1802, -0.1015,  0.0472,  1.42

# 네이버 영화 댓글 감성분석(Sentiment Analysis)

## 감성분석(Sentiment Analysis) 이란
입력된 텍스트가 **긍적적인 글**인지 **부정적인**인지 또는 **중립적인** 글인지 분석하는 것을 감성(감정) 분석이라고 한다.   
이를 통해 기업이 고객이 자신들의 기업 또는 제품에 대해 어떤 의견을 가지고 있는지 분석한다.

# Dataset, DataLoader 생성

## Korpora에서 Naver 영화 댓글 dataset 가져오기
- https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/nsmc.html
- http://github.com/e9t/nsmc/
    - input: 영화댓글
    - output: 0(부정적댓글), 1(긍정적댓글)
### API
- **corpus 가져오기**
    - `Korpora.load('nsmc')`
- **text/label 조회**
    - `corpus.get_all_texts()` : 전체 corpus의 text들을 tuple로 반환
    - `corpus.get_all_labels()`: 전체 corpus의 label들을 list로 반환
- **train/test set 나눠서 조회**
    - `corpus.train`
    - `corpus.test`
    - `LabeledSentenceKorpusData` 객체에 text와 label들을 담아서 제공.
        - `LabeledSentenceKorpusData.texts`: text들 tuple로 반환.
        - `LabeledSentenceKorpusData.labels`: label들 list로 반환.

## 데이터 로딩

In [8]:
import os
import time

from Korpora import Korpora

corpus = Korpora.load("nsmc")


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/



[nsmc] download ratings_train.txt: 14.6MB [00:00, 75.0MB/s]                            
[nsmc] download ratings_test.txt: 4.90MB [00:00, 61.5MB/s]


In [None]:
all_inputs = corpus.get_all_texts() # inputs: 댓글들 전체
all_labels = corpus.get_all_labels() # outputs: labels 전체 - 0: 부정, 1:긍정
all_inputs[:5] #0~4번까지 댓글 슬라이싱

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [None]:
all_labels[:5]

# 출력결과: [0, 1, 0, 0, 1] >> 1번과 4번은 긍정적인 댓글로 파악한것
# 위 데이터는 평점을 반영한 데이터라서, '너무재밓었다그래서보는것을추천한다' >> 긍정댓글인듯 보이지만, 평점을 낮게 줘서 '0'이라서 나온것.

[0, 1, 0, 0, 1]

In [13]:
corpus.train

NSMC.train: size=150000
  - NSMC.train.texts : list[str]
  - NSMC.train.labels : list[int]

In [14]:
corpus.test 

NSMC.test: size=50000
  - NSMC.test.texts : list[str]
  - NSMC.test.labels : list[int]

In [16]:
corpus.test.texts[:5]

('굳 ㅋ',
 'GDNTOPCLASSINTHECLUB',
 '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아',
 '지루하지는 않은데 완전 막장임... 돈주고 보기에는....',
 '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??')

In [17]:
corpus.test.labels[:5]

[1, 0, 0, 0, 0]

## 토큰화
1. 형태소 단위 token화(분절)를 먼저 한다.
    - konlpy로 token화 한 뒤 다시 한 문장으로 만든다.
2. 1에서 처리한 corpus를 BPE 로 token화
   
### 전처리 함수

#### 형태소 단위 분절

In [20]:
from konlpy.tag import Okt
import string
import re

okt= Okt()
# 전처리 = cleansing + 정규화(normalize)
def text_preprocessing(text):
    """
    1. 영문 -> 소문자로 변환
    2. 구두점 제거
    3. 형태소 기반 토큰화
    4. 형태소로 토큰화 한 뒤 다시 하나의 문자열로 묶어서 반환.
    """
    text = text.lower()
    # 구두점 제거(stop word(붕용어))
    text = re.sub(f"[{string.punctuation}]", " ", text)
    # 정규화
    tokens = okt.morphs(text, stem=True) # stem: 원형복원.
    return ' '.join(tokens) # list인 ["단어", "단어"....] -> str로 변환 "단어 단어 단어"

In [None]:
print(all_inputs[400])
text_preprocessing(all_inputs[400])   # 토큰화 결과 확인

좀 검증된 애들좀 출현시켜라이탈리아 특집 장난하냐


'좀 검증 되다 애 들 좀 출현 시키다 이탈리아 특집 장난 하다'

In [31]:
s = time.time()

# train set 전처리
train_texts = corpus.train.texts
train_inputs = [text_preprocessing(txt) for txt in train_texts]
train_labels = corpus.train.labels

# test set 전처리
test_texts = corpus.test.texts
test_inputs = [text_preprocessing(txt) for txt in test_texts]
test_labels = corpus.test.labels
e = time.time()

print('전처리 걸린시간(초):', e-s)

전처리 걸린시간(초): 342.1757411956787


In [33]:
import pickle
import os

os.makedirs("datasets/nsmc", exist_ok=True)
with open("datasets/nsmc/preprocessing_trainset.pkl", "wb") as fw:
    pickle.dump({"input":train_inputs, "output":train_labels}, fw)

In [34]:
with open("datasets/nsmc/preprocessing_testset.pkl", "wb") as fw:
    pickle.dump({"input":test_inputs, "output":test_labels}, fw)

In [35]:
all_inputs = train_inputs + test_inputs # vocab 만들때 사용.

In [36]:
len(train_inputs), len(test_inputs), len(all_inputs)

(150000, 50000, 200000)

In [None]:
# 여기까지는 전처리, 이하 토큰화

### 토큰화
- Subword 방식 토큰화 적용
- Byte Pair Encoding 방식으로 huggingface tokenizer 사용
    - BPE: 토큰을 글자 단위로 나눈뒤 가장 자주 등장하는 글자 쌍(byte paire)를 찾아 합친뒤 어휘사전에 추가한다.
    - https://huggingface.co/docs/tokenizers/quicktour
    - `pip install tokenizers`

In [38]:
from tokenizers import Tokenizer
from tokenizers.models import BPE #, Unigram, WordPiece
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

vocabs_size = 30_000  # 어휘사전의 최대 단어수
min_frequency = 5 # 어휘를 다 넣지 않고, 최소 5번은 나와야 넣겠다는 것

tokenizer = Tokenizer(
    BPE(unk_token="[UNK]")
)
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
    vocab_size=vocabs_size,
    min_frequency=min_frequency,
    special_tokens=["[PAD]", "[UNK]"],
    continuing_subword_prefix="##"
    # 단어 중간에 나오는 subword일 경우 앞에 ##을 붙인다.
    # "시작하는" -> "시작", "하는" => "시작", "##하는"
)
tokenizer.train_from_iterator(all_inputs, trainer=trainer) #vocab 생성 == tokenizer 학습.


In [39]:
# 총 vocab size:
tokenizer.get_vocab_size()

26742

In [None]:
# 저장
os.makedirs("saved_models/nsmc", exist_ok=True)
tokenizer.save("saved_models/nsmc/tokenizer_bpe.json")

# 불러올땐?
# load_tokenizer = Tokenizer.from_file("saved_models/nsmc/tokenizer_bpe.json")

In [None]:
# 토큰화되어 id가 매칭되는 것 확인. 1000번은 예시를 든것

idx = 1000
print(all_inputs[idx])
tokens = tokenizer.encode(all_inputs[idx])
print(tokens.ids)
print(tokens.tokens)


정말 최고 의 명작 성인 이 되다 보다 이집트 의 왕자 는 또 다른 감동 그 자체 네 요
[5420, 5438, 2203, 5530, 6570, 2206, 5425, 5410, 14757, 2203, 9123, 923, 1152, 5617, 5450, 651, 5641, 856, 2128]
['정말', '최고', '의', '명작', '성인', '이', '되다', '보다', '이집트', '의', '왕자', '는', '또', '다른', '감동', '그', '자체', '네', '요']


In [43]:
tokenizer.decode(tokens.ids)

'정말 최고 의 명작 성인 이 되다 보다 이집트 의 왕자 는 또 다른 감동 그 자체 네 요'

## Dataset, DataLoader 생성

In [None]:
# Pytorch 사용자 정의 Dataset(Custom Dataset) 정의
# 1. Dataset 상속
# 2. __len__(self) : 총 데이터의 개수 반환
# 3. __getitem__(self, index) : index의 x,y를 반환.

In [50]:
import torch
from torch.utils.data import Dataset, DataLoader

class NSMCDataset(Dataset):
    def __init__(self, texts, labels, max_length, tokenizer):
        """
        texts: list - 댓글 목록. 리스트에 댓글들을 담아서 받는다. ["댓글", "댓글", ...]
        labels: list - 댓글 감정(labels의 긍/부정) 목록. 
        max_length: 개별 댓글의 token 개수. 모든 댓글의 토큰수를 max_length에 맞춘다. 댓글마다 길이가 달라서 sequence의 length(개수)를 맞춰주기 위함.
        tokenizer: Tokenizer
        """
        self.max_length = max_length
        self.tokenizer = tokenizer
        self.labels = labels
        self.texts = [self.__pad_token_sequences(tokenizer.encode(txt).ids) for txt in texts]
        # self.texts: 입력댓글 - token is로 변환된 댓글(문서). 글자수는 max_length에 맞춤.
        #             max_length 보다 적으면 [PAD] 추가, max_length보다 많으면 잘라낸다.
        #             아래의 __pad_token_sequences()가 그 역할을 한다.

    ############################################################################################
    # id로 구성된 개별 문장 token list를 받아서 패딩 추가 [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
    # max_length에 토큰리스트의 개수를 맞춰주는 함수.
    ############################################################################################
    def __pad_token_sequences(self, token_sequences): # 함수명 앞에만 '__'붙인 경우, class 안에서만 쓴다는 것(은닉성). 외부에서 호출 불가.
                                                      # 뒤에도 '__' 붙이면 앞에 붙인 은닉성이 해제됨
        """
        id로 구성된 개별 문서(댓글)의 token_id list를 받아서 max_length 길이에 맞추는 메소드
        max_length 보다 토큰수가 적으면 [PAD] 추가, 많으면 max_length 크기로 줄인다.
            ex) if)max_length = 5, [PAD] token id = 0 이라면?
            >>>>> [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
            >>>>> [20, 30, 40, 50, 60, 70, 80] -> [20, 30, 40, 50, 60]
            
        """
        pad_token_id = self.tokenizer.token_to_id("[PAD]")
        seq_len = len(token_sequences) # 입력받은 토큰 개수
        result = None
        if seq_len > self.max_length: # 잘라내기
            result = token_sequences[:self.max_length]
        else:
            result = token_sequences + ([pad_token_id] * (self.max_length - seq_len))
            #[PAD]는 리스트이므로 [PAD]에 숫자를 곱하면 그만큼 더해진다.
        return result

        
    def __len__(self):
        return len(self.labels) # 총 데이터개수를 반환.

    def __getitem__(self, idx):
        """
        idx 번째 text와 label을 학습 가능한 type으로 변환해서 반환
        Parameter
            idx: int 조회할 index
        Return
            tuple: (torch.LongTensor, torch.FloatTensor) - 댓글 토큰_id 리스트, 정답 Label
        """
        txt = self.texts[idx]
        label = self.labels[idx]

        return (torch.tensor(txt, dtype=torch.int64), torch.tensor(label, dtype=torch.float32))
    

In [51]:
# max_length = 5라고 두었지만, 5는 적절한 값일까?
# 댓글의 길이가 어떻게 분포되었는지도 모르는데, 5라고 임의로 적용한건 적절치 않다.
# 따라서 전체 댓글들의 토큰 수를 확인해보자!
# 모든 댓글의 토큰 수 조회
all_input_length = [len(tokenizer.encode(txt)) for txt in all_inputs]
all_input_length[:5]

[5, 11, 10, 9, 22]

In [52]:
import numpy as np
np.min(all_input_length), np.max(all_input_length)

(0, 89)

In [53]:
np.quantile(all_input_length, q=[0.9, 0.95])
# 전체 중 90%의 토큰수는 29 미만, 95%는 41개 미만
# 95%까진 반영하고 싶으면 max_length = 41로 두면된다. 아래는 max_length = 30으로 진행

array([29., 41.])

In [54]:
MAX_LENGHT = 30
trainset = NSMCDataset(train_inputs, train_labels, MAX_LENGHT, tokenizer)
testset = NSMCDataset(test_inputs, test_labels, MAX_LENGHT, tokenizer)

In [55]:
len(trainset), len(testset)

(150000, 50000)

In [None]:
trainset[0] # 30개 맞춘것 확인

(tensor([1986, 5881, 5426, 5667, 6087,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0]),
 tensor(0.))

In [57]:
BATCH_SIZE = 64
train_loader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(testset, batch_size=BATCH_SIZE)

In [58]:
len(train_loader), len(test_loader)

(2343, 782)

# 모델링
- Embedding Layer를 이용해 Word Embedding Vector를 추출한다.
- LSTM을 이용해 Feature 추출
- Linear + Sigmoid로 댓글 긍정일 확률 출력
  
![outline](figures/rnn/RNN_outline.png)

## 모델 정의

## 모델 생성

## 학습

### Train/Test 함수 정의

### Train

## 모델저장

# 서비스

## 전처리 함수들

In [None]:
def text_preprocessing(text):
    
    text = text.lower()
    text = re.sub(f"[{string.punctuation}]+", ' ', text)
    return ' '.join(morph_tokenizer.morphs(text, stem=True))

In [None]:
def pad_token_sequences(token_sequences, max_length):
    """padding 처리 메소드."""
    pad_token = tokenizer.token_to_id('[PAD]')  
    seq_length = len(token_sequences)           
    result = None
    if seq_length > max_length:                 
        result = token_sequences[:max_length]
    else:                                            
        result = token_sequences + ([pad_token] * (max_length - seq_length))
    return result

In [None]:
def predict_data_preprocessing(text_list):
    """
    모델에 입력할 수있는 input data를 생성
    Parameter:
        text_list: list - 추론할 댓글리스트
    Return
        torch.LongTensor - 댓글 token_id tensor
    """
   
    pass

## 추론

In [None]:
comment_list = ["아 진짜 재미없다.", "여기 식당 먹을만 해요", "이걸 영화라고 만들었냐?", "기대 안하고 봐서 그런지 괜찮은데.", "이걸 영화라고 만들었나?", "아! 뭐야 진짜.", "재미있는데.", "연기 짱 좋아. 한번 더 볼 의향도 있다.", "뭐 그럭저럭"]