# Pytorch의 nn.Embedding
- Pytorch의 Embedding Layer는 word2vec과 마찬가지로 word embedding vector를 찾는 **Lookup Table**이다.
	- 단어의 **정수의 고유 index**가 입력으로 들어오면 Embedding Layer의 **그 index의 Vector**를 출력한다.
	- 모델이 학습되는 동안 모델이 풀려는 문제에 맞는 값으로 Embedding Layer의 vector들이 업데이트 된다.
	- Word2Vec의 embedding vector 학습을 nn.Embedding은 자신이 포함된 모델을 학습 하는 과정에서 한다고 생각하면 된다.

In [3]:
import torch
import torch.nn as nn

embed = nn.Embedding(
	num_embeddings=20_000,	# vocab size (단어 사전의 단어 수) -> 총 몇개의 단어에 대한 embedding vector를 만들지 정해줌.
	embedding_dim=200,		# embedding vector의 차원수 -> 개별 단어를 몇개의 숫자(feature)로 표현할지.
)

In [3]:
embed.weight, embed.weight.shape

(Parameter containing:
 tensor([[-0.8652,  0.6973,  0.1999,  ..., -1.8689,  1.1053,  1.0524],
         [ 0.4214,  1.5906,  2.4268,  ..., -1.5277, -0.4195,  1.5656],
         [-0.3205, -1.0690, -0.8875,  ..., -0.7581,  0.6987,  0.5288],
         ...,
         [-1.5700,  0.0495, -0.9778,  ..., -0.5380,  0.1932, -1.2541],
         [ 0.4305,  0.1151,  1.5855,  ...,  1.9080,  1.0701,  1.0204],
         [-0.2333,  1.3051, -0.6628,  ...,  0.0135,  0.4299,  1.8202]],
        requires_grad=True),
 torch.Size([20000, 200]))

In [6]:
# embedding layer의 입력 : 문서를 구성하는 토큰들의 ID(int)를 1차원으로 묶어서 전달.

# doc = 나는:30|어제:159|밥을:9000|먹었다:326
doc = torch.tensor([[30, 158, 9000, 326],[30, 158, 9000, 326],[30, 158, 9000, 326]], dtype=torch.int64)
embedding_vector = embed(doc)
embedding_vector.shape

# [3 : batch_size, 4 : seq_len, 200 : embedding vector 차원 수]

torch.Size([3, 4, 200])

In [7]:
embedding_vector[0, 0]

tensor([-5.1111e-02, -3.2251e-01,  1.0367e+00, -6.6960e-01, -9.6189e-02,
        -7.8548e-01, -8.9844e-02, -4.4401e-01,  1.3574e-01, -8.2693e-01,
        -1.3005e+00,  4.5376e-01, -5.3921e-01, -8.7179e-01, -8.3617e-01,
        -3.5244e-01,  8.8662e-01,  5.1787e-01,  3.3162e-02,  5.7949e-01,
         2.0685e-01, -1.1890e+00, -1.4537e+00, -1.1405e+00, -8.0124e-01,
        -1.1817e+00,  6.6721e-02,  8.0959e-01,  6.5952e-01, -5.0228e-01,
         2.2821e-01,  1.6650e-01,  9.6609e-01, -2.4068e-01,  4.2423e-01,
        -3.2666e+00,  2.3355e-01, -2.4706e+00, -3.0557e-01, -1.1308e-01,
         6.4986e-01,  9.3035e-01, -1.0062e+00,  2.9876e-01,  1.3428e+00,
        -4.2823e-01,  1.2848e-01, -1.2570e+00,  7.9725e-01,  1.1032e+00,
        -1.1993e+00,  1.4715e-01, -7.9963e-01,  6.6790e-01, -2.3556e+00,
         1.4985e-01,  6.0300e-01, -2.4361e-02,  9.2386e-01, -8.4580e-01,
         2.4365e-01, -3.1137e-03, -5.1895e-01, -1.2429e+00,  5.2201e-01,
         1.2245e+00,  1.6630e+00,  1.0768e+00,  8.1

In [8]:
embed.weight[30]

tensor([-5.1111e-02, -3.2251e-01,  1.0367e+00, -6.6960e-01, -9.6189e-02,
        -7.8548e-01, -8.9844e-02, -4.4401e-01,  1.3574e-01, -8.2693e-01,
        -1.3005e+00,  4.5376e-01, -5.3921e-01, -8.7179e-01, -8.3617e-01,
        -3.5244e-01,  8.8662e-01,  5.1787e-01,  3.3162e-02,  5.7949e-01,
         2.0685e-01, -1.1890e+00, -1.4537e+00, -1.1405e+00, -8.0124e-01,
        -1.1817e+00,  6.6721e-02,  8.0959e-01,  6.5952e-01, -5.0228e-01,
         2.2821e-01,  1.6650e-01,  9.6609e-01, -2.4068e-01,  4.2423e-01,
        -3.2666e+00,  2.3355e-01, -2.4706e+00, -3.0557e-01, -1.1308e-01,
         6.4986e-01,  9.3035e-01, -1.0062e+00,  2.9876e-01,  1.3428e+00,
        -4.2823e-01,  1.2848e-01, -1.2570e+00,  7.9725e-01,  1.1032e+00,
        -1.1993e+00,  1.4715e-01, -7.9963e-01,  6.6790e-01, -2.3556e+00,
         1.4985e-01,  6.0300e-01, -2.4361e-02,  9.2386e-01, -8.4580e-01,
         2.4365e-01, -3.1137e-03, -5.1895e-01, -1.2429e+00,  5.2201e-01,
         1.2245e+00,  1.6630e+00,  1.0768e+00,  8.1

In [9]:
# vocab 어휘수 : 10개
# embedding 벡터 차원수 : 3차원
e_layer = nn.Embedding(
	num_embeddings=10,
	embedding_dim=3,
)
# 10 * 3 weight 행렬을 생성 -> weight행렬이 전체 어휘들의 embedding vector들

In [10]:
e_layer.weight

Parameter containing:
tensor([[ 0.7583,  0.2622,  1.6925],
        [-1.6025,  0.4800, -0.5736],
        [ 0.7111, -1.4486, -0.3556],
        [-0.4629,  0.2024,  0.8159],
        [-0.6671, -0.4670, -1.3596],
        [-0.3433,  1.1882,  1.8781],
        [-0.5411, -0.2524, -0.9759],
        [ 2.8304, -0.0191, -1.4261],
        [ 0.3303, -1.3010, -0.9626],
        [-0.0734, -1.9948,  0.3436]], requires_grad=True)

In [11]:
sent = "오늘 날씨 좋다"		# ["오늘": 0, "날씨":4, "좋다":2]
# token = tokenizer.encode(sent).ids
token = torch.tensor([0, 4, 2], dtype=torch.int64)
e_layer(token)

tensor([[ 0.7583,  0.2622,  1.6925],
        [-0.6671, -0.4670, -1.3596],
        [ 0.7111, -1.4486, -0.3556]], grad_fn=<EmbeddingBackward0>)

# 네이버 영화 댓글 감성분석(Sentiment Analysis)

## 감성분석(Sentiment Analysis) 이란
입력된 텍스트가 **긍적적인 글**인지 **부정적인**인지 또는 **중립적인** 글인지 분석하는 것을 감성(감정) 분석이라고 한다.   
이를 통해 기업이 고객이 자신들의 기업 또는 제품에 대해 어떤 의견을 가지고 있는지 분석한다.

# Dataset, DataLoader 생성

## Korpora에서 Naver 영화 댓글 dataset 가져오기
- https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/nsmc.html
- http://github.com/e9t/nsmc/
	- input: 영화댓글
	- output: 0(부정적댓글), 1(긍정적댓글)
### API
- **corpus 가져오기**
	- `Korpora.load('nsmc')`
- **text/label 조회**
	- `corpus.get_all_texts()` : 전체 corpus의 text들을 tuple로 반환
	- `corpus.get_all_labels()`: 전체 corpus의 label들을 list로 반환
- **train/test set 나눠서 조회**
	- `corpus.train`
	- `corpus.test`
	- `LabeledSentenceKorpusData` 객체에 text와 label들을 담아서 제공.
		- `LabeledSentenceKorpusData.texts`: text들 tuple로 반환.
		- `LabeledSentenceKorpusData.labels`: label들 list로 반환.

## 데이터 로딩

In [9]:
import os
import time

from Korpora import Korpora

corpus = Korpora.load("nsmc")


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\Playdata\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\

In [10]:
all_inputs = corpus.get_all_texts()		# inputs : 댓글들 전체
all_labels = corpus.get_all_labels()	# outputs : labels 전체 - 0 : 부정, 1 : 긍정

In [11]:
all_inputs[:5]

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [12]:
all_labels[:5]

[0, 1, 0, 0, 1]

In [13]:
len(all_inputs)

200000

In [14]:
corpus.train.texts[:5]

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [15]:
corpus.train.labels[:5]

[0, 1, 0, 0, 1]

In [16]:
corpus.test.texts[:5]

('굳 ㅋ',
 'GDNTOPCLASSINTHECLUB',
 '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아',
 '지루하지는 않은데 완전 막장임... 돈주고 보기에는....',
 '3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??')

In [17]:
corpus.test.labels[:5]

[1, 0, 0, 0, 0]

## 토큰화
1. 형태소 단위 token화(분절)를 먼저 한다.
	- konlpy로 token화 한 뒤 다시 한 문장으로 만든다.
2. 1에서 처리한 corpus를 BPE 로 token화
   
### 전처리 함수

#### 형태소 단위 분절

In [18]:
from konlpy.tag import Okt
import string
import re


okt = Okt()
# 전처리 = cleaning + 정규화(normalize)
def text_preprocessing(text):
	"""
	1. 영문 -> 소문자로 변환
	2. 구두점 제거
	3. 형태소 기반 토큰화
	4. 형태소로 토큰화 한 뒤 다시 하나의 문자열로 묶어서 반환.
	"""
	text = text.lower()		# 소문자로 통일해서 대소문자가 달라서 다른 토큰으로 구분되는 것을 방지
	# 구두점 제거 (stop word(불용어))
	text = re.sub(f"[{string.punctuation}]", " ", text)
	# 정규화
	tokens = okt.morphs(text, stem = True)	# stem : 원형 복원
	return ' '.join(tokens)		# ["단어", "단어", ...] -> str "단어 단어 단어"

In [19]:
f"[{string.punctuation}]"

'[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]'

In [20]:
print(all_inputs[101])
text_preprocessing(all_inputs[101])

재미없음 진심 1이훨나 캐스팅두못한듯


'재미없다 진심 1 이훨 나 캐스팅 두 못 한 듯'

In [21]:
s = time.time()
# train set 전처리
train_texts = corpus.train.texts
train_inputs = [text_preprocessing(txt) for txt in train_texts]
train_labels = corpus.train.labels

# test set 전처리
test_texts = corpus.test.texts
test_inputs = [text_preprocessing(txt) for txt in test_texts]
test_labels = corpus.test.labels
e = time.time()

print("전처리 걸린 시간(초) : ", e-s)

전처리 걸린 시간(초) :  406.7154109477997


In [18]:
import pickle
import os

In [None]:
os.makedirs("datasets/nsmc", exist_ok=True)
with open("datasets/nsmc/preprocessing_trainset.pkl", "wb") as fw:
	pickle.dump({"input":train_inputs, "output":train_labels},fw) 

In [23]:
with open("datasets/nsmc/preprocessing_testset.pkl", "wb") as fw:
	pickle.dump({"input":test_inputs, "output":test_labels},fw) 

In [19]:
# pickle로 저장한 전처리한 dataset 읽어오기
with open("datasets/nsmc/preprocessing_trainset.pkl", "rb") as fr:
	train_dict = pickle.load(fr)

with open("datasets/nsmc/preprocessing_testset.pkl", "rb") as fr:
	test_dict = pickle.load(fr)

In [21]:
train_inputs = train_dict["input"]
train_labels = train_dict["output"]
test_inputs = test_dict["input"]
test_labels = test_dict["output"]

all_inputs = train_inputs + test_inputs		# vocab 만들 때 사용

len(all_inputs), len(train_inputs), len(test_inputs)

(200000, 150000, 50000)

### 토큰화
- Subword 방식 토큰화 적용
- Byte Pair Encoding 방식으로 huggingface tokenizer 사용
	- BPE: 토큰을 글자 단위로 나눈뒤 가장 자주 등장하는 글자 쌍(byte paire)를 찾아 합친뒤 어휘사전에 추가한다.
	- https://huggingface.co/docs/tokenizers/quicktour
	- `pip install tokenizers`

In [15]:
from tokenizers import Tokenizer
from tokenizers.models import BPE, Unigram, WordPiece
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

In [23]:
vocab_size = 30_000		# vocab의 최대 단어 수
min_frequency = 5		# 사전에 추가할 최소 빈도수
tokenizer = Tokenizer(
	BPE(unk_token="[UNK]")
)
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
	vocab_size=vocab_size,
	min_frequency=min_frequency,
	special_tokens=["[UNK]", "[PAD]"],
	continuing_subword_prefix="##"
	# 단어의 중간에 나오는 subword일 경우 앞에 ## 붙여주기
	# "시작하는" -> "시작", "하는" => "시작","##하는"
)
tokenizer.train_from_iterator(all_inputs, trainer=trainer)	# vocab 생성 == tokenizer학습

In [24]:
# 총 vocab size:
tokenizer.get_vocab_size()

26739

In [30]:
# save
os.makedirs("saved_models/nsmc", exist_ok=True)
tokenizer.save("saved_models/nsmc/tokenizer_bpe.json")

# load_tokenizer = Tokenizer.from_file("saved_models/nsmc/tokenizer_bpe.json")

In [31]:
idx = 11290
print(all_inputs[idx])
tokens = tokenizer.encode(all_inputs[idx])
print(tokens.ids)
print(tokens.tokens)

명작 을 기억 하다 이렇다 드라마 가 또 다시 나오다 있다
[5530, 2190, 5548, 5411, 5455, 5448, 506, 1152, 5486, 5440, 5415]
['명작', '을', '기억', '하다', '이렇다', '드라마', '가', '또', '다시', '나오다', '있다']


In [32]:
e = tokenizer.encode("pytorch와 pandas와 numpy는 python 라이버러리입니다")

In [33]:
tokenizer.decode(tokens.ids)

'명작 을 기억 하다 이렇다 드라마 가 또 다시 나오다 있다'

## Dataset, DataLoader 생성

In [34]:
# dset[0]
tokenizer.encode(train_inputs[0]).ids, train_labels[0]

([1986, 5881, 5426, 5667, 6087], 0)

In [35]:
# Pytorch 사용자 정의 Dataset(custom dataset) def
# 1. Dataset 상속
# 2. __len__(self) : 총 data 개수 반환
# 3. __getitem()__(self, index) : index의 x,y를 반환

In [36]:
# train_labels
[tokenizer.encode(txt).ids for txt in train_inputs[:4]]

[[1986, 5881, 5426, 5667, 6087],
 [3034, 5891, 5453, 6036, 5408, 2339, 6775, 5434, 6276, 6134, 5435],
 [839, 8408, 1478, 3215, 11369, 13191, 5410, 5634, 2889, 950],
 [12557, 5519, 16063, 5633, 5418, 923, 5412, 5441, 8922]]

In [37]:
tokenizer.token_to_id

<function Tokenizer.token_to_id(self, token)>

In [4]:
import torch
from torch.utils.data import Dataset, DataLoader

class NSMCDataset(Dataset):
	def __init__(self, texts, labels, max_length, tokenizer):
		"""
		texts: list - 댓글 목록. 리스트에 댓글들을 담아서 받는다. ["댓글", "댓글", ...]
		labels: list - 댓글 감정 목록. 
		max_length: 개별 댓글의 최대 token 개수. 모든 댓글의 토큰수를 max_length에 맞춘다.(Sequence 개수를 맞춘다)
		tokenizer: Tokenizer
		"""
		self.max_length = max_length
		self.tokenizer = tokenizer
		self.labels = labels
		# self.texts : 입력 댓글 - token id로 변환된 댓글(문서), 글자 수는 max_length에 맞춤
		#			   max_length 보다 적으면 [PAD] 추가, max_length보다 많으면 잘라냄
		self.texts = [self.__pad_token_sequences(tokenizer.encode(txt).ids) for txt in texts]

	###########################################################################################
	# id로 구성된 개별 문장 tokenizer list를 받아서 패딩 추가 [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
	# max_length에 token list의 개수를 맞춰주는 func
	############################################################################################
	def __pad_token_sequences(self, token_sequences):
		"""
		id로 구성된 개별 문서(댓글)의 token_id list를 받아서 max_length 길이에 맞추는 메소드
		max_length 보다 토큰수가 적으면 [PAD] 추가, 많으면 max_length 크기로 줄인다.
			ex) max_length = 5, [PAD] token id가 0
			- [20, 2, 1] => [20, 2, 1, 0, 0]
			- [20, 30, 40, 50, 60, 70, 80][:5] -> [20, 30, 40, 50, 60]
		"""
		pad_token_id = self.tokenizer.token_to_id("[PAD]")
		seq_len = len(token_sequences)	# 입력받은 토큰 개수.
		result = None
		if seq_len > self.max_length:	# 잘라내기
			result = token_sequences[:self.max_length]
		else:
			result = token_sequences + ([pad_token_id] * (self.max_length - seq_len))
		return result

	def __len__(self):
		return len(self.labels)		# 총 data개수 반환

	def __getitem__(self, idx):
		"""
		idx 번째 text와 label을 학습 가능한 type으로 변환해서 반환
		Parameter
			idx: int 조회할 index
		Return
			tuple: (torch.LongTensor, torch.FloatTensor) - 댓글 토큰_id 리스트, 정답 Label
		"""
		txt = self.texts[idx]
		label = self.labels[idx]
		return (torch.tensor(txt, dtype=torch.int64), torch.tensor([label], dtype=torch.float32))

In [39]:
all_inputs_length = [len(tokenizer.encode(txt)) for txt in all_inputs]
all_inputs_length[:5]

[5, 11, 10, 9, 22]

In [40]:
import numpy as np
np.min(all_inputs_length), np.max(all_inputs_length)

(0, 89)

In [41]:
np.quantile(all_inputs_length, q = [0.9, 0.95])
# 전체 중 90%의 token 수는 29개 미만, 95%는 41개 미만

array([29., 41.])

In [28]:
MAX_LENGTH = 30
trainset = NSMCDataset(train_inputs, train_labels, MAX_LENGTH, tokenizer)
testset = NSMCDataset(test_inputs, test_labels, MAX_LENGTH, tokenizer)

In [43]:
len(trainset), len(testset)

(150000, 50000)

In [44]:
trainset[10]

(tensor([  540, 11354,   506,  2408,  5414,  5426,  2408,  5414,   119,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1]),
 tensor([1.]))

In [45]:
BATCH_SIZE = 64
train_loader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(testset, batch_size=BATCH_SIZE)

In [46]:
len(train_loader), len(test_loader)

(2343, 782)

# 모델링
- Embedding Layer를 이용해 Word Embedding Vector를 추출한다.
- LSTM을 이용해 Feature 추출
- Linear + Sigmoid로 댓글 긍정일 확률 출력
  
![outline](figures/rnn/RNN_outline.png)

## 모델 정의

In [33]:
import torch
import torch.nn as nn
from torchinfo import summary
import numpy as np

device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)

cpu


In [5]:
# model def
class NSMCClassifier(nn.Module):

	def __init__(self, vocab_size, embedding_dim, hidden_size, num_layers, bidireational=True, dropout_rate=0.2):
		"""
		Args:
			vocab_size(int) : 어휘사전의 총 어휘수
			embedding_dim(int) : (word) embedding vector의 차원수
			hidden_size(int) : LSTM의 hidden state의 feature 수
			num_layers(int) : LSTM의 layer의 개수
			bidireational(bool) : LSTM의 양방향 여부
			dropout_rate(float) : LSTM이 두 개 이상의 layer로 구성된 경우 적용할 dropout 비율
								  Dropout Layer의 dropout 비율
		"""
		super().__init__()
		# model을 구성할 Layer들을 정의 : Embedding, LSTM, Dropout, Linear(추론기기), Sigmoid

		self.embedding = nn.Embedding(
			num_embeddings=vocab_size,		# 총 단어(토큰)수 -> tokenizer에 등록된 총 단어 수
			embedding_dim=embedding_dim,		# embedding vector의 차원 수
			padding_idx=0					# [PAD]의 token ID(tokenizer.token_to_index("[PAD]") 가 0인 것을 아니 그냥 0으로 넣어준것)
											# padding token은 학습하지 않는다.
		)
		# embedding layer의 출력 shape : (batch_size : 64, seq_len : 문서 토큰 수, embedding_dim)

		self.lstm= nn.LSTM(
			input_size=embedding_dim,	# 개별 토큰(단어)의 feature수(embedding -> LSTM)
			hidden_size=hidden_size,
			num_layers=num_layers,
			bidirectional=bidireational,
			dropout=dropout_rate if num_layers > 1 else 0	# stacked rnn일 경우 설정.
		)

		self.dropout = nn.Dropout(dropout_rate)		# LSTM과 Linear 사이에 과적합 방지를 위해서 사용

		# LSTM의 출력 : out, (hidden, cell)
		# out : 모든 timestep의 hidden state 값 [seq_len, batch, hidden * bidirectional ]
		# hidden : 마지막 timestep의 hidden state(단기 기억)
		# cell : 마지막 timestep의 cell state(장기 기억)

		input_features = hidden_size*2 if bidireational else hidden_size
		self.classifier = nn.Linear(input_features, 1)	# 출력 1: 이진분류 -> positive의 확률
		self.sigmoid = nn.Sigmoid()			# classifier의 출력값을 확률(0 ~ 1)값으로 변환하는 func


	def forward(self, X):
		"""
		Args:
			X(tensor) : 입력 문서 토큰 list. shape : [batch_size, max_length : anstjxhzmstn] - [64, 30]
		"""
		embedding_vectors = self.embedding(X)
		# [batch, seq_len] -> embedding -> [batch_size, seq_len, embedding_dim]
		# LSTM - batch_first = False : 입력 shape - [seq_len, batch_size, embedding_dim]\
		# embedding_vectors의 batch 축과 seq_len 축(값의 위치)을 바꿔준다!
		embedding_vectors = embedding_vectors.transpose(1,0)	# 0번 축을 1번 축으로, 1번 축을 0번 축으로
		out, _ = self.lstm(embedding_vectors)
		# out.shape : [seq_len, batch_size, hidden_size * (2 if bidireational else 1)]
		# classifier(linear)에는 out의 마지막 index(마지막 seq) 값을 입력
		output = self.dropout(out[-1])
		output = self.classifier(output)
		last_output = self.sigmoid(output)

		return last_output


In [49]:
# ev = [
# 	[10, 20, 30],
# 	[40, 50, 60]
# ]	# shape : (2, 3)
# ev.transpose(1,0)
# # parametor의 순서	: index를 이동시킬 축 위치
# # parametor 값 		: 이동시킬 대상 index의 축 위치

# a = ev.transpose(1, 0)
# # 10 idx : [0, 0] -> [0, 0]
# # 20 idx : [0, 1] -> [1, 0]
# # 30 idx : [0, 2] -> [2, 0]
# # 40 idx ; [1, 0] -> [0, 1]
# # a = [
# # 	[10, 40]
# # 	[20, 50]
# # 	[30, 60]
# # ] # shape : (3, 2)
# b = ev.reshape(3, 2)

## 모델 생성

In [26]:
# Model 생성 전 변수들 먼저 선언
VOCAB_SIZE = tokenizer.get_vocab_size()		# 총 어휘수
EMBEDDING_DIM = 100
HIDDEN_SIZE = 64
NUM_LAYERS = 2
BIDIRECTIONAL = True
DROPOUT_RATE = 0.3

# model의 복잡도 올린다 -> EMBEDDING_DIM, HIDDEN_SIZE, NUM_LAYERS를 크게!
# Auto regressive model이 아니면 BIDIRECTIONAL=True (양방향)

In [60]:
model = NSMCClassifier(
	vocab_size=VOCAB_SIZE,
	embedding_dim=EMBEDDING_DIM,
	hidden_size=HIDDEN_SIZE,
	num_layers=NUM_LAYERS,
	bidireational=BIDIRECTIONAL,
	dropout_rate=DROPOUT_RATE
)

model = model.to(device)
print(model)

NSMCClassifier(
  (embedding): Embedding(26742, 100, padding_idx=0)
  (lstm): LSTM(100, 64, num_layers=2, dropout=0.3, bidirectional=True)
  (dropout): Dropout(p=0.3, inplace=False)
  (classifier): Linear(in_features=128, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


In [52]:
# summary
i = torch.randint(1, 10, (64, MAX_LENGTH))	# int64 type의 dummy input data 생성
# input shape : ...
summary(model, input_data= i, device=device)
# summary(model, input_shape) -> 내부적으로 inputdata(float32)를 생성해서 추론함.

Layer (type:depth-idx)                   Output Shape              Param #
NSMCClassifier                           [64, 1]                   --
├─Embedding: 1-1                         [64, 30, 100]             2,674,200
├─LSTM: 1-2                              [30, 64, 128]             184,320
├─Dropout: 1-3                           [64, 128]                 --
├─Linear: 1-4                            [64, 1]                   129
├─Sigmoid: 1-5                           [64, 1]                   --
Total params: 2,858,649
Trainable params: 2,858,649
Non-trainable params: 0
Total mult-adds (Units.MEGABYTES): 525.05
Input size (MB): 0.02
Forward/backward pass size (MB): 3.50
Params size (MB): 11.43
Estimated Total Size (MB): 14.95

## 학습

### Train/Test 함수 정의

In [126]:
# 1 epoch train하는 func
def train(model, dataloader, loss_fn, optimizer, device="cpu"):
	# 1. model을 train mode로 변환
	model.train()
	# 2. model을 device로 이동
	model = model.to(device)
	total_loss= 0.0 	# step별 loss를 누적

	# step 단위로 model train (batch)
	for X, y in dataloader:
		# 1. X, y를 device로 이동
		X, y = X.to(device), y.to(device)
		# 2. predict
		pred = model(X)
		# 3. loss cal
		loss = loss_fn(pred, y)
		# 4. Gradient cal
		loss.backward()
		# 5. parametor update (w.data - w.grad * lr)
		optimizer.step()
		# 6. Gradient 초기화
		optimizer.zero_grad()
		# loss 누적
		total_loss += loss.item()
	# 1 epoch train 완료
	return total_loss / len(dataloader)		# 1 epoch의 train loss return. (total loss / step 수)

In [127]:
# 1 epoch eval하는 func
def test(model, dataloader, loss_fn, device="cpu"):
	# 1. model을 eval mode로 변환
	model.eval()
	# 2. model을 devie로 이동
	model = model.to(device)

	#loss, accracy
	total_loss = 0.0
	total_acc = 0.0

	with torch.no_grad():
		# step 단위로 model eval
		for X, y in dataloader:
			# 1. X, y를 device로 이동
			X, y = X.to(device), y.to(device)
			# 2. predict
			pred_proba = model(X)	# 양성일 확률
			pred_label = (pred_proba > 0.5).type(torch.int32)
			total_loss += loss_fn(pred_proba, y).item()
			total_acc += (pred_label == y).sum().item()

		# loss, acc 값을 return
		return total_loss / len(dataloader) , total_acc / len(dataloader.dataset)

### Train

In [128]:
LR = 0.0001
EPOCHS = 3
loss_fn = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=LR)

In [161]:
import time
s = time.time()
train_loss_list = []
val_loss_list = []
val_acc_list = []
for epoch in range(EPOCHS):
	train_loss = train(model, train_loader, loss_fn, optimizer, device)
	val_loss, val_acc = test(model, test_loader, loss_fn, device)
	train_loss_list.append(train_loss)
	val_loss_list.append(val_loss)
	val_acc_list.append(val_acc)
	print(f"[{epoch}/{EPOCHS}] train loss : {train_loss}, val loss : {val_loss}, val acc : {val_acc}")
e = time.time()
print(e-s)

[0/3] train loss : 0.4384305650957415, val loss : 0.4199439976983668, val acc : 0.80872
[1/3] train loss : 0.39988352811799516, val loss : 0.3990680845763982, val acc : 0.81788
[2/3] train loss : 0.3753180680840228, val loss : 0.3896147158863904, val acc : 0.82212
946.776273727417


## 모델저장

In [57]:
# save
torch.save(model, "saved_models/nsmc/model.pt")

In [60]:
import torch
# load
load_model = torch.load("saved_models/nsmc/model.pt", weights_only=False)

# 서비스

## 전처리 함수들

In [7]:
from konlpy.tag import Okt

morph_tokenizer = Okt()

def text_preprocessing(text):
	
	text = text.lower()
	text = re.sub(f"[{string.punctuation}]+", ' ', text)
	return ' '.join(morph_tokenizer.morphs(text, stem=True))

In [8]:
def pad_token_sequences(token_sequences, max_length):
	"""padding 처리 메소드."""
	pad_token = tokenizer.token_to_id('[PAD]')  
	seq_length = len(token_sequences)           
	result = None
	if seq_length > max_length:                 
		result = token_sequences[:max_length]
	else:                                            
		result = token_sequences + ([pad_token] * (max_length - seq_length))
	return result

In [9]:
def predict_data_preprocessing(text_list):
	"""
	모델에 입력할 수있는 input data를 생성
	Parameter:
		text_list: list - 추론할 댓글리스트
	Return
		torch.LongTensor - 댓글 token_id tensor
	"""

	# cleansing + 정규화 
	text_list = [text_preprocessing(txt) for txt in text_list]
	# text -> 토큰화
	token_list = [tokenizer.encode(txt).ids for txt in text_list]
	# token list의 size를 max_length에 맞추기
	token_list = [pad_token_sequences(token, MAX_LENGTH) for token in token_list]

	return torch.tensor(token_list, dtype=torch.int64)

## 추론

In [52]:
import re, string
comment_list = ["하 이 씨 왜 이러는 거냐 이거 ??", "아 진짜 재미없다.", "여기 식당 먹을만 해요", "이걸 영화라고 만들었냐?", "기대 안하고 봐서 그런지 괜찮은데.", "이걸 영화라고 만들었나?", "아! 뭐야 진짜.", "재미있는데.", "연기 짱 좋아. 한번 더 볼 의향도 있다.", "뭐 그럭저럭"]
input_tensor = predict_data_preprocessing(comment_list)
input_tensor.shape

torch.Size([10, 30])

In [55]:
def predict(model, comment_list:list[str], input_tensor:torch.tensor, device="cpu"):
	"""
	model로 input_tensor를 추론해서 긍정/부정적인 댓글인지 출력
	출력 형식
		comment(댓글) label 확률
		"아 노잼"	   부정	 0.9	(부정일 확률)
		"꿀잼 ㅋ"	   긍정  0.87	(긍정일 확률)
	"""

	# 1. model을 eval mode로 변환
	model.eval()
	# 2. model을 device로 이동
	model = model.to(device)
	input_tensor = input_tensor.to(device)

	
	with torch.no_grad():	# 추론 과정이니까
		pred = model(input_tensor)	# shape : (batch, 1) -> Positive일 확률값
		print(input_tensor, pred)
		for txt, pos_proba in zip(comment_list, pred):
			label = "겅정적" if pos_proba.item() > 0.5 else "붜정적"
			proba =	pos_proba.item() if pos_proba.item() > 0.5 else 1-pos_proba.item()		# 확률
			print(txt, label, round(proba, 3), sep="\t")

In [53]:
print(list(load_model.parameters())[0],list(load_model.parameters())[1])

Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],
        [-1.2163, -0.0730, -0.3866,  ..., -0.6161,  0.2217,  0.2532],
        [-1.3381, -0.3152, -0.3420,  ...,  0.4960,  0.5651, -0.2086],
        ...,
        [ 0.0165, -0.8020, -0.6993,  ..., -0.2035, -1.1119,  1.0679],
        [ 1.0535, -0.5065,  0.1828,  ..., -0.4312,  1.2140,  0.9591],
        [-0.9558,  0.0808, -0.0384,  ..., -0.2274, -0.0431,  0.9102]],
       requires_grad=True) Parameter containing:
tensor([[ 0.0775,  0.0461, -0.0820,  ..., -0.0546, -0.0665, -0.1228],
        [ 0.0901,  0.1379, -0.1562,  ...,  0.0943, -0.0111, -0.0641],
        [-0.0205,  0.0995, -0.0474,  ..., -0.0304,  0.0735, -0.0971],
        ...,
        [ 0.0557,  0.1052, -0.0009,  ...,  0.0238,  0.0179,  0.0100],
        [ 0.0418,  0.0114, -0.1022,  ...,  0.1153, -0.0204, -0.1238],
        [ 0.0090, -0.0832, -0.1286,  ..., -0.0799,  0.0129,  0.0852]],
       requires_grad=True)


In [42]:
print(input_tensor.shape)

torch.Size([9, 30])


In [56]:
print(load_model, input_tensor.shape)

NSMCClassifier(
  (embedding): Embedding(26741, 100, padding_idx=0)
  (lstm): LSTM(100, 64, num_layers=2, dropout=0.3, bidirectional=True)
  (dropout): Dropout(p=0.3, inplace=False)
  (classifier): Linear(in_features=128, out_features=1, bias=True)
  (sigmoid): Sigmoid()
) torch.Size([10, 30])


In [46]:
print("Classifier bias:", load_model.classifier.bias.data)

Classifier bias: tensor([0.0638])


In [61]:
predict(load_model, comment_list, input_tensor, device)

tensor([[ 2886,  2206,  1974,  2119,  6071,   544,   829,  2206,   544,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1],
        [ 1986,  5426,  5471,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1],
        [ 5940, 11677,  5561,  2907,  2128,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1],
        [ 2206,   548,  5408,  5545,  5439,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1,
             1,     1,     1,     1,     1,     1,     1,     1,     1,     1],
        [ 5517,  1988,  5470,  5410,  5482,  554

In [151]:
print("분석하려는 댓글을 입력하세요. 종료하려면 '!quit'을 입력하세요.")
while True:
	comment = input("댓글 : ")
	if comment == "!quit":
		print("종료")
		
		break
	comment_list = [comment]
	input_tensor = predict_data_preprocessing([comment])
	predict(model, comment_list, input_tensor, device)

분석하려는 댓글을 입력하세요. 종료하려면 '!quit'을 입력하세요.
tensor([[0.2454]])
흠 그정돈가 ? 노잼임	붜정적	0.755
tensor([[0.5237]])
왜안되냐 갖빚ㄱ	겅정적	0.524
tensor([[0.6670]])
아 씨	겅정적	0.667
tensor([[0.4872]])
아	붜정적	0.513
tensor([[0.4872]])
아	붜정적	0.513
tensor([[0.4872]])
아	붜정적	0.513
tensor([[0.0698]])
개재미없네	붜정적	0.93
종료
