# Pytorch의 nn.Embedding
- Pytorch의 Embedding Layer는 word2vec과 마찬가지로 word embedding vector를 찾는 **Lookup Table**이다.
    - 단어의 **정수의 고유 index**가 입력으로 들어오면 Embedding Layer의 **그 index의 Vector**를 출력한다.
    - 모델이 학습되는 동안 모델이 풀려는 문제에 맞는 값으로 Embedding Layer의 vector들이 업데이트 된다.
    - Word2Vec의 embedding vector 학습을 nn.Embedding은 자신이 포함된 모델을 학습 하는 과정에서 한다고 생각하면 된다.

In [1]:
import torch
import torch.nn as nn
import os
import numpy as np
from torchinfo import summary

device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)

cpu


In [2]:
e_layer = nn.Embedding(
    num_embeddings=10,  # vocab size (총 단어 개수/크기)
    embedding_dim=5,    # embedding vector 의 차원수.( 한개의 단어를 몇개 값으로 표현할 것인지..)
    padding_idx=0,      # padding 토큰의 index를 지정함.
    #                    (pad는 자리만 채우는 토큰이므로 학습이 안되도록 처리하기 위해서.)


    # [PAD] (padding) 토큰 : 문장들의 토큰 개수를 맞추기 위해서 사용하는 토큰.
    # 예 : 모든 문장의 토큰수를 10개로 할 경우, 10개가 안되는 토큰은 나머지를 [PAD] 토큰으로 채운다.
)

In [None]:
# embedding layer 의 weight 조회
e_layer.weight  # word embedding vector들.
e_layer.weight.shape # [10: 단어수, 5:embedding 차원]

torch.Size([10, 5])

In [None]:
#  입력 값 - 정수 tensor(LongTensor - int64)를 입력.
## 한 개의 문서 : [1, 10, 7, 5]  -> 문서를 구성하는 개별 토큰 idx로 구성됨. 이것들을 1차원으로 묶어서 전달함.

input_data = torch.tensor([[1, 3, 2, 7]], dtype=torch.int64)
e = e_layer(input_data)
print(e.shape)
print(e)            # [1: 문서수, 4: 토큰(단어)수, 5: embedding vector 차원] 

torch.Size([1, 4, 5])
tensor([[[ 0.0387, -0.1732, -0.6709,  0.5620,  0.2283],
         [ 0.2061,  0.3842, -0.3756,  0.1314,  0.7001],
         [-0.4062,  0.8131, -1.2943, -0.6762,  0.6318],
         [ 1.8482,  0.3350, -0.8926, -1.0007,  1.3751]]],
       grad_fn=<EmbeddingBackward0>)


### import torch  # PyTorch 라이브러리를 가져옵니다.

- `e_layer`는 코드의 다른 부분에서 정의된 임베딩 레이어라고 가정합니다.
 예를 들어, 다음과 같이 정의되었을 수 있습니다:
 e_layer = torch.nn.Embedding(num_embeddings=10, embedding_dim=5)
 `num_embeddings`는 단어 사전(보케뷸러리)의 크기이고, `embedding_dim`은 각 임베딩 벡터의 차원 크기입니다.

 [1, 4] 형태를 가진 입력 텐서를 정의합니다. 이 텐서에는 단어 사전의 항목을 나타내는 인덱스가 들어 있습니다.
input_data = torch.tensor([[1, 3, 2, 7]], dtype=torch.int64)
 `input_data`는 [1, 3, 2, 7] 인덱스를 포함합니다.
 이러한 인덱스는 `e_layer`를 사용하여 각 항목에 해당하는 임베딩 벡터로 변환됩니다.

 입력 데이터를 임베딩 레이어에 전달하여 대응하는 임베딩 벡터를 가져옵니다.
e = e_layer(input_data)
 임베딩 레이어는 `input_data`의 각 인덱스를 5차원 벡터로 매핑합니다.
 결과로 나온 `e`의 크기는 [1, 4, 5]입니다:
   - `1`: 배치 크기 (한 개의 배치가 입력으로 주어짐).
   - `4`: 시퀀스 길이 (입력 시퀀스에 포함된 인덱스 개수).
   - `5`: 임베딩 차원 (임베딩 레이어가 출력하는 벡터 크기).

- 결과 텐서의 크기를 출력하여 차원을 확인합니다.
print(e.shape)
- 출력: torch.Size([1, 4, 5])

 임베딩 텐서의 값을 출력합니다.
print(e)
- 출력: [1, 4, 5] 형태의 텐서이며, 각 5차원 벡터는 `input_data`에서 주어진 인덱스에 해당하는 임베딩입니다.
 예를 들어, 인덱스 `1`의 임베딩은 [0.0387, -0.1732, -0.6709, 0.5620, 0.2283]입니다.
 이러한 임베딩은 학습 가능한 파라미터로 모델 훈련 과정에서 업데이트됩니다.

- 출력 예시:
 tensor([[[ 0.0387, -0.1732, -0.6709,  0.5620,  0.2283],  # 인덱스 1의 임베딩
          [ 0.2061,  0.3842, -0.3756,  0.1314,  0.7001],  # 인덱스 3의 임베딩
          [-0.4062,  0.8131, -1.2943, -0.6762,  0.6318],  # 인덱스 2의 임베딩
          [ 1.8482,  0.3350, -0.8926, -1.0007,  1.3751]]], # 인덱스 7의 임베딩
        grad_fn=<EmbeddingBackward0>)
 참고: `grad_fn=<EmbeddingBackward0>`는 이 텐서가 연산 그래프의 일부이며, 이를 통해 그라디언트를 계산할 수 있음을 나타냅니다.


In [7]:
e_layer.weight[[1, 3, 2, 7]]

tensor([[ 0.0387, -0.1732, -0.6709,  0.5620,  0.2283],
        [ 0.2061,  0.3842, -0.3756,  0.1314,  0.7001],
        [-0.4062,  0.8131, -1.2943, -0.6762,  0.6318],
        [ 1.8482,  0.3350, -0.8926, -1.0007,  1.3751]],
       grad_fn=<IndexBackward0>)

# 네이버 영화 댓글 감성분석(Sentiment Analysis)

## 감성분석(Sentiment Analysis) 이란
입력된 텍스트가 **긍적적인 글**인지 **부정적인**인지 또는 **중립적인** 글인지 분석하는 것을 감성(감정) 분석이라고 한다.   
이를 통해 기업이 고객이 자신들의 기업 또는 제품에 대해 어떤 의견을 가지고 있는지 분석한다.

# Dataset, DataLoader 생성

## Korpora에서 Naver 영화 댓글 dataset 가져오기
- https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/nsmc.html
- http://github.com/e9t/nsmc/
    - input: 영화댓글
    - output: 0(부정적댓글), 1(긍정적댓글)
### API
- **corpus 가져오기**
    - `Korpora.load('nsmc')`
- **text/label 조회**
    - `corpus.get_all_texts()` : 전체 corpus의 text들을 tuple로 반환
    - `corpus.get_all_labels()`: 전체 corpus의 label들을 list로 반환
- **train/test set 나눠서 조회**
    - `corpus.train`
    - `corpus.test`
    - `LabeledSentenceKorpusData` 객체에 text와 label들을 담아서 제공.
        - `LabeledSentenceKorpusData.texts`: text들 tuple로 반환.
        - `LabeledSentenceKorpusData.labels`: label들 list로 반환.

## 데이터 로딩

In [9]:
pip install korpora

Note: you may need to restart the kernel to use updated packages.


In [10]:
import os
import time

from Korpora import Korpora

corpus = Korpora.load('nsmc')


    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : e9t@github
    Repository : https://github.com/e9t/nsmc
    References : www.lucypark.kr/docs/2015-pyconkr/#39

    Naver sentiment movie corpus v1.0
    This is a movie review dataset in the Korean language.
    Reviews were scraped from Naver Movies.

    The dataset construction is based on the method noted in
    [Large movie review dataset][^1] from Maas et al., 2011.

    [^1]: http://ai.stanford.edu/~amaas/data/sentiment/

    # License
    CC0 1.0 Universal (CC0 1.0) Public Domain Dedication
    Details in https://creativecommons.org/publicdomain/zero/1.0/

[Korpora] Corpus `nsmc` is already installed at C:\Users\Playdata\Korpora\nsmc\ratings_train.txt
[Korpora] Corpus `nsmc` is already installed at C:\Users\

In [12]:
all_input = corpus.get_all_texts()    # input : 전체 댓글(전체)을 로딩함
all_labels = corpus.get_all_labels()  # output :  0:부정, 1:긍정(전체)



In [13]:
all_input[:5]

('아 더빙.. 진짜 짜증나네요 목소리',
 '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다')

In [14]:
all_labels[:5]

[0, 1, 0, 0, 1]

In [15]:
len(all_input)

200000

In [23]:
corpus.train

NSMC.train: size=150000
  - NSMC.train.texts : list[str]
  - NSMC.train.labels : list[int]

In [24]:
corpus.test

NSMC.test: size=50000
  - NSMC.test.texts : list[str]
  - NSMC.test.labels : list[int]

In [27]:
corpus.test.texts[:10]
corpus.test.labels[:10]


[1, 0, 0, 0, 0, 1, 0, 0, 0, 1]

## 토큰화
1. 형태소 단위 token화(분절)를 먼저 한다.
    - konlpy로 token화 한 뒤 다시 한 문장으로 만든다.
2. 1에서 처리한 corpus를 BPE 로 token화
   
### 전처리 함수

#### 형태소 단위 분절

In [21]:
from konlpy.tag import Okt, Mecab
import string
import re


okt = Okt()
def text_preprocessing(text):
    """
    1. 영문 -> 소문자로 변환
    2. 구두점 제거
    3. 형태소 기반 토큰화
    4. 형태소로 토큰화 한 뒤 다시 하나의 문자열로 묶어서 반환.
    """
    text = text.lower()
    text = re.sub(f"[{string.punctuation}]", " ", text)  # 구두점을 공백으로 변환.
    tokens = okt.morphs(text, stem=True)  # stem : 원형 복원.
    return ' '.join(tokens)

In [18]:
# import string
# list(string.punctuation)
f"[{string.punctuation}]"

'[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]'

In [19]:
' '.join(['내가', '어제', '밥을', '먹었다'])  # ' '을 기준으로 리스트의 문자열들을 합친다.

'내가 어제 밥을 먹었다'

In [22]:
text_preprocessing('아 더빙.. 진짜 짜증나네요 목소리')

'아 더빙 진짜 짜증나다 목소리'

In [29]:
### train set/ test set 전처리.
train_input = corpus.train.texts



train_texts = [text_preprocessing(txt) for txt in train_input]
train_labels = corpus.train.labels

test_input = corpus.test.texts
test_texts = [text_preprocessing(txt) for txt in test_input]
test_labels = corpus.test.get_all_labels


## 전처리된 input을 합치기 (토큰화를 위해서)
all_texts = train_texts + test_texts
print(len(all_texts))

200000


In [30]:
len(train_texts), len(test_texts)

(150000, 50000)

### 토큰화
- Subword 방식 토큰화 적용
- Byte Pair Encoding 방식으로 huggingface tokenizer 사용
    - BPE: 토큰을 글자 단위로 나눈뒤 가장 자주 등장하는 글자 쌍(byte paire)를 찾아 합친뒤 어휘사전에 추가한다.
    - https://huggingface.co/docs/tokenizers/quicktour
    - `pip install tokenizers`

In [32]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

vocab_size = 30000   # max vocab size 
min_frequency = 5    # 5회 이상 나온 단어들만 사전에 추가할 것.

tokenizer = Tokenizer(
    BPE(unk_token='[UNK]')
)
tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(
    vocab_size=vocab_size,
    min_frequency=min_frequency,
    special_tokens=["[PAD]", "[UNK]"],
    continuing_subword_prefix="##"   # 시작하는 단어가 아닌경우 ## 을 앞에 붙인다. ex) 시작하는 -> 시작, ##하는
)


# 학습
tokenizer.train_from_iterator(all_texts, trainer=trainer)  # 학습데이터가 메모리에 있을때 사용하는 함수.

In [33]:
# 총 vocab size

tokenizer.get_vocab_size()

26739

In [35]:
print(f"[PAD]의 id: {tokenizer.token_to_id('[PAD]')}")
print(tokenizer.id_to_token(300))

[PAD]의 id: 0
北


In [39]:
# 문장 토큰화
print(all_texts[0])
# tokenizer.encode(all_texts[0])
r = tokenizer.encode(all_texts[0])
r.ids

아 더빙 진짜 짜증나다 목소리


[1986, 5881, 5426, 5667, 6087]

In [40]:
r.tokens

['아', '더빙', '진짜', '짜증나다', '목소리']

In [41]:
tokenizer.decode([1986, 5881, 5426, 5667, 6087])

'아 더빙 진짜 짜증나다 목소리'

In [43]:
#### Tokenizer를 저장
os.makedirs("saved_model/nsmc", exist_ok=True)
tokenizer.save("saved_model/nsmc/tokenizer.json")

## Dataset, DataLoader 생성

In [53]:
import torch
from torch.utils.data import Dataset, DataLoader

class NSMCDataset(Dataset):
    def __init__(self, texts, labels, max_length, tokenizer):
        """
        texts: list - 댓글 목록. 리스트에 댓글들을 담아서 받는다. ["댓글", "댓글", ...]
        labels: list - 댓글 감정 목록. 
        max_length: 개별 댓글의 token 개수. 모든 댓글의 토큰수를 max_length에 맞춘다.
        tokenizer: Tokenizer
        """
        
        self.max_length = max_length
        self.tokenizer = tokenizer
        self.texts = [self.__pad_token_sequences(tokenizer.encode(text).ids) for text in texts]
        self.labels = labels

    ###########################################################################################
    # id로 구성된 개별 문장 tokenizer list를 받아서 패딩 추가 [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
    ############################################################################################
    def __pad_token_sequences(self, token_sequences):   #  padding 처리하여 굴자수를 맞춰줌.
        """
        token id로 구성된 개별 문서(댓글)의 token_id list를 받아서 max_length 길이에 맞추는 메소드
        max_length 보다 토큰수가 적으면 [PAD] 추가, 많으면 max_length 크기로 줄인다.
            ex) [20, 2, 1] => [20, 2, 1, 0, 0, 0, ..]
        """
        pad_token = self.tokenizer.token_to_id('[PAD]')
        seq_len = len(token_sequences)      # 문장의 token 갯수
        result = None
        if seq_len > self.max_length:    # 잘라내기
            result = token_sequences[:self.max_length] 

        else:  # [PAD]토큰을 추가.
            result = token_sequences + ([pad_token] * (self.max_length - seq_len))
        return result

        
    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        """
        idx 번째 text와 label을 학습 가능한 type으로 변환해서 반환
        Parameter
            idx: int 조회할 index
        Return
            tuple: (torch.LongTensor, torch.FloatTensor) - 댓글 토큰_id 리스트, 정답 Label
        """
        txt = self.texts[idx]    # idx 번째 댓글 문장 조회
        label = self.labels[idx] # idx 번째 정답
        # encode = self.tokenizer.encode(txt)   # 토큰화
        # padding_encode = __pad_token_sequences(encode)

        # (input, output) input : Enbedding Layer에 입력으로 들어감 -> int64 정수형의 'LongTensor'
        # output: [label]   # 최종적으로 loss 함수에 입력할때, (batch, 1(label)) 형태가 되도록 하기위함.

        return (torch.tensor(txt, dtype=torch.int64), torch.tensor([label], dtype=torch.float32))
    

# BCELoss() : 정답 shape (batch, 1)   -  [[1], [0], [0]]
# CrossEntropyLoss(): 정답 shape (batch, ) - [1, 6, 3, ..]
    

In [54]:
a = [len(tokenizer.encode(text)) for text in all_texts]  # 모든 문장들의 토큰 개수 리스트로 변환됨.

In [55]:
a[:5]
min(a), max(a)

(0, 89)

In [56]:
import numpy as np
np.quantile(a, q=[0.9, 0.95])  # padding 갯수 결정 about 30개

array([29., 41.])

In [57]:
# dataset 생성
# max_token 수를 30개
MAX_TOKEN = 30
train_set = NSMCDataset(train_texts, train_labels, MAX_TOKEN, tokenizer)
test_set = NSMCDataset(test_texts, test_labels, MAX_TOKEN, tokenizer)
len(train_set), len(test_set)

(150000, 50000)

In [58]:
train_set[100]

(tensor([21904, 20139,  2203,  8676,  2107,  6000,  2178,  2107,  5484,  2602,
          3162,   506,  5434,  1317,  2231,  5560,   988,  5651,  2206,  5414,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0]),
 tensor([1.]))

In [None]:
### DataLoader
BATCH_SIZE = 64
train_loader = DataLoader(train_set, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(test_set, batch_size=BATCH_SIZE)

In [60]:
len(train_loader), len(test_loader)

(2343, 782)

# 모델링
- Embedding Layer를 이용해 Word Embedding Vector를 추출한다.
- LSTM을 이용해 Feature 추출
- Linear + Sigmoid로 댓글 긍정일 확률 출력
  
![outline](figures/rnn/RNN_outline.png)

## 모델 정의

In [61]:
import torch
import torch.nn as nn
from torchinfo import summary
import numpy as np

device = 'cuda' if torch.cuda.is_available() else "cpu"

In [69]:
class NaverCommentClassifier(nn.Module):

    def __init__(self, vocab_size, embedding_dim, hidden_size, num_layers, bidirectional=True, dropout_rate=0.2):

        super().__init__()
        self.embedding = nn.Embedding(
            num_embeddings=vocab_size,    # vocab  크기 (총 단어수)를 모르기 때문에 , parameter 로 받을 얘정.
            embedding_dim=embedding_dim,  # embedding vector 의 차원(의 개수) -> 개별 토큰의 차원수가 된다.
            padding_idx= 0                # [PAD]의 index. [PAD]에 대한 weight 는 따로 학습하지 않는다.
        )
        # embedding layer 의 출력 shape:  (64 batch_size, seq_length: 문장의 토큰수, embedding vector의 차원수)
        ##  (64, 30, embedding_dim)
        self.lstm = nn.LSTM(
            input_size=embedding_dim,  # 모두가 튜닝 대상으로 함수에 넣어서 받아서 사용.
            hidden_size=hidden_size,
            num_layers=num_layers,
            bidirectional=bidirectional,
            dropout=dropout_rate

        )
        self.dropout = nn.Dropout(dropout_rate)

        # 입력 : LSTM 의 마지막 timestep 의 output [ out, (h, c) = lstm(X) ] -> hidden state)값을 받아올 예정.
        if bidirectional == True:
            i_features = hidden_size * 2

        else:
            i_features - hidden_size
        self.classifier = nn.Linear(i_features, 1)  # out_features : 1  -> 긍정일 확률
        self.sigmoid = nn.Sigmoid()

    def forward(self, X):
        # X : [batch_size, seq_len(문장의 토큰수)]  [64, 30]
        embedding_vector = self.embedding(X)
        
        # embedding_vector: [batch_size, seq_len, embedding_dim]  ->  [seq_len, batch_size, embedding_dim]
        embedding_vector = embedding_vector.transpose(1, 0)   # batch 축과 seq_len 축을 바꿈.
        output, _ = self.lstm(embedding_vector) # seq, batch, em_di
        
        # output : [seq_len, batch_size, hidden_size * (2 if bidirectional else 1)]  => 마지막  output을 추출
        output = output[-1]  # shape : (batch_size, hidden_size)  마지막 sequence를 가져옴.
        output = self.dropout(output)
        output = self.classifier(output)
        last_output = self.sigmoid(output)
        return last_output



In [None]:
a = torch.randn((3, 2, 5))
print(a.shape)
b = a.transpose(1, 0)
c = a.permute(2, 0, 1)

b.shape, c.shape

# transpose : 값의 위치 자체를 바꿈.
# reshape : 출력 값의 위치만 바꿈.
# permute :

torch.Size([3, 2, 5])


(torch.Size([2, 3, 5]), torch.Size([5, 3, 2]))

## 모델 생성

In [72]:
model = NaverCommentClassifier(
    vocab_size=tokenizer.get_vocab_size(),
    embedding_dim=100,
    hidden_size=32,
    num_layers=2,
    bidirectional=True, # (default 값이 True)
    dropout_rate=0.3
)

print(model)

NaverCommentClassifier(
  (embedding): Embedding(26739, 100, padding_idx=0)
  (lstm): LSTM(100, 32, num_layers=2, dropout=0.3, bidirectional=True)
  (dropout): Dropout(p=0.3, inplace=False)
  (classifier): Linear(in_features=64, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


In [75]:
i = torch.randint(1, 10, (10, 30), dtype=torch.int64)
summary(model, input_data=i)

Layer (type:depth-idx)                   Output Shape              Param #
NaverCommentClassifier                   [10, 1]                   --
├─Embedding: 1-1                         [10, 30, 100]             2,673,900
├─LSTM: 1-2                              [30, 10, 64]              59,392
├─Dropout: 1-3                           [10, 64]                  --
├─Linear: 1-4                            [10, 1]                   65
├─Sigmoid: 1-5                           [10, 1]                   --
Total params: 2,733,357
Trainable params: 2,733,357
Non-trainable params: 0
Total mult-adds (Units.MEGABYTES): 44.56
Input size (MB): 0.00
Forward/backward pass size (MB): 0.39
Params size (MB): 10.93
Estimated Total Size (MB): 11.33

In [76]:
# 학습전) 추론
x, y = next(iter(train_loader))
y_hat = model(x)

In [77]:
y_hat

tensor([[0.4804],
        [0.4853],
        [0.4777],
        [0.4832],
        [0.4699],
        [0.4772],
        [0.4844],
        [0.4776],
        [0.4792],
        [0.4697],
        [0.4833],
        [0.4784],
        [0.4780],
        [0.4734],
        [0.4752],
        [0.4761],
        [0.4745],
        [0.4766],
        [0.4840],
        [0.4739],
        [0.4714],
        [0.4662],
        [0.4738],
        [0.4776],
        [0.4780],
        [0.4792],
        [0.4733],
        [0.4786],
        [0.4656],
        [0.4814],
        [0.4891],
        [0.4681],
        [0.4761],
        [0.4778],
        [0.4772],
        [0.4714],
        [0.4789],
        [0.4777],
        [0.4753],
        [0.4883],
        [0.4747],
        [0.4782],
        [0.4819],
        [0.4797],
        [0.4748],
        [0.4622],
        [0.4676],
        [0.4827],
        [0.4772],
        [0.4798],
        [0.4780],
        [0.4840],
        [0.4827],
        [0.4694],
        [0.4714],
        [0

## 학습

### Train/Test 함수 정의

In [None]:
def train(model, dataloader, loss_fn, optimizer, device='cpu'):
    # 1 epoch 학습
    model = model.to(device)
    model.train()
    loss_list = []
    for X, y in dataloader:
        X, y = X.to(device), y.to(device)

        # 추론
        pred = model(X)
        
        # loss 계산
        loss = loss_fn(pred, y)

        # gradient 계산
        loss.backward()

        # 파라미터 업데이트
        optimizer.step()

        # 파라미터 초기화
        optimizer.zero_grad()
        loss_list.append(loss.item())

    return sum(loss_list)/len(dataloader)  # 1 epoch train loss : step loss 들의  평균을 반환.
    


In [79]:
def test(model, dataloader, loss_fn, device="cpu"):
    nodel = model.to(device)
    model.eval()
    loss_list = []
    acc_list = 0
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred_proba = model(X)  # 양성일 확률
            pred_label = (pred_proba > 0.5).type(torch.int32)  # bool -> int (False: 0,  True: 1)
            loss = loss_fn(pred_proba, y)
            loss_list.append(loss.item())
            acc_list += (y == pred_label).sum().item()

        return mean(loss_list), acc_list/len(dataloader.dataset)  # 검증 loss, accuravy 반환


### Train

## 모델저장

# 서비스

## 전처리 함수들

In [None]:
def text_preprocessing(text):
    
    text = text.lower()
    text = re.sub(f"[{string.punctuation}]+", ' ', text)
    return ' '.join(morph_tokenizer.morphs(text, stem=True))

In [None]:
def pad_token_sequences(token_sequences, max_length):
    """padding 처리 메소드."""
    pad_token = tokenizer.token_to_id('[PAD]')  
    seq_length = len(token_sequences)           
    result = None
    if seq_length > max_length:                 
        result = token_sequences[:max_length]
    else:                                            
        result = token_sequences + ([pad_token] * (max_length - seq_length))
    return result

In [None]:
def predict_data_preprocessing(text_list):
    """
    모델에 입력할 수있는 input data를 생성
    Parameter:
        text_list: list - 추론할 댓글리스트
    Return
        torch.LongTensor - 댓글 token_id tensor
    """
   
    pass

## 추론

In [None]:
comment_list = ["아 진짜 재미없다.", "여기 식당 먹을만 해요", "이걸 영화라고 만들었냐?", "기대 안하고 봐서 그런지 괜찮은데.", "이걸 영화라고 만들었나?", "아! 뭐야 진짜.", "재미있는데.", "연기 짱 좋아. 한번 더 볼 의향도 있다.", "뭐 그럭저럭"]