# 필요한 라이브러리 import

In [1]:
from argparse import Namespace
from collections import Counter
import json
import os
import re
import string

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import tqdm


# Dataset

In [2]:

class ReviewDataset(Dataset):
    def __init__(self, review_df, vectorizer):
        """
        매개변수:
            review_df (pandas.DataFrame): 데이터셋
            vectorizer (ReviewVectorizer): ReviewVectorizer 객체
        """
        self.review_df = review_df
        self._vectorizer = vectorizer

        self.train_df = self.review_df[self.review_df.split=='train']
        self.train_size = len(self.train_df)

        self.val_df = self.review_df[self.review_df.split=='val']
        self.validation_size = len(self.val_df)

        self.test_df = self.review_df[self.review_df.split=='test']
        self.test_size = len(self.test_df)

        self._lookup_dict = {'train': (self.train_df, self.train_size),
                             'val': (self.val_df, self.validation_size),
                             'test': (self.test_df, self.test_size)}

        self.set_split('train')

    @classmethod
    def load_dataset_and_make_vectorizer(cls, review_csv):
        """ 데이터셋을 로드하고 새로운 ReviewVectorizer 객체를 만듭니다
        
        매개변수:
            review_csv (str): 데이터셋의 위치
        반환값:
            ReviewDataset의 인스턴스
        """
        review_df = pd.read_csv(review_csv)
        train_review_df = review_df[review_df.split=='train']
        return cls(review_df, ReviewVectorizer.from_dataframe(train_review_df))
    
    @classmethod
    def load_dataset_and_load_vectorizer(cls, review_csv, vectorizer_filepath):
        """ 데이터셋을 로드하고 새로운 ReviewVectorizer 객체를 만듭니다.
        캐시된 ReviewVectorizer 객체를 재사용할 때 사용합니다.
        
        매개변수:
            review_csv (str): 데이터셋의 위치
            vectorizer_filepath (str): ReviewVectorizer 객체의 저장 위치
        반환값:
            ReviewDataset의 인스턴스
        """
        review_df = pd.read_csv(review_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(review_df, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath):
        """ 파일에서 ReviewVectorizer 객체를 로드하는 정적 메서드
        
        매개변수:
            vectorizer_filepath (str): 직렬화된 ReviewVectorizer 객체의 위치
        반환값:
            ReviewVectorizer의 인스턴스
        """
        with open(vectorizer_filepath) as fp:
            return ReviewVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath):
        """ ReviewVectorizer 객체를 json 형태로 디스크에 저장합니다
        
        매개변수:
            vectorizer_filepath (str): ReviewVectorizer 객체의 저장 위치
        """
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self):
        """ 벡터 변환 객체를 반환합니다 """
        return self._vectorizer

    def set_split(self, split="train"):
        """ 데이터프레임에 있는 열을 사용해 분할 세트를 선택합니다 
        
        매개변수:
            split (str): "train", "val", "test" 중 하나
        """
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __len__(self):
        return self._target_size

    def __getitem__(self, index):
        """ 파이토치 데이터셋의 주요 진입 메서드
        
        매개변수:
            index (int): 데이터 포인트의 인덱스
        반환값:
            데이터 포인트의 특성(x_data)과 레이블(y_target)로 이루어진 딕셔너리
        """
        # df.iloc[index] => index 행을 반환[:,index] -=> 열을 반환
        # df.loc[조건] => 조건에 맞는 행을 반환 / df.loc[레이블] => 레이블 반환(시리즈) / df.loc[[행레이블],[열레이블]] => 해당 행렬만 반환
        row = self._target_df.iloc[index]

        review_vector = \
            self._vectorizer.vectorize(row.review)

        rating_index = \
            self._vectorizer.rating_vocab.lookup_token(row.rating)

        return {'x_data': review_vector,
                'y_target': rating_index}

    def get_num_batches(self, batch_size):
        """ 배치 크기가 주어지면 데이터셋으로 만들 수 있는 배치 개수를 반환합니다
        
        매개변수:
            batch_size (int)
        반환값:
            배치 개수
        """
        return len(self) // batch_size

# Vocabulary

In [3]:
class Vocabulary(object):
    """ 매핑을 위해 텍스트를 처리하고 어휘 사전을 만드는 클래스({토큰 -> 인덱스}, {인덱스 -> 토큰}) """

    def __init__(self, token_to_idx=None, add_unk=True, unk_token="<UNK>"):
        """
        매개변수:
            token_to_idx (dict): 기존 토큰-인덱스 매핑 딕셔너리
            add_unk (bool): UNK 토큰을 추가할지 지정하는 플래그
            unk_token (str): Vocabulary에 추가할 UNK 토큰
        """

        if token_to_idx is None: # 기존의 매핑 딕셔너리가 없을 경우 빈 딕셔너리를 만듦
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token 
                              for token, idx in self._token_to_idx.items()}
        
        self._add_unk = add_unk
        self._unk_token = unk_token
        
        self.unk_index = -1
        if add_unk: # unk토큰을 추가하는게 True로 설정되었다면
            self.unk_index = self.add_token(unk_token) 
        
        
    def to_serializable(self):
        """ 직렬화할 수 있는 딕셔너리를 반환합니다 """ # => Vocabulary 인스턴스를 만드는데 필요한 파라미터의 딕셔너리
        return {'token_to_idx': self._token_to_idx, 
                'add_unk': self._add_unk, 
                'unk_token': self._unk_token}

    @classmethod
    def from_serializable(cls, contents):
        """ 직렬화된 딕셔너리에서 Vocabulary 객체를 만듭니다 """
        # contents 는 딕셔너리
        return cls(**contents)

    def add_token(self, token):
        """ 토큰을 기반으로 매핑 딕셔너리를 업데이트합니다

        매개변수:
            token (str): Vocabulary에 추가할 토큰
        반환값:
            index (int): 토큰에 상응하는 정수
        """
        if token in self._token_to_idx:
            index = self._token_to_idx[token]
        else:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index
    
    def add_many(self, tokens):
        """ 토큰 리스트를 Vocabulary에 추가합니다.
        
        매개변수:
            tokens (list): 문자열 토큰 리스트
        반환값:
            indices (list): 토큰 리스트에 상응되는 인덱스 리스트
        """
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token):
        """ 토큰에 대응하는 인덱스를 추출합니다.
        토큰이 없으면 UNK 인덱스를 반환합니다.
        
        매개변수:
            token (str): 찾을 토큰 
        반환값:
            index (int): 토큰에 해당하는 인덱스
        노트:
            UNK 토큰을 사용하려면 (Vocabulary에 추가하기 위해)
            `unk_index`가 0보다 커야 합니다.
        """
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index) # get(토큰, 디폴트값)
        else:
            return self._token_to_idx[token]

    def lookup_index(self, index):
        """ 인덱스에 해당하는 토큰을 반환합니다.
        
        매개변수: 
            index (int): 찾을 인덱스
        반환값:
            token (str): 인텍스에 해당하는 토큰
        에러:
            KeyError: 인덱스가 Vocabulary에 없을 때 발생합니다.
        """
        if index not in self._idx_to_token:
            raise KeyError("Vocabulary에 인덱스(%d)가 없습니다." % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)

 # Vectorizer

In [4]:
class ReviewVectorizer(object):
    """ 어휘 사전을 생성하고 관리합니다 """
    def __init__(self, review_vocab, rating_vocab):
        """
        매개변수:
            review_vocab (Vocabulary): 단어를 정수에 매핑하는 Vocabulary
            rating_vocab (Vocabulary): 클래스 레이블을 정수에 매핑하는 Vocabulary
        """
        self.review_vocab = review_vocab
        self.rating_vocab = rating_vocab

    def vectorize(self, review):
        """ 리뷰에 대한 웟-핫 벡터를 만듭니다
        
        매개변수:
            review (str): 리뷰
        반환값:
            one_hot (np.ndarray): 원-핫 벡터
        """
        one_hot = np.zeros(len(self.review_vocab), dtype=np.float32)
        
        for token in review.split(" "):
            if token not in string.punctuation: # token 이 구두점이 아닌 경우
                one_hot[self.review_vocab.lookup_token(token)] = 1

        return one_hot

    @classmethod
    def from_dataframe(cls, review_df, cutoff=25):
        """ 데이터셋 데이터프레임에서 Vectorizer 객체를 만듭니다
        
        매개변수:
            review_df (pandas.DataFrame): 리뷰 데이터셋
            cutoff (int): 빈도 기반 필터링 설정값
        반환값:
            ReviewVectorizer 객체
        """
        review_vocab = Vocabulary(add_unk=True)
        rating_vocab = Vocabulary(add_unk=False)
        
        # 점수를 추가합니다
        for rating in sorted(set(review_df.rating)):
            rating_vocab.add_token(rating)

        # count > cutoff인 단어를 추가합니다
        ## 전체 리뷰를 순회하면서 단어들의 빈도수를 체크(counter 딕셔너리)
        word_counts = Counter()
        for review in review_df.review:
            for word in review.split(" "):
                if word not in string.punctuation:
                    word_counts[word] += 1
        
        ## cutoff 기준을 통과하는 단어만 token으로 만들어 정수와 매핑해줌
        for word, count in word_counts.items():
            if count > cutoff:
                review_vocab.add_token(word)
        
        #어휘 사전(ReviewVectorizer)을 반환한다.
        return cls(review_vocab, rating_vocab)

    @classmethod
    def from_serializable(cls, contents):
        """ 직렬화된 딕셔너리에서 ReviewVectorizer 객체를 만듭니다
        
        매개변수:
            contents (dict): 직렬화된 딕셔너리({리뷰보카 : {토큰사전, unk정보/토큰}, 레이팅보카 : {토큰사전,unk정보/토큰}} 형태)
        반환값:
            ReviewVectorizer 클래스 객체
        """
        review_vocab = Vocabulary.from_serializable(contents['review_vocab'])
        rating_vocab =  Vocabulary.from_serializable(contents['rating_vocab'])

        return cls(review_vocab=review_vocab, rating_vocab=rating_vocab)

    def to_serializable(self):
        """ 캐싱을 위해 직렬화된 딕셔너리를 만듭니다
        
        반환값:
            contents (dict): 직렬화된 딕셔너리
        """
        return {'review_vocab': self.review_vocab.to_serializable(),
                'rating_vocab': self.rating_vocab.to_serializable()}


# DataLoader

In [54]:
def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"):
    """
    파이토치 DataLoader를 감싸고 있는 제너레이터 함수.
    각 텐서를 지정된 장치로 이동합니다.
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader: # 반복자인 dataloader로 부터 미니 배치를 하나씩 받아서 미니 배치 하나하나를 딕셔너리로 저장
        out_data_dict = {}
        #print("data_dict :",data_dict)-> dataloader로부터 생성되는 미니 배치의 형태를 알아보려고({x_data : tensor, y_target : tensor},,,)
        for name, tensor in data_dict.items():
            #print("name :",name) -> 위와 마찬가지의 이유
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict #여기서 배치 index t 인 미니배치가 반환이 되면 잠시 기다렸다가 다시 호출 되었을 때 t+1에 대한 반복문을 재개

In [46]:
class ReviewClassifier(nn.Module):
    """ 간단한 퍼셉트론 기반 분류기 """#-> 파이토치의 module클래스를 상속하고 단일 출력을 만드는 Linear층을 하나 생성
                                    # 활성화 함수는 sigmoid, 손실 함수는 BCE(이진 크로스 엔트로프) => 합쳐서 BCEWIthLogitsLoss()사용
    def __init__(self, num_features):
        """
        매개변수:
            num_features (int): 입력 특성 벡터의 크기(여기서는 리뷰 벡터 하나 하나)
        """
        super(ReviewClassifier, self).__init__()
        self.fc1 = nn.Linear(in_features=num_features, 
                             out_features=1)

    def forward(self, x_in, apply_sigmoid=False):
        """ 분류기의 정방향 계산
        
        매개변수:
            x_in (torch.Tensor): 입력 데이터 텐서 
                x_in.shape는 (batch, num_features)입니다.(즉, 리뷰 벡터가 batch사이즈 만큼 있다는 뜻)
            apply_sigmoid (bool): 시그모이드 활성화 함수를 위한 플래그
                크로스-엔트로피 손실을 사용하려면 False로 지정합니다
        반환값:
            결과 텐서. tensor.shape은 (batch,)입니다.(리뷰 벡터 하나당 단일 출력을 만들어 내기 때문에 총 batch개의 출력을 만든다)
        """
        y_out = self.fc1(x_in).squeeze()
        if apply_sigmoid:
            y_out = torch.sigmoid(y_out)
        return y_out

# 훈련과정

## 설정

In [47]:
def set_seed_everywhere(seed, cuda):
    np.random.seed(seed)
    torch.manual_seed(seed)
    if cuda:
        torch.cuda.manual_seed_all(seed)

def handle_dirs(dirpath):
    if not os.path.exists(dirpath):
        os.makedirs(dirpath)

In [48]:
args = Namespace(
    # 날짜와 경로 정보
    frequency_cutoff=25,
    model_state_file='model.pth',
    review_csv='data/yelp/reviews_with_splits_lite.csv',
    # review_csv='data/yelp/reviews_with_splits_full.csv',
    save_dir='model_storage/ch3/yelp/',
    vectorizer_file='vectorizer.json',
    # 모델 하이퍼파라미터 없음
    # 훈련 하이퍼파라미터
    batch_size=128,
    early_stopping_criteria=5,
    learning_rate=0.001,
    num_epochs=100,
    seed=1337,
    # 실행 옵션
    catch_keyboard_interrupt=True,
    cuda=True,
    expand_filepaths_to_save_dir=True,
    reload_from_files=False,
)

if args.expand_filepaths_to_save_dir:
    args.vectorizer_file = os.path.join(args.save_dir,
                                        args.vectorizer_file)

    args.model_state_file = os.path.join(args.save_dir,
                                         args.model_state_file)
    
    print("파일 경로: ")
    print("\t{}".format(args.vectorizer_file))
    print("\t{}".format(args.model_state_file))
    
# CUDA 체크
if not torch.cuda.is_available():
    args.cuda = False

print("CUDA 사용여부: {}".format(args.cuda))

args.device = torch.device("cuda" if args.cuda else "cpu")

# 재현성을 위해 시드 설정
set_seed_everywhere(args.seed, args.cuda)

# 디렉토리 처리
handle_dirs(args.save_dir)

파일 경로: 
	model_storage/ch3/yelp/vectorizer.json
	model_storage/ch3/yelp/model.pth
CUDA 사용여부: False


## 헬퍼함수

In [49]:
def make_train_state(args):
    return {'stop_early': False,
            'early_stopping_step': 0,
            'early_stopping_best_val': 1e8,
            'learning_rate': args.learning_rate,
            'epoch_index': 0,
            'train_loss': [],
            'train_acc': [],
            'val_loss': [],
            'val_acc': [],
            'test_loss': -1,
            'test_acc': -1,
            'model_filename': args.model_state_file}

def update_train_state(args, model, train_state):
    """ 훈련 상태를 업데이트합니다.

    Components:
     - 조기 종료: 과대 적합 방지
     - 모델 체크포인트: 더 나은 모델을 저장합니다

    :param args: 메인 매개변수
    :param model: 훈련할 모델
    :param train_state: 훈련 상태를 담은 딕셔너리
    :returns:
        새로운 훈련 상태
    """

    # 적어도 한 번 모델을 저장합니다
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 성능이 향상되면 모델을 저장합니다
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 손실이 나빠지면
        if loss_t >= train_state['early_stopping_best_val']:
            # 조기 종료 단계 업데이트
            train_state['early_stopping_step'] += 1
        # 손실이 감소하면
        else:
            # 최상의 모델 저장
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 조기 종료 단계 재설정
            train_state['early_stopping_step'] = 0

        # 조기 종료 여부 확인
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state

def compute_accuracy(y_pred, y_target):
    y_target = y_target.cpu()
    y_pred_indices = (torch.sigmoid(y_pred)>0.5).cpu().long()#.max(dim=1)[1]
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100

In [50]:
if args.reload_from_files:
    # 체크포인트에서 훈련을 다시 시작
    print("데이터셋과 Vectorizer를 로드합니다")
    dataset = ReviewDataset.load_dataset_and_load_vectorizer(args.review_csv,
                                                            args.vectorizer_file)
else:
    print("데이터셋을 로드하고 Vectorizer를 만듭니다")
    # 데이터셋과 Vectorizer 만들기
    dataset = ReviewDataset.load_dataset_and_make_vectorizer(args.review_csv)
    dataset.save_vectorizer(args.vectorizer_file)    
    
#데이터셋과 벡터라이저
vectorizer = dataset.get_vectorizer()

#모델
classifier = ReviewClassifier(num_features=len(vectorizer.review_vocab))
classifier = classifier.to(args.device)

#손실함수와 옵티마이저
loss_func = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                                 mode='min', factor=0.5,
                                                 patience=1)
train_state = make_train_state(args)

데이터셋을 로드하고 Vectorizer를 만듭니다


In [89]:
# dff = dataset._lookup_dict['train']
# dfff = pd.DataFrame(dff[0])
# print(dfff.split == 'train')
# pd.DataFrame 에서 == 속성을 쓰면 인덱스가 반환됨을 확인하는 부분

0        True
1        True
2        True
3        True
4        True
         ... 
43878    True
43879    True
43880    True
43881    True
43882    True
Name: split, Length: 36106, dtype: bool


# 훈련 및 검증

In [55]:
epoch_bar = tqdm.notebook.tqdm(desc='training routine', 
                          total=args.num_epochs,
                          position=0)

dataset.set_split('train')
train_bar = tqdm.notebook.tqdm(desc='split=train',
                          total=dataset.get_num_batches(args.batch_size), 
                          position=1, 
                          leave=True)
dataset.set_split('val')
val_bar = tqdm.notebook.tqdm(desc='split=val',
                        total=dataset.get_num_batches(args.batch_size), 
                        position=1, 
                        leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 훈련 세트에 대한 순회

        # 훈련 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator): # 반복문을 돌릴 때마다 미니배치 1개 분량의 훈련데이터가 전달된다.
            # 훈련 과정은 5단계로 이루어집니다

            # --------------------------------------
            # 단계 1. 그레이디언트를 0으로 초기화합니다
            optimizer.zero_grad()

            # 단계 2. 출력을 계산합니다
            y_pred = classifier(x_in=batch_dict['x_data'].float())

            # 단계 3. 손실을 계산합니다
            loss = loss_func(y_pred, batch_dict['y_target'].float())
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 4. 손실을 사용해 그레이디언트를 계산합니다
            loss.backward()

            # 단계 5. 옵티마이저로 가중치를 업데이트합니다
            optimizer.step()
            # -----------------------------------------
            
            # 정확도를 계산합니다
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 진행 바 업데이트
            train_bar.set_postfix(loss=running_loss, 
                                  acc=running_acc, 
                                  epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)
        
        

        # 검증 세트에 대한 순회

        # 검증 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):

            # 단계 1. 출력을 계산합니다
            y_pred = classifier(x_in=batch_dict['x_data'].float())

            # 단계 2. 손실을 계산합니다
            loss = loss_func(y_pred, batch_dict['y_target'].float())
            #print("batch_index =", batch_index)
            #print("loss =",loss)
            loss_t = loss.item()
            #print("loss_t =",loss_t)
            running_loss += (loss_t - running_loss) / (batch_index + 1)
            '''
            이 식을 정리하면 {(batch_index*running_loss + loss_t) / batch_index }
            즉, 현시점 전 단계 까지의 runngin_loss의 Sum(평균*갯수) 에다가 현 단계의 loss_t를 더해주고
            이를 다시 현 단계 만큼 나눠주어 평균을 구함.
            즉, running_loss는 해당 단계까지의 미니배치의 평균 loss 값이다.
            '''
            #print("running_loss =",running_loss)

            # 단계 3. 정확도를 계산합니다
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)
            
            val_bar.set_postfix(loss=running_loss, 
                                acc=running_acc, 
                                epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        train_state = update_train_state(args=args, model=classifier,
                                         train_state=train_state)
        print("train_state :",train_state)

        scheduler.step(train_state['val_loss'][-1]) #http://www.gisdeveloper.co.kr/?p=8443
        # scheduler는 learning rate를 가변적으로 관리해준다. 이때, ReduceLROnPlateau 방식의 스케쥴러는 loss를 파라미터로 갖는다.

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()

        if train_state['stop_early']:
            break

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()
except KeyboardInterrupt:
    print("Exiting loop")

training routine:   0%|          | 0/100 [00:00<?, ?it/s]

split=train:   0%|          | 0/282 [00:00<?, ?it/s]

split=val:   0%|          | 0/60 [00:00<?, ?it/s]

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 0, 'train_loss': [0.48952182239674485, 0.1336426801768178], 'train_acc': [83.33887411347519, 95.53413120567373], 'val_loss': [0.212744347875317], 'val_acc': [91.92708333333331], 'test_loss': 0.21811287651459377, 'test_acc': 91.38020833333334, 'model_filename': 'model_storage/ch3/yelp/model.pth'}
train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 1, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655], 'val_loss': [0.212744347875317, 0.21390976260105768], 'val_acc': [91.92708333333331, 91.84895833333333], 'test_loss': 0.21811287651459377, 'test_acc': 91.38020833333334, 'model_filename': 'model_storage/ch3/yelp/model.pth'}
train_state : {'stop_early': False, 'early_s

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 11, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383, 95.76961436170212, 95.83333333333333, 95.83333333333331, 95.86103723404244, 95.86380762411358, 95.86657801418437, 95.89705230496445, 95.90813386524825], 'val_loss': [0.212744347875317, 0.21390976260105768, 0.21310534998774525, 0.2136860478669405, 0.21509258312483626, 0.2145973533391952, 0.21417302563786506, 0.21468015039960542, 0.21507050643364586, 0.2144700581828753, 0.21539873282114666, 0.2153010614216328], 'val_acc': [91.92708333333331, 91.84895833333

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 17, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383, 95.76961436170212, 95.83333333333333, 95.83333333333331, 95.86103723404244, 95.86380762411358, 95.86657801418437, 95.89705230496445, 95.90813386524825, 95.89428191489365, 95.8970523049645, 95.90259308510639, 95.91090425531914, 95.91090425531908, 95.90536347517727], 'val_loss': [0.212744347875317, 0.21390976260105768, 0.2131053499877

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 22, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383, 95.76961436170212, 95.83333333333333, 95.83333333333331, 95.86103723404244, 95.86380762411358, 95.86657801418437, 95.89705230496445, 95.90813386524825, 95.89428191489365, 95.8970523049645, 95.90259308510639, 95.91090425531914, 95

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 26, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383, 95.76961436170212, 95.83333333333333, 95.83333333333331, 95.86103723404244, 95.86380762411358, 95.86657801418437, 95.89705230496445, 95.9081338652

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 30, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287, 0.12496675183692725, 0.12492050972919085, 0.12498436997651208, 0.12496977275673386], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383, 95.76961436170212, 95.83333333333333, 95.83333333333331, 95.86

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 33, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287, 0.12496675183692725, 0.12492050972919085, 0.12498436997651208, 0.12496977275673386, 0.12496925864025216, 0.12491602918252033, 0.12498471296742458], 'train_acc': [83.33887411347519, 95.53413120567373, 95.54244237588655, 95.61447251773049, 95.74468085106383,

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 36, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287, 0.12496675183692725, 0.12492050972919085, 0.12498436997651208, 0.12496977275673386, 0.12496925864025216, 0.12491602918252033, 0.12498471296742458, 0.12497995870438867, 0.12499018790239984, 0.12498511673869393], 'train_acc': [83.33887411347519, 95.534131205

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 39, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287, 0.12496675183692725, 0.12492050972919085, 0.12498436997651208, 0.12496977275673386, 0.12496925864025216, 0.12491602918252033, 0.12498471296742458, 0.12497995870438867, 0.12499018790239984, 0.12498511673869393, 0.12492480683833974, 0.12495307981016786, 0.12

train_state : {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 100000000.0, 'learning_rate': 0.001, 'epoch_index': 42, 'train_loss': [0.48952182239674485, 0.1336426801768178, 0.13267410831882595, 0.13130603915622044, 0.12914739023392088, 0.12844352352809407, 0.12718708134183648, 0.12677697258743836, 0.12614325320361353, 0.12590144011885565, 0.12555778499507733, 0.12544196175662345, 0.12520475828267166, 0.12506644953544246, 0.1251405354140075, 0.12507313120026972, 0.1250343614700415, 0.12501999056825414, 0.12501068186041314, 0.12496616804959082, 0.12496641484346806, 0.12498340402987404, 0.12495737588891737, 0.12499466451241596, 0.12497622046804599, 0.1249535831735066, 0.12497011455872377, 0.12494243388163287, 0.12496675183692725, 0.12492050972919085, 0.12498436997651208, 0.12496977275673386, 0.12496925864025216, 0.12491602918252033, 0.12498471296742458, 0.12497995870438867, 0.12499018790239984, 0.12498511673869393, 0.12492480683833974, 0.12495307981016786, 0.12

# 테스트

In [52]:

# 가장 좋은 모델을 사용해 테스트 세트의 손실과 정확도를 계산합니다
classifier.load_state_dict(torch.load(train_state['model_filename']))
classifier = classifier.to(args.device)

dataset.set_split('test')
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)
running_loss = 0.
running_acc = 0.
classifier.eval()

for batch_index, batch_dict in enumerate(batch_generator):
    # 출력을 계산합니다
    y_pred = classifier(x_in=batch_dict['x_data'].float())

    # 손실을 계산합니다
    loss = loss_func(y_pred, batch_dict['y_target'].float())
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)

    # 정확도를 계산합니다
    acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
    running_acc += (acc_t - running_acc) / (batch_index + 1)

train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc

data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 1., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0,
        0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1,
        0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0,
        0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1,
        0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0,
        1, 0, 1, 1, 0, 1, 0, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1

data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0,
        0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0,
        0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1,
        0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1,
        0, 1, 1, 1, 1, 1, 0, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 1., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1

data_dict : {'x_data': tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 1., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1,
        0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
        1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0,
        1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
        0, 0, 0, 0, 1, 1, 1, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1

data_dict : {'x_data': tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1,
        0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0,
        1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0,
        0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0,
        0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0,
        0, 0, 0, 1, 1, 1, 0, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1

data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0,
        0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
        1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1,
        1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 1, 0, 1, 0, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1

data_dict : {'x_data': tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.]]), 'y_target': tensor([1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1,
        0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1,
        0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1,
        0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1,
        0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0,
        1, 1, 1, 0, 1, 1, 1, 1])}
name : x_data
name : y_target
data_dict : {'x_data': tensor([[0., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        ...,
        [1., 0., 0.,  ..., 0., 0., 0.],
        [1., 0., 0.,  ..., 0., 0., 0.],
        [0

In [30]:
print("테스트 손실: {:.3f}".format(train_state['test_loss']))
print("테스트 정확도: {:.2f}".format(train_state['test_acc']))
#https://ming-jee.tistory.com/124

테스트 손실: 0.218
테스트 정확도: 91.42


In [24]:
print(f"테스트 손실 : {train_state['test_loss']}")
print(f"테스트 정확도 : {train_state['test_acc']}")

테스트 손실 : 0.21799660275379815
테스트 정확도 : 91.41927083333331


# 새로운 데이터에 대한 예측

In [31]:
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)
    return text

In [32]:
def predict_rating(review, classifier, vectorizer, decision_threshold=0.5):
    """ 리뷰 점수 예측하기
    
    매개변수:
        review (str): 리뷰 텍스트
        classifier (ReviewClassifier): 훈련된 모델
        vectorizer (ReviewVectorizer): Vectorizer 객체
        decision_threshold (float): 클래스를 나눌 결정 경계(반환되는 시그모이드(0~1)값에 대해 어느 값부터 positive로 볼것이냐)
    """
    review = preprocess_text(review)
    
    vectorized_review = torch.tensor(vectorizer.vectorize(review)) # 원핫벡터로 만들어진 리뷰 텍스트를 텐서로 저장
    result = classifier(vectorized_review.view(1, -1)) # 텐서를 행벡터 형태로 바꿔서 모델에 넣음
    
    probability_value = torch.sigmoid(result).item()
    index = 1
    if probability_value < decision_threshold: # 시그모이드 결과값이 결정 경계에 못미치면 positive
        index = 0

    return vectorizer.rating_vocab.lookup_index(index)

In [38]:
test_review = "this is a dirty book"

classifier = classifier.cpu()
prediction = predict_rating(test_review, classifier, vectorizer, decision_threshold=0.5)
print("{} -> {}".format(test_review, prediction))

this is a dirty book -> negative


In [40]:
test_review = "this is a prety awesome book"

classifier = classifier.cpu()
prediction = predict_rating(test_review, classifier, vectorizer, decision_threshold=0.5)
print("{} -> {}".format(test_review, prediction))

this is a prety awesome book -> positive


# 모델 가중치 분석
#### 각 특성(단어)이 결과에 미치는 영향력 파악

In [41]:
classifier.fc1.weight.shape

torch.Size([1, 6999])

In [42]:
# 가중치 정렬
fc1_weights = classifier.fc1.weight.detach()[0]
_, indices = torch.sort(fc1_weights, dim=0, descending=True)
indices = indices.numpy().tolist()

# 긍정적인 상위 20개 단어
print("긍정 리뷰에 영향을 미치는 단어:")
print("--------------------------------------")
for i in range(20):
    print(vectorizer.review_vocab.lookup_index(indices[i]))
    
print("====\n\n\n")

# 부정적인 상위 20개 단어
print("부정 리뷰에 영향을 미치는 단어:")
print("--------------------------------------")
indices.reverse()
for i in range(20):
    print(vectorizer.review_vocab.lookup_index(indices[i]))

긍정 리뷰에 영향을 미치는 단어:
--------------------------------------
delicious
amazing
fantastic
pleasantly
great
vegas
excellent
awesome
perfect
yummy
yum
solid
ngreat
pleased
love
pho
nthank
affordable
superb
wonderful
====



부정 리뷰에 영향을 미치는 단어:
--------------------------------------
worst
mediocre
bland
terrible
meh
horrible
awful
rude
overpriced
tasteless
unfriendly
disgusting
slowest
disappointing
unprofessional
poorly
flavorless
nmaybe
unacceptable
inconsistent


#### 최초 작성 -> 2021.08.12 / 복습1)