<a href="https://colab.research.google.com/github/TacticalCoders/NLP-with-Pytorch/blob/main/3_Classifying_Yelp_Review_Sentiment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#3장 예제 - 레스토랑 리뷰 감성 분류하기

퍼셉트론과 지도 학습 훈련 방법을 사용해 옐프의 레스토랑 리뷰가 긍정적인지 부정적인지 분류.

## 옐프 리뷰 데이터셋 전처리(lite)

2015년, 옐프는 리뷰를 바탕으로 레스톨랑의 등급을 예측하는 대회를 열었다. 
장, 자오, 러찬이라는 사람이 이 데이터셋을 단순화하여 별 1,2개는 음성 클래스로 바꾸고, 별 3, 4개는 양성 클래스로 바꾸었다. 그다음 훈련 샘플 560,000개와 테스트 샘플 38,000개로 나누었다. 여기서는 간소화한 이 옐프 데이터셋을 사용할 것이다. 데이터 정제를 최소한으로 수행하여 최종 데이터셋을 얻을 것이다.

또한 데이터셋의 '라이트' 버전을 사용할 것이다. 즉, 데이터셋 전체 훈련 샘플의 10%만 사용할 것이다. 이렇게 작은 데이터셋을 사용하면 훈련-테스트 반복이 빠르다. 또 전체 데이터를 사용할 때보다 낮은 정확도를 달성하는데 낮은 정확도는 일반적으로 큰 문제가 되지 않는다. 작은 데이터셋에서 얻은 지식을 사용해 전체 데이터셋으로 모델을 다시 훈련할 수 있기 때문이다.(훈련 데이터양이 아주 많을 때 매우 유용한 방법)

작은 데이터셋을 훈련, 검증, 테스트용 데이터셋 3개로 나눌 것이다. 

머신러닝에서는 훈련 세트로 모델을 훈련하고 따로 떼어 놓은 검증 세트로 모델이 얼마나 잘 동작하는지 평가한다. 검증 세트를 기반으로 모델을 선택하면 모델이 검증 세트에 더 잘 수행되도록 편향된다. 따라서 모델이 점차 개선되는지 측정하기 위해 가능한 한 평가에 적게 사용할 세 번째 세트를 준비해서 이 문제를 해결할 수 있다.

요약하자면 모델 파라미터를 추정하는 데 훈련 세트를 사용하고 (모델의 구조를 결정하는) 하이퍼파라미터를 선택하는 데 검증 세트를 사용한다. 테스트 세트는 마지막 평가와 보고에 사용한다.

In [4]:
import collections
import numpy as np
import pandas as pd
import re

from argparse import Namespace

In [45]:
args = Namespace(
    raw_train_dataset_csv="data/yelp/raw_train.csv",
    raw_test_dataset_csv="data/yelp/raw_test.csv",
    proportion_subset_of_train=0.3, # 데이터셋 전체 훈련 샘플의 10%만 사용. -> 데이터 불러오는 과정에서 165887개가 skipped됨 따라서 30%로 늘릴 것.
    train_proportion=0.7, # 훈련 세트 70%
    val_proportion=0.15, # 검증 세트 15%
    test_proportion=0.15, # 테스트 세트 15%
    output_munged_csv="data/yelp/reviews_with_splits_lite.csv",
    seed=1337
)

In [46]:
# 판다스로 csv 읽어오기
train_reviews = pd.read_csv(args.raw_train_dataset_csv, header=None, engine='python', names=['rating', 'review'], error_bad_lines=False) # "EOF inside string starting at row" -> engine='python' , "unexpected end of data"  ->  error_bad_lines=False



  exec(code_obj, self.user_global_ns, self.user_ns)
Skipping line 165887: unexpected end of data


In [47]:
print(train_reviews)

        rating                                             review
0            1  Unfortunately, the frustration of being Dr. Go...
1            2  Been going to Dr. Goldberg for over 10 years. ...
2            1  I don't know what Dr. Goldberg was like before...
3            1  I'm writing this review to give you a heads up...
4            2  All the food is great here. But the best thing...
...        ...                                                ...
165881       1  Just went back this weekend. Not as good as 1s...
165882       1  After lasting one night in that spooky L Motel...
165883       1  DO NOT EAT HERE!\n\nMy friend and I had breakf...
165884       2  Have to say that after a long search my good f...
165885       2  I get cleanings every 6 months & visited a new...

[165886 rows x 2 columns]


1이 부정적인 리뷰, 2가 긍정적인 리뷰

In [49]:
# 리뷰 클래스 비율이 동일하게 만들기
by_rating = collections.defaultdict(list) # defaultdict는 딕셔너리(dictionary)와 거의 비슷하지만 key값이 없을 경우 미리 지정해 놓은 초기(default)값을 반환하는 dictionary. key가 없으면 빈 리스트 반환.
for _, row in train_reviews.iterrows(): # pandas의 iterrows() -> 데이터 프레임의 각 행 참조. (index, row_seriese) 인덱스는 무시
    by_rating[row.rating].append(row.to_dict()) # rating을 키로, row를 value로 저장. 각 value안에서도 rating과 review가 키로, 나머지 데이터들이 value로 저장. 사전 안에 사전인 셈.

review_subset = []

for _, item_list in sorted(by_rating.items()): # key는 두 개 존재, 1 : {...},{...},...,{....} , 2 : {...},{...},...,{...}   
    n_total = len(item_list)
    n_subset = int(args.proportion_subset_of_train * n_total) # 0.3 * n_total
    print(len(item_list))
    print(n_subset)
    review_subset.extend(item_list[:n_subset]) # 맨 앞에서 10분의 1만 저장. # extend(iterable)는 리스트 끝에 가장 바깥쪽 iterable의 모든 항목을 저장.

review_subset = pd.DataFrame(review_subset) # 리스트를 판다스 데이터 프레임으로 변환.

89199
26759
76687
23006


In [50]:
review_subset.head()

Unnamed: 0,rating,review
0,1,"Unfortunately, the frustration of being Dr. Go..."
1,1,I don't know what Dr. Goldberg was like before...
2,1,I'm writing this review to give you a heads up...
3,1,Wing sauce is like water. Pretty much a lot of...
4,1,Owning a driving range inside the city limits ...


In [51]:
review_subset.tail()

Unnamed: 0,rating,review
49760,2,Went here with a girlfriend and we sat out on ...
49761,2,I love this place! Why? Because the staff is...
49762,2,The staff here (Steph served us!) was fantasti...
49763,2,I have been here multiple times and the servic...
49764,2,I recently stopped at Men's Wearhouse because ...


In [52]:
train_reviews.rating.value_counts()

1    89199
2    76687
Name: rating, dtype: int64

In [53]:
set(review_subset.rating)

{1, 2}

In [55]:
# 훈련, 검증, 테스트를 만들기 위해 별점을 기준(1,2)로 나누기
by_rating = collections.defaultdict(list)
for _, row in review_subset.iterrows():
    by_rating[row.rating].append(row.to_dict())

# 분할 데이터를 만들기
final_list = []
np.random.seed(args.seed)

for _, item_list in sorted(by_rating.items()):

    np.random.shuffle(item_list)
    
    n_total = len(item_list)
    n_train = int(args.train_proportion * n_total)
    n_val = int(args.val_proportion * n_total)
    n_test = int(args.test_proportion * n_total)
    
    # 데이터 포인터에 분할 속성을 추가합니다
    for item in item_list[:n_train]:
        item['split'] = 'train'
    
    for item in item_list[n_train:n_train+n_val]:
        item['split'] = 'val'
        
    for item in item_list[n_train+n_val:n_train+n_val+n_test]:
        item['split'] = 'test'

    # 최종 리스트에 추가합니다
    final_list.extend(item_list)

In [56]:
# 분할 데이터를 데이터 프레임으로 만듭니다
final_reviews = pd.DataFrame(final_list)

In [60]:
final_reviews.head()

Unnamed: 0,rating,review,split
0,1,This place is small with an large patio area. ...,train
1,1,I was in a wedding and needed to get my nails ...,train
2,1,I was so proud of myself for finally getting a...,train
3,1,The rolls were not well prepared. the salmon s...,train
4,1,This store is so gross that I was almost sick!...,train


In [57]:
final_reviews.split.value_counts()

train    34835
val       7463
test      7463
Name: split, dtype: int64

regular expression, re

re.sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있다. 아래와 같은 정제 작업에 많이 사용되는데, 영어 문장에 각주 등과 같은 이유로 특수 문자가 섞여있는 경우에 **특수 문자를 제거**하고 싶다면 **알파벳 외의 문자는 공백으로 처리**하는 등의 용도로 쓸 수 있다.

In [58]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


In [59]:
text = 'Are you creazy? I am a studend!!'
preprocessed_text = re.sub(r"([.,!?])", r" \1 ", text) 
print(preprocessed_text)

Are you creazy ?  I am a studend !  ! 


In [22]:
# 리뷰를 전처리합니다
def preprocess_text(text):
    text = text.lower() #소문자로 바꾸기.
    text = re.sub(r"([.,!?])", r" \1 ", text) # \1 -> []의 문자들 중 해당하는 문자 자기 자신. .,!? 가 등장하면 사이에 공백 추가
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text) # 특수문자 제거
    return text
    
final_reviews.review = final_reviews.review.apply(preprocess_text)

In [61]:
final_reviews['rating'] = final_reviews.rating.apply({1: 'negative', 2: 'positive'}.get) # 1을 negative로 변경, 2를 positive로 변경.

In [62]:
final_reviews.head()

Unnamed: 0,rating,review,split
0,negative,This place is small with an large patio area. ...,train
1,negative,I was in a wedding and needed to get my nails ...,train
2,negative,I was so proud of myself for finally getting a...,train
3,negative,The rolls were not well prepared. the salmon s...,train
4,negative,This store is so gross that I was almost sick!...,train


In [64]:
final_reviews.to_csv(args.output_munged_csv, index=False)

## 리뷰 감성 분류하기

### 임포트

In [65]:
from argparse import Namespace
from collections import Counter
import json
import os
import re
import string

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import tqdm

### 데이터 벡터화 클래스

여기서는 데이터셋이 최소한으로 정제되고 3개(훈련, 검증, 테스트)로 나뉘었다고 가정한다. 

특히 이 데이터셋은 리뷰를 공백을 기준으로 나눠서 토큰 리스트를 얻을 수 있다고 가정한다. (영어이므로)

또한 샘플이 훈련, 검증 테스트 중 어느 세트에 있는지 표시되었다고 가정한다.

파이썬 classmethod 데코레이터(클래스 인스턴스를 만들지 않고 호출할 수 있는 정적 메서드)를 사용해 데이터셋 클래스의 시작 메서드를 나타낼 것이다. 



#### **Dataset**

파이토치는 Dataset 클래스로 데이터셋을 추상화한다. Dataset 클래스는 추상화된 반복자(iterator)이다. 

파이토치에서 새로운 데이터셋을 사용할 때는 먼저 Dataset 클래스를 상속하여 __getitem__()과 __len__() 메서드를 구현해야 한다.

In [66]:
class ReviewDataset(Dataset):
    def __init__(self, review_df, vectorizer):
        """
        매개변수:
            review_df (pandas.DataFrame): 데이터셋
            vectorizer (ReviewVectorizer): ReviewVectorizer 객체
        """
        self.review_df = review_df
        self._vectorizer = vectorizer

        self.train_df = self.review_df[self.review_df.split=='train']
        self.train_size = len(self.train_df)

        self.val_df = self.review_df[self.review_df.split=='val']
        self.validation_size = len(self.val_df)

        self.test_df = self.review_df[self.review_df.split=='test']
        self.test_size = len(self.test_df)

        self._lookup_dict = {'train': (self.train_df, self.train_size),
                             'val': (self.val_df, self.validation_size),
                             'test': (self.test_df, self.test_size)}

        self.set_split('train')

    @classmethod
    def load_dataset_and_make_vectorizer(cls, review_csv):
        """ 데이터셋을 로드하고 새로운 ReviewVectorizer 객체를 만듭니다
        
        매개변수:
            review_csv (str): 데이터셋의 위치
        반환값:
            ReviewDataset의 인스턴스
        """
        review_df = pd.read_csv(review_csv)
        train_review_df = review_df[review_df.split=='train']
        return cls(review_df, ReviewVectorizer.from_dataframe(train_review_df))
    
    @classmethod
    def load_dataset_and_load_vectorizer(cls, review_csv, vectorizer_filepath):
        """ 데이터셋을 로드하고 새로운 ReviewVectorizer 객체를 만듭니다.
        캐시된 ReviewVectorizer 객체를 재사용할 때 사용합니다.
        
        매개변수:
            review_csv (str): 데이터셋의 위치
            vectorizer_filepath (str): ReviewVectorizer 객체의 저장 위치
        반환값:
            ReviewDataset의 인스턴스
        """
        review_df = pd.read_csv(review_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(review_df, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath):
        """ 파일에서 ReviewVectorizer 객체를 로드하는 정적 메서드
        
        매개변수:
            vectorizer_filepath (str): 직렬화된 ReviewVectorizer 객체의 위치
        반환값:
            ReviewVectorizer의 인스턴스
        """
        with open(vectorizer_filepath) as fp:
            return ReviewVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath):
        """ ReviewVectorizer 객체를 json 형태로 디스크에 저장합니다
        
        매개변수:
            vectorizer_filepath (str): ReviewVectorizer 객체의 저장 위치
        """
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self):
        """ 벡터 변환 객체를 반환합니다 """
        return self._vectorizer

    def set_split(self, split="train"):
        """ 데이터프레임에 있는 열을 사용해 분할 세트를 선택합니다 
        
        매개변수:
            split (str): "train", "val", "test" 중 하나
        """
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __len__(self):
        return self._target_size

    def __getitem__(self, index):
        """ 파이토치 데이터셋의 주요 진입 메서드
        
        매개변수:
            index (int): 데이터 포인트의 인덱스
        반환값:
            데이터 포인트의 특성(x_data)과 레이블(y_target)로 이루어진 딕셔너리
        """
        row = self._target_df.iloc[index]

        review_vector = \
            self._vectorizer.vectorize(row.review)

        rating_index = \
            self._vectorizer.rating_vocab.lookup_token(row.rating)

        return {'x_data': review_vector,
                'y_target': rating_index}

    def get_num_batches(self, batch_size):
        """ 배치 크기가 주어지면 데이터셋으로 만들 수 있는 배치 개수를 반환합니다
        
        매개변수:
            batch_size (int)
        반환값:
            배치 개수
        """
        return len(self) // batch_size

이 클래스는 ReviewVectorizer 클래스에 크게 의존한다. 이는 리뷰 텍스트를 수치 벡터로 변환하는 클래스다. 벡터화 단계를 거쳐야 신경망이 텍스트 데이터를 다룰 수 있다. 벡터화한 다음 DataLodder 클래스가 데이터셋에서 샘플링하고 모아서 미니배치를 만든다.

#### Vocabulary

이 책의 예제는 대부분 Vocabulary, Vectorizer, DataLoader 클래스를 사용해 중요한 파이프라인을 수행한다.

텍스트 입력을 미니배치로 바꾼다.(전처리된 텍스트 사용) 각 데이터 포인트는 토큰의 집합이다.(토큰 = 단어)

Vocabulary, Vectorizer, DataLoader 클래스는 각 토큰을 정수에 매핑하고, 이 매핑을 각 데이터 포인트에 적용해 벡터 형태로 변환한다. 벡터로 변환한 데이터 포인트를 모델을 위해 미니배치로 모은다.

텍스트를 벡터의 미니배치로 바꾸는 첫 단계는 토큰을 정수로 매핑하는 것이다. 토큰과 정수 사이를 일대일 매핑하는 방법이 표준이다.(이렇게 하면 반대로 매핑가능)

In [67]:
class Vocabulary(object):
    """ 매핑을 위해 텍스트를 처리하고 어휘 사전을 만드는 클래스 """

    def __init__(self, token_to_idx=None, add_unk=True, unk_token="<UNK>"): # UNK('unknown'을 의미, 훈련에서 본 적이 없는 토큰)
        """
        매개변수:
            token_to_idx (dict): 기존 토큰-인덱스 매핑 딕셔너리
            add_unk (bool): UNK 토큰을 추가할지 지정하는 플래그
            unk_token (str): Vocabulary에 추가할 UNK 토큰
        """

        if token_to_idx is None:
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token 
                              for token, idx in self._token_to_idx.items()}
        
        self._add_unk = add_unk
        self._unk_token = unk_token
        
        self.unk_index = -1
        if add_unk:
            self.unk_index = self.add_token(unk_token) 
        
        
    def to_serializable(self):
        """ 직렬화할 수 있는 딕셔너리를 반환합니다 """
        return {'token_to_idx': self._token_to_idx, 
                'add_unk': self._add_unk, 
                'unk_token': self._unk_token}

    @classmethod
    def from_serializable(cls, contents):
        """ 직렬화된 딕셔너리에서 Vocabulary 객체를 만듭니다 """
        return cls(**contents)

    def add_token(self, token):
        """ 토큰을 기반으로 매핑 딕셔너리를 업데이트합니다

        매개변수:
            token (str): Vocabulary에 추가할 토큰
        반환값:
            index (int): 토큰에 상응하는 정수
        """
        if token in self._token_to_idx:
            index = self._token_to_idx[token]
        else:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index
    
    def add_many(self, tokens):
        """ 토큰 리스트를 Vocabulary에 추가합니다.
        
        매개변수:
            tokens (list): 문자열 토큰 리스트
        반환값:
            indices (list): 토큰 리스트에 상응되는 인덱스 리스트
        """
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token):
        """ 토큰에 대응하는 인덱스를 추출합니다.
        토큰이 없으면 UNK 인덱스를 반환합니다.
        
        매개변수:
            token (str): 찾을 토큰 
        반환값:
            index (int): 토큰에 해당하는 인덱스
        노트:
            UNK 토큰을 사용하려면 (Vocabulary에 추가하기 위해)
            `unk_index`가 0보다 커야 합니다.
        """
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index)
        else:
            return self._token_to_idx[token]

    def lookup_index(self, index):
        """ 인덱스에 해당하는 토큰을 반환합니다.
        
        매개변수: 
            index (int): 찾을 인덱스
        반환값:
            token (str): 인텍스에 해당하는 토큰
        에러:
            KeyError: 인덱스가 Vocabulary에 없을 때 발생합니다.
        """
        if index not in self._idx_to_token:
            raise KeyError("Vocabulary에 인덱스(%d)가 없습니다." % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)

#### Vectorizer

텍스트를 벡터의 미니배치로 바꾸는 두 번째 단계는 입력 데이터 포인트의 토큰을 순회하면서 각 토큰을 정수로 바꾸는 것이다. 이 반복과정의 결과는 벡터이다. 이 벡터가 다른 데이터 포인트에서 만든 벡터와 합쳐지므로 Vectorizer에서 만든 벡터는 항상 길이가 같아야 한다.


In [68]:
class ReviewVectorizer(object):
    """ 어휘 사전을 생성하고 관리합니다 """
    def __init__(self, review_vocab, rating_vocab):
        """
        매개변수:
            review_vocab (Vocabulary): 단어를 정수에 매핑하는 Vocabulary
            rating_vocab (Vocabulary): 클래스 레이블을 정수에 매핑하는 Vocabulary
        """
        self.review_vocab = review_vocab
        self.rating_vocab = rating_vocab

    def vectorize(self, review):
        """ 리뷰에 대한 웟-핫 벡터를 만듭니다
        
        매개변수:
            review (str): 리뷰
        반환값:
            one_hot (np.ndarray): 원-핫 벡터
        """
        one_hot = np.zeros(len(self.review_vocab), dtype=np.float32)
        
        for token in review.split(" "):
            if token not in string.punctuation:
                one_hot[self.review_vocab.lookup_token(token)] = 1

        return one_hot

    @classmethod
    def from_dataframe(cls, review_df, cutoff=25):
        """ 데이터셋 데이터프레임에서 Vectorizer 객체를 만듭니다
        
        매개변수:
            review_df (pandas.DataFrame): 리뷰 데이터셋
            cutoff (int): 빈도 기반 필터링 설정값
        반환값:
            ReviewVectorizer 객체
        """
        review_vocab = Vocabulary(add_unk=True)
        rating_vocab = Vocabulary(add_unk=False)
        
        # 점수를 추가합니다
        for rating in sorted(set(review_df.rating)):
            rating_vocab.add_token(rating)

        # count > cutoff인 단어를 추가합니다
        word_counts = Counter()
        for review in review_df.review:
            for word in review.split(" "):
                if word not in string.punctuation:
                    word_counts[word] += 1
               
        for word, count in word_counts.items():
            if count > cutoff:
                review_vocab.add_token(word)

        return cls(review_vocab, rating_vocab)

    @classmethod
    def from_serializable(cls, contents):
        """ 직렬화된 딕셔너리에서 ReviewVectorizer 객체를 만듭니다
        
        매개변수:
            contents (dict): 직렬화된 딕셔너리
        반환값:
            ReviewVectorizer 클래스 객체
        """
        review_vocab = Vocabulary.from_serializable(contents['review_vocab'])
        rating_vocab =  Vocabulary.from_serializable(contents['rating_vocab'])

        return cls(review_vocab=review_vocab, rating_vocab=rating_vocab)

    def to_serializable(self):
        """ 캐싱을 위해 직렬화된 딕셔너리를 만듭니다
        
        반환값:
            contents (dict): 직렬화된 딕셔너리
        """
        return {'review_vocab': self.review_vocab.to_serializable(),
                'rating_vocab': self.rating_vocab.to_serializable()}

#### DataLoader

텍스트를 벡터로 변환하는 미니배치 파이프라인의 마지막 단계는 벡터로 변환한 데이터 포인트 모으기이다.

In [69]:
def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"):
    """
    파이토치 DataLoader를 감싸고 있는 제너레이터 함수.
    걱 텐서를 지정된 장치로 이동합니다.
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict

### 퍼셉트론 분류기

ReviewClassifier 클래스는 파이토치의 Module 클래스를 상속하고 단일 출력을 만드는 Linear 층을 하나 생성한다. (이진 분류이므로 출력이 하나) 마지막 비선형 활성화 함수로 시그모이드 함수 사용.

In [70]:
class ReviewClassifier(nn.Module):
    """ 간단한 퍼셉트론 기반 분류기 """
    def __init__(self, num_features):
        """
        매개변수:
            num_features (int): 입력 특성 벡트의 크기
        """
        super(ReviewClassifier, self).__init__()
        self.fc1 = nn.Linear(in_features=num_features, 
                             out_features=1)

    def forward(self, x_in, apply_sigmoid=False):
        """ 분류기의 정방향 계산
        
        매개변수:
            x_in (torch.Tensor): 입력 데이터 텐서 
                x_in.shape는 (batch, num_features)입니다.
            apply_sigmoid (bool): 시그모이드 활성화 함수를 위한 플래그
                크로스-엔트로피 손실을 사용하려면 False로 지정합니다
        반환값:
            결과 텐서. tensor.shape은 (batch,)입니다.
        """
        y_out = self.fc1(x_in).squeeze()
        if apply_sigmoid:
            y_out = torch.sigmoid(y_out)
        return y_out

### 모델 훈련

#### 설정

In [71]:
def set_seed_everywhere(seed, cuda):
    np.random.seed(seed)
    torch.manual_seed(seed)
    if cuda:
        torch.cuda.manual_seed_all(seed)

def handle_dirs(dirpath):
    if not os.path.exists(dirpath):
        os.makedirs(dirpath)

In [72]:
args = Namespace(
    # 날짜와 경로 정보
    frequency_cutoff=25,
    model_state_file='model.pth',
    review_csv='data/yelp/reviews_with_splits_lite.csv',
    # review_csv='data/yelp/reviews_with_splits_full.csv',
    save_dir='model_storage/ch3/yelp/',
    vectorizer_file='vectorizer.json',
    # 모델 하이퍼파라미터 없음
    # 훈련 하이퍼파라미터
    batch_size=128,
    early_stopping_criteria=5,
    learning_rate=0.001,
    num_epochs=100,
    seed=1337,
    # 실행 옵션
    catch_keyboard_interrupt=True,
    cuda=True,
    expand_filepaths_to_save_dir=True,
    reload_from_files=False,
)

if args.expand_filepaths_to_save_dir:
    args.vectorizer_file = os.path.join(args.save_dir,
                                        args.vectorizer_file)

    args.model_state_file = os.path.join(args.save_dir,
                                         args.model_state_file)
    
    print("파일 경로: ")
    print("\t{}".format(args.vectorizer_file))
    print("\t{}".format(args.model_state_file))
    
# CUDA 체크
if not torch.cuda.is_available():
    args.cuda = False

print("CUDA 사용여부: {}".format(args.cuda))

args.device = torch.device("cuda" if args.cuda else "cpu")

# 재현성을 위해 시드 설정
set_seed_everywhere(args.seed, args.cuda)

# 디렉토리 처리
handle_dirs(args.save_dir)

파일 경로: 
	model_storage/ch3/yelp/vectorizer.json
	model_storage/ch3/yelp/model.pth
CUDA 사용여부: False


#### 헬퍼함수

데이터셋, 모델, 손실, 옵티마이저, 훈련 상태 딕셔너리 만들기


In [73]:
def make_train_state(args):
    return {'stop_early': False,
            'early_stopping_step': 0,
            'early_stopping_best_val': 1e8,
            'learning_rate': args.learning_rate,
            'epoch_index': 0,
            'train_loss': [],
            'train_acc': [],
            'val_loss': [],
            'val_acc': [],
            'test_loss': -1,
            'test_acc': -1,
            'model_filename': args.model_state_file}

def update_train_state(args, model, train_state):
    """ 훈련 상태를 업데이트합니다.

    Components:
     - 조기 종료: 과대 적합 방지
     - 모델 체크포인트: 더 나은 모델을 저장합니다

    :param args: 메인 매개변수
    :param model: 훈련할 모델
    :param train_state: 훈련 상태를 담은 딕셔너리
    :returns:
        새로운 훈련 상태
    """

    # 적어도 한 번 모델을 저장합니다
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 성능이 향상되면 모델을 저장합니다
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 손실이 나빠지면
        if loss_t >= train_state['early_stopping_best_val']:
            # 조기 종료 단계 업데이트
            train_state['early_stopping_step'] += 1
        # 손실이 감소하면
        else:
            # 최상의 모델 저장
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 조기 종료 단계 재설정
            train_state['early_stopping_step'] = 0

        # 조기 종료 여부 확인
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state

def compute_accuracy(y_pred, y_target):
    y_target = y_target.cpu()
    y_pred_indices = (torch.sigmoid(y_pred)>0.5).cpu().long()#.max(dim=1)[1]
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100

#### 전처리된 데이터 다운

In [74]:
# 코랩에서 실행하는 경우 아래 코드를 실행하여 전처리된 라이트 버전의 데이터를 다운로드
!mkdir data
!wget https://git.io/JtRSq -O data/download.py
!wget https://git.io/JtRSO -O data/get-all-data.sh
!chmod 755 data/get-all-data.sh
%cd data
!./get-all-data.sh
%cd ..

mkdir: cannot create directory ‘data’: File exists
--2022-07-04 06:51:10--  https://git.io/JtRSq
Resolving git.io (git.io)... 140.82.114.22
Connecting to git.io (git.io)|140.82.114.22|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_3/data/download.py [following]
--2022-07-04 06:51:10--  https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_3/data/download.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1572 (1.5K) [text/plain]
Saving to: ‘data/download.py’


2022-07-04 06:51:11 (13.5 MB/s) - ‘data/download.py’ saved [1572/1572]

--2022-07-04 06:51:11--  https://git.io/JtRSO
Resolving git.io (git.io)... 140.82.114.22
Connecting to 

#### 데이터셋 로드하고 Vectorizer 생성

In [75]:
if args.reload_from_files:
    # 체크포인트에서 훈련을 다시 시작
    print("데이터셋과 Vectorizer를 로드합니다")
    dataset = ReviewDataset.load_dataset_and_load_vectorizer(args.review_csv,
                                                            args.vectorizer_file)
else:
    print("데이터셋을 로드하고 Vectorizer를 만듭니다")
    # 데이터셋과 Vectorizer 만들기
    dataset = ReviewDataset.load_dataset_and_make_vectorizer(args.review_csv)
    dataset.save_vectorizer(args.vectorizer_file)    
vectorizer = dataset.get_vectorizer()

classifier = ReviewClassifier(num_features=len(vectorizer.review_vocab))
classifier = classifier.to(args.device)

loss_func = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                                 mode='min', factor=0.5,
                                                 patience=1)
train_state = make_train_state(args)

데이터셋을 로드하고 Vectorizer를 만듭니다


#### 훈련 반복

In [76]:
epoch_bar = tqdm.notebook.tqdm(desc='training routine', 
                          total=args.num_epochs,
                          position=0)

dataset.set_split('train')
train_bar = tqdm.notebook.tqdm(desc='split=train',
                          total=dataset.get_num_batches(args.batch_size), 
                          position=1, 
                          leave=True)
dataset.set_split('val')
val_bar = tqdm.notebook.tqdm(desc='split=val',
                        total=dataset.get_num_batches(args.batch_size), 
                        position=1, 
                        leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 훈련 세트에 대한 순회

        # 훈련 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator):
            # 훈련 과정은 5단계로 이루어집니다

            # --------------------------------------
            # 단계 1. 그레이디언트를 0으로 초기화합니다
            optimizer.zero_grad()

            # 단계 2. 출력을 계산합니다
            y_pred = classifier(x_in=batch_dict['x_data'].float())

            # 단계 3. 손실을 계산합니다
            loss = loss_func(y_pred, batch_dict['y_target'].float())
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 4. 손실을 사용해 그레이디언트를 계산합니다
            loss.backward()

            # 단계 5. 옵티마이저로 가중치를 업데이트합니다
            optimizer.step()
            # -----------------------------------------
            
            # 정확도를 계산합니다
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 진행 바 업데이트
            train_bar.set_postfix(loss=running_loss, 
                                  acc=running_acc, 
                                  epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)

        # 검증 세트에 대한 순회

        # 검증 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):

            # 단계 1. 출력을 계산합니다
            y_pred = classifier(x_in=batch_dict['x_data'].float())

            # 단계 2. 손실을 계산합니다
            loss = loss_func(y_pred, batch_dict['y_target'].float())
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 3. 정확도를 계산합니다
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)
            
            val_bar.set_postfix(loss=running_loss, 
                                acc=running_acc, 
                                epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        train_state = update_train_state(args=args, model=classifier,
                                         train_state=train_state)

        scheduler.step(train_state['val_loss'][-1])

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()

        if train_state['stop_early']:
            break

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()
except KeyboardInterrupt:
    print("Exiting loop")

training routine:   0%|          | 0/100 [00:00<?, ?it/s]

split=train:   0%|          | 0/272 [00:00<?, ?it/s]

split=val:   0%|          | 0/58 [00:00<?, ?it/s]

### 모델 평가

따로 떼어 놓은 테스트 세트로 평가

In [77]:
# 가장 좋은 모델을 사용해 테스트 세트의 손실과 정확도를 계산합니다
classifier.load_state_dict(torch.load(train_state['model_filename']))
classifier = classifier.to(args.device)

dataset.set_split('test')
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)
running_loss = 0.
running_acc = 0.
classifier.eval()

for batch_index, batch_dict in enumerate(batch_generator):
    # 출력을 계산합니다
    y_pred = classifier(x_in=batch_dict['x_data'].float())

    # 손실을 계산합니다
    loss = loss_func(y_pred, batch_dict['y_target'].float())
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)

    # 정확도를 계산합니다
    acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
    running_acc += (acc_t - running_acc) / (batch_index + 1)

train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc

In [78]:
print("테스트 손실: {:.3f}".format(train_state['test_loss']))
print("테스트 정확도: {:.2f}".format(train_state['test_acc']))

테스트 손실: 0.175
테스트 정확도: 94.22


### 테스트

실제 문장을 넣어 모델이 잘 동작하는지 평가를 내릴 수 있다.

In [79]:
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)
    return text

In [80]:
def predict_rating(review, classifier, vectorizer, decision_threshold=0.5):
    """ 리뷰 점수 예측하기
    
    매개변수:
        review (str): 리뷰 텍스트
        classifier (ReviewClassifier): 훈련된 모델
        vectorizer (ReviewVectorizer): Vectorizer 객체
        decision_threshold (float): 클래스를 나눌 결정 경계
    """
    review = preprocess_text(review)
    
    vectorized_review = torch.tensor(vectorizer.vectorize(review))
    result = classifier(vectorized_review.view(1, -1))
    
    probability_value = torch.sigmoid(result).item()
    index = 1
    if probability_value < decision_threshold:
        index = 0

    return vectorizer.rating_vocab.lookup_index(index)

In [81]:
test_review = "this is a pretty awesome book"

classifier = classifier.cpu()
prediction = predict_rating(test_review, classifier, vectorizer, decision_threshold=0.5)
print("{} -> {}".format(test_review, prediction))

this is a pretty awesome book -> positive


### 해석

모델의 가중치를 분석해 올바른 값인지 평가할 수 있다. 
퍼셉트론의 가중치는 어휘 사전의 한 단어와 정확하게 대응하므로 이를 쉽게 확인할 수 있다.

In [82]:
# 가중치 정렬
fc1_weights = classifier.fc1.weight.detach()[0]
_, indices = torch.sort(fc1_weights, dim=0, descending=True)
indices = indices.numpy().tolist()

# 긍정적인 상위 20개 단어
print("긍정 리뷰에 영향을 미치는 단어:")
print("--------------------------------------")
for i in range(20):
    print(vectorizer.review_vocab.lookup_index(indices[i]))
    
print("====\n\n\n")

# 부정적인 상위 20개 단어
print("부정 리뷰에 영향을 미치는 단어:")
print("--------------------------------------")
indices.reverse()
for i in range(20):
    print(vectorizer.review_vocab.lookup_index(indices[i]))

긍정 리뷰에 영향을 미치는 단어:
--------------------------------------
pleasantly
Awesome
Excellent
Great
best!
Delicious
perfect.
great!
drawback
delicious.
fantastic!
improved
tasty!
excellent
eclectic
fantastic.
soon!
goodies
awesome!
new.
====



부정 리뷰에 영향을 미치는 단어:
--------------------------------------
Horrible
awful.
Worst
worst
bland
horrible.
Terrible
disgusting.
bland.
mediocre
lacking.
terrible.
unprofessional
Overpriced
flavorless.
Meh.
overpriced.
rude.
bland,
nothing.
