<a href="https://colab.research.google.com/github/Dohy-Lee/NLP_By_Pytorch/blob/main/ch5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* 임베딩과 표현학습 : 이산 타입과 벡터 공간의 포인트 사이에 매핑을 학습하는 것  
* 단어 임베딩 : 이산 타입이 단어일 때 밀집 벡터 표현  
* 임베딩 방법에는 <u>TF-IDF와 같은 카운터 기반의 임베딩 방법</u>, <u>학습 기반 혹은 예측 기반의 임베딩 방법</u>이 있음.
* 저차원으로 학습된 밀집 표현의 장점 (원-핫 벡터와 카운터 기반의 벡터와 비교)
  * 차원을 줄이면 계산을 효율적으로 수행
  * 카운트 기반 표현은 여러 차원에 비슷한 정보를 중복해 인코딩한 고차원 벡터를 만듦.  
  → 이러한 벡터는 통계적 장점을 공유하지 못함
  * 고차원 입력은 머신러닝과 최적화에서 실제로 문제가 될 수 있음 (차원의 저주)  
전통적으로 이런 차원 문제를 해결하는 데 <u>특잇값 분해</u>, <u>주성분 분석</u> 등이 쓰였지만, 차원이 수백만 개일 때는 잘 적용되지 않음.
  * 작업에 특화된 데이터에서 학습된(혹은 미세 튜닝된) 표현은 현재 작업에 최적

In [1]:
!pip install annoy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting annoy
  Downloading annoy-1.17.1.tar.gz (647 kB)
[K     |████████████████████████████████| 647 kB 8.6 MB/s 
[?25hBuilding wheels for collected packages: annoy
  Building wheel for annoy (setup.py) ... [?25l[?25hdone
  Created wheel for annoy: filename=annoy-1.17.1-cp37-cp37m-linux_x86_64.whl size=395164 sha256=140034120719d57a24d16e2f3a28a1c7078438862efa8f131023edbaf0285976
  Stored in directory: /root/.cache/pip/wheels/81/94/bf/92cb0e4fef8770fe9c6df0ba588fca30ab7c306b6048ae8a54
Successfully built annoy
Installing collected packages: annoy
Successfully installed annoy-1.17.1


In [2]:
import torch
import torch.nn as nn
from tqdm import tqdm
from annoy import AnnoyIndex
import numpy as np

In [3]:
class PreTrainedEmbeddings(object): # 사전 훈련된 단어 벡터 사용을 위한 래퍼 클래스
  def __init__(self, word_to_index, word_vectors): # word_to_index(dict): 단어에서 정수로 매핑
                                                   # word_vectors (numpy 배열의 리스트)
    self.word_to_index = word_to_index
    self.word_vectors = word_vectors
    self.index_to_word = {v: k for k,v in self.word_to_index.items()}

    self.index = AnnoyIndex(len(word_vectors[0]), metric='euclidean')
    print('인덱스 생성 중')
    for _, i in self.word_to_index.items():
      self.index.add_item(i, self.word_vectors[i])
    self.index.build(50)
    print('완료')

  @classmethod
  def from_embeddings_file(cls, embedding_file): # 사전 훈련된 벡터 파일에서 객체를 만듦
                                                 # embeding_file(str) : 파일 위치
                                                 # 반환값 : PretrainedEmbeddings의 인스턴스
    word_to_index = {}
    word_vectors = []

    with open(embedding_file) as fp:
      for line in fp.readlines():
        line = line.split(" ")
        word = line[0]
        vec = np.array([float(x) for x in line[1:]])

        word_to_index[word] = len(word_to_index)
        word_vectors.append(vec)

    return cls(word_to_index, word_vectors)

  def get_embedding(self, word): # 반환값: 임베딩(numpy.ndarray)
    return self.word_vectors[self.word_to_index[word]]

  def get_closet_to_vector(self, vector, n=1): # 벡터가 주어지면 n개의 최근접 이웃 반환
                                                # vector (np.ndarray) : Annoy 인덱스에 있는 벡터의 크기와 같아야햠
                                                # n (int) : 반환될 이웃의 개수
                                                # 반환값: [str,str '''] 주어진 벡터와 가장 가까운 단어, 단 단어는 거리순으로 정렬되어 있지 않음
    nn_indices = self.index.get_nns_by_vector(vector, n)
    return [self.index_to_word[neighbor] for neighbor in nn_indices]

  def compute_and_print_analogy(self, word1, word2, word3): # 단어 임베딩을 사용한 유추 결과 출력
                                                            # word1이 word2일 때 word3은 __
                                                            # 이 메서드는 word1 : word2 :: word3 : word4를 출력
    vec1 = self.get_embedding(word1)
    vec2 = self.get_embedding(word2)
    vec3 = self.get_embedding(word3)

    # 네 번째 임베딩 계산
    spatial_relationship = vec2 - vec1
    vec4 = vec3 + spatial_relationship

    closest_words = self.get_closet_to_vector(vec4, n=4)
    existing_words = set([word1, word2, word3])
    closest_words = [word for word in closest_words if word not in existing_words]

    if len(closest_words)==0:
      print('계산된 벡터와 가장 가까운 이웃을 찾을 수 없음')
      return
    
    for word4 in closest_words:
      print("{} : {} :: {} : {}".format(word1,word2,word3,word4))

In [4]:
# GloVe 데이터를 다운로드
!wget http://nlp.stanford.edu/data/glove.6B.zip
!unzip glove.6B.zip
!mkdir -p data/glove
!mv glove.6B.100d.txt data/glove

--2022-09-22 01:41:04--  http://nlp.stanford.edu/data/glove.6B.zip
Resolving nlp.stanford.edu (nlp.stanford.edu)... 171.64.67.140
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://nlp.stanford.edu/data/glove.6B.zip [following]
--2022-09-22 01:41:04--  https://nlp.stanford.edu/data/glove.6B.zip
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip [following]
--2022-09-22 01:41:04--  https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip
Resolving downloads.cs.stanford.edu (downloads.cs.stanford.edu)... 171.64.64.22
Connecting to downloads.cs.stanford.edu (downloads.cs.stanford.edu)|171.64.64.22|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 862182613 (822M) [application/zip]
Saving to: ‘glove.6B.zip’


202

단어 임베딩의 핵심기능은 <u>단어 사용에서 규칙적으로 나타는 구문과 의미 관계를 인코딩하는 것</u>  

In [5]:
embeddings = PreTrainedEmbeddings.from_embeddings_file('data/glove/glove.6B.100d.txt')

인덱스 생성 중
완료


In [6]:
# 성별 명사와 대명사의 관계
embeddings.compute_and_print_analogy('man', 'he', 'woman')

man : he :: woman : she
man : he :: woman : never


In [7]:
# 동사-명사 관계
embeddings.compute_and_print_analogy('fly', 'plane', 'sail')

fly : plane :: sail : ship
fly : plane :: sail : vessel


In [8]:
# 명사-명사 관계
embeddings.compute_and_print_analogy('cat', 'kitten', 'dog')

cat : kitten :: dog : puppy
cat : kitten :: dog : toddler
cat : kitten :: dog : sleds


In [9]:
# 상위어 (더 넓은 범주)
embeddings.compute_and_print_analogy('blue', 'color', 'dog')

blue : color :: dog : animal
blue : color :: dog : breed
blue : color :: dog : pet


In [10]:
# 비교급
embeddings.compute_and_print_analogy('fast', 'fastest', 'young')

fast : fastest :: young : youngest
fast : fastest :: young : sixth
fast : fastest :: young : fifth
fast : fastest :: young : third


In [11]:
# 부분에서 전체
embeddings.compute_and_print_analogy('toe', 'foot', 'finger')

toe : foot :: finger : hand
toe : foot :: finger : attached
toe : foot :: finger : apart


In [12]:
# 방식 차이
embeddings.compute_and_print_analogy('talk', 'communicate', 'read')

talk : communicate :: read : interpret
talk : communicate :: read : memorize
talk : communicate :: read : instructions


In [13]:
# 전체 의미 표현 (관습/인물)
embeddings.compute_and_print_analogy('blue', 'democrat', 'red')

blue : democrat :: red : republican
blue : democrat :: red : congressman
blue : democrat :: red : senator


In [14]:
# 단어 임베딩에 인코딩된 성별과 같은 보호 속성에 주의. 이로 인해 하위 모델에서 원치 않는 편향이 발생할 수 있음
embeddings.compute_and_print_analogy('man', 'king', 'woman')

man : king :: woman : queen
man : king :: woman : throne
man : king :: woman : prince


In [15]:
# 벡터에 인코딩된 문화적 성별 편견
embeddings.compute_and_print_analogy('man', 'doctor', 'woman')

man : doctor :: woman : nurse
man : doctor :: woman : physician


In [16]:
# 동시에 등장하는 정보로 의미를 인코딩 하는 위험을 보여주는 예
embeddings.compute_and_print_analogy('fast', 'fastest', 'small')

fast : fastest :: small : smallest
fast : fastest :: small : largest
fast : fastest :: small : registered
fast : fastest :: small : placing


# CBOW 임베딩 학습하기
 * nn.Embedding : 임베딩 행렬을 캡슐화, Embedding 층을 사용하여 토큰의 정수 ID를 신경망 계산에 사용되는 벡터로 매핑  
 옵티마이저는 모델 가중치를 업데이트할 때 이 벡터값도 업데이트해서 손실을 최소화함
 

In [17]:
import os
from argparse import Namespace
from collections import Counter
import json
import re
import string

import numpy as np
import pandas as pd
import torch 
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import tqdm

In [18]:
class Vocabulary(object): # 매핑을 위해 텍스트를 처리하고 어휘 사전을 만드는 클래스
  def __init__(self, token_to_idx = None, mask_token="<MASK>", add_unk=True, unk_token="<UNK>") : # token_to_index (dict) : 기존 토큰-인덱스 매핑 딕셔너리
                                                                                                 # mask_token (str) : Vocabulary에 추가할 MASK 토큰. 모델 파라미터를 업데이트하는데 사용하지 않는 위치를 나타냄
                                                                                                 # add_unk (bool) : UNK 토큰을 추가할지 지정하는 플래그
                                                                                                 # unk_token (str) : Vocabulary에 추가할 UNK 토큰
    if token_to_idx is None: 
      token_to_idx = {}
    self._token_to_idx = token_to_idx
    self._idx_to_token = {idx:token for token, idx in self._token_to_idx.items()}
    self._add_unk = add_unk
    self._unk_token = unk_token
    self._mask_token = mask_token
    self.mask_index = self.add_token(self._mask_token)
    self.unk_index = -1
    if add_unk:
      self.unk_index = self.add_token(unk_token)
    
  def to_serializable(self): # 직렬화할 수 있는 딕셔너리를 반환
    return {'token_to_idx':self._token_to_idx,
            'add_unk':self._add_unk,
            'unk_token':self._unk_token,
            'mask_token':self._mask_token}
  @classmethod
  def from_serializable(cls,contents): # 직렬화된 딕셔너리에서 Vocabulary 객체를 만듦
    return cls(**contents)

  def add_token(self, token): # 토큰을 기반으로 매핑 딕셔너리를 업데이트
                              # token (str) : Vocabulary에 추가할 토큰
                              # 반환값 index(int) : 토큰에 상응하는 정수
    if token in self._token_to_idx:
      index = self._token_to_idx[token]
    else :
      index = len(self._token_to_idx)
      self._token_to_idx[token] = index
      self._idx_to_token[index] = token
    return index

  def add_many(self, tokens): # 토큰 리스트를 Vocabulary에 추가
                              # tokens (list) : 문자열 토큰 리스트
                              # 반환값 indices (list) : 토큰 리스트에 상응되는 인덱스 리스트
    return [self.add_token(token) for token in tokens]

  def lookup_token(self, token): # 토큰에 대응하는 인덱스 추출, 토큰이 없으면 UNK 인덱스 반환. 단 UNK 토큰을 사용하려면(Vocabulary에 추가하기 위해) 'unk_index'가 0보다 커야함
                                 # token (str) : 찾을 토큰
                                 # 반환값 index (int) : 토큰에 해당하는 인덱스
    if self.unk_index >= 0 :
      return self._token_to_idx.get(token, self.unk_index)
    else :
      return self._token_to_idx[token]
    
  def lookup_index(self, index): # 인덱스에 해당하는 토큰을 반환
                                 # index (int) : 찾을 인덱스
                                 # 반환값 token (str) : 인덱스에 해당하는 토큰
    if index not in self._idx_to_token[index]: # KeyErr : 인덱스가 Vocabulary에 없을 때 발생
      raise KeyError("the index (%d) is not in the Vocabulary" % index)
    return self._idx_to_token[index]
  
  def __str__(self):
    return "<Vocabulary(size=%d)>" % len(self)
  
  def __len__(self):
    return len(self._token_to_idx)

In [19]:
class CBOWVectorizer(object) : # 어휘 사전을 생성하고 관리
  def __init__(self, cbow_vocab): # cbow_vocab (Vocabulary): 단어를 정수에 매핑
    self.cbow_vocab = cbow_vocab
  
  def vectorize(self, context, vector_length = -1): # context (str) : 공백으로 나누어진 단어 문자열
                                                    # vector_length (int) : 인덱스 벡터의 길이 매개변수
                                                    # 문맥의 토큰 수가 최대 길이보다 적으면 나머지 항목은 0으로 채워짐(패딩)
    indices = [self.cbow_vocab.lookup_token(token) for token in context.split(' ')]
    if vector_length < 0:
      vector_length = len(indices)
    
    out_vector = np.zeros(vector_length, dtype=np.int64)
    out_vector[:len(indices)] = indices
    out_vector[len(indices):] = self.cbow_vocab.mask_index

    return out_vector
  @classmethod
  def from_dataframe(cls, cbow_df): # 데이터셋 데이터프레임에서 Vectorizer 객체를 만듦
                                    # cbow_df (pandas.DataFrame) : 타깃 데이터셋
                                    # 반환값 CBOWVectorizer 객체
    cbow_vocab = Vocabulary()
    for index, row in cbow_df.iterrows():
      for token in row.context.split(' '):
        cbow_vocab.add_token(token)
      cbow_vocab.add_token(row.target)

    return cls(cbow_vocab)

  @classmethod
  def from_serializable(cls, contents):
    cbow_vocab = \
        Vocabulary.from_serializable(contents['cbow_vocab'])
    return cls(cbow_vocab=cbow_vocab)

  def to_serializable(self):
    return {'cbow_vocab' : self.cbow_vocab.to_serializable()}

In [20]:
class CBOWDataset(Dataset):
  def __init__(self, cbow_df, vectorizer): # cbow_df (pandans.DataFrame) : 데이터셋
                                           # vectorizer (CBOWVectorizer) : 데이터셋에서 만든  CBOWVectorizer 객체
    self.cbow_df = cbow_df
    self._vectorizer = vectorizer

    measure_len = lambda context : len(context.split(" "))
    self._max_seq_length = max(map(measure_len , cbow_df.context))

    self.train_df = self.cbow_df[self.cbow_df.split=='train']
    self.train_size = len(self.train_df)

    self.val_df = self.cbow_df[self.cbow_df.split=='val']
    self.validation_size = len(self.val_df)

    self.test_df = self.cbow_df[self.cbow_df.split=='test']
    self.test_size = len(self.test_df)   

    self._lookup_dict = {'train': (self.train_df, self.train_size),
                         'val': (self.val_df, self.validation_size),
                         'test': (self.test_df,self.test_size)}
    self.set_split('train')

  @classmethod
  def load_dataset_and_make_vectorizer(cls, cbow_csv): # 데이터셋을 로드하고 처음부터 새로운 Vectorizer 만들기
                                                       # cbow_csv (str): 데이터셋의 위치
                                                       # 반환값: CBOWDataset의 인스턴스
      cbow_df = pd.read_csv(cbow_csv)
      train_cbow_df = cbow_df[cbow_df.split=='train']
      return cls(cbow_df, CBOWVectorizer.from_dataframe(train_cbow_df))

  @classmethod
  def load_dataset_and_load_vectorizer(cls, cbow_csv, vectorizer_filepath): # 데이터셋을 로드하고 새로운 CBOWVectorizer 객체를 만듦. 캐시된 CBOWVectorizer 객체를 재사용할 때 사용
                                                                            # cbow_csv (str): 데이터셋의 위치
                                                                            # vectorizer_filepath (str): CBOWVectorizer 객체의 저장 위치
                                                                            # 반환값:CBOWVectorizer의 인스턴스
      cbow_df = pd.read_csv(cbow_csv)
      vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
      return cls(cbow_df, vectorizer)
  @staticmethod
  def load_vectorizer_only(vectorizer_filepath): # 파일에서 CBOWvectorizer 객체를 로드하는 정적 메서드
                                                   # vectorizer_filepath (str) : 직렬화된 CBOWVectorizer 객체의 위치
                                                   # 반환값 : CBOWVectorizer의 인스턴스
    with open(vectorizer_filepath) as fp:
      return CBOWVectorizer.from_serializable(json.load(fp))

  def save_vectorizer(self, vectorizer_filepath): # CBOWVectorizer 객체를 Json 형태로 디스크에 저장
                                                    # vectorizer_filepath (str) : CBOWVectorizer 객체의 저장 위치
    with open(vectorizer_filepath, 'w') as fp:
      json.dump(self._vectorizer.to_serializable(), fp) 
    
  def get_vectorizer(self) : # 벡터 변환 객체를 반환
    return self._vectorizer
    
  def set_split(self, split='train'): # 데이터프레임에 있는 열을 사용해 분할 세트 선택
    self._target_split = split
    self._target_df, self._target_size = self._lookup_dict[split]

  def __len__(self):
    return self._target_size

  def __getitem__(self, index): # 파이토치 데이터셋의 주요 진입 메서드
                                # Vectorizer을 사용해 문맥(왼쪽과 오른쪽 윈도)을 벡터로 변환. 타깃(윈도 가운데 단어)은 Vocabulary를 사용해 정수로 변환
                                # index (int) : 데이터 포인트의 인덱스
                                # 반환값 : 데이터 포인트의 특성(x_data)과 레이블(y_target)로 이루어진 딕셔너리
      row = self._target_df.iloc[index]

      context_vector = \
          self._vectorizer.vectorize(row.context, self._max_seq_length)
      target_index = self._vectorizer.cbow_vocab.lookup_token(row.target)

      return {'x_data': context_vector,
              'y_target': target_index}

  def get_num_batches(self, batch_size): # 배치 크기가 주어지면 데이터셋으로 만들 수 있는 배치 개수 반환                                      
      return len(self) // batch_size
    
def generate_batches(dataset, batch_size, shuffle=True, # 파이토치 DataLoader를 감싸고 있는 제너레이터 함수
                       drop_last=True, device="cpu"):     # 각 텐서를 지정된 장치로 이동
  dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

  for data_dict in dataloader:
      out_data_dict = {}
      for name, tensor in data_dict.items():
          out_data_dict[name] = data_dict[name].to(device)
      yield out_data_dict

In [21]:
class CBOWClassifier(nn.Module): # Embedding 층을 사용해 문맥의 단어를 나타내는 인덱스를 각 단어에 대한 벡터로 만듦
                                 # 전반적인 문맥을 감지하도록 벡터를 결합
                                 # Linear 층에서 문맥 벡터를 사용해 예측 백터를 계산. 이 예측 벡터는 전체 어휘 사전에 대한 확률 분포 
    def __init__(self, vocabulary_size, embedding_size, padding_idx=0): # vocabulary_size (int): 어휘 사전 크기, 임베딩 개수와 예측 벡터 크기를 결정
                                                                        # embedding_size (int): 임베딩 크기
                                                                        # padding_idx (int): 기본값 0; 임베딩은 이 인덱스를 사용하지 않음. 데이터 포인트 길이가 모두 같지 않을 때 Embedding층에 패딩하는 데 사용.
                                                                        #                              해당 인덱스에 상응하는 벡터와 그레이디언트를 모두 0으로 만듦
        super(CBOWClassifier, self).__init__()
        
        self.embedding =  nn.Embedding(num_embeddings=vocabulary_size, 
                                       embedding_dim=embedding_size,
                                       padding_idx=padding_idx)
        self.fc1 = nn.Linear(in_features=embedding_size,
                             out_features=vocabulary_size)

    def forward(self, x_in, apply_softmax=False): # 분류기의 정방향 계산
                                                  # x_in (torch.Tensor): 입력 데이터 텐서. x_in.shape는 (batch, input_dim)
                                                  # apply_softmax (bool): 소프트맥스 활성화 함수를 위한 플래그. 크로스-엔트로피 손실을 사용하려면 False로 지정
                                                  # 반환값 결과 텐서. tensor.shape은 (batch, output_dim)
        x_embedded_sum = F.dropout(self.embedding(x_in).sum(dim=1), 0.3)
        y_out = self.fc1(x_embedded_sum)
        
        if apply_softmax:
            y_out = F.softmax(y_out, dim=1)
            
        return y_out

In [22]:
def make_train_state(args):
    return {'stop_early': False,
            'early_stopping_step': 0,
            'early_stopping_best_val': 1e8,
            'learning_rate': args.learning_rate,
            'epoch_index': 0,
            'train_loss': [],
            'train_acc': [],
            'val_loss': [],
            'val_acc': [],
            'test_loss': -1,
            'test_acc': -1,
            'model_filename': args.model_state_file}

def update_train_state(args, model, train_state): # 훈련 상태 업데이트
                                                  # args: 메인 매개변수
                                                  # model: 훈련할 모델
                                                  # train_state: 훈련 상태를 담은 딕셔너리
                                                  # 반환값 : 새로운 훈련 상태

    # 적어도 한 번 모델을 저장
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 성능이 향상되면 모델을 저장
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 손실이 나빠지면
        if loss_t >= train_state['early_stopping_best_val']:
            # 조기 종료 단계 업데이트
            train_state['early_stopping_step'] += 1
        # 손실이 감소하면
        else:
            # 최상의 모델 저장
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 조기 종료 단계 재설정
            train_state['early_stopping_step'] = 0

        # 조기 종료 여부 확인
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state

def compute_accuracy(y_pred, y_target):
    _, y_pred_indices = y_pred.max(dim=1)
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100

In [23]:
def set_seed_everywhere(seed, cuda):
    np.random.seed(seed)
    torch.manual_seed(seed)
    if cuda:
        torch.cuda.manual_seed_all(seed)

def handle_dirs(dirpath):
    if not os.path.exists(dirpath):
        os.makedirs(dirpath)

In [24]:
args = Namespace(
    # 날짜와 경로 정보
    cbow_csv="data/books/frankenstein_with_splits.csv",
    vectorizer_file="vectorizer.json",
    model_state_file="model.pth",
    save_dir="model_storage/ch5/cbow",
    # 모델 하이퍼파라미터
    embedding_size=50,
    # 훈련 하이퍼파라미터
    seed=1337,
    num_epochs=100,
    learning_rate=0.0001,
    batch_size=32,
    early_stopping_criteria=5,
    # 실행 옵션
    cuda=True,
    catch_keyboard_interrupt=True,
    reload_from_files=False,
    expand_filepaths_to_save_dir=True
)

if args.expand_filepaths_to_save_dir:
    args.vectorizer_file = os.path.join(args.save_dir,
                                        args.vectorizer_file)

    args.model_state_file = os.path.join(args.save_dir,
                                         args.model_state_file)
    
    print("파일 경로: ")
    print("\t{}".format(args.vectorizer_file))
    print("\t{}".format(args.model_state_file))
    

# CUDA 체크
if not torch.cuda.is_available():
    args.cuda = False

args.device = torch.device("cuda" if args.cuda else "cpu")
    
print("CUDA 사용여부: {}".format(args.cuda))

# 재현성을 위해 시드 설정
set_seed_everywhere(args.seed, args.cuda)

# 디렉토리 처리
handle_dirs(args.save_dir)

파일 경로: 
	model_storage/ch5/cbow/vectorizer.json
	model_storage/ch5/cbow/model.pth
CUDA 사용여부: False


In [25]:
!mkdir data
!wget https://git.io/JtX5A -O data/download.py
!wget https://git.io/JtX5F -O data/get-all-data.sh
!chmod 755 data/get-all-data.sh
%cd data
!./get-all-data.sh
%cd ..

mkdir: cannot create directory ‘data’: File exists
--2022-09-22 01:45:17--  https://git.io/JtX5A
Resolving git.io (git.io)... 140.82.113.21
Connecting to git.io (git.io)|140.82.113.21|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_5/5_2_CBOW/data/download.py [following]
--2022-09-22 01:45:17--  https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_5/5_2_CBOW/data/download.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1572 (1.5K) [text/plain]
Saving to: ‘data/download.py’


2022-09-22 01:45:17 (19.3 MB/s) - ‘data/download.py’ saved [1572/1572]

--2022-09-22 01:45:17--  https://git.io/JtX5F
Resolving git.io (git.io)... 140.82.113

In [26]:
if args.reload_from_files:
    print("데이터셋과 Vectorizer를 로드합니다")
    dataset = CBOWDataset.load_dataset_and_load_vectorizer(args.cbow_csv,
                                                           args.vectorizer_file)
else:
    print("데이터셋을 로드하고 Vectorizer를 만듭니다")
    dataset = CBOWDataset.load_dataset_and_make_vectorizer(args.cbow_csv)
    dataset.save_vectorizer(args.vectorizer_file)
    
vectorizer = dataset.get_vectorizer()

classifier = CBOWClassifier(vocabulary_size=len(vectorizer.cbow_vocab), 
                            embedding_size=args.embedding_size)

데이터셋을 로드하고 Vectorizer를 만듭니다


In [27]:
classifier = classifier.to(args.device)
    
loss_func = nn.CrossEntropyLoss()
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                                 mode='min', factor=0.5,
                                                 patience=1)
train_state = make_train_state(args)

epoch_bar = tqdm.notebook.tqdm(desc='training routine', 
                               total=args.num_epochs,
                               position=0)

dataset.set_split('train')
train_bar = tqdm.notebook.tqdm(desc='split=train',
                               total=dataset.get_num_batches(args.batch_size), 
                               position=1, 
                               leave=True)
dataset.set_split('val')
val_bar = tqdm.notebook.tqdm(desc='split=val',
                             total=dataset.get_num_batches(args.batch_size), 
                             position=1, 
                             leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 훈련 세트에 대한 순회

        # 훈련 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator):
            # 훈련 과정은 총 5단계

            # --------------------------------------
            # 단계 1. 그레이디언트를 0으로 초기화
            optimizer.zero_grad()

            # 단계 2. 출력 계산
            y_pred = classifier(x_in=batch_dict['x_data'])

            # 단계 3. 손실 계산
            loss = loss_func(y_pred, batch_dict['y_target'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 4. 손실을 사용해 그레이디언트 계산
            loss.backward()

            # 단계 5. 옵티마이저로 가중치 업데이트
            optimizer.step()
            # -----------------------------------------
            
            # 정확도 계산
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 진행 바 업데이트
            train_bar.set_postfix(loss=running_loss, acc=running_acc, 
                            epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)

        # 검증 세트에 대한 순회

        # 검증 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):

            # 단계 1. 출력 계산
            y_pred =  classifier(x_in=batch_dict['x_data'])

            # 단계 2. 손실 계산
            loss = loss_func(y_pred, batch_dict['y_target'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 3. 정확도 계산
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)
            val_bar.set_postfix(loss=running_loss, acc=running_acc, 
                            epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        train_state = update_train_state(args=args, model=classifier,
                                         train_state=train_state)

        scheduler.step(train_state['val_loss'][-1])

        if train_state['stop_early']:
            break

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()
except KeyboardInterrupt:
    print("Exiting loop")

training routine:   0%|          | 0/100 [00:00<?, ?it/s]

split=train:   0%|          | 0/1984 [00:00<?, ?it/s]

split=val:   0%|          | 0/425 [00:00<?, ?it/s]

In [28]:
# 가장 좋은 모델을 사용해 테스트 세트의 손실과 정확도를 계산
classifier.load_state_dict(torch.load(train_state['model_filename']))
classifier = classifier.to(args.device)
loss_func = nn.CrossEntropyLoss()

dataset.set_split('test')
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)
running_loss = 0.
running_acc = 0.
classifier.eval()

for batch_index, batch_dict in enumerate(batch_generator):
    # 출력 계산
    y_pred =  classifier(x_in=batch_dict['x_data'])
    
    # 손실 계산
    loss = loss_func(y_pred, batch_dict['y_target'])
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)

    # 정확도 계산
    acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
    running_acc += (acc_t - running_acc) / (batch_index + 1)

train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc

In [29]:
print("테스트 손실: {};".format(train_state['test_loss']))
print("테스트 정확도: {}".format(train_state['test_acc']))

테스트 손실: 7.672896379583021;
테스트 정확도: 13.007352941176478


In [30]:
def pretty_print(results): # 임베딩 결과 출력
    for item in results:
        print ("...[%.2f] - %s"%(item[1], item[0]))

def get_closest(target_word, word_to_idx, embeddings, n=5): # n개의 최근접 단어 탐색
    # 다른 모든 단어까지 거리를 계산
    word_embedding = embeddings[word_to_idx[target_word.lower()]]
    distances = []
    for word, index in word_to_idx.items():
        if word == "<MASK>" or word == target_word:
            continue
        distances.append((word, torch.dist(word_embedding, embeddings[index])))
    
    results = sorted(distances, key=lambda x: x[1])[1:n+2]
    return results

In [32]:
word = input('단어를 입력해 주세요: ')
embeddings = classifier.embedding.weight.data
word_to_idx = vectorizer.cbow_vocab._token_to_idx
pretty_print(get_closest(word, word_to_idx, embeddings, n=5))

단어를 입력해 주세요: monster
...[7.57] - cares
...[7.70] - griefs
...[7.74] - saw
...[7.78] - confused
...[7.81] - without
...[7.82] - truly


In [33]:
target_words = ['frankenstein', 'monster', 'science', 'sickness', 'lonely', 'happy']

embeddings = classifier.embedding.weight.data
word_to_idx = vectorizer.cbow_vocab._token_to_idx

for target_word in target_words: 
    print(f"======={target_word}=======")
    if target_word not in word_to_idx:
        print("Not in vocabulary")
        continue
    pretty_print(get_closest(target_word, word_to_idx, embeddings, n=5))

...[7.24] - irradiated
...[7.68] - enslaved
...[7.71] - men
...[7.75] - gush
...[7.76] - mode
...[7.76] - austria
...[7.57] - cares
...[7.70] - griefs
...[7.74] - saw
...[7.78] - confused
...[7.81] - without
...[7.82] - truly
...[7.02] - mutual
...[7.02] - impression
...[7.06] - mist
...[7.16] - swelling
...[7.24] - darkened
...[7.30] - tempted
...[6.21] - while
...[6.59] - awoke
...[6.60] - foundations
...[6.66] - consoles
...[6.69] - literally
...[6.69] - know
...[6.77] - excessive
...[6.85] - moonlight
...[6.90] - ought
...[7.10] - bed
...[7.12] - three
...[7.20] - superhuman
...[6.33] - bottom
...[6.42] - penetrated
...[6.44] - wand
...[6.52] - chivalry
...[6.52] - joys
...[6.53] - altered


전이 학습 : 머신러닝에서 한 작업에서 훈련된 모델을 다른 작업의 초기 모델로 사용하는 방식

AG 뉴스 데이터셋

In [1]:
import os
from argparse import Namespace
from collections import Counter
import json
import re
import string

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm_notebook

In [2]:
class Vocabulary(object): # 매핑을 위해 텍스트를 처리하고 어휘 사전을 만드는 클래스
    def __init__(self, token_to_idx=None): # token_to_idx (dict): 기존 토큰-인덱스 매핑 딕셔너리
        if token_to_idx is None:
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token 
                              for token, idx in self._token_to_idx.items()}
        
    def to_serializable(self): # 직렬화할 수 있는 딕셔너리를 반환
        return {'token_to_idx': self._token_to_idx}

    @classmethod
    def from_serializable(cls, contents): # 직렬화된 딕셔너리에서 Vocabulary 객체를 만듦
        return cls(**contents)

    def add_token(self, token): # 토큰을 기반으로 매핑 딕셔너리를 업데이트
                                # token (str): Vocabulary에 추가할 토큰
                                # 반환값 : index (int): 토큰에 상응하는 정수
        if token in self._token_to_idx:
            index = self._token_to_idx[token]
        else:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index
            
    def add_many(self, tokens): # 토큰 리스트를 Vocabulary에 추가
                                # tokens (list): 문자열 토큰 리스트
                                # 반환값 : indices (list): 토큰 리스트에 상응되는 인덱스 리스트
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token): # 토큰에 대응하는 인덱스를 추출
                                   # token (str): 찾을 토큰
                                   # 반환값 : index (int): 토큰에 해당하는 인덱스
        return self._token_to_idx[token]

    def lookup_index(self, index): # 인덱스에 해당하는 토큰을 반환
                                   # index (int): 찾을 인덱스
                                   # token (str): 인텍스에 해당하는 토큰
        if index not in self._idx_to_token: # 인덱스가 Vocabulary에 없으면
            raise KeyError("the index (%d) is not in the Vocabulary" % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)

In [3]:
class SequenceVocabulary(Vocabulary): # Vocabulary 상속. 시퀀스 데이터에서 사용하는 특수 토큰 4개 (UNK 토큰, MASK 토큰, BOS 토큰. EOS 토큰)
                                      # UNK 토큰 : 모델이 드물게 등장하는 단어ㅔ 대한 표현을 학습하도록 함. 그 결과 테스트 시에 본 적 없는 단어를 처리할 수 있음
                                      # MASK 토큰 : Embedding 층의 마스킹 역할을 수행하고, 가변 길이의 시퀀스가 있을 때 손실 계산을 도움
                                      # BOS, EOS 토큰 : 시퀀스 경계에 관한 힌트를 신경망에 제공
    def __init__(self, token_to_idx=None, unk_token="<UNK>",
                 mask_token="<MASK>", begin_seq_token="<BEGIN>",
                 end_seq_token="<END>"):

        super(SequenceVocabulary, self).__init__(token_to_idx)

        self._mask_token = mask_token
        self._unk_token = unk_token
        self._begin_seq_token = begin_seq_token
        self._end_seq_token = end_seq_token

        self.mask_index = self.add_token(self._mask_token)
        self.unk_index = self.add_token(self._unk_token)
        self.begin_seq_index = self.add_token(self._begin_seq_token)
        self.end_seq_index = self.add_token(self._end_seq_token)

    def to_serializable(self):
        contents = super(SequenceVocabulary, self).to_serializable()
        contents.update({'unk_token': self._unk_token,
                         'mask_token': self._mask_token,
                         'begin_seq_token': self._begin_seq_token,
                         'end_seq_token': self._end_seq_token})
        return contents

    def lookup_token(self, token): # 토큰에 대응하는 인덱스를 추출, 토큰이 없으면 UNK 인덱스를 반환 (UNK 토큰을 사용하려면 (Vocabulary에 추가하기 위해) unk_index > 0 )
                                   # token (str): 찾을 토큰 
                                   # 반환값 : index (int): 토큰에 해당하는 인덱스
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index)
        else:
            return self._token_to_idx[token]


In [4]:
class NewsVectorizer(object): # 어휘 사전을 생성하고 관리
    def __init__(self, title_vocab, category_vocab):
        self.title_vocab = title_vocab
        self.category_vocab = category_vocab

    def vectorize(self, title, vector_length=-1): # 뉴스 제목 하나를 입력으로 받아 데이터셋에서 가장 긴 제목과 길이가 같은 벡터를 반환
                                                  # title (str): 공백으로 나누어진 단어 문자열
                                                  # vector_length (int): 인덱스 벡터의 길이 매개변수
                                                  # 반환값 : 벡터로 변환된 제목 (numpy.array)
        indices = [self.title_vocab.begin_seq_index] # BOS 토큰 추가
        indices.extend(self.title_vocab.lookup_token(token) 
                       for token in title.split(" "))
        indices.append(self.title_vocab.end_seq_index) # EOS 토큰 추가

        if vector_length < 0:
            vector_length = len(indices)

        out_vector = np.zeros(vector_length, dtype=np.int64)
        out_vector[:len(indices)] = indices
        out_vector[len(indices):] = self.title_vocab.mask_index # 0으로 패딩

        return out_vector

    @classmethod
    def from_dataframe(cls, news_df, cutoff=25): # 데이터셋 데이터프레임에서 Vectorizer 객체를 만듦
                                                 # news_df (pandas.DataFrame): 타깃 데이터셋
                                                 # cutoff (int): Vocabulary에 포함할 빈도 임곗값
                                                 # 반환값 : NewsVectorizer 객체
        category_vocab = Vocabulary()        
        for category in sorted(set(news_df.category)):
            category_vocab.add_token(category)

        word_counts = Counter()
        for title in news_df.title:
            for token in title.split(" "):
                if token not in string.punctuation:
                    word_counts[token] += 1
        
        title_vocab = SequenceVocabulary()
        for word, word_count in word_counts.items():
            if word_count >= cutoff:
                title_vocab.add_token(word)
        
        return cls(title_vocab, category_vocab)

    @classmethod
    def from_serializable(cls, contents):
        title_vocab = \
            SequenceVocabulary.from_serializable(contents['title_vocab'])
        category_vocab =  \
            Vocabulary.from_serializable(contents['category_vocab'])

        return cls(title_vocab=title_vocab, category_vocab=category_vocab)

    def to_serializable(self):
        return {'title_vocab': self.title_vocab.to_serializable(),
                'category_vocab': self.category_vocab.to_serializable()}

In [5]:
class NewsDataset(Dataset):
    def __init__(self, news_df, vectorizer): # news_df (pandas.DataFrame): 데이터셋
                                             # vectorizer (NewsVectorizer): 데이터셋에서 만든 NewsVectorizer 객체
    
        self.news_df = news_df
        self._vectorizer = vectorizer

        measure_len = lambda context: len(context.split(" "))
        self._max_seq_length = max(map(measure_len, news_df.title)) + 2 # 오직 begin_seq 토큰만 사용할 거라면 +1, begin_seq와 end_seq 토큰 둘 다 사용할 거라면 +2
        

        self.train_df = self.news_df[self.news_df.split=='train']
        self.train_size = len(self.train_df)

        self.val_df = self.news_df[self.news_df.split=='val']
        self.validation_size = len(self.val_df)

        self.test_df = self.news_df[self.news_df.split=='test']
        self.test_size = len(self.test_df)

        self._lookup_dict = {'train': (self.train_df, self.train_size),
                             'val': (self.val_df, self.validation_size),
                             'test': (self.test_df, self.test_size)}

        self.set_split('train')

        # 클래스 가중치
        class_counts = news_df.category.value_counts().to_dict()
        def sort_key(item):
            return self._vectorizer.category_vocab.lookup_token(item[0])
        sorted_counts = sorted(class_counts.items(), key=sort_key)
        frequencies = [count for _, count in sorted_counts]
        self.class_weights = 1.0 / torch.tensor(frequencies, dtype=torch.float32)
        
        
    @classmethod
    def load_dataset_and_make_vectorizer(cls, news_csv): # 데이터셋을 로드하고 처음부터 새로운 Vectorizer 만들기
                                                         # news_csv (str): 데이터셋의 위치
                                                         # 반환값 : NewsDataset의 인스턴스
        news_df = pd.read_csv(news_csv)
        train_news_df = news_df[news_df.split=='train']
        return cls(news_df, NewsVectorizer.from_dataframe(train_news_df))

    @classmethod
    def load_dataset_and_load_vectorizer(cls, news_csv, vectorizer_filepath): # 데이터셋과 새로운 Vectorizer 객체를 로드 → 캐시된 Vectorizer 객체를 재사용할 때 사용
                                                                              # news_csv (str): 데이터셋의 위치
                                                                              # vectorizer_filepath (str): Vectorizer 객체의 저장 위치
                                                                              # 반환값 : NewsDataset의 인스턴스
        news_df = pd.read_csv(news_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(news_csv, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath): # 파일에서 Vectorizer 객체를 로드하는 정적 메서드
                                                   # vectorizer_filepath (str): 직렬화된 Vectorizer 객체의 위치
                                                   # 반환값 : NewsVectorizer의 인스턴스
        with open(vectorizer_filepath) as fp:
            return NameVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath): # NewsVectorizer 객체를 json 형태로 디스크에 저장
                                                    # vectorizer_filepath (str): NewsVectorizer 객체의 저장 위치
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self): # 벡터 변환 객체를 반환
        return self._vectorizer

    def set_split(self, split="train"): # 데이터프레임에 있는 열을 사용해 분할 세트를 선택
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __len__(self):
        return self._target_size

    def __getitem__(self, index): # 데이터셋의 각 행에서 모델 입력을 나타내는 문자열을 추출하고, Vectorizer를 사용해 벡터로 반환. 그다음 뉴스 카테고리를 나타내는 정수와 쌍을 구성
                                  # index (int): 데이터 포인트의 인덱스
                                  # 반환값 : 데이터 포인트의 특성(x_data)과 레이블(y_target)로 이루어진 딕셔너리
        row = self._target_df.iloc[index]

        title_vector = \
            self._vectorizer.vectorize(row.title, self._max_seq_length)

        category_index = \
            self._vectorizer.category_vocab.lookup_token(row.category)

        return {'x_data': title_vector,
                'y_target': category_index}

    def get_num_batches(self, batch_size): # 배치 크기가 주어지면 데이터셋으로 만들 수 있는 배치 개수를 반환 
        return len(self) // batch_size

def generate_batches(dataset, batch_size, shuffle=True, # 파이토치 DataLoader를 감싸고 있는 제너레이터 함수
                     drop_last=True, device="cpu"):     # 각 텐서를 지정된 장치로 이동
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict

In [6]:
class NewsClassifier(nn.Module):
    def __init__(self, embedding_size, num_embeddings, num_channels, # embedding_size (int): 임베딩 벡터의 크기
                 hidden_dim, num_classes, dropout_p,                 # num_embeddings (int): 임베딩 벡터의 개수
                 pretrained_embeddings=None, padding_idx=0):         # num_channels (int): 합성곱 커널 개수
                                                                     # hidden_dim (int): 은닉 차원 크기
                                                                     # num_classes (int): 클래스 
                                                                     # dropout_p (float): 드롭아웃 확률
                                                                     # pretrained_embeddings (numpy.array): 사전에 훈련된 단어 임베딩, 디폴트값 None
                                                                     # padding_idx (int): 패딩 인덱스
        super(NewsClassifier, self).__init__()

        if pretrained_embeddings is None:

            self.emb = nn.Embedding(embedding_dim=embedding_size,
                                    num_embeddings=num_embeddings,
                                    padding_idx=padding_idx)        
        else:
            pretrained_embeddings = torch.from_numpy(pretrained_embeddings).float()
            self.emb = nn.Embedding(embedding_dim=embedding_size,
                                    num_embeddings=num_embeddings,
                                    padding_idx=padding_idx,
                                    _weight=pretrained_embeddings)
        
            
        self.convnet = nn.Sequential(
            nn.Conv1d(in_channels=embedding_size, 
                   out_channels=num_channels, kernel_size=3),
            nn.ELU(),
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                   kernel_size=3, stride=2),
            nn.ELU(),
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                   kernel_size=3, stride=2),
            nn.ELU(),
            nn.Conv1d(in_channels=num_channels, out_channels=num_channels, 
                   kernel_size=3),
            nn.ELU()
        )

        self._dropout_p = dropout_p
        self.fc1 = nn.Linear(num_channels, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, num_classes)

    def forward(self, x_in, apply_softmax=False): # 분류기의 정방향 계산
                                                  # x_in (torch.Tensor): 입력 데이터 텐서, x_in.shape는 (batch, dataset._max_seq_length)
                                                  # apply_softmax (bool): 소프트맥스 활성화 함수를 위한 플래그, 크로스-엔트로피 손실을 사용하려면 False로 지정
                                                  # 반환값 : 결과 텐서. tensor.shape은 (batch, num_classes)

        # 임베딩을 적용하고 특성과 채널 차원을 바꿈
        x_embedded = self.emb(x_in).permute(0, 2, 1)

        features = self.convnet(x_embedded)

        # 평균 값을 계산하여 부가적인 차원을 제거
        remaining_size = features.size(dim=2)
        features = F.avg_pool1d(features, remaining_size).squeeze(dim=2)
        features = F.dropout(features, p=self._dropout_p)
        
        # MLP 분류기
        intermediate_vector = F.relu(F.dropout(self.fc1(features), p=self._dropout_p))
        prediction_vector = self.fc2(intermediate_vector)

        if apply_softmax:
            prediction_vector = F.softmax(prediction_vector, dim=1)

        return prediction_vector

In [7]:
def make_train_state(args):
    return {'stop_early': False,
            'early_stopping_step': 0,
            'early_stopping_best_val': 1e8,
            'learning_rate': args.learning_rate,
            'epoch_index': 0,
            'train_loss': [],
            'train_acc': [],
            'val_loss': [],
            'val_acc': [],
            'test_loss': -1,
            'test_acc': -1,
            'model_filename': args.model_state_file}

def update_train_state(args, model, train_state): # 훈련 상태를 업데이트
                                                  # param args: 메인 매개변수
                                                  # param model: 훈련할 모델
                                                  # param train_state: 훈련 상태를 담은 딕셔너리
                                                  # 새로운 훈련 상태
    # 적어도 한 번 모델을 저장
    if train_state['epoch_index'] == 0:
        torch.save(model.state_dict(), train_state['model_filename'])
        train_state['stop_early'] = False

    # 성능이 향상되면 모델을 저장
    elif train_state['epoch_index'] >= 1:
        loss_tm1, loss_t = train_state['val_loss'][-2:]

        # 손실이 나빠지면
        if loss_t >= train_state['early_stopping_best_val']:
            # 조기 종료 단계 업데이트
            train_state['early_stopping_step'] += 1
        # 손실이 감소하면
        else:
            # 최상의 모델 저장
            if loss_t < train_state['early_stopping_best_val']:
                torch.save(model.state_dict(), train_state['model_filename'])

            # 조기 종료 단계 재설정
            train_state['early_stopping_step'] = 0

        # 조기 종료 여부 확인
        train_state['stop_early'] = \
            train_state['early_stopping_step'] >= args.early_stopping_criteria

    return train_state

def compute_accuracy(y_pred, y_target):
    _, y_pred_indices = y_pred.max(dim=1)
    n_correct = torch.eq(y_pred_indices, y_target).sum().item()
    return n_correct / len(y_pred_indices) * 100

In [8]:
def set_seed_everywhere(seed, cuda):
    np.random.seed(seed)
    torch.manual_seed(seed)
    if cuda:
        torch.cuda.manual_seed_all(seed)

def handle_dirs(dirpath):
    if not os.path.exists(dirpath):
        os.makedirs(dirpath)
        
def load_glove_from_file(glove_filepath): # GloVe 임베딩 로드 
                                          # glove_filepath (str): 임베딩 파일 경로 
                                          # 반환값 : word_to_index (dict), embeddings (numpy.ndarary)

    word_to_index = {}
    embeddings = []
    with open(glove_filepath, "r") as fp:
        for index, line in enumerate(fp):
            line = line.split(" ") # each line: word num1 num2 ...
            word_to_index[line[0]] = index # word = line[0] 
            embedding_i = np.array([float(val) for val in line[1:]])
            embeddings.append(embedding_i)
    return word_to_index, np.stack(embeddings)

def make_embedding_matrix(glove_filepath, words): # 특정 단어 집합에 대한 임베딩 행렬을 만듦
                                                  # glove_filepath (str): 임베딩 파일 경로
                                                  # words (list): 단어 리스트
    word_to_idx, glove_embeddings = load_glove_from_file(glove_filepath)
    embedding_size = glove_embeddings.shape[1]
    
    final_embeddings = np.zeros((len(words), embedding_size))

    for i, word in enumerate(words):
        if word in word_to_idx:
            final_embeddings[i, :] = glove_embeddings[word_to_idx[word]]
        else:
            embedding_i = torch.ones(1, embedding_size)
            torch.nn.init.xavier_uniform_(embedding_i)
            final_embeddings[i, :] = embedding_i

    return final_embeddings

In [9]:
args = Namespace(
    # 날짜와 경로 정보
    news_csv="data/ag_news/news_with_splits.csv",
    vectorizer_file="vectorizer.json",
    model_state_file="model.pth",
    save_dir="model_storage/ch5/document_classification",
    # 모델 하이퍼파라미터
    glove_filepath='data/glove/glove.6B.100d.txt', 
    use_glove=False,
    embedding_size=100, 
    hidden_dim=100, 
    num_channels=100, 
    # 훈련 하이퍼파라미터
    seed=1337, 
    learning_rate=0.001, 
    dropout_p=0.1, 
    batch_size=128, 
    num_epochs=100, 
    early_stopping_criteria=5, 
    # 실행 옵션
    cuda=True, 
    catch_keyboard_interrupt=True, 
    reload_from_files=False,
    expand_filepaths_to_save_dir=True
) 

if args.expand_filepaths_to_save_dir:
    args.vectorizer_file = os.path.join(args.save_dir,
                                        args.vectorizer_file)

    args.model_state_file = os.path.join(args.save_dir,
                                         args.model_state_file)
    
    print("파일 경로: ")
    print("\t{}".format(args.vectorizer_file))
    print("\t{}".format(args.model_state_file))
    
# CUDA 체크
if not torch.cuda.is_available():
    args.cuda = False
    
args.device = torch.device("cuda" if args.cuda else "cpu")
print("CUDA 사용여부: {}".format(args.cuda))

# 재현성을 위해 시드 설정
set_seed_everywhere(args.seed, args.cuda)

# 디렉토리 처리
handle_dirs(args.save_dir)

파일 경로: 
	model_storage/ch5/document_classification/vectorizer.json
	model_storage/ch5/document_classification/model.pth
CUDA 사용여부: True


In [10]:
!mkdir data
!wget https://git.io/Jt1NH -O data/download.py
!wget https://git.io/Jt1NS -O data/get-all-data.sh
!chmod 755 data/get-all-data.sh
%cd data
!./get-all-data.sh
%cd ..

--2022-09-22 03:27:37--  https://git.io/Jt1NH
Resolving git.io (git.io)... 140.82.114.22
Connecting to git.io (git.io)|140.82.114.22|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_5/5_3_doc_classification/data/download.py [following]
--2022-09-22 03:27:38--  https://raw.githubusercontent.com/rickiepark/nlp-with-pytorch/main/chapter_5/5_3_doc_classification/data/download.py
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1572 (1.5K) [text/plain]
Saving to: ‘data/download.py’


2022-09-22 03:27:38 (17.4 MB/s) - ‘data/download.py’ saved [1572/1572]

--2022-09-22 03:27:39--  https://git.io/Jt1NS
Resolving git.io (git.io)... 140.82.114.22
Connecting to git.i

In [11]:
!wget http://nlp.stanford.edu/data/glove.6B.zip
!unzip glove.6B.zip
!mkdir -p data/glove
!mv glove.6B.100d.txt data/glove

--2022-09-22 03:27:50--  http://nlp.stanford.edu/data/glove.6B.zip
Resolving nlp.stanford.edu (nlp.stanford.edu)... 171.64.67.140
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://nlp.stanford.edu/data/glove.6B.zip [following]
--2022-09-22 03:27:50--  https://nlp.stanford.edu/data/glove.6B.zip
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip [following]
--2022-09-22 03:27:51--  https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip
Resolving downloads.cs.stanford.edu (downloads.cs.stanford.edu)... 171.64.64.22
Connecting to downloads.cs.stanford.edu (downloads.cs.stanford.edu)|171.64.64.22|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 862182613 (822M) [application/zip]
Saving to: ‘glove.6B.zip’


202

In [12]:
args.use_glove = True

In [13]:
if args.reload_from_files:
    # 체크포인트를 로드
    dataset = NewsDataset.load_dataset_and_load_vectorizer(args.news_csv,
                                                              args.vectorizer_file)
else:
    # 데이터셋과 Vectorizer를 만듦.
    dataset = NewsDataset.load_dataset_and_make_vectorizer(args.news_csv)
    dataset.save_vectorizer(args.vectorizer_file)
vectorizer = dataset.get_vectorizer()

# GloVe를 사용하거나 랜덤하게 임베딩을 초기화
if args.use_glove:
    words = vectorizer.title_vocab._token_to_idx.keys()
    embeddings = make_embedding_matrix(glove_filepath=args.glove_filepath, 
                                       words=words)
    print("사전 훈련된 임베딩을 사용합니다")
else:
    print("사전 훈련된 임베딩을 사용하지 않습니다")
    embeddings = None

classifier = NewsClassifier(embedding_size=args.embedding_size, 
                            num_embeddings=len(vectorizer.title_vocab),
                            num_channels=args.num_channels,
                            hidden_dim=args.hidden_dim, 
                            num_classes=len(vectorizer.category_vocab), 
                            dropout_p=args.dropout_p,
                            pretrained_embeddings=embeddings,
                            padding_idx=0)

사전 훈련된 임베딩을 사용합니다


In [14]:
classifier = classifier.to(args.device)
dataset.class_weights = dataset.class_weights.to(args.device)
    
loss_func = nn.CrossEntropyLoss(dataset.class_weights)
optimizer = optim.Adam(classifier.parameters(), lr=args.learning_rate)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer=optimizer,
                                           mode='min', factor=0.5,
                                           patience=1)

train_state = make_train_state(args)

epoch_bar = tqdm_notebook(desc='training routine', 
                          total=args.num_epochs,
                          position=0)

dataset.set_split('train')
train_bar = tqdm_notebook(desc='split=train',
                          total=dataset.get_num_batches(args.batch_size), 
                          position=1, 
                          leave=True)
dataset.set_split('val')
val_bar = tqdm_notebook(desc='split=val',
                        total=dataset.get_num_batches(args.batch_size), 
                        position=1, 
                        leave=True)

try:
    for epoch_index in range(args.num_epochs):
        train_state['epoch_index'] = epoch_index

        # 훈련 세트에 대한 순회

        # 훈련 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('train')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.0
        running_acc = 0.0
        classifier.train()

        for batch_index, batch_dict in enumerate(batch_generator):
            # 훈련 과정은 5단계

            # --------------------------------------
            # 단계 1. 그레이디언트를 0으로 초기화
            optimizer.zero_grad()

            # 단계 2. 출력 계산
            y_pred = classifier(batch_dict['x_data'])

            # 단계 3. 손실 계산
            loss = loss_func(y_pred, batch_dict['y_target'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 4. 손실을 사용해 그레이디언트 계산
            loss.backward()

            # 단계 5. 옵티마이저로 가중치 업데이트
            optimizer.step()
            # -----------------------------------------
            
            # 정확도 계산
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)

            # 진행 상태 막대 업데이트
            train_bar.set_postfix(loss=running_loss, acc=running_acc, 
                                  epoch=epoch_index)
            train_bar.update()

        train_state['train_loss'].append(running_loss)
        train_state['train_acc'].append(running_acc)

        # 검증 세트에 대한 순회

        # 검증 세트와 배치 제너레이터 준비, 손실과 정확도를 0으로 설정
        dataset.set_split('val')
        batch_generator = generate_batches(dataset, 
                                           batch_size=args.batch_size, 
                                           device=args.device)
        running_loss = 0.
        running_acc = 0.
        classifier.eval()

        for batch_index, batch_dict in enumerate(batch_generator):

            # 단계 1. 출력 계산
            y_pred =  classifier(batch_dict['x_data'])

            # 단계 2. 손실 계산
            loss = loss_func(y_pred, batch_dict['y_target'])
            loss_t = loss.item()
            running_loss += (loss_t - running_loss) / (batch_index + 1)

            # 단계 3. 정확도 계산
            acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
            running_acc += (acc_t - running_acc) / (batch_index + 1)
            val_bar.set_postfix(loss=running_loss, acc=running_acc, 
                            epoch=epoch_index)
            val_bar.update()

        train_state['val_loss'].append(running_loss)
        train_state['val_acc'].append(running_acc)

        train_state = update_train_state(args=args, model=classifier,
                                         train_state=train_state)

        scheduler.step(train_state['val_loss'][-1])

        if train_state['stop_early']:
            break

        train_bar.n = 0
        val_bar.n = 0
        epoch_bar.update()
except KeyboardInterrupt:
    print("Exiting loop")

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  


training routine:   0%|          | 0/100 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


split=train:   0%|          | 0/656 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


split=val:   0%|          | 0/140 [00:00<?, ?it/s]

In [15]:
# 가장 좋은 모델을 사용해 테스트 세트의 손실과 정확도를 계산
classifier.load_state_dict(torch.load(train_state['model_filename']))

classifier = classifier.to(args.device)
dataset.class_weights = dataset.class_weights.to(args.device)
loss_func = nn.CrossEntropyLoss(dataset.class_weights)

dataset.set_split('test')
batch_generator = generate_batches(dataset, 
                                   batch_size=args.batch_size, 
                                   device=args.device)
running_loss = 0.
running_acc = 0.
classifier.eval()

for batch_index, batch_dict in enumerate(batch_generator):
    # 출력 계산
    y_pred =  classifier(batch_dict['x_data'])
    
    # 손실 계산
    loss = loss_func(y_pred, batch_dict['y_target'])
    loss_t = loss.item()
    running_loss += (loss_t - running_loss) / (batch_index + 1)

    # 정확도 계산
    acc_t = compute_accuracy(y_pred, batch_dict['y_target'])
    running_acc += (acc_t - running_acc) / (batch_index + 1)

train_state['test_loss'] = running_loss
train_state['test_acc'] = running_acc

In [16]:
print("테스트 손실: {};".format(train_state['test_loss']))
print("테스트 정확도: {}".format(train_state['test_acc']))

테스트 손실: 0.6178193454231535;
테스트 정확도: 79.67075892857143


In [17]:
def preprocess_text(text):
    text = ' '.join(word.lower() for word in text.split(" "))
    text = re.sub(r"([.,!?])", r" \1 ", text)
    text = re.sub(r"[^a-zA-Z.,!?]+", r" ", text)
    return text

In [18]:
def predict_category(title, classifier, vectorizer, max_length): # 뉴스 제목을 기반으로 카테고리 예측
                                                                 # title (str): 원시 제목 문자열
                                                                 # classifier (NewsClassifier): 훈련된 분류기 객체
                                                                 # vectorizer (NewsVectorizer): 해당 Vectorizer
                                                                 # max_length (int): 최대 시퀀스 길이. CNN은 입력 텐서 크기에 민감하므로 훈련 데이터처럼 동일한 크기를 갖도록 만듦
    title = preprocess_text(title)
    vectorized_title = \
        torch.tensor(vectorizer.vectorize(title, vector_length=max_length))
    result = classifier(vectorized_title.unsqueeze(0), apply_softmax=True)
    probability_values, indices = result.max(dim=1)
    predicted_category = vectorizer.category_vocab.lookup_index(indices.item())

    return {'category': predicted_category, 
            'probability': probability_values.item()}

In [19]:
def get_samples():
    samples = {}
    for cat in dataset.val_df.category.unique():
        samples[cat] = dataset.val_df.title[dataset.val_df.category==cat].tolist()[:5]
    return samples

val_samples = get_samples()

In [20]:
classifier = classifier.to("cpu")

for truth, sample_group in val_samples.items():
    print(f"True Category: {truth}")
    print("="*30)
    for sample in sample_group:
        prediction = predict_category(sample, classifier, 
                                      vectorizer, dataset._max_seq_length + 1)
        print("예측: {} (p={:0.2f})".format(prediction['category'],
                                                  prediction['probability']))
        print("\t + 샘플: {}".format(sample))
    print("-"*30 + "\n")

True Category: Business
예측: Business (p=0.88)
	 + 샘플: AZ suspends marketing of cancer drug
예측: Business (p=0.99)
	 + 샘플: Business world has mixed reaction to Perez move
예측: Sports (p=0.64)
	 + 샘플: Betting Against Bombay
예측: Sports (p=0.34)
	 + 샘플: Malpractice Insurers Face a Tough Market
예측: Sports (p=0.71)
	 + 샘플: NVIDIA Is Vindicated
------------------------------

True Category: Sci/Tech
예측: Sci/Tech (p=0.64)
	 + 샘플: Spies prize webcam #39;s eyes
예측: Sci/Tech (p=0.99)
	 + 샘플: Sober worm causes headaches
예측: World (p=0.85)
	 + 샘플: Local Search: Missing Pieces Falling into Place
예측: Sci/Tech (p=1.00)
	 + 샘플: Hackers baiting Internet users with Beckham pix
예측: Sports (p=0.91)
	 + 샘플: Nokia adds BlackBerry support to Series 80 handsets
------------------------------

True Category: Sports
예측: Sci/Tech (p=0.87)
	 + 샘플: Is Meyer the man to get Irish up?
예측: Sci/Tech (p=0.38)
	 + 샘플: Who? Who? And Clemens
예측: Sports (p=0.99)
	 + 샘플: Baseball Today (AP)
예측: World (p=0.50)
	 + 샘플: Mark Kreid