5.1.2 단어 임베딩 방법

In [1]:
!pip install annoy

Collecting annoy
  Downloading annoy-1.17.0.tar.gz (646 kB)
[?25l[K     |▌                               | 10 kB 17.0 MB/s eta 0:00:01[K     |█                               | 20 kB 10.3 MB/s eta 0:00:01[K     |█▌                              | 30 kB 8.5 MB/s eta 0:00:01[K     |██                              | 40 kB 7.6 MB/s eta 0:00:01[K     |██▌                             | 51 kB 4.7 MB/s eta 0:00:01[K     |███                             | 61 kB 5.6 MB/s eta 0:00:01[K     |███▌                            | 71 kB 5.5 MB/s eta 0:00:01[K     |████                            | 81 kB 5.3 MB/s eta 0:00:01[K     |████▋                           | 92 kB 5.9 MB/s eta 0:00:01[K     |█████                           | 102 kB 5.3 MB/s eta 0:00:01[K     |█████▋                          | 112 kB 5.3 MB/s eta 0:00:01[K     |██████                          | 122 kB 5.3 MB/s eta 0:00:01[K     |██████▋                         | 133 kB 5.3 MB/s eta 0:00:01[K     |███████ 

In [2]:
import torch
import torch.nn as nn
from tqdm import tqdm
from annoy import AnnoyIndex
import numpy as np

In [None]:
# 사전 훈련된 단어 임베딩 사용하기
class PreTrainedEmbeddings(object):
    """ 사전 훈련된 단어 벡터 사용을 위한 래퍼 클래스 """
    def __init__(self, word_to_index, word_vectors):
        """
        매개변수:
            word_to_index (dict): 단어에서 정수로 매핑
            word_vectors (numpy 배열의 리스트)
        """
        self.word_to_index = word_to_index
        self.word_vectors = word_vectors
        self.index_to_word = {v: k for k, v in self.word_to_index.items()}

        self.index = AnnoyIndex(len(word_vectors[0]), metric='euclidean')
        print("인덱스 만드는 중!")
        for _, i in self.word_to_index.items():
            self.index.add_item(i, self.word_vectors[i])
        self.index.build(50)
        print("완료!")
        
    @classmethod
    def from_embeddings_file(cls, embedding_file):
        """사전 훈련된 벡터 파일에서 객체를 만듭니다.
        
        벡터 파일은 다음과 같은 포맷입니다:
            word0 x0_0 x0_1 x0_2 x0_3 ... x0_N
            word1 x1_0 x1_1 x1_2 x1_3 ... x1_N
        
        매개변수:
            embedding_file (str): 파일 위치
        반환값:
            PretrainedEmbeddings의 인스턴스
        """
        word_to_index = {}
        word_vectors = []

        with open(embedding_file) as fp:
            for line in fp.readlines():
                line = line.split(" ")
                word = line[0]
                vec = np.array([float(x) for x in line[1:]])
                
                word_to_index[word] = len(word_to_index)
                word_vectors.append(vec)
                
        return cls(word_to_index, word_vectors)

embeddings = PreTrainedEmbeddings.from_embeddings_file('data/glove/glove.6B.100d.txt')

In [None]:
#  단어 임베딩을 사용한 유추 작업
 class PreTrainedEmbeddings(object):
   """이전 코드에서 이어진 구현 """
   def get_embedding(self, word):
        """
        매개변수:
            word (str)
        반환값
            임베딩 (numpy.ndarray)
        """
        return self.word_vectors[self.word_to_index[word]]
    
    def get_closest_to_vector(self, vector, n=1):
        """벡터가 주어지면 n 개의 최근접 이웃을 반환합니다
        매개변수:
            vector (np.ndarray): Annoy 인덱스에 있는 벡터의 크기와 같아야 합니다
            n (int): 반환될 이웃의 개수
        반환값:
            [str, str, ...]: 주어진 벡터와 가장 가까운 단어
                단어는 거리순으로 정렬되어 있지 않습니다.
        """
        nn_indices = self.index.get_nns_by_vector(vector, n)
        return [self.index_to_word[neighbor] for neighbor in nn_indices]
    
    def compute_and_print_analogy(self, word1, word2, word3):
        """단어 임베딩을 사용한 유추 결과를 출력합니다

        word1이 word2일 때 word3은 __입니다.
        이 메서드는 word1 : word2 :: word3 : word4를 출력합니다
        
        매개변수:
            word1 (str)
            word2 (str)
            word3 (str)
        """
        vec1 = self.get_embedding(word1)
        vec2 = self.get_embedding(word2)
        vec3 = self.get_embedding(word3)

        # 네 번째 단어 임베딩을 계산합니다
        spatial_relationship = vec2 - vec1
        vec4 = vec3 + spatial_relationship

        closest_words = self.get_closest_to_vector(vec4, n=4)
        existing_words = set([word1, word2, word3])
        closest_words = [word for word in closest_words 
                             if word not in existing_words] 

        if len(closest_words) == 0:
            print("계산된 벡터와 가장 가까운 이웃을 찾을 수 없습니다!")
            return
        
        for word4 in closest_words:
            print("{} : {} :: {} : {}".format(word1, word2, word3, word4))

In [6]:
# 완성된 코드
class PreTrainedEmbeddings(object):
    """ 사전 훈련된 단어 벡터 사용을 위한 래퍼 클래스 """
    def __init__(self, word_to_index, word_vectors):
        """
        매개변수:
            word_to_index (dict): 단어에서 정수로 매핑
            word_vectors (numpy 배열의 리스트)
        """
        self.word_to_index = word_to_index
        self.word_vectors = word_vectors
        self.index_to_word = {v: k for k, v in self.word_to_index.items()}

        self.index = AnnoyIndex(len(word_vectors[0]), metric='euclidean')
        print("인덱스 만드는 중!")
        for _, i in self.word_to_index.items():
            self.index.add_item(i, self.word_vectors[i])
        self.index.build(50)
        print("완료!")
        
    @classmethod
    def from_embeddings_file(cls, embedding_file):
        """사전 훈련된 벡터 파일에서 객체를 만듭니다.
        
        벡터 파일은 다음과 같은 포맷입니다:
            word0 x0_0 x0_1 x0_2 x0_3 ... x0_N
            word1 x1_0 x1_1 x1_2 x1_3 ... x1_N
        
        매개변수:
            embedding_file (str): 파일 위치
        반환값:
            PretrainedEmbeddings의 인스턴스
        """
        word_to_index = {}
        word_vectors = []

        with open(embedding_file) as fp:
            for line in fp.readlines():
                line = line.split(" ")
                word = line[0]
                vec = np.array([float(x) for x in line[1:]])
                
                word_to_index[word] = len(word_to_index)
                word_vectors.append(vec)
                
        return cls(word_to_index, word_vectors)
    
    def get_embedding(self, word):
        """
        매개변수:
            word (str)
        반환값
            임베딩 (numpy.ndarray)
        """
        return self.word_vectors[self.word_to_index[word]]

    def get_closest_to_vector(self, vector, n=1):
        """벡터가 주어지면 n 개의 최근접 이웃을 반환합니다
        매개변수:
            vector (np.ndarray): Annoy 인덱스에 있는 벡터의 크기와 같아야 합니다
            n (int): 반환될 이웃의 개수
        반환값:
            [str, str, ...]: 주어진 벡터와 가장 가까운 단어
                단어는 거리순으로 정렬되어 있지 않습니다.
        """
        nn_indices = self.index.get_nns_by_vector(vector, n)
        return [self.index_to_word[neighbor] for neighbor in nn_indices]
    
    def compute_and_print_analogy(self, word1, word2, word3):
        """단어 임베딩을 사용한 유추 결과를 출력합니다

        word1이 word2일 때 word3은 __입니다.
        이 메서드는 word1 : word2 :: word3 : word4를 출력합니다
        
        매개변수:
            word1 (str)
            word2 (str)
            word3 (str)
        """
        vec1 = self.get_embedding(word1)
        vec2 = self.get_embedding(word2)
        vec3 = self.get_embedding(word3)

        # 네 번째 단어 임베딩을 계산합니다
        spatial_relationship = vec2 - vec1
        vec4 = vec3 + spatial_relationship

        closest_words = self.get_closest_to_vector(vec4, n=4)
        existing_words = set([word1, word2, word3])
        closest_words = [word for word in closest_words 
                             if word not in existing_words] 

        if len(closest_words) == 0:
            print("계산된 벡터와 가장 가까운 이웃을 찾을 수 없습니다!")
            return
        
        for word4 in closest_words:
            print("{} : {} :: {} : {}".format(word1, word2, word3, word4))
# data/glove/glove.6B.100d.txt
embeddings = PreTrainedEmbeddings.from_embeddings_file('/content/drive/MyDrive/glove.6B/glove.6B.100d.txt')

인덱스 만드는 중!
완료!


In [7]:
# SAT 유추 작업에서 봤듯이 단어 임베딩은 많은 언어 관계를 인코딩합니다
# 관계 1 : 성별 명사와 대명사의 관계
print(embeddings.compute_and_print_analogy('man', 'he', 'woman'))

# 관계 2 : 동사-명사 관계
print(embeddings.compute_and_print_analogy('fly', 'plane', 'sail'))

# 관계 3 : 명사-명사 관계
print(embeddings.compute_and_print_analogy('cat', 'kitten', 'dog'))

# 관계 4 : 상위어(Hypernymy) (더 넓은 범주)
print(embeddings.compute_and_print_analogy('blue', 'color', 'dog'))

# 관계 5 : 부분에서 전체(Meronymy)
print(embeddings.compute_and_print_analogy('toe', 'foot', 'finger'))

# 관계 6 : 방식 차이(Troponymy)
print(embeddings.compute_and_print_analogy('talk', 'communicate', 'read'))

# 관계 7 : 전체 의미 표현(Mentonymy) (관습 / 인물)
print(embeddings.compute_and_print_analogy('blue', 'democrat', 'red'))

# 관계 8 : 비교급
print(embeddings.compute_and_print_analogy('fast', 'fastest', 'young'))

man : he :: woman : she
man : he :: woman : her
None
fly : plane :: sail : ship
fly : plane :: sail : vessel
fly : plane :: sail : boat
None
cat : kitten :: dog : puppy
cat : kitten :: dog : puppies
cat : kitten :: dog : junkyard
None
blue : color :: dog : animal
blue : color :: dog : pet
blue : color :: dog : taste
blue : color :: dog : touch
None
toe : foot :: finger : hand
toe : foot :: finger : kept
toe : foot :: finger : ground
None
talk : communicate :: read : interpret
talk : communicate :: read : communicated
talk : communicate :: read : transmit
None
blue : democrat :: red : republican
blue : democrat :: red : congressman
blue : democrat :: red : senator
None
fast : fastest :: young : younger
fast : fastest :: young : sixth
fast : fastest :: young : fifth
fast : fastest :: young : seventh
None


In [8]:
# 동시에 등장하는 정보로 의미를 인코딩하는 위험을 보여주는 예. 항상 이렇지는 않음
embeddings.compute_and_print_analogy('fast', 'fastest', 'small')

fast : fastest :: small : smallest
fast : fastest :: small : largest
fast : fastest :: small : among
fast : fastest :: small : quarters


In [9]:
# 단어 임베딩에 인코딩된 성별과 같은 보호 속성에 주의. 이로 인해 하위 모델에서 원치 않는 편향 발생 가능
embeddings.compute_and_print_analogy('man', 'king', 'woman')

man : king :: woman : queen
man : king :: woman : monarch
man : king :: woman : throne


In [10]:
# 벡터에 인코딩된 문화적 성별 편견
embeddings.compute_and_print_analogy('man', 'doctor', 'woman')

man : doctor :: woman : nurse
man : doctor :: woman : physician
man : doctor :: woman : doctors


5.2.1 프랑켄슈타인 데이터셋

In [None]:
# CBOW 작업을 위한 데이터셋 클래스
class CBOWDataset(Dataset):
  @classmethod
  def load_dataset_and_make_vectorizer(cls, cbow_csv):
      """데이터셋을 로드하고 처음부터 새로운 Vectorizer 만들기
      
      매개변수:
          cbow_csv (str): 데이터셋의 위치
      반환값:
          CBOWDataset의 인스턴스
      """
      cbow_df = pd.read_csv(cbow_csv)
      train_cbow_df = cbow_df[cbow_df.split=='train']
      return cls(cbow_df, CBOWVectorizer.from_dataframe(train_cbow_df))

  def __getitem__(self, index):
        """파이토치 데이터셋의 주요 진입 메서드
        
        매개변수:
            index (int): 데이터 포인트의 인덱스
        반환값:
            데이터 포인트의 특성(x_data)과 레이블(y_target)로 이루어진 딕셔너리
        """
        row = self._target_df.iloc[index]

        context_vector = \
            self._vectorizer.vectorize(row.context, self._max_seq_length)
        target_index = self._vectorizer.cbow_vocab.lookup_token(row.target)

        return {'x_data': context_vector,
                'y_target': target_index}