Swivel 모델은 PMI 행렬을 두 행렬 $U, V$의 곱으로 분해하는 단어 임베딩 기법이다.

먼저 $i$라는 타깃 단어와 $j$라는 문맥 단어가 사용자가 정한 윈도우 내에서 단 한 건이라도 동시에 등장한 적이 있는 경우에 적용되는 목적함수는 다음과 같다. 여기서 $f(x_{ij})$는 단어 $i,j$의 동시 등장 빈도이다.

$$
\mathcal{L} = \frac 12 f(x_{ij}) (U_i \cdot V_j - \text{PMI}(i,j))^2
$$

이는 $U_i \cdot V_j$가 두 단어의 PMI 값과 일치하도록 두 벡터를 업데이트하며, 빈도가 높은 단어일 수록 두 벡터의 내적 값이 실제 PMI값과 좀 더 비슷해야 손실이 줄어들도록 설계된 것이다.

다음으로 단어 $i,j$가 말뭉치의 특정 윈도우 내에서 동시에 등장한 적이 한 번도 없는 경우에 적용되는 목적함수는 다음과 같다. 여기서 $\text{PMI}^*$는 단어 $i,j$의 동시 등장 횟수를 0 대신 1로 가정하고 계산한 PMI 값이다.

$$
\mathcal{L} = \log[1+exp(U_i \cdot V_j - \text{PMI}^*(i,j))]
$$

### 4.6.2. 튜토리얼

실제로 Swivel 모델을 학습시켜 보자. 먼저 루트 디렉토리에서 다음 명령어를 실행시키면 swivel 모델의 전처리를 수행한다.

`models/swivel/fastprep --input zed/corpus_mecab.txt --output_dir data/word-embeddings/swivel/swivel.data`

그런데 계속 libprotobuf.so.18 라이브러리가 없다고 에러가 나서 한참을 고생한 결과, 이 파일을 도커 이미지에서 찾아서 /usr/local/lib 에 복사하고, 해당 디렉토리에서 `sudo ldconfig` 를 실행시키니 해결되었다.

이렇게 전처리된 데이터를 토대로 다음 명령어(루트에서 실행)를 실행시켜 훈련을 시키자.

`python models/swivel/swivel.py --input_base_path data/word-embeddings/swivel/swivel.data --output_base_path data/word-embeddings/swivel --dim 100`

In [7]:
%matplotlib inline

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt
import time
import pandas as pd

dev = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
dev

device(type='cuda')

In [8]:
vec_path = '../data/word-embeddings/swivel/row_embedding.tsv'

In [15]:
vec = [sent.replace('\n','').split('\t') for sent in open(vec_path, 'r').readlines()]

In [18]:
vec[100]

['전',
 '0.05000429',
 '-0.3234634',
 '0.1544087',
 '-0.0027086511',
 '-0.17429611',
 '-0.05456119',
 '-0.10870183',
 '-0.26186827',
 '0.022473343',
 '0.14063968',
 '0.17234242',
 '-0.057097852',
 '-0.18921879',
 '0.31091774',
 '-0.15317011',
 '0.01634062',
 '-0.13402402',
 '0.023290195',
 '-0.13947612',
 '-0.04274352',
 '0.2697743',
 '0.19303523',
 '0.04243028',
 '-0.048464566',
 '-0.34320876',
 '-0.0007149428',
 '-0.013485536',
 '0.24820629',
 '0.17361215',
 '0.05445122',
 '-0.15588865',
 '0.16075508',
 '-0.0027796626',
 '-0.51797974',
 '0.106796704',
 '-0.32126653',
 '0.0744531',
 '-0.21878499',
 '0.05185265',
 '0.1460585',
 '0.033075005',
 '-0.30041647',
 '-0.045925476',
 '-0.19572942',
 '0.22474848',
 '0.4093167',
 '-0.011900283',
 '-0.13583928',
 '-0.1897978',
 '0.074912585',
 '0.31467316',
 '-0.0048982725',
 '0.047199816',
 '-0.09892913',
 '0.16345213',
 '-0.14114681',
 '-0.33172807',
 '0.3395185',
 '0.024566181',
 '0.33758485',
 '0.06746967',
 '0.062823795',
 '-0.024417631',
 '0

In [19]:
mat_df = pd.DataFrame(vec)
ind = mat_df[0]

In [20]:
mat_df2 = mat_df.iloc[:,1:].astype(np.float32).copy()
mat_df2.index = ind
mat_df2.head()

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,...,91,92,93,94,95,96,97,98,99,100
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.023534,-0.020808,-0.519865,0.007248,-0.132898,0.225429,0.081357,-0.246531,0.010304,0.07102,...,-0.604138,0.135245,0.410149,-0.076282,-0.275006,-0.746146,-0.274167,-0.13431,0.009054,-0.085209
.,0.100711,0.051968,0.145848,0.142244,-0.020525,-0.215196,-0.106345,0.284389,-0.143234,0.080246,...,-0.103105,0.156931,-0.088146,-0.101258,0.118361,-0.119853,-0.129462,0.042567,0.085142,-0.230759
0,-0.056171,0.023841,-0.645106,-0.074233,-0.294645,0.15285,0.083372,0.054219,-0.092819,0.046763,...,-0.902124,0.096833,-0.032609,-0.011836,-0.214928,-0.414776,-0.128222,-0.164744,-0.066326,-0.00741
2,0.019248,0.061343,-0.541703,-0.18178,-0.187299,0.024887,-0.016163,-0.195858,-0.114942,0.071882,...,-0.691179,-0.009627,0.199744,-0.01602,-0.268927,-0.593936,-0.247405,0.117444,-0.000361,-0.131378
의,0.071886,-0.148137,0.32935,0.103442,-0.199225,-0.056327,-0.049317,-0.251908,0.03601,-0.111983,...,-0.135906,0.071584,0.138337,0.15378,-0.2419,0.121188,-0.035508,0.016112,0.055473,0.092082


In [21]:
word2id = dict()
id2word = []
for i, word in enumerate(ind):
    word2id[word] = i
    id2word.append(word)

In [22]:
def similar_words(mat_df, word, k=10):
    cos = nn.CosineSimilarity(dim=1, eps=1e-6)
    
    word_id = word2id[word]
    word_vec = torch.tensor(mat_df.loc[word].values).view(1,-1)
    word_mat = torch.tensor(mat_df.values)
#    print(word_vec.size(), word_mat.size())
    cos_mat = cos(word_vec, word_mat)
    sim, indices = torch.topk(cos_mat,k+1)
    
    
    word_list = []
    for i in indices:
        if i != word_id:
            word_list.append(id2word[i])

    return pd.Series(word_list, np.array(sim[1:].detach()))

In [23]:
similar_words(mat_df2, '한국')

0.683715    사단법인
0.609789    대한민국
0.580138     연구원
0.580093      문화
0.558285     연합회
0.537043      韓國
0.528739     공보부
0.520811      협회
0.518322     기자상
0.516894     운동사
dtype: object

In [24]:
similar_words(mat_df2, '대통령')

0.775670      부통령
0.740117       총리
0.737498       선거
0.703441      행정부
0.674643       정부
0.668034       버락
0.664793      박근혜
0.652223      전두환
0.648393    러닝메이트
0.642513      노무현
dtype: object

In [25]:
similar_words(mat_df2, '서울')

0.778967    서울특별시
0.752924      특별시
0.690524      성북구
0.666888      종로구
0.659213      중랑구
0.652548      동대문
0.650444       한양
0.649859     서대문구
0.643828      광진구
0.632367      강북구
dtype: object

In [26]:
similar_words(mat_df2, '컴퓨터')

0.757350     하드웨어
0.718258    소프트웨어
0.707026      시스템
0.698118       응용
0.664492      컴퓨팅
0.661310     인공지능
0.657708     임베디드
0.650925    인터페이스
0.644918       기기
0.632106      IBM
dtype: object

In [28]:
similar_words(mat_df2, '공부')

0.694390     수학
0.688052     배웠
0.662964    가르치
0.649391     유학
0.642625     학문
0.640723     법학
0.622810    가르쳤
0.612421     진학
0.610653     입학
0.601183    하버드
dtype: object

미묘하네...

In [29]:
def analogy(mat_df, word1, word2, word3,k=10):
    cos = nn.CosineSimilarity(dim=1, eps=1e-6)
    
    word_id1 = word2id[word1]
    word_id2 = word2id[word2]
    word_id3 = word2id[word3]
    word_vec1 = torch.tensor(mat_df.loc[word1].values).view(1,-1)
    word_vec2 = torch.tensor(mat_df.loc[word2].values).view(1,-1)
    word_vec3 = torch.tensor(mat_df.loc[word3].values).view(1,-1)
    word_mat = torch.tensor(mat_df.values)
    
    cos_mat = cos(word_vec1-word_vec2+word_vec3, word_mat)
    sim, indices = torch.topk(cos_mat,k+3)
    
    word_list = []
    sim_list = []
    for i, index in enumerate(indices):
        if index not in (word_id1, word_id2, word_id3):
            word_list.append(id2word[index])
            sim_list.append(sim[i].item())
        if len(word_list)==k:break
    return pd.Series(word_list, sim_list)


In [30]:
analogy(mat_df2,'한국','서울','파리')

0.602344     프랑스
0.474946    프랑수아
0.462969    프랑스와
0.458704      자크
0.452918      샤를
0.442147      세계
0.440298     로베르
0.440120    프로방스
0.439906      유럽
0.439256    이탈리아
dtype: object

In [31]:
analogy(mat_df2,'왕','남자','여자')

0.488349     공주
0.458629    제후국
0.447652     혜왕
0.439109     멸하
0.436186     왕국
0.436132     섭정
0.434450     책봉
0.431170     哀王
0.421578     대왕
0.419642     왕전
dtype: object

analogy 테스트는 그럭저럭 괜찮은 것 같기도?