Doc2Vec을 반드시 텍스트 데이터에 이용해야 하는 것은 아닙니다. Sequential 한 아이템으로 서술할 수 있는 임의의 객체면 모두 Doc2Vec을 이용하여 임베딩 벡터를 학습할 수 있습니다. 

예를 들어 영화에는 배우가 casting order 순으로 기록되어 있습니다. 이 정보를 이용하여 캐스팅이 유사한 영화를 구할 수 있습니다

In [1]:
import pickle

id2movie_fname = '../../../data/sample_naver_movie/navermovie_info_idx2moviename.pkl'
id2actor_fname = '../../../data/sample_naver_movie/navermovie_info_idx2actorname.pkl'
casting_fname =  '../../../data/sample_naver_movie/navermovie_casting.txt'

with open(id2actor_fname, 'rb') as f:
    idx2actor = pickle.load(f)
    
with open(id2movie_fname, 'rb') as f:
    idx2movie = pickle.load(f)    
    
movie2idx = {name:idx for idx, name in idx2movie.items()}
actor2idx = {name:idx for idx, name in idx2actor.items()}

영화 아이디를 document tags로, 배우를 단어로 취급합니다. Bag of Words와 비슷하게 Bag of Actors라는 이름의 클래스를 만들었습니다. 

    words = actors.split()
    
으로 만들어서 TaggedDocument의 words로 입력합니다

In [2]:
from gensim.models.doc2vec import TaggedDocument

class BagOfActors:
    def __init__(self, fname):
        self.fname = fname
    def __iter__(self):
        with open(self.fname, encoding='utf-8') as f:
            for row in f:
                movie_idx, actors = row.replace('\n','').split('\t')
                words = actors.split()
                if len(words) <= 1:
                    continue
                yield TaggedDocument(words = words, tags = ['MOVIE_ID = %s' % movie_idx])
        
        
bag_of_actors = BagOfActors(casting_fname)

for num, doc in enumerate(bag_of_actors):
    print(doc, '\n')
    if num > 3: break

TaggedDocument(['7995', '4009'], ['MOVIE_ID = 22682']) 

TaggedDocument(['154441', '12571'], ['MOVIE_ID = 25882']) 

TaggedDocument(['6852', '96763', '3107', '7067', '39104'], ['MOVIE_ID = 29394']) 

TaggedDocument(['187973', '339348'], ['MOVIE_ID = 120378']) 

TaggedDocument(['20842', '46829', '242523'], ['MOVIE_ID = 56605']) 



영화 배우는 한 번만 등장할 수도 있기 때문에 min_count=1로 하여 한 번이라도 등장한 배우는 이용하기로 합니다. 


In [3]:
from pprint import pprint
from gensim.models import Doc2Vec

doc2vec_model = Doc2Vec(bag_of_actors, min_count=1)

In [4]:
print(type(doc2vec_model.docvecs.doctags))
pprint(list(doc2vec_model.docvecs.doctags.items())[:3])

<class 'dict'>
[('MOVIE_ID = 36358', Doctag(offset=78147, word_count=29, doc_count=1)),
 ('MOVIE_ID = 15141', Doctag(offset=78735, word_count=8, doc_count=1)),
 ('MOVIE_ID = 73813', Doctag(offset=68878, word_count=24, doc_count=1))]


영화가 임베딩이 되었고, 비슷한 영화를 검색할 수 있는지 확인해보았습니다. 이제 영화 아이디를 이름으로 치환하여 비슷한 영화들이 무엇인지를 확인해봅시다

In [5]:
doc2vec_model.docvecs.most_similar(1, topn=3)

[('MOVIE_ID = 93369', 0.9071272015571594),
 ('MOVIE_ID = 91634', 0.9023712873458862),
 ('MOVIE_ID = 104437', 0.8989337682723999)]

In [6]:
def movie_id2name(similar):
    idx = similar[0].split(' = ')[1]
    return (idx2movie.get(idx, 'unknown'), similar[1])

In [7]:
for similar in doc2vec_model.docvecs.most_similar(2, topn=3):
    print(movie_id2name(similar))

('굿 리든스', 0.8687160015106201)
('절규학급', 0.8409669995307922)
('이프 온리', 0.8368774056434631)


송강호가 나왔던 영화 '관상'의 아이디를 찾기 위해서 movie2idx의 (key, value)를 for loop으로 돌면서 아이디를 찾았습니다. 영화 이름에 관상이 들어갔던 영화가 한 개 있었고, 아이디가 93728임을 확인합니다. 

In [8]:
for movie, idx in movie2idx.items():
    if '관상' in movie:
        print(movie, idx)

관상 93728


관상과 출연배우가 비슷한 영화를 찾았으나, 영화로는 잘 나오지 않았습니다. 사실 영화 자체가 배우 정보만 가지고 임베딩이 되기는 어렵습니다. 왜냐면 배우가 많아야 몇 십 편의 영화에 겨우 등장하며, 우리는 주연배우들에 의해서 영화 배우가 비슷하다고 판단하겠지만, 이 연습코드에서는 모든 배우의 중요도가 동일하였기 때문입니다. 

이 예시에서 한 가지 알 수 있는 것은, 임베딩을 학습하고 싶은 객체들을 잘 표현할 수 있는 데이터가 있어야 한다는 것입니다. 단순히 [영화 | 배우1, 배우2, ... ] 정보만으로는 임베딩이 어려울 수 있습니다

만약 주연 배우들의 힘을 더 실어주고 싶다면, 배우1이 4배, 배우2가 3배 더 중요하다면, 

    영화1 | 배우1 배우1 배우1 배우1 배우2 배우2 배우2 배우3 ...
    
와 같이 배우를 복제하고, Doc2Vec모델의 argument window를 크게 잡아줄 수 있습니다. 물론 임시방편인 방법입니다. 

In [9]:
for similar in doc2vec_model.docvecs.most_similar('MOVIE_ID = 93728', topn=30):
    print(movie_id2name(similar))

('굿나잇, 너스!', 0.8655471801757812)
('왼손잡이 건맨', 0.8640511631965637)
('접속', 0.8623619079589844)
('아미 와이브즈 5', 0.8581990003585815)
('버스맨스 허니문', 0.8581738471984863)
('피터 벨 2', 0.8568110466003418)
('버닝 무솔리니', 0.8526193499565125)
('제로법칙의 비밀', 0.8519428968429565)
('디스 이즈 낫 어 필름', 0.8476607203483582)
('런딤', 0.8446391820907593)
('장미꽃 인생', 0.8395183086395264)
('페리 메이슨 - 페이틀 패션의 사건', 0.8370150327682495)
('진흙투성이의 순정', 0.8367434740066528)
('내 인생 최악의 시간', 0.8352347612380981)
('꽃의 그림자', 0.8331757187843323)
('부탁해요 캡틴', 0.8324490785598755)
('나잇 해즈 세틀드', 0.8324489593505859)
('어쩌면 좋아', 0.8302420377731323)
('브랜드 X', 0.8274993896484375)
('백년해로외전', 0.8257485628128052)
('황금사과', 0.8240633606910706)
('금색의 갓슈벨!!', 0.8231173753738403)
('크리스마스의 정신', 0.822810173034668)
('장한몽', 0.8213444948196411)
('불침번', 0.8207011222839355)
('더 디바이스', 0.8206059336662292)
('매드 카우걸', 0.8202925324440002)
('스테이 엣 홈 대드', 0.819000244140625)
('인형의 집으로 오세요', 0.8172929883003235)
('주온 : 끝의 시작', 0.8167964816093445)


배우는 혹시 임베딩이 잘 되었는지 살펴보겠습니다

In [10]:
actor_names = ['송강호', '톰 크루즈', '안성기', '이선균', '장국영', '장쯔이']
for actor, idx in actor2idx.items():
    for actor_name in actor_names:
        if actor_name in actor:
            print(actor_name, idx)

장국영 1945
송강호 1824
안성기 1843
장쯔이 2372
이선균 8017
톰 크루즈 1558


In [11]:
doc2vec_model.most_similar('1843')

[('1909', 0.9617005586624146),
 ('5045', 0.960282027721405),
 ('13897', 0.9556567072868347),
 ('41440', 0.947878897190094),
 ('1740', 0.9475716352462769),
 ('7209', 0.946642279624939),
 ('5933', 0.9448981285095215),
 ('5346', 0.9447262287139893),
 ('3638', 0.9445951581001282),
 ('2805', 0.9440857172012329)]

In [12]:
def actor_id2name(similar):
    idx = similar[0]
    return (idx2actor.get(idx, 'unknown'), similar[1])

In [13]:
print('탐 크루즈\n')
for similar in doc2vec_model.most_similar('1558'):
    print(actor_id2name(similar))

탐 크루즈

('사카이 마키', 0.8065541982650757)
('지나 데이비스', 0.7978200912475586)
('제이콥 티에니', 0.7860967516899109)
('안젤리나 졸리', 0.7848314046859741)
('마에다 아츠코', 0.7790137529373169)
('숀 펜', 0.7760391235351562)
('칸노 미호', 0.7748314142227173)
('스티븐 도프', 0.7739953994750977)
('경첨', 0.7696320414543152)
('도노반 리치', 0.7681148052215576)


탐크루즈와 다르게 송강호는 한국배우들이 비슷한 출연을 했음을 확인할 수 있습니다

In [14]:
print('송강호\n')
for similar in doc2vec_model.most_similar('1824'):
    print(actor_id2name(similar))

송강호

('정은찬', 0.8827294111251831)
('송윤아', 0.8770734071731567)
('김영철', 0.877036452293396)
('이성재', 0.8764359951019287)
('최진실', 0.8740487098693848)
('유해진', 0.8725756406784058)
('장동건', 0.8725429177284241)
('한석규', 0.8697895407676697)
('박주미', 0.8678199052810669)
('박상민', 0.8644896745681763)


안성기 배우는 연기 생활의 경력이 많기 때문에 오래전에 활동하셨던 김무생, 유인촌, 신구 등의 배우와 유사성이 있음을 확인할 수 있습니다. 영화는 학습이 잘 되지 않았지만, 배우는 아주 조금은 학습이 되었음을 확인할 수 있습니다. 

In [15]:
print('안성기\n')
for similar in doc2vec_model.most_similar('1843'):
    print(actor_id2name(similar))

안성기

('이영하', 0.9617005586624146)
('이대근', 0.960282027721405)
('김추련', 0.9556567072868347)
('김성원', 0.947878897190094)
('김영애', 0.9475716352462769)
('김형자', 0.946642279624939)
('오지명', 0.9448981285095215)
('이덕화', 0.9447262287139893)
('김인문', 0.9445951581001282)
('백일섭', 0.9440857172012329)


젊은 배우 이선균을 검색하면 이러한 경향을 좀 더 확인할 수 있습니다

In [16]:
print('이선균\n')
for similar in doc2vec_model.most_similar('8017'):
    print(actor_id2name(similar))

이선균

('이범수', 0.8889484405517578)
('안재욱', 0.8628469109535217)
('김학철', 0.861051082611084)
('정유석', 0.8214874267578125)
('아오야기 타쿠지', 0.8210334181785583)
('이종원', 0.8207852840423584)
('류시원', 0.8195484280586243)
('임정은', 0.8169041275978088)
('손지창', 0.8159898519515991)
('김창완', 0.8156076073646545)


홍콩 배우 장국영을 검색하니 다른 홍콩 배우들이 등장함을 볼 수 있습니다

In [17]:
print('장국영\n')
for similar in doc2vec_model.most_similar('1945'):
    print(actor_id2name(similar))
    

장국영

('묘교위', 0.9512731432914734)
('오진우', 0.9509273767471313)
('양가휘', 0.931984543800354)
('강대위', 0.9318231344223022)
('장학우', 0.9307529330253601)
('유조명', 0.9307466745376587)
('정유령', 0.9300217628479004)
('양조위', 0.9296220541000366)
('고웅', 0.9274347424507141)
('왕정', 0.9264174699783325)


In [18]:
print('장쯔이\n')
for similar in doc2vec_model.most_similar('2372'):
    print(actor_id2name(similar))

장쯔이

('엽자미', 0.90749192237854)
('양쟁', 0.9043419361114502)
('잠건훈', 0.8943353891372681)
('매염방', 0.8912010192871094)
('금성무', 0.8902051448822021)
('르네 젤위거', 0.8850648999214172)
('조문선', 0.8823875784873962)
('나혜연', 0.8799622058868408)
('오우삼', 0.8738588690757751)
('리지', 0.8735145926475525)
