In [48]:
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument
from natto import MeCab

In [8]:
movies1 = pd.read_csv("./movies_data.csv")
movies2 = pd.read_csv("../scraping/data/result.csv", encoding = "shift-jis")

### merge movies1's synopsis and movies2's image words to one dataframe

In [54]:
synopsis_df = movies1.drop(["Unnamed: 0","year","country","director","image_word","score"], axis=1)
image_df = movies2.drop(["監督", "監督", "原作", "脚本", "総合評価"], axis=1)
image_df = image_df.rename(columns={"タイトル":"title"})

In [55]:
synopsis_df = synopsis_df.set_index("title")
image_df = image_df.set_index("title")

In [215]:
movies_df = synopsis_df.join(image_df, how="inner")
movies_df.to_csv("./training_data.csv")

In [159]:
movies_synopsis_df = pd.DataFrame(movies_df.synopsis)
movies_image_df = movies_df.drop("synopsis", axis=1)

In [160]:
movies_synopsis_df = movies_synopsis_df.reset_index()
movies_synopsis_df

Unnamed: 0,title,synopsis
0,50回目のファーストキス,2004年製作のアダム・サンドラー、ドリュー・バリモア共演作『50回目のファースト・キス』を...
1,8番目の男,韓国で2008年に導入された国民参与裁判制度をテーマにした法廷サスペンス。メガホンを取ったホ...
2,CLIMAX クライマックス,『エンター・ザ・ボイド』『LOVE【3D】』などのギャスパー・ノエがメガホンを取った異色作。...
3,HELLO WORLD,『ソードアート・オンライン』シリーズなどの伊藤智彦が監督を務めたSFロマンス。未来で結ばれる...
4,HiGH&LOW THE WORST,『HiGH&LOW』シリーズと人気コミック「クローズ」「WORST」がクロスオーバーしたアク...
5,IT／イット,S・キング原作によるTVムービーで、“IT”と呼ばれる何者かに付け狙われ恐怖に陥れられた男...
6,IT／イット THE END “それ”が見えたら、終わり。,作家スティーヴン・キングの原作を実写化したホラー『IT/イット “それ”が見えたら、終わり。...
7,IT／イット “それ”が見えたら、終わり。,1990年に映像化されたスティーヴン・キングのホラー小説を、『MAMA』で注目を浴びたアンデ...
8,LIFE！/ライフ,凡庸で空想癖のある主人公が未知なる土地への旅を経て変化していくさまを、ベン・スティラー監督・...
9,NO SMOKING,音楽家の細野晴臣に迫ったドキュメンタリー。幼少期の音楽との出会いから、はっぴいえんど、YMO...


### convert synopsises to lists of words

In [161]:
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(common_texts)]
model = Doc2Vec(documents, vector_size=5, window=2, min_count=1, workers=4)

In [162]:
def txt2words(txt):
    posid = [36,37,38,40,41,42,43,44,45,46,47,50,51,52,66,67,2,31,36,10,34]
    words = []
    parser = MeCab()
    nodes = parser.parse(txt,as_nodes=True)
    for node in nodes:
        if not node.is_eos():
            feature = node.feature.split(',')
            if node.posid in posid and feature[6] != "*":
                words.append(feature[6]) 
    return words

### train doc2vec model

In [187]:
from gensim.models.doc2vec import Doc2Vec, TaggedDocument

# Convert synopsis words to a TaggedDocument for each movie
train_docs = [TaggedDocument(txt2words(synopsis), [i]) for i, synopsis in enumerate(movies_synopsis_df.synopsis)]

#  train model
model = Doc2Vec(documents= train_docs, dm = 1, vector_size=300, window=8, min_count=2, workers=4)
model.save("./doc2vec.model")


In [188]:
model = Doc2Vec.load("./doc2vec.model")

In [214]:
docvecs = np.array(model.docvecs[0])

array([ 2.15331835e-04,  6.54359930e-04, -1.25110440e-03, -1.28142897e-03,
       -1.76764472e-04,  1.26419147e-03, -1.28027645e-03, -1.27690600e-03,
        1.53584604e-03, -3.73848248e-04, -1.68703811e-03,  1.36117637e-03,
        8.83060216e-04, -4.12466325e-04,  4.13776783e-04, -1.69757113e-05,
        1.67476630e-03, -1.46481895e-03, -1.63131021e-03,  1.23717869e-03,
       -1.42040825e-03,  1.79901824e-03, -3.32031894e-04,  9.27317073e-04,
        1.43236516e-03,  6.69463014e-04,  5.80627937e-04,  1.62643660e-03,
        4.40376374e-04,  9.98738920e-04,  8.96894839e-04, -2.44569237e-04,
       -6.35494769e-04, -8.82373424e-04,  1.14875403e-03,  2.37842542e-04,
       -1.06120331e-03, -2.03841308e-04, -1.24421160e-04, -6.87704247e-04,
       -1.14282581e-03,  1.77073153e-03, -1.46997697e-03, -9.28435242e-04,
        1.12139329e-03, -5.42444061e-04,  6.05380512e-04,  9.60963953e-04,
       -1.17275654e-03, -1.19682273e-03, -1.80998002e-03,  9.64274514e-04,
        8.79088475e-04,  