# Movie recommender using tf-idf

* database : 148 movies from https://movies.yahoo.co.jp/
* based on : synopsis, image words, rate/score of a movie
* algorism : Morphological Anaysis, TF-IDF, Cosine similarity

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
movies = pd.read_csv("./data/training_data.csv")

In [3]:
print(len(movies))
movies

148


Unnamed: 0,title,synopsis,score,泣ける,笑える,楽しい,悲しい,ファンタジー,スペクタクル,ゴージャス,...,不気味,恐怖,勇敢,知的,絶望的,切ない,セクシー,かわいい,かっこいい,コミカル
0,50回目のファーストキス,2004年製作のアダム・サンドラー、ドリュー・バリモア共演作『50回目のファースト・キス』を...,3.76,12.303881,18.579686,14.368291,0.000000,0.000000,0.000000,0.000000,...,0.000000,0.000000,0.000000,0.000000,0.000000,9.661437,0.000000,0.000000,0.000000,10.734930
1,8番目の男,韓国で2008年に導入された国民参与裁判制度をテーマにした法廷サスペンス。メガホンを取ったホ...,3.67,0.000000,0.000000,0.000000,10.000000,0.000000,0.000000,0.000000,...,10.000000,0.000000,10.000000,10.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
2,CLIMAX クライマックス,『エンター・ザ・ボイド』『LOVE【3D】』などのギャスパー・ノエがメガホンを取った異色作。...,3.10,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,...,10.810811,18.918919,0.000000,0.000000,18.918919,0.000000,13.513514,0.000000,10.810811,0.000000
3,HELLO WORLD,『ソードアート・オンライン』シリーズなどの伊藤智彦が監督を務めたSFロマンス。未来で結ばれる...,3.52,8.113804,0.000000,0.000000,0.000000,13.804004,7.903056,0.000000,...,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,8.535300,0.000000,0.000000
4,HiGH&LOW THE WORST,『HiGH&LOW』シリーズと人気コミック「クローズ」「WORST」がクロスオーバーしたアク...,3.82,10.745614,12.500000,16.885965,0.000000,0.000000,0.000000,4.824561,...,0.000000,0.000000,12.280702,0.000000,0.000000,0.000000,0.000000,0.000000,20.614035,0.000000
5,IT／イット,S・キング原作によるTVムービーで、“IT”と呼ばれる何者かに付け狙われ恐怖に陥れられた男...,3.07,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,...,19.930070,19.930070,10.139860,0.000000,6.293706,0.000000,0.000000,0.000000,0.000000,0.000000
6,IT／イット THE END “それ”が見えたら、終わり。,作家スティーヴン・キングの原作を実写化したホラー『IT/イット “それ”が見えたら、終わり。...,3.31,0.000000,8.767471,0.000000,0.000000,5.463787,0.000000,0.000000,...,13.087675,13.341804,8.259212,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
7,IT／イット “それ”が見えたら、終わり。,1990年に映像化されたスティーヴン・キングのホラー小説を、『MAMA』で注目を浴びたアンデ...,3.37,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,...,14.642325,15.611028,11.251863,0.000000,5.476900,0.000000,0.000000,0.000000,0.000000,0.000000
8,LIFE！/ライフ,凡庸で空想癖のある主人公が未知なる土地への旅を経て変化していくさまを、ベン・スティラー監督・...,3.82,0.000000,12.439222,15.599676,0.000000,8.630470,0.000000,0.000000,...,0.000000,0.000000,10.089141,0.000000,0.000000,0.000000,0.000000,0.000000,9.643436,8.508914
9,NO SMOKING,音楽家の細野晴臣に迫ったドキュメンタリー。幼少期の音楽との出会いから、はっぴいえんど、YMO...,4.32,0.000000,14.285714,28.571429,0.000000,0.000000,0.000000,0.000000,...,0.000000,0.000000,0.000000,14.285714,0.000000,0.000000,0.000000,0.000000,28.571429,0.000000


In [4]:
synopsis_df = pd.DataFrame([movies.synopsis, movies.title]).T
synopsis_df = synopsis_df.set_index("title")
synopsis_df

Unnamed: 0_level_0,synopsis
title,Unnamed: 1_level_1
50回目のファーストキス,2004年製作のアダム・サンドラー、ドリュー・バリモア共演作『50回目のファースト・キス』を...
8番目の男,韓国で2008年に導入された国民参与裁判制度をテーマにした法廷サスペンス。メガホンを取ったホ...
CLIMAX クライマックス,『エンター・ザ・ボイド』『LOVE【3D】』などのギャスパー・ノエがメガホンを取った異色作。...
HELLO WORLD,『ソードアート・オンライン』シリーズなどの伊藤智彦が監督を務めたSFロマンス。未来で結ばれる...
HiGH&LOW THE WORST,『HiGH&LOW』シリーズと人気コミック「クローズ」「WORST」がクロスオーバーしたアク...
IT／イット,S・キング原作によるTVムービーで、“IT”と呼ばれる何者かに付け狙われ恐怖に陥れられた男...
IT／イット THE END “それ”が見えたら、終わり。,作家スティーヴン・キングの原作を実写化したホラー『IT/イット “それ”が見えたら、終わり。...
IT／イット “それ”が見えたら、終わり。,1990年に映像化されたスティーヴン・キングのホラー小説を、『MAMA』で注目を浴びたアンデ...
LIFE！/ライフ,凡庸で空想癖のある主人公が未知なる土地への旅を経て変化していくさまを、ベン・スティラー監督・...
NO SMOKING,音楽家の細野晴臣に迫ったドキュメンタリー。幼少期の音楽との出会いから、はっぴいえんど、YMO...


### Morphological Anaysis Function

In [5]:
from natto import MeCab
import logging
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

def parse2df(text, sysdic="/usr/local/lib/mecab/dic/naist-jdic"):
    """文毎に形態素解析を行い、結果をdataframeに格納して返す
    Args:
      text:形態素解析対象のテキスト
    Returns:
      形態素解析結果を格納したdataframe
      カラムは['文番号','表層', '品詞1','品詞2','品詞3','品詞4','原型','posID']
    """
    #結果格納用の空のDataFrame
    df = pd.DataFrame(index=[], columns=['文番号','表層', '品詞1','品詞2','品詞3','品詞4','原型','posID'])
    
    text = text.split("\n") #改行で分割して配列にする
    while '' in text: #空行は削除
        text.remove('')
    
    parser = MeCab("-d "+sysdic)

    for index,sentence in enumerate(text): 
        logging.debug(sentence)
        nodes = parser.parse(sentence,as_nodes=True)
        for node in nodes:
            if not node.is_eos():
                #品詞情報を分割
                feature = node.feature.split(',')
                #dataframeに追加
                series = pd.Series( [
                    index,          #文番号
                    node.surface,   #表層
                    feature[0],     #品詞1
                    feature[1],     #品詞2     
                    feature[2],     #品詞3
                    feature[3],     #品詞4
                    feature[6],     #原型
                    node.posid      #品詞番号
                ], index=df.columns)
                df = df.append(series, ignore_index = True)
    logging.debug("End : parse2df")            
    return df

### Analyze each movie's synopsis 

In [6]:
synopsis_df = synopsis_df.synopsis.apply(lambda x : parse2df(x))

DEBUG:root:2004年製作のアダム・サンドラー、ドリュー・バリモア共演作『50回目のファースト・キス』を原案としたラブストーリー。新たな記憶を一夜で失ってしまう美女と、彼女に心奪われて何回もアプローチする青年の姿を描く。メガホンを取るのは『銀魂』などの福田雄一。ドラマシリーズ「勇者ヨシヒコと魔王の城」などで福田監督と組んできた山田孝之、『散歩する侵略者』などの長澤まさみが、主人公の男女を演じる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:韓国で2008年に導入された国民参与裁判制度をテーマにした法廷サスペンス。メガホンを取ったホン・スンワン監督は、複数の判事と直接会うなど綿密なリサーチを重ね、類似した事件や裁判の判決文を参考に脚本を執筆した。 陪審員の一人をドラマ「SUITS/スーツ」などのパク・ヒョンシク、裁判官を『オアシス』などのムン・ソリが演じる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:『エンター・ザ・ボイド』『LOVE【3D】』などのギャスパー・ノエがメガホンを取った異色作。ドラッグの入った酒を飲んだダンサーたちがトランス状態に陥る。『キングスマン』などのソフィア・ブテラらが出演し、プロのダンサーたちが共演した。ダフト・パンクやザ・ローリング・ストーンズの楽曲が使用されている。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:『ソードアート・オンライン』シリーズなどの伊藤智彦が監督を務めたSFロマンス。未来で結ばれる相手が事故死すると聞かされた男子高校生が、その運命を変えようとする。ボイスキャストは『君は月夜に光り輝く』などの北村匠海、『孤狼の血』などの松坂桃李、『賭ケグルイ』シリーズなどの浜辺美波のほか福原遥、寿美菜子、釘宮理恵、子安武人ら。主題歌をOKAMOTO'S、Official髭男dism、Nulbari

DEBUG:root:『最後の追跡』などの脚本を手掛けてきたテイラー・シェリダンが監督と脚本を務めたサスペンス。ある事件を調べる女性FBI捜査官と地元のハンターが、思わぬ真相にたどり着く。『アベンジャーズ』シリーズなどのジェレミー・レナー、『マーサ、あるいはマーシー・メイ』などのエリザベス・オルセン、『スウィート・ヘル』などのジョン・バーンサルらが出演。『最後の追跡』で音楽を担当したニック・ケイヴ、ウォーレン・エリスが本作でも組んでいる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:『レッド・オクトーバーを追え!』などの原作で知られる、トム・クランシーの人気小説「ジャック・ライアン」シリーズを新たに実写化したサスペンスアクション。投資銀行員という表向きの顔を持つCIA情報分析アナリストのジャック・ライアンが、世界恐慌勃発を狙う巨大な陰謀に立ち向かう。主演は『スター・トレック』シリーズのクリス・パイン。共演には、監督も務めるケネス・ブラナーに『プライドと偏見』などのキーラ・ナイトレイ、ベテランのケヴィン・コスナーと、実力派が結集する。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:監督・俳優養成の専門学校「ENBUゼミナール」のシネマプロジェクト第7弾となる異色ゾンビムービー。オムニバス『4/猫　－ねこぶんのよん－』の一作を担当した上田慎一郎が監督と脚本と編集を務めた。ゾンビ映画を撮っていたクルーが本物のゾンビに襲われる様子を、およそ37分に及ぶワンカットのサバイバルシーンを盛り込んで活写する。出演者は、オーディションで選ばれた無名の俳優たち。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:インドのヒップホップアーティスト、Naezyの軌跡をベースにしたヒューマンドラマ。スラムに生まれ育った青年がヒップホップと出会って希望を見いだす。メガホン

DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:大ヒットシリーズ『ターミネーター』に、『ターミネーター3』以来となるアーノルド・シュワルツェネッガーが戻ってきたSFアクション大作。将来人類反乱軍を率いることになる男の母親を闇に葬るため、未来から送り込まれた殺りくマシンことターミネーターと、同型の古いターミネーターの直接対決を描く。監督は『マイティ・ソー/ダーク・ワールド』などのアラン・テイラー。およそ12年ぶりに本シリーズに復帰したシュワルツェネッガーの熱演はもとより、新たな展開に息をのむ。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root: 映画『バットマン ビギンズ』の続編で、バットマンの最凶最悪の宿敵であるジョーカーの登場で混乱に陥ったゴッサムシティを守るべく、再びバットマンが死闘を繰り広げるアクション大作。監督は前作から続投のクリストファー・ノーラン。またクリスチャン・ベイルも主人公、バットマンを再び演じる。そして敵役のジョーカーを演じるのは2008年1月に亡くなったヒース・レジャー。シリーズで初めてタイトルからバットマンを外し、新たな世界観を広げたダークな展開に目が離せない。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root: 鬼才クリストファー・ノーラン監督が、『ダークナイト』に続いて放つアクション大作。8年間平和を保ってきたゴッサム・シティを狙うベインが出現し、再びダークナイト（バットマン）と激しい攻防を繰り広げる様子を映し出す。今回も主演のクリスチャン・ベイルをはじめ、マイケル・ケインやゲイリー・オールドマンらが続投。新キャストのアン・ハサウェイやトム・ハーディらと共に見せる、最終章にふさわしい壮絶なストーリー展開に熱狂する。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf

DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:東野圭吾の小説「マスカレード」シリーズ第1弾「マスカレード・ホテル」を実写化したミステリー。連続殺人事件の新たな現場になるとされたホテルを舞台に、エリート刑事とホテルの従業員が犯人を追う。主演は『HERO』シリーズや『武士の一分(いちぶん)』などの木村拓哉、バディ役は『散歩する侵略者』などの長澤まさみ。『HERO』シリーズで木村と組んだ鈴木雅之がメガホンを取る。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:芥川賞作家・平野啓一郎の小説を原作にした恋愛ドラマ。日本、パリ、ニューヨークを舞台に、共に40代の男女が惹(ひ)かれ合う姿を描く。『そして父になる』などの福山雅治と『北の零年』などの石田ゆり子らが出演。メガホンを取るのは、福山が出演したドラマシリーズ「ガリレオ」や『容疑者Xの献身』などの西谷弘。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:ディズニーアニメ『眠れる森の美女』ではオーロラ姫に呪いをかけた悪役だった、邪悪な妖精マレフィセントを主人公とするダークファンタジー。マレフィセントをアンジェリーナ・ジョリーが演じ、彼女の封印された過去とオーロラ姫を永遠の眠りにつかせる呪いをかけた理由が明かされる。監督は、『アバター』などのプロダクションデザインを手掛けたロバート・ストロンバーグ。エル・ファニングやアンジーの娘ヴィヴィアン・ジョリー=ピットが共演。おとぎの国のごとく幻想的で美しく、一方でダークな映像世界に期待できる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:アンジェリーナ・ジョリーふんする、『眠れる森の美女』のオーロラ姫に呪いをかけたマレフィセ

DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:住野よるの小説を映画化。膵臓（すいぞう）の病を患う高校生と同級生の“僕”の交流を、現在と過去の時間軸を交差させて描く。『エイプリルフールズ』などの浜辺美波と『あやしい彼女』などの北村匠海が主演を務め、現在の僕を小栗旬、ヒロインの親友を北川景子が演じる。監督は『黒崎くんの言いなりになんてならない』などの月川翔、脚本は『アオハライド』などの吉田智子が担当。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root: 不倫を忌み嫌っていたはずの中年サラリーマンがふとしたことから派遣社員と恋に落ち、やがて相手から思いも寄らぬ秘密を打ち明けられ、情愛と現実のはざまで関係がねじれていく姿を描くラブストーリー。累計120万部を突破した東野圭吾のベストセラー小説を原作に、『沈まぬ太陽』の若松節朗監督が恋愛地獄に落ちた男の苦悩をドラマチックに描出。不倫にとらわれる主人公を岸谷五朗が演じるほか、その相手役の深田恭子ら演技派キャストの好演も見逃せない。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:『秒速5センチメートル』などの新海誠監督が、『君の名は。』以来およそ3年ぶりに発表したアニメーション。天候のバランスが次第に崩れていく現代を舞台に、自らの生き方を選択する少年と少女を映し出す。ボイスキャストは、舞台「『弱虫ペダル』新インターハイ篇」シリーズなどの醍醐虎汰朗とドラマ「イアリー 見えない顔」などの森七菜ら。キャラクターデザインを、『君の名は。』などの田中将賀が担当した。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:熱血営業マンが悪戦苦闘しながら成長する姿を描いた新井英樹の漫画を、実

DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:　渡哲也と永瀬正敏が主演のサスペンス・ミステリー。東昭物産の常務が誘拐された。犯人グループは身代金3億円に加え、身代金受け渡しのテレビ中継を要求してきた。犯人に指名された運び人は3億円入りのカバンを抱え、命じられるままに東京中を走り回った末に倒れてしまう。テレビクルーを装った津波警部(渡)が後を引き継ぐが、彼も力尽き、藤刑事(永瀬)が引き継ぐが……。街中での大規模なロケーション撮影を敢行している。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:鈴木光司のベストセラー小説「リング」シリーズの一つ「タイド」を原作にしたホラー。記憶を失ってしまった少女と向き合う心理カウンセラーの女性が怪現象に見舞われる。メガホンを取るのは、『リング』シリーズや『スマホを落としただけなのに』などの中田秀夫。『映画 みんな!エスパーだよ!』『一礼して、キス』などの池田エライザがヒロインを演じる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:『駅 STATION』『鉄道員（ぽっぽや）』などの降旗康男監督と撮影の木村大作がタッグを組み、『永遠の0』などの岡田准一が主演を務めたミステリードラマ。主人公の刑事が殺害現場で遺体となった幼なじみと対面し、共通の旧友が容疑者として浮上、事件の真相と3人の男の封印された過去が次第に明かされる。主人公の旧友に小栗旬と柄本佑、ほかに長澤まさみ、木村文乃らが共演。友人の死をめぐって現在と過去が交錯する展開と重厚なドラマが堪能できる。
DEBUG:root:End : parse2df
DEBUG:natto.environment:defaulting MeCab charset to utf8

DEBUG:root:田中芳樹の小説シリーズを原作にしたアニメの続編として、劇場で上映されるセカ

In [7]:
synopsis_df = pd.DataFrame(synopsis_df)
synopsis_df = synopsis_df.reset_index()
synopsis_df

Unnamed: 0,title,synopsis
0,50回目のファーストキス,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...
1,8番目の男,文番号 表層 品詞1 品詞2 品詞3 品詞4 原型 po...
2,CLIMAX クライマックス,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...
3,HELLO WORLD,文番号 表層 品詞1 品詞2 品詞3 品詞4 原...
4,HiGH&LOW THE WORST,文番号 表層 品詞1 品詞2 品詞3 品詞4 原型 p...
5,IT／イット,文番号 表層 品詞1 品詞2 品詞3 品...
6,IT／イット THE END “それ”が見えたら、終わり。,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...
7,IT／イット “それ”が見えたら、終わり。,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...
8,LIFE！/ライフ,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...
9,NO SMOKING,文番号 表層 品詞1 品詞2 品詞3 品詞4 ...


### Calculate TF-IDF for each movie

In [68]:
docs = []

for df in synopsis_df.synopsis.values:
    df2 = df[df["posID"].isin([37,38,40,41,42,43,44,45,46,47,50,51,52,66,67,2,31,36,10,34])]
    stop_words = ["する","ある","なる","あり","ない","ところ","ため","*"]
    df2 = df2[~df2["原型"].isin(stop_words )]  
    words = " ".join(df2['原型'])
    docs.append(words)

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vecs = vectorizer.fit_transform(docs)
         

In [81]:
tfidf_df = pd.DataFrame(vecs.toarray(),columns=vectorizer.get_feature_names())
tfidf_df["title"] = synopsis_df.title
tfidf_df = tfidf_df.set_index("title")

In [82]:
print(len(tfidf_df.columns))

# データフレームの各列を正規化
# tfidf_df = tfidf_df.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))
tfidf_df

2731


Unnamed: 0_level_0,1月,3月,8月,あえて,あおい,あすか,あふれる,あむ,あやしい,いく,...,黒,黒人,黒土,黒崎,黒幕,黒沢,黙々と,龍,龍一,龍平
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
50回目のファーストキス,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
8番目の男,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
CLIMAX クライマックス,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
HELLO WORLD,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
HiGH&LOW THE WORST,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
IT／イット,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
IT／イット THE END “それ”が見えたら、終わり。,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
IT／イット “それ”が見えたら、終わり。,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
LIFE！/ライフ,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.000000,0.00000
NO SMOKING,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,0.000000,0.0,0.0,...,0.0,0.000000,0.000000,0.0,0.000000,0.0,0.000000,0.0,0.186786,0.00000


### merge tfidf vector and image_word vector

In [83]:
image_df = movies.drop("synopsis", axis = 1).set_index("title")
movie_vec_df = pd.concat([image_df, tfidf_df], axis=1, sort = False)

In [84]:
movie_vec_df = movie_vec_df.apply(lambda x: (x - np.mean(x)) / (np.max(x) - np.min(x)))
movie_vec_df

Unnamed: 0_level_0,score,泣ける,笑える,楽しい,悲しい,ファンタジー,スペクタクル,ゴージャス,ロマンチック,不思議,...,黒,黒人,黒土,黒崎,黒幕,黒沢,黙々と,龍,龍一,龍平
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
50回目のファーストキス,0.024462,0.199090,0.501328,0.316368,-0.189013,-0.100552,-0.037179,-0.049559,0.392613,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
8番目の男,-0.012272,-0.237800,-0.187329,-0.186522,0.279408,-0.100552,-0.037179,-0.049559,-0.069617,0.504237,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
CLIMAX クライマックス,-0.244926,-0.237800,-0.187329,-0.186522,-0.189013,-0.100552,-0.037179,-0.049559,-0.069617,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
HELLO WORLD,-0.073497,0.050307,-0.187329,-0.186522,-0.189013,0.537630,0.160397,-0.049559,0.271649,0.439906,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
HiGH&LOW THE WORST,0.048952,0.143759,0.275984,0.404487,-0.189013,-0.100552,-0.037179,0.229927,-0.069617,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
IT／イット,-0.257170,-0.237800,-0.187329,-0.186522,-0.189013,-0.100552,-0.037179,-0.049559,-0.069617,0.275682,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
IT／イット THE END “それ”が見えたら、終わり。,-0.159211,-0.237800,0.137638,-0.186522,-0.189013,0.152048,-0.037179,-0.049559,-0.069617,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
IT／イット “それ”が見えたら、終わり。,-0.134721,-0.237800,-0.187329,-0.186522,-0.189013,-0.100552,-0.037179,-0.049559,-0.069617,0.239098,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
LIFE！/ライフ,0.048952,-0.237800,0.273731,0.359467,-0.189013,0.298449,-0.037179,-0.049559,-0.069617,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757
NO SMOKING,0.253034,-0.237800,0.342172,0.813478,-0.189013,-0.100552,-0.037179,-0.049559,-0.069617,-0.112430,...,-0.006757,-0.009875,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,-0.006757,0.993243,-0.006757


### Show the top5 tf-idf words of each movie

In [85]:
for index, row in tfidf_df.iterrows():
    print("title:"+index)
    print(row.nlargest(5))

title:50回目のファーストキス
福田       0.379478
アプローチ    0.189739
ファースト    0.189739
勇者       0.189739
銀        0.189739
Name: 50回目のファーストキス, dtype: float64
title:8番目の男
裁判      0.351560
オアシス    0.190309
スーツ     0.190309
リサーチ    0.190309
会う      0.190309
Name: 8番目の男, dtype: float64
title:CLIMAX クライマックス
ダンサー    0.506022
ドラッグ    0.253011
プロ      0.253011
楽曲      0.253011
飲む      0.253011
Name: CLIMAX クライマックス, dtype: float64
title:HELLO WORLD
アート      0.166198
オンライン    0.166198
ソード      0.166198
ロマンス     0.166198
事故死      0.166198
Name: HELLO WORLD, dtype: float64
title:HiGH&LOW THE WORST
クローズ       0.498222
シリーズ       0.182326
クロスオーバー    0.166074
ヒロシ        0.166074
久保         0.166074
Name: HiGH&LOW THE WORST, dtype: float64
title:IT／イット
期       0.371462
キング     0.332779
原作      0.202320
ムービー    0.201083
付け狙う    0.201083
Name: IT／イット, dtype: float64
title:IT／イット THE END “それ”が見えたら、終わり。
ふん       0.245284
イット      0.245284
ビル       0.245284
余儀ない     0.245284
逃げ延びる    0.245284
Name: IT／イット THE END “それ”が見

### Calculate cosine similarity of every two movies vectors

In [86]:
vectors = movie_vec_df.values
vectors

array([[ 0.02446222,  0.19909029,  0.50132778, ..., -0.00675676,
        -0.00675676, -0.00675676],
       [-0.01227248, -0.23780042, -0.18732878, ..., -0.00675676,
        -0.00675676, -0.00675676],
       [-0.24492554, -0.23780042, -0.18732878, ..., -0.00675676,
        -0.00675676, -0.00675676],
       ...,
       [ 0.30201324,  0.21591758, -0.18732878, ..., -0.00675676,
        -0.00675676, -0.00675676],
       [-0.05717044,  0.50729315, -0.18732878, ..., -0.00675676,
        -0.00675676, -0.00675676],
       [-0.07349697,  0.52309313,  0.07742141, ..., -0.00675676,
        -0.00675676, -0.00675676]])

In [87]:
from sklearn.metrics.pairwise import cosine_similarity
similarity_df = pd.DataFrame(cosine_similarity(vectors), columns=list(synopsis_df.title))
similarity_df["title"] = synopsis_df.title
similarity_df = similarity_df.set_index("title")
np.fill_diagonal(similarity_df.values, 0)
similarity_df

Unnamed: 0_level_0,50回目のファーストキス,8番目の男,CLIMAX クライマックス,HELLO WORLD,HiGH&LOW THE WORST,IT／イット,IT／イット THE END “それ”が見えたら、終わり。,IT／イット “それ”が見えたら、終わり。,LIFE！/ライフ,NO SMOKING,...,蜜蜂と遠雷,蝉しぐれ,見えない目撃者,記憶にございません！,誘拐,貞子,追憶,銀河英雄伝説　Die Neue These　星乱　第二章,閉鎖病棟―それぞれの朝―,駅までの道をおしえて
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
50回目のファーストキス,0.000000,-0.001997,0.014060,-0.037497,-0.023202,-0.035111,-0.019993,-0.062136,-0.011739,-0.026222,...,-0.011895,-0.030835,0.015825,0.072627,-0.039566,0.107027,0.029777,-0.038268,-0.049048,-0.003336
8番目の男,-0.001997,0.000000,0.034010,-0.019760,-0.035783,0.005102,-0.005196,-0.010948,-0.031314,-0.027616,...,-0.006080,-0.030204,0.081075,0.027400,0.009211,0.020992,-0.016946,-0.018483,-0.026372,-0.027028
CLIMAX クライマックス,0.014060,0.034010,0.000000,-0.038985,-0.011900,0.014623,-0.032694,0.021373,-0.043802,-0.013448,...,0.020303,-0.052088,0.046569,0.045039,-0.038084,0.055121,-0.043431,-0.049825,-0.014247,-0.062978
HELLO WORLD,-0.037497,-0.019760,-0.038985,0.000000,-0.011172,-0.016414,-0.005024,-0.021014,-0.026964,-0.009908,...,0.039645,-0.013478,-0.019325,0.000913,-0.021486,-0.033921,-0.010697,0.027176,-0.019069,0.045915
HiGH&LOW THE WORST,-0.023202,-0.035783,-0.011900,-0.011172,0.000000,-0.020557,-0.015975,0.007131,0.002932,0.070732,...,-0.015462,-0.034796,-0.030216,0.015426,-0.017738,-0.041414,-0.028231,0.007382,-0.011219,-0.027684
IT／イット,-0.035111,0.005102,0.014623,-0.016414,-0.020557,0.000000,0.077622,0.121129,-0.020985,-0.009615,...,-0.039678,-0.024139,0.004442,-0.038961,-0.012631,0.024752,-0.042291,-0.009884,-0.018340,-0.026627
IT／イット THE END “それ”が見えたら、終わり。,-0.019993,-0.005196,-0.032694,-0.005024,-0.015975,0.077622,0.000000,0.083768,-0.031612,-0.011399,...,-0.013095,-0.040783,-0.018495,-0.010202,-0.031269,0.020250,-0.034038,0.035156,-0.015036,-0.021252
IT／イット “それ”が見えたら、終わり。,-0.062136,-0.010948,0.021373,-0.021014,0.007131,0.121129,0.083768,0.000000,-0.036353,-0.022955,...,-0.007517,0.014970,-0.004330,-0.016750,-0.028126,0.014605,-0.048904,0.008684,-0.006603,-0.010636
LIFE！/ライフ,-0.011739,-0.031314,-0.043802,-0.026964,0.002932,-0.020985,-0.031612,-0.036353,0.000000,0.042815,...,-0.038038,-0.007724,-0.017223,0.003398,-0.012461,-0.051593,-0.017188,-0.013894,-0.024342,-0.026897
NO SMOKING,-0.026222,-0.027616,-0.013448,-0.009908,0.070732,-0.009615,-0.011399,-0.022955,0.042815,0.000000,...,-0.003472,-0.036184,-0.041810,0.033738,-0.006404,-0.051598,-0.024768,0.000190,-0.046490,-0.007925


### function : Get the most similar movie and similarity

In [88]:
def get_most_similar_movies(movie, number):
        return similarity_df[movie].sort_values(ascending=False).nlargest(number)

### Test

In [89]:
get_most_similar_movies("アラジン", 4)

title
翔んで埼玉          0.078474
マレフィセント2       0.068929
ブラック校則         0.068536
スイス・アーミー・マン    0.063350
Name: アラジン, dtype: float64

In [90]:
get_most_similar_movies("IT／イット", 4)

title
IT／イット “それ”が見えたら、終わり。    0.121129
ドリームキャッチャー               0.105581
シャイニング                   0.101155
最高の人生の見つけ方               0.082899
Name: IT／イット, dtype: float64

In [91]:
get_most_similar_movies("楽園", 5)

title
怒り                       0.143575
人魚の眠る家                   0.096419
そこのみにて光輝く                0.094827
IT／イット “それ”が見えたら、終わり。    0.093800
閉鎖病棟―それぞれの朝―             0.091914
Name: 楽園, dtype: float64

In [92]:
get_most_similar_movies("ジョーカー", 5)

title
CLIMAX クライマックス    0.102334
人魚の眠る家            0.091371
グレタ GRETA         0.078053
アップグレード           0.068803
ウインド・リバー          0.067349
Name: ジョーカー, dtype: float64