##  장르 및 줄거리 내 키워드 유사도 기반 영화 추천

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

In [2]:
movies = pd.read_csv('./dataset/merged.csv')

In [3]:
print(movies.shape)

(10255, 12)


In [7]:
c = movies['rating'].mean()
m = movies['vote_count'].quantile(.6)
print(round(c,3), round(m,3))

def weighted_vote_average(record):
    v, r = record['vote_count'], record['rating']
    return (v/(v+m))*r + (m/(m+v))*c

movies['weighted_vote'] = movies.apply(weighted_vote_average,axis=1)

7.187 173.0


In [4]:
from gensim.models import word2vec
from tqdm.autonotebook import tqdm
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler
import ast

class movie_recommendation:
    def __init__(self, **kargs):
        self.title = kargs.get('title', '포드 V 페라리') # (default) movie title
        self.topn = kargs.get('topn', 300) # (default) optimal value so far
        self.thres = kargs.get('thres', 0.73) # (default) optimal value so far
        self.df = kargs.get('data', pd.read_csv('./dataset/merged.csv')) # (default) movie dataframe
        
        self.cvec = CountVectorizer(min_df=0, ngram_range=(1,2))
        self.w2v = word2vec.Word2Vec.load('./model/naver_plot_kmr_min10_N_only.model')
        self.scaler = MinMaxScaler()
        
        assert self.df[self.df['title'] == self.title].shape[0] == 1
        
    def genre_sim_sorted(self):
        self.df['genre_literal'] = self.df['genre'].apply(lambda x: x.replace('|',' '))
        genre = self.cvec.fit_transform(self.df['genre_literal'])
        genre_sim = cosine_similarity(genre,genre)
        return genre_sim.argsort()[:,::-1]
        
    def similar_genre_movies(self):
        title_movie = self.df[self.df['title'] == self.title]
        title_idx = title_movie.index.values
        sorted_idx = self.genre_sim_sorted()
        
        similar_idx = self.genre_sim_sorted()[title_idx,:self.topn*2]
        similar_idx = similar_idx.reshape(-1)
        similar_idx = similar_idx[similar_idx != title_idx]
        
        return self.df.iloc[similar_idx].sort_values('weighted_vote', ascending=False)[:self.topn]
    
    def cos_sim(self, corp1, corp2):
        vec1, vec2 = [], []
        for word1, word2 in zip(corp1,corp2):
            vec1.append(self.w2v[word1])
            vec2.append(self.w2v[word2])

        vec1, vec2 = np.array(vec1).mean(axis=0), np.array(vec2).mean(axis=0)
        return np.inner(vec1,vec2) / (np.linalg.norm(vec1)*np.linalg.norm(vec2))

    def similar_keywords_movies(self):
        self.df['keywords_literal'] = self.df['keywords'].apply(lambda x: ' '.join(ast.literal_eval(x)))
        title_movie = self.df[self.df['title'] == self.title]
        title_idx = title_movie.index.values

        keywords_sims = []
        for idx in tqdm(self.df.index, desc="Calculating keywords cos_sim"):
            idx_title = self.df[self.df['title'] == self.title].index.values[0]
            keywords_src = ast.literal_eval(self.df.loc[idx_title,'keywords'])
            keywords_tgt = ast.literal_eval(self.df.loc[idx,'keywords'])
            keywords_sims.append((idx,self.cos_sim(keywords_src, keywords_tgt)))

        df_with_ksim = self.df.copy()
        df_with_ksim['keywords_sim'] = np.array(keywords_sims)[:,1]
        df_with_ksim = df_with_ksim[df_with_ksim['keywords_sim'] >= self.thres]
        
        print('# of similar keywords movies with thres(%.3f) :'%(self.thres), df_with_ksim.shape[0]-1)
        return df_with_ksim.sort_values('keywords_sim',ascending=False)[1:]
    
    def getMovies(self):
        genre_similar_movies, keywords_similar_movies = self.similar_genre_movies(), self.similar_keywords_movies()
        print('genre shape : ',genre_similar_movies.shape)
        print('keywords shape : ',keywords_similar_movies.shape)
        
        result_movies = genre_similar_movies.copy()
        for col in set(keywords_similar_movies.columns) - set(genre_similar_movies.columns):
            result_movies[col] = keywords_similar_movies[col]
        
        votes, sims = result_movies['weighted_vote'].values, result_movies['keywords_sim'].values
        votes_minmax, sims_minmax = self.scaler.fit_transform(votes.reshape(-1,1)), self.scaler.fit_transform(sims.reshape(-1,1))
        
        weighted_sum = 0.6*votes_minmax + 0.4*sims_minmax
        result_movies['weighted_sum'] = weighted_sum
        
        return result_movies.sort_values('weighted_sum',ascending=False).dropna()

In [8]:
recom = movie_recommendation(title='아이언맨 2', data=movies)

In [9]:
result = recom.getMovies()


# of similar keywords movies with thres(0.730) : 237
genre shape :  (300, 14)
keywords shape :  (237, 16)


In [91]:
result[['weighted_sum','title', 'weighted_vote','keywords_literal','keywords_sim']][:10]

Unnamed: 0,weighted_sum,title,weighted_vote,keywords_literal,keywords_sim
5756,0.781168,영웅: 샐러멘더의 비밀,9.256764,사장 연구 과학자 소식 시설 미국 세포 재생 기능 신약,0.785646
9718,0.665974,레지던트 이블,8.498304,컴퓨터 레드 슈퍼 정치 유전자 미국 치명 시작 연구소 세계,0.807803
2680,0.652643,로그 원: 스타워즈 스토리,8.420972,병기 개발 적의 최종 아버지 희망 세상 존스 참여 약점,0.809647
4850,0.619991,엣지 오브 투모로우,8.921952,침략 인류 전투 작전 참여 멸망 외계 종족 위기 훈련,0.766547
5693,0.589424,아이언맨 3,8.841481,영웅 트리 미스 스타크 저택 집단 사건 트라우마 회의 수트,0.764096
9399,0.583191,인크레더블,9.154703,영웅 타진 슈퍼히어로 세계 최강 정체 불명 비밀 작전 무리,0.740862
1812,0.524244,레지던트 이블: 파멸의 날,8.339219,전사 개발 폐허 인류 유일한 희망 바이러스 세계 백신 치명,0.781675
9626,0.497429,이퀼리브리엄,8.740591,요원 수호 제거 임무 정부 통제 약물 국민 세계 감정,0.746973
4841,0.495834,엑스맨: 데이즈 오브 퓨처 패스트,8.859445,로봇 위기 사상 인류 위협 직면 발명 최악 돌연변이 전쟁,0.738359
10173,0.490501,엑스맨,7.900968,변종 인간 교수 인류 스톰 사활 에릭 사상 최강 사이 자비 마음 능력,0.803068
