In [22]:
# 좋아하는 영화를 입력하면, 해당 영화의 줄거리와 유사한 줄거리의 영화를 찾아서 추천하는 시스템

In [28]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('dataset/movies_metadata.csv', low_memory=False)
tmp = data[['title', 'overview']]

In [29]:
tmp.isnull().sum()

title         6
overview    954
dtype: int64

In [30]:
tmp['overview'] = tmp['overview'].fillna('')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tmp['overview'] = tmp['overview'].fillna('')


In [31]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(tmp['overview'])
print(tfidf_matrix.shape)

(45466, 75827)


In [32]:
# 45466개의 영화를 표현하기 위해 총 75827개의 단어가 사용되었음

In [33]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(cosine_sim.shape)

(45466, 45466)


In [34]:
# 45466개의 영화와 자기 자신을 포함한 45499개의 문서 벡터간의 유사도가 기록된 행렬

In [36]:
# 영화의 타이틀을 key, 영화의 인덱스를 value로 하는 딕셔너리
title_to_index = dict(zip(tmp['title'], tmp.index))

idx = title_to_index['Father of the Bride Part II']
print (idx)

4


In [37]:
def get_recommendations(title, cosine_sim=cosine_sim):
    idx = title_to_index[title]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x:x[1], reverse=True)
    sim_scores = sim_scores[1:11]
    movie_indices = [idx[0] for idx in sim_scores]
    return tmp['title'].iloc[movie_indices]

In [38]:
get_recommendations('The Dark Knight Rises')

12481                                      The Dark Knight
150                                         Batman Forever
1328                                        Batman Returns
15511                           Batman: Under the Red Hood
585                                                 Batman
21194    Batman Unmasked: The Psychology of the Dark Kn...
9230                    Batman Beyond: Return of the Joker
18035                                     Batman: Year One
19792              Batman: The Dark Knight Returns, Part 1
3095                          Batman: Mask of the Phantasm
Name: title, dtype: object