In [3]:
import pandas as pd
data = pd.read_csv('movies_metadata.csv',low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [6]:
data = data.head(20000)

In [9]:
data['overview'].isnull().sum()
# tf-idf의 대상이 되는 data의 overview 열에 NULL 값이 있는지 확인한다.
# NULL이 있을 경우 오류가 발생할 수 있다.

135

In [10]:
data['overview'] = data['overview'].fillna('')
# overview에서 null 값을 가진 경우에는 값 제거

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['overview'])
# overview에 대해서 tf-idf 수행
print(tfidf_matrix.shape)
# 20000개의 영화를 표현하기위해 총 47,487개의 단어가 사용되었음을 보여준다.

(20000, 47487)


In [15]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(tfidf_matrix,tfidf_matrix)
# linear_kernel이 어떠한 역할을 하는가...

In [18]:
indices = pd.Series(data.index, index=data['title']).drop_duplicates()
print(indices.head())
# 이 테이블의 용도는 영화의 타이틀을 입력하면 인덱스를 리턴하기 위함이다.

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


In [21]:
idx = indices['Father of the Bride Part II']
print(idx)

4


In [29]:
# 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 overview가 유사한
# 10개의 영화를 찾아내는 함수를 만든다.
def get_recommendations(title, cosine_sim=cosine_sim):
    idx = indices[title]
#     모든 영화에 대해서 해당 영화와의 유사도를 구한다.
    sim_scores = list(enumerate(cosine_sim[idx]))
#     유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1],reverse=True)
#     가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[1:11]
#     가장 유사한 10개의 영화의 인덱스를 받아온다.
    movie_indices = [i[0] for i in sim_scores]
#     가장 유사한 10개의 영화의 제목을 리턴한다.
    return data['title'].iloc[movie_indices]

In [30]:
get_recommendations('Jumanji')

1


6166                       Brainscan
8801                         Quintet
17223                 The Dark Angel
9503                       Word Wars
13601    The Mindscape of Alan Moore
16843                         DeVour
8079                         Masques
6055                Poolhall Junkies
19726                 Wreck-It Ralph
2486                        eXistenZ
Name: title, dtype: object