In [11]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('영화데이터.csv', low_memory=False,encoding='utf8')
data.head(2)

Unnamed: 0,title,genres,id,overview,popularity
0,앤트맨과 와스프: 퀀텀매니아,2812878,640146,"슈퍼히어로 파트너인 스캇 랭과 호프 반 다인, 호프의 부모 재닛 반 다인과 행크 핌...",10773.574
1,슈퍼 마리오 브라더스,1612107511435,502356,따단-딴-따단-딴 ♫ 전 세계를 열광시킬 올 타임 슈퍼 어드벤처의 등장! 뉴욕의 평...,8786.695


In [12]:
data.shape

(9990, 5)

In [13]:
data['genres'].isnull().sum()

78

In [14]:
data['genres'] = data['genres'].fillna('')


In [15]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['genres'])
print('TF-IDF 행렬의 크기(shape) :',tfidf_matrix.shape)

TF-IDF 행렬의 크기(shape) : (9990, 19)


In [16]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print('코사인 유사도 연산 결과 :',cosine_sim.shape)

코사인 유사도 연산 결과 : (9990, 9990)


In [18]:
title_to_index = dict(zip(data['title'], data.index))

# 영화 제목 Avatar 의 인덱스를 리턴
idx = title_to_index['아바타']
print(idx)

125


In [19]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당 영화의 인덱스를 받아온다.
    idx = title_to_index[title]

    # 해당 영화와 모든 영화와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 얻는다.
    movie_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return data['title'].iloc[movie_indices]

In [20]:
get_recommendations('아바타')


125                  아바타
203      잭 스나이더의 저스티스 리그
748              외계+인 1부
754          퍼시픽 림: 업라이징
924           엑스맨: 아포칼립스
1050        스타워즈: 깨어난 포스
1296         엑스맨: 다크 피닉스
1663              파워 레인저
2406              판타스틱 4
4432    스콜피온 킹 2: 전사의 부활
Name: title, dtype: object