<img src="./img/logo3.png"><br>
* ref : https://movie.naver.com/movie/point/af/list.naver?&page=1

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
df = pd.read_csv('./datasets/craw/craw_movie_synopsis.csv', low_memory=False)
df.head(5) # title, overview 

Unnamed: 0.1,Unnamed: 0,제목,개봉년도,요약,줄거리
0,0,007 노 타임 투 다이,2021,,
1,1,117편의 러브레터,2021,,
2,2,120시간: 로스트 인 아웃백,2021,,
3,3,1984 최동원,2021,,
4,4,"2021 스웨그 에이지 : 외쳐, 조선!",2021,‘시조’가 국가의 이념인 상상 속의 ‘조선’,삶의 고단함과 역경을 시조 속에 담아 훌훌 털어버렸던 백성들은 역모 사건으로 시조 ...


In [3]:
df.shape

(803, 5)

In [4]:
df = df.drop_duplicates()
df.shape

(803, 5)

In [6]:
df['줄거리'].isnull().sum()

451

In [6]:
idx = df[df['줄거리'].isnull()].index
df = df.drop(idx, axis=0)
df.shape

(8774, 3)

In [7]:
df= df.reset_index(drop=True)

### overview :  tf-idf 

In [8]:
stopwords_ko = []
f = open('./datasets/stopwords_ko.txt', mode='r', encoding='utf-8')
for line in f:
    line = line.rstrip("\n")
    stopwords_ko.append(line)
    
stopwords_ko[:10]

['!', '"', '$', '%', '&', "'", '(', ')', '*', '+']

In [9]:
tfidf = TfidfVectorizer(stop_words=stopwords_ko)
tfidf_matrix = tfidf.fit_transform(df['줄거리'])
print(tfidf_matrix.shape)
print(tfidf_matrix.toarray()[:1])



(8774, 35974)
[[0. 0. 0. ... 0. 0. 0.]]


In [10]:
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
cosine_sim[:2]

array([[1., 0., 0., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.]])

In [26]:
ss = df['title'].drop_duplicates()
ss = pd.Series(ss.index, index=ss).drop_duplicates()
print(ss.shape, ss[:30])

(1690,) title
듄                    0
악마를 보았다              1
악인전                  2
7광구                  3
라스트 듀얼: 최후의 결투       6
용과 주근깨 공주           10
크롤                  14
존 카터: 바숨 전쟁의 서막     16
건축학개론               17
더 포가튼 배틀            18
내 깡패 같은 애인          21
추억의 마니              23
나의 특별한 형제           25
걸캅스                 26
아내를 죽였다             27
더 테러 라이브            29
내일의 기억              30
그는 당신에게 반하지 않았다     31
인터스텔라               34
그날, 바다              35
베놈 2: 렛 데어 비 카니지    40
빌리 엘리어트             47
프로메테우스              48
기적                  49
다세포 소녀              50
다운사이징               53
보이스                 55
노회찬6411             57
반도                  60
싱크홀                 62
dtype: int64


In [32]:
idx = ss['싱크홀']
print(idx)

60


### 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 줄거리가 유사한 10개의 영화 찾기

In [28]:
def my_recommend(title, cosine_sim=cosine_sim):
    idx = ss[title]
    #print(idx)
    sim_scores = list(enumerate(cosine_sim[idx]))                      #title vs 모든영화 : 유사도계산
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)  # 유사도 정렬
    sim_scores = sim_scores[1:11]                                      # 유사도 top10      
    print(sim_scores)   
    movie_idx = [i[0] for i in sim_scores]
    return df['title'].iloc[movie_idx]                                 # 가장 유사한 영화 top10

In [33]:
my_recommend('반도')

[(383, 0.16912778958661), (6520, 0.11254352026234743), (2528, 0.10530305997445369), (6962, 0.1016173152941941), (4349, 0.09184547867624268), (5069, 0.08718669654562833), (2640, 0.07957976418933554), (981, 0.07742860908114749), (5297, 0.07569836317849098), (8530, 0.07566309884816395)]


383                   반도
6520                모가디슈
2528      라스트 듀얼: 최후의 결투
6962       007 노 타임 투 다이
4349                  관상
5069                   듄
2640           용과 주근깨 공주
981                   플립
5297                   듄
8530    베놈 2: 렛 데어 비 카니지
Name: title, dtype: object

In [17]:
# df.loc[[8766, 8517,999]]

Unnamed: 0,title,score,review
8766,범죄도시,10,한국의 히어로 무비K-Hero 마동석!
8517,범죄도시,10,기대 안하고 봤는데 시간 가는줄 몰랐다완전 재밌음 강추 ㅋ 마동석 최고
999,범죄도시,10,너무 재밌다. 우와 마동석 시원시원 타격감 너무 좋네요 그리고 윤계상 연기 잘해서 ...
