<a href="https://colab.research.google.com/github/MunYeong0723/NLP_mini-project/blob/master/cosin_similarity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
from ast import literal_eval
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import glob

In [2]:
pd.set_option('display.max_columns', 6)
pd.set_option('display.width', 300)

In [3]:
movie_path_list = glob.glob('/content/drive/My Drive/Colab Notebooks/NLP_mini-project/data/watcha_csv_data/watcha_movie_data/*.csv')

movie_list = pd.DataFrame(columns=['movie_code', 'title', 'year', 'genres', 'ratings_avg'])
for movie_path in movie_path_list :
    tmp = pd.read_csv(movie_path, encoding='CP949')
    tmp = tmp[['movie_code', 'title', 'year', 'genres', 'ratings_avg']]
    movie_list = pd.concat([movie_list, tmp], axis=0)

movie_list = movie_list.drop_duplicates(['movie_code'])
movie_list

Unnamed: 0,movie_code,title,year,genres,ratings_avg
0,md6B3Ad,대부 일대기,1992,"['드라마', '범죄']",4.4
1,mNdKBkO,쇼생크 탈출,1994,['드라마'],4.4
2,mV539wO,인생은 아름다워,1997,"['드라마', '코미디']",4.4
3,mW4LYBo,하이큐!! 콘셉트의 싸움,2017,"['애니메이션', '스포츠']",4.4
4,m5r0pVO,12인의 노한 사람들,1997,"['드라마', '범죄']",4.2
...,...,...,...,...,...
91,m5elbzd,제저벨,1938,['드라마'],3.3
94,mW9lkG5,댄저러스,1935,['드라마'],3.3
96,mdBXkPW,아침의 영광,1933,['드라마'],2.7
97,md6my0O,마델론의 비극,1931,['드라마'],0.0


In [4]:
movie_list['genres'] = movie_list['genres'].apply(literal_eval)
movie_list['genres'] = movie_list['genres'].apply(lambda x : ' '.join(x))
movie_list

Unnamed: 0,movie_code,title,year,genres,ratings_avg
0,md6B3Ad,대부 일대기,1992,드라마 범죄,4.4
1,mNdKBkO,쇼생크 탈출,1994,드라마,4.4
2,mV539wO,인생은 아름다워,1997,드라마 코미디,4.4
3,mW4LYBo,하이큐!! 콘셉트의 싸움,2017,애니메이션 스포츠,4.4
4,m5r0pVO,12인의 노한 사람들,1997,드라마 범죄,4.2
...,...,...,...,...,...
91,m5elbzd,제저벨,1938,드라마,3.3
94,mW9lkG5,댄저러스,1935,드라마,3.3
96,mdBXkPW,아침의 영광,1933,드라마,2.7
97,md6my0O,마델론의 비극,1931,드라마,0.0


### user가 좋게 평가한 영화들의 장르를 찾아서 이와 유사한 영화를 찾음

In [5]:
rating_data = pd.read_csv("/content/drive/My Drive/Colab Notebooks/NLP_mini-project/data/rating_data_pre.csv")
rating_data

Unnamed: 0,제목,장르,총 평점,유저 평점
0,남매의 여름밤,드라마,3.9,3.5
1,69세,드라마,3.6,3.5
2,오케이 마담,코미디,2.7,2.5
3,반교: 디텐션,공포,3.4,3.0
4,다만 악에서 구하소서,범죄,3.0,3.0
...,...,...,...,...
5089,다이하드: 굿 데이 투 다이,액션,3.3,3.0
5090,본 얼티메이텀,액션,4.1,4.0
5091,가까이서 본 기차,전쟁,3.6,3.5
5092,디스트릭트 9,SF,3.8,3.5


In [6]:
like_movie = rating_data[rating_data['유저 평점'] > 3.0]
like_movie = like_movie.sort_values(by=['유저 평점', '총 평점'], axis=0, ascending=False).reset_index(drop=True)
like_movie

Unnamed: 0,제목,장르,총 평점,유저 평점
0,철서구 2부 - 폐허,다큐멘터리,4.4,4.0
1,인생은 아름다워,드라마,4.4,4.0
2,쇼생크 탈출,드라마,4.4,4.0
3,인셉션,액션,4.4,4.0
4,기생충,드라마,4.3,4.0
...,...,...,...,...
1663,슈렉 2,판타지,3.5,3.5
1664,소셜 네트워크,드라마,3.5,3.5
1665,래빗 홀,드라마,3.5,3.5
1666,내일의 기억,드라마,3.5,3.5


In [7]:
user_like = ' '.join(like_movie['장르'].unique())
tmp = movie_list.append({'genres':user_like}, ignore_index=True)

tfidf_vec = TfidfVectorizer(ngram_range=(1,1))
new_matrix = tfidf_vec.fit_transform(tmp['genres'])

new_similarity = cosine_similarity(new_matrix, new_matrix)
new_similarity_index = np.argsort(-new_similarity)
new_similarity_index.shape

(1065, 1065)

In [8]:
user_index = [len(movie_list)]
new_similar_movies = new_similarity_index[user_index, 1:]
new_similar_movies_index = new_similar_movies.reshape(-1)

similar_movie = movie_list.iloc[new_similar_movies_index].reset_index(drop=True)
similar_movie

Unnamed: 0,movie_code,title,year,genres,ratings_avg
0,mWvkXvZ,코코,2017,애니메이션 모험 가족 판타지 음악 미스터리 코미디 스릴러,4.0
1,mW93a1d,라푼젤,2010,로맨스 가족 판타지 코미디 애니메이션 모험 키즈,4.0
2,m45nnY5,월-E,2008,가족 모험 코미디 SF 애니메이션 키즈,4.1
3,mOgBKLA,디지몬 어드벤처 1기: 운명적 만남,1999,애니메이션 가족 액션 모험 판타지 SF 스릴러,4.1
4,mJ5xpq5,토이 스토리,1995,애니메이션 모험 코미디 가족 판타지 드라마 키즈,4.1
...,...,...,...,...,...
1059,m5GX8nN,피는 멈추지 않는다,2007,,2.4
1060,mWJ8Dxd,폭염,2006,,2.0
1061,m53EojO,방랑자,2005,,2.6
1062,md7NbeO,하수구,2008,,3.1


### 유사한 영화 중 보고 싶은 영화 리스트에 있는 영화 5-10개 추천
(리스트가 없거나 부족하면 나머지 list 가져와서 갯수 맞추기)

In [9]:
wish_data = pd.read_csv("/content/drive/My Drive/Colab Notebooks/NLP_mini-project/data/wish_data_pre.csv")
wish_data

Unnamed: 0,제목,장르,총 평점
0,SPF-18,로맨스,1.5
1,걸즈 트립,코미디,3.2
2,무민 더 무비,가족,3.4
3,사샤의 북극 대모험,애니메이션,3.8
4,키싱 부스 2,로맨스,2.8
...,...,...,...
5308,"헤일, 시저!",코미디,3.4
5309,컨버세이션,범죄,3.8
5310,사울의 아들,드라마,3.8
5311,잭 리처: 네버 고 백,범죄,2.9


In [10]:
wish_data_sorted = wish_data.sort_values(by='총 평점', ascending=False)
wish_data_sorted = wish_data_sorted.drop_duplicates(['제목']).reset_index(drop=True)
wish_data_sorted.columns = ['title', 'genres', 'rating_avg']
wish_data_sorted

Unnamed: 0,title,genres,rating_avg
0,컷 포이슨 번,다큐멘터리,4.5
1,인생은 아름다워,드라마,4.4
2,한나 개즈비: 나의 이야기,코미디,4.4
3,쇼생크 탈출,드라마,4.4
4,인셉션,액션,4.4
...,...,...,...
4060,핫 봇,코미디,1.3
4061,드래곤볼 에볼루션,액션,1.2
4062,키스 미 어게인,미국,1.1
4063,리얼,액션,1.1


In [11]:
recommend = pd.merge(similar_movie.loc[:, ['title','year', 'genres', 'ratings_avg']], wish_data_sorted.loc[:, ['title']], on='title')
recommend.sort_values(by='ratings_avg', ascending=False).reset_index(drop=True)[:10]

Unnamed: 0,title,year,genres,ratings_avg
0,인셉션,2010,액션 모험 SF 스릴러,4.4
1,쇼생크 탈출,1994,드라마,4.4
2,인생은 아름다워,1997,드라마 코미디,4.4
3,어바웃 타임,2013,판타지 드라마 로맨틱코미디 코미디 로맨스,4.3
4,센과 치히로의 행방불명,2001,판타지 애니메이션 가족,4.3
5,포레스트 검프,1994,드라마 로맨스 코미디,4.3
6,타이타닉,1997,로맨스 드라마,4.3
7,가버나움,2018,드라마,4.3
8,레미제라블 25주년 런던 라이브 공연,2010,드라마,4.3
9,다크 나이트,2008,액션 드라마 스릴러 범죄 판타지,4.3
