# 1. 코사인 유사도(Cosine Similarity)

코사인 유사도 : 두 벡터 간의 코시인 각도를 이용하여 구할 수 있는 두 벡터의 유사도

두 벡터의 방향이
- 완전히 동일 : 1
- 90°의 각 : 0
- 180°의 각, 반대 방향 :-1
→ 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단
![image.png](attachment:image.png)


코사인 유사도 공식
![image-2.png](attachment:image-2.png)


DTM이나 TF_IDF 행렬을 통해서 문서의 유사도를 구하는 경우에는 DTM이나 TF-IDF 행렬이 각각의 특징 벡터 A, B가 된다.

문서1 : 저는 사과 좋아요
문서2 : 저는 바나나 좋아요
문서3 : 저는 바나나 좋아요 저는 바나나 좋아요

(가정) 띄어쓰기 기준 토큰화

|-|바나나|사과|저는|좋아요|
|:---:|:---:|:---:|:---:|:---:|
|문서1|0|1|1|1|
|문서2|1|0|1|1|
|문서3|2|0|2|2|

In [1]:
import numpy as np
from numpy import dot
from numpy.linalg import norm

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

doc1=np.array([0,1,1,1])
doc2=np.array([1,0,1,1])
doc3=np.array([2,0,2,2])

print('문서 1과 문서2의 유사도 : {:.2f}'.format(cos_sim(doc1, doc2)))
print('문서 1과 문서3의 유사도 : {:.2f}'.format(cos_sim(doc1, doc3)))
print('문서 2와 문서3의 유사도 : {:.2f}'.format(cos_sim(doc2, doc3)))

문서 1과 문서2의 유사도 : 0.67
문서 1과 문서3의 유사도 : 0.67
문서 2와 문서3의 유사도 : 1.00


# 2. 유사도를 이용한 추천 시스템 구현하기

TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천시스템을 만들 수 있다.

다운로드 링크 : https://www.kaggle.com/rounakbanik/the-movies-dataset

In [2]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data=pd.read_csv('movies_metadata.csv', low_memory=False)
data.head()

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [3]:
# 상위 2만개의 샘플을 data에 저장
data=data.head(20000)

In [4]:
# TF-IDF를 연산할 때 데이터에 Null 값이 들어있으면 에러 발생
print('overview 여의 결측값의 수 :',data.overview.isnull().sum())

overview 여의 결측값의 수 : 135


In [5]:
data.overview=data.overview.fillna('')

In [6]:
tfidf=TfidfVectorizer(stop_words='english')
tfidf_matrix=tfidf.fit_transform(data.overview)
print('TF-IDF 행렬의 크기(shape) :',tfidf_matrix.shape)

TF-IDF 행렬의 크기(shape) : (20000, 47487)


20,000개의 영화를 표현하기 위해 47,487개의 단어가 사용되었다. 

In [7]:
cosine_sim=cosine_similarity(tfidf_matrix,tfidf_matrix)
print('코사인 유사도 연산 결과 :',cosine_sim.shape)

코사인 유사도 연산 결과 : (20000, 20000)


20,000개의 문서벡터에 대한 상호 간의 코사인 유사도

In [8]:
# 영화의 타이틀 : key, 영화의 index : value → 딕셔너리 title_to_index
title_to_index=dict(zip(data.title, data.index))

idx=title_to_index['Father of the Bride Part II']
print(idx)

4


In [9]:
# 코사인 유사도를 통한 overview가 유사한 10개 영화 찾아내는 함수
def get_recommendation(title, cosine_sim=cosine_sim):
    idx=title_to_index[title]
    sim_scores=list(enumerate(cosine_sim[idx]))
    sim_scores=sorted(sim_scores,key=lambda x : x[1], reverse=True)
    sim_scores=sim_scores[1:10]
    movie_indices=[idx[0] for idx in sim_scores]
    return data['title'].iloc[movie_indices]

In [10]:
get_recommendation('The Dark Knight Rises')

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
Name: title, dtype: object