# 5.1 코사인 유사도(Cosine Similarity)
BoW나 BoW에 기반한 단어 표현 방법인 DTM, TF-IDF, 또는 뒤에서 배우게 될 워드투벡터(Word2Vec) 등과 같이 단어를 수치화할 수 있는 방법을 이해했다면, 이러한 표현 방법에 대해서 코사인 유사도를 이용하여 문서의 유사도를 구하는 게 가능합니다.

### 1. 코사인 유사도(Cosine Similarity)

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미합니다. 

- 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 
- 90°의 각을 이루면 0, 
- 180°로 반대의 방향을 가지면 -1의 값을 갖게 됩니다. 

즉, 결국 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있습니다. 이를 직관적으로 이해하면 두 벡터가 가리키는 방향이 얼마나 유사한가를 의미합니다.

similarity=cos(Θ)=A⋅B||A|| ||B||=∑ni=1Ai×Bi∑ni=1(Ai)2−−−−−−−−−√×∑ni=1(Bi)2−−−−−−−−−√

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
#from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    '저는 사과 좋아요',
    '저는 바나나 좋아요',
    '저는 바나나 좋아요 저는 바나나 좋아요',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())
print(vector.vocabulary_)

#tfidfv = TfidfVectorizer().fit(corpus)
#print(tfidfv.transform(corpus).toarray())
#print(tfidfv.vocabulary_)

[[0 1 1 1]
 [1 0 1 1]
 [2 0 2 2]]
{'저는': 2, '사과': 1, '좋아요': 3, '바나나': 0}


파이썬에서는 코사인 유사도를 구하는 방법은 여러가지가 있는데 여기서는 Numpy를 이용해서 계산해보겠습니다.

In [2]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A,B):
    ''' 코사인 유사도를 계산하는 함수 '''
    return dot(A,B)/(norm(A)*norm(B))

doc1= np.array([0, 1, 1, 1])
doc2= np.array([1, 0, 1, 1])
doc3= np.array([2, 0, 2, 2])

print(cos_sim(doc1, doc2))
print(cos_sim(doc1, doc3))
print(cos_sim(doc2, doc3))

0.6666666666666667
0.6666666666666667
1.0000000000000002


눈여겨볼만한 점은 문서1과 문서2의 코사인 유사도와 문서1과 문서3의 코사인 유사도가 같다는 점과 문서2와 문서3의 코사인 유사도가 1이 나온다는 것입니다. 앞서 1은 두 벡터의 방향이 완전히 동일한 경우에 1이 나오며, 코사인 유사도 관점에서는 유사도의 값이 최대임을 의미한다고 언급한 바 있습니다.

문서3은 문서2에서 단지 모든 단어의 빈도수가 1씩 증가했을 뿐입니다. 이는 한 문서 내의 모든 단어의 빈도수가 똑같이 증가하는 경우에는 기존의 문서와 코사인 유사도의 값이 1이라는 것입니다.

### 2. 유사도를 이용한 추천 시스템 구현하기
캐글에서 사용되었던 영화 데이터셋을 가지고 영화 추천 시스템을 만들어보겠습니다. TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천 시스템을 만들 수 있습니다.

다운로드 링크 : https://www.kaggle.com/rounakbanik/the-movies-dataset

원본 파일은 위 링크에서 movies_metadata.csv 파일을 다운로드 받으면 됩니다. 해당 데이터는 총 24개의 열을 가진 45,466개의 샘플로 구성된 영화 정보 데이터입니다.

In [1]:
import pandas as pd
data = pd.read_csv('../../data/kaggle_movies/movies_metadata.csv', low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [2]:
data = data.head(10000)

만약 훈련 데이터의 양을 줄이고 학습을 진행하고자 한다면, 이와 같이 데이터를 줄여서 재저장할 수 있습니다. 저는 10,000개의 샘플만 가지고 학습해보겠습니다. 

- tf-idf를 할 때 데이터에 Null 값이 들어있으면 에러가 발생합니다. 
- tf-idf의 대상이 되는 data의 overview 열에 Null 값이 있는지 확인합니다.

In [3]:
data['overview'].isnull().sum()

29

29개의 샘플에서 Null 값이 있다고 합니다. pandas를 이용하면 Null 값을 처리하는 도구인 fillna()를 사용할 수 있습니다. 괄호 안에 Null 대신 넣고자하는 값을 넣으면 되는데, 이 경우에는 빈 값(empty value)으로 대체하여 Null 값을 제거합니다.

In [4]:
data['overview'] = data['overview'].fillna('')

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words = 'english')
tfidf_matrix = tfidf.fit_transform(data['overview'])
print(tfidf_matrix.shape)

(10000, 32350)


overview 열에 대해서 tf-idf를 수행했습니다. 10,000개의 영화를 표현하기위해 총 32,350개의 단어가 사용되었음을 보여주고 있습니다. 이제 코사인 유사도를 사용하면 바로 문서의 유사도를 구할 수 있습니다.

In [17]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [18]:
indices = pd.Series(data.index, index=data['title']).drop_duplicates()
print(indices.head())

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


In [12]:
idx = indices['Jumanji']

이제 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 overview가 유사한 10개의 영화를 찾아내는 함수를 만듭니다.

In [25]:
def get_recommendations(title, cosine_sim=cosine_sim):
    ''' 선택한 영화 제목의 index를 구한다.'''
    idx = indices[title]
    print(idx)
    
    # Find the movie and  similarity for all movies
    sim_scores = list(enumerate(cosine_sim[idx]))
    
    # Arrange movies according to similarity
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    
    # Get the 10 most similar movies
    sim_scores = sim_scores[1:11]
    
    # Get the 10 index most of similar movies
    movie_indices = [i[0] for i in sim_scores]
    print(movie_indices)
    
    return data['title'].iloc[movie_indices]

In [33]:
x= get_recommendations('Jumanji')
x.describe

1
[6166, 8801, 9503, 8079, 6055, 2486, 9107, 1506, 7749, 7906]


<bound method NDFrame.describe of 6166               Brainscan
8801                 Quintet
9503               Word Wars
8079                 Masques
6055        Poolhall Junkies
2486                eXistenZ
9107                 Nirvana
1506      The Innocent Sleep
7749      The Last of Sheila
7906    The Last Starfighter
Name: title, dtype: object>

( 20,000건을 대상으로 하면 down 되어서, 10,00으로 처리 하여야 함. )