# Ch05. 문서 유사도 (Document Similarity)

# v01. 코사인 유사도 (Cosine Similarity)

- BoW나 BoW에 기반한 단어 표현 방법인 DTM, TF-IDF, Word2Vec 등과 같이 단어를 수치화할 수 있는 방법을 이해했다면, 이러한 표현 방법에 대해서 코사인 유사도를 이용하여 문서의 유사도를 구하는 게 가능하다.

<br>

## 1.1 코사인 유사도 (Cosine Similarity)

### 1.1.1 코사인 유사도의 의미

- 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미  
  

- 두 벡터의 방향이 완전 동일하다 $\rightarrow$ 코사인 유사도 값 = 1
- 두 벡터가 90°의 각을 이룬다 $\rightarrow$ 코사인 유사도 값 = 0
- 두 벡터가 180°의 각을 이룬다(반대의 방향) $\rightarrow$ 코사인 유사도 = -1  
  

- 즉, 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다.
- 이를 직관적으로 이해하면 두 벡터가 가리키는 방향이 얼마나 유사한가를 의미한다.
<img src="https://wikidocs.net/images/page/24603/%EC%BD%94%EC%82%AC%EC%9D%B8%EC%9C%A0%EC%82%AC%EB%8F%84.PNG" />

<br>

### 1.1.2 코사인 유사도 식

- 두 벡터 $A$, $B$에 대해서 코사인 유사도는 식으로 표현하면 다음과 같다.

$
\qquad
similarity=cos(Θ)=\frac{A⋅B}{||A||\ ||B||}=\frac{\sum_{i=1}^{n}{A_{i}×B_{i}}}{\sqrt{\sum_{i=1}^{n}(A_{i})^2}×\sqrt{\sum_{i=1}^{n}(B_{i})^2}}
$

- 문서 단어 행렬(DTM)이나 TF-IDF 행렬을 통해서 문서의 유사도를 구하는 경우
  - 문서 단어 행렬(DTM)이나 TF-IDF 행렬이 각각의 특징 벡터 $A$, $B$가 된다.

<br>

### 1.1.3 문서 단어 행렬(DTM)에 대한 코사인 유사도 계산

> 문서1 : 저는 사과 좋아요  
문서2 : 저는 바나나 좋아요  
문서3 : 저는 바나나 좋아요 저는 바나나 좋아요

- 위의 세 문서에 대해서 문서 단어 행렬(DTM)을 만들면 다음과 같다.

| -     | 바나나 | 사과 | 저는 | 좋아요 |
| :---- | :----- | :--- | :--- | :----- |
| 문서1 | 0      | 1    | 1    | 1      |
| 문서2 | 1      | 0    | 1    | 1      |
| 문서3 | 2      | 0    | 2    | 2      |

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Numpy 이용 코사인 유사도 계산
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
  return dot(A, B)/(norm(A)*norm(B))

In [None]:
# 문서1, 문서2, 문서3에 대해서 각각 BoW를 만듬
doc1 = np.array([0, 1, 1, 1])
doc2 = np.array([1, 0, 1, 1])
doc3 = np.array([2, 0, 2, 2])

In [5]:
# 각 문서에 대한 코사인 유사도 계산
print("문서1과 문서2의 코사인 유사도 : ", cos_sim(doc1, doc2))
print("문서1과 문서3의 코사인 유사도 : ", cos_sim(doc1, doc3))
print("문서2과 문서3의 코사인 유사도 : ", cos_sim(doc2, doc3))

문서1과 문서2의 코사인 유사도 :  0.6666666666666667
문서1과 문서3의 코사인 유사도 :  0.6666666666666667
문서2과 문서3의 코사인 유사도 :  1.0000000000000002


- 눈여겨볼만한 점
  - 문서1과 문서2의 코사인 유사도와 문서1과 문서3의 코사인 유사도가 같다
  - 문서2와 문서3의 코사인 유사도가 1이 나온다.
    - 코사인 유사도 = 1 : 두 벡터의 방향이 완전이 동일한 경우(유사도 값이 최대)
    - 문서3은 문서2에서 단지 모든 단어의 빈도수가 1씩 증가했을 뿐이다.
    - 이는 한 문서 내의 모든 단어의 빈도수가 똑같이 증가하는 경우에는 기존의 문서와 코사인 유사도 값이 1이라는 것을 의미한다.

<br>

## 1.2 유사도를 이용한 추천 시스템 구현하기

- 캐글에서 사용되었던 영화 데이터셋을 가지고 영화 추천 시스템 생성
- TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천 시스템을 만들 수 있다.

<br>

### 1.2.1 데이터셋 로드

- [데이터셋 다운로드 링크](https://www.kaggle.com/rounakbanik/the-movies-dataset)
- 원본 파일은 위 링크에서 `movies_metadata.csv` 파일을 다운받으면 된다.
- 해당 데이터는 총 24개의 열을 가진 45,466개의 샘플로 구성된 영화 정보 데이터이다.

In [1]:
DATA_DIR = "../_data/the-movies-dataset/"

In [2]:
import os

os.listdir(DATA_DIR)

['movies_metadata.csv']

In [7]:
import pandas as pd

data = pd.read_csv(DATA_DIR + "movies_metadata.csv", low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,/rhIRbceoE9lR4veEXuwCC2wARtG.jpg,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,/vzmL6fP7aPKNKPRTFnZmiUfciyV.jpg,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


- 코사인 유사도에 사용할 데이터
  - `title` : 영화 제목
  - `overview` : 줄거리

In [None]:
data = data.head(20000)

<br>

### 1.2.2 결측값 처리

- tf-idf를 할 때 데이터에 Null 값이 들어있으면 에러가 발생한다.
- tf-idf의 대상이 되는 data의 `overview` 열에 Null 값이 있는 지 확인

In [9]:
data['overview'].isnull().sum()

135

- 135개의 샘플에서 Null 값이 있는 것 확인

- pandas의 `fillna()`를 이용해 Null 값을 빈 값(empty value)로 대체

In [None]:
data['overview'] = data['overview'].fillna('')

In [11]:
data['overview'].isnull().sum()

0

<br>

### 1.2.3 tf-idf 수행

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['overview'])

print(tfidf_matrix.shape)

(20000, 47487)


- 20,000개의 영화를 표현하기 위해 총 47,487개의 단어가 사용되었다.

<br>

### 1.2.4 코사인 유사도 계산

- 코사인 유사도를 사용하여 문서의 유사도 계산

In [None]:
from sklearn.metrics.pairwise import linear_kernel

# 코사인 유사도 계산
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [14]:
cosine_sim

array([[1.        , 0.01575748, 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.01575748, 1.        , 0.04907345, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.04907345, 1.        , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.        , 0.        , 0.        , ..., 1.        , 0.        ,
        0.08375766],
       [0.        , 0.        , 0.        , ..., 0.        , 1.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.08375766, 0.        ,
        1.        ]])

<br>

### 1.2.5 인덱스 생성

- 영화의 타이틀과 인덱스를 가진 테이블 생성

In [15]:
indices = pd.Series(data.index, index=data['title']).drop_duplicates()
print(indices.head())

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


- 이 테이블의 용도는 영화의 타이틀을 입력하면 인덱스를 리턴하기 위함이다.

In [16]:
idx = indices['Father of the Bride Part II']
print(idx)

4


<br>

### 1.2.6 유사한 영화 찾는 함수 생성

- 이제 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 `overview`가 유사한 10개의 영화를 찾아내는 함수 생성

In [None]:
def get_recommendations(title, cosine_sim=cosine_sim):

  # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아온다.
  idx = indices[title]

  # 모든 영화에 대해서 해당 영화와의 유사도를 구한다.
  sim_scores = list(enumerate(cosine_sim[idx]))

  # 유사도에 따라 영화들을 정렬
  sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

  # 가장 유사한 영화 10개를 가져온다.
  sim_scores = sim_scores[1:11]

  # 가장 유사한 10개의 영화의 인덱스를 받아온다.
  movie_indices = [i[0] for i in sim_scores]

  # 가장 유사한 10개의 영화 제목을 리턴
  return data['title'].iloc[movie_indices]

<br>

### 1.2.7 유사한 영화 확인

- 영화 "다크 나이트 라이즈"와 `overview` 가 유사한 영화 확인

In [28]:
get_recommendations('The Dark Knight Rises')

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
10122                              Batman Begins
Name: title, dtype: object

- 첫 번째로 영화 "다크 나이트"가 나오고, 그 외에도 전부 배트맨 영화를 찾아낸 것을 확인할 수 있다.