## 1. 코사인 유사도

두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미한다.

두 벡터의 방향이 완전히 동일한 경우 1의 값을 가지며, $90^\circ$ 각을 이루면 0, $180^\circ$로 반대의 방향을 가지면 -1의 값을 갖게 된다. 

결국 코사인 유사도는 -1 이상 1이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단 할 수 있다.


***
![screesh](./images/cosine.png)

***

문서 단어 행렬이나 TF-IDF 행렬을 통해서 문서의 유사도를 구하는 경우에는 문서 단어 행렬이나 TF-IDF 행렬이 각각의 특징 벡터 A,B가 된다. 

문서 단어 행렬에 대해서 코사인 유사도를 구해보는 간단한 예제를 진행해보자.


***
#### 문서1 : 저는 사과 좋아요
#### 문서2 : 저는 바나나 좋아요
#### 문서3 : 저는 바나나 좋아요 저는 바나나 좋아요
***

### 세 문서를 DTM으로 만듦

In [1]:
import pandas as pd
from math import log

In [2]:
docs = [
    '저는 사과 좋아요',
    '저는 바나나 좋아요',
    '저는 바나나 좋아요 저는 바나나 좋아요',
]

vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()
vocab

['바나나', '사과', '저는', '좋아요']

In [3]:
def tf(t, d) :
    return d.count(t)


N = len(docs)
result = []
for i in range(N) :
    result.append([])
    d = docs[i]
    for j in range(len(vocab)) :
        t = vocab[j]
        result[-1].append(tf(t,d))
        
tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,바나나,사과,저는,좋아요
0,0,1,1,1
1,1,0,1,1
2,2,0,2,2


### Numpy를 활용하여 코사인 유사도 계산

In [4]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A,B) :
    return dot(A,B)/(norm(A)*norm(B))

In [5]:
# 문서별 BoW
doc1 = np.array(tf_.loc[0])
doc2 = np.array(tf_.loc[1])
doc3 = np.array(tf_.loc[2])

In [6]:
# 코사인 유사도
print(cos_sim(doc1,doc2))
print(cos_sim(doc1,doc3))
print(cos_sim(doc2,doc3))

0.6666666666666667
0.6666666666666667
1.0000000000000002


####  코사인 유사도 계산 결과
- 문서1과 문서2의 코사인 유사도와 문서1과 문서3의 코사인 유사도가 같다.
- 문서2와 문서3의 코사인 유사도가 1이 나왔다.

문서3은 문서2에서 단지 모든 단어의 빈도수가 1씩 증가했을 뿐이다.

**다시 말해 한 문서 내의 모든 단어의 빈도수가 동일하게 증가하는 경우에는 기존의 문서와 코사인 유사도의 값이 1이라는 것**이다.

***
만약 코사인 유사도를 사용하지 않은채로 문서 A에 대해서 모든 문서와의 유사도를 구한다고 가정해보자.

다른 문서들과 문서 B나 거의 동일한 패턴을 가지는 문서임에도 문서 B가 단순히 다른 문서들보다 원문 길이가 긴 문서라는 이유로, 단어의 빈도 수가 더 높다는 이유로 다른 문서들보다 유사도가 더 높게 나올수도 있다.

**코사인 유사도는 문서의 길이가 다른 상황에서 비교적 공정한 비교를 할 수 있도록 도와준다.**
***

## 2. 유사도를 이용한 추천 시스템 구현하기

캐글에서 사용되었던 영화 데이터셋을 가지고 영화 추천 시스템을 만들어보자

TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천 시스템을 만들 수 있다.

다운로드 링크 : https://www.kaggle.com/rounakbanik/the-movies-dataset

In [7]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

In [8]:
data = pd.read_csv('D:/Portfolio/machine learning dataset/movies_metadata/movies_metadata.csv', low_memory = False)

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

데이터는 총 24개의 열을 가진 45,466개의 샘플로 구성된 영화 정보 데이터다.

여기서 코사인 유사도에 사용할 데이터는 영화 제목에 해당하는 title열과 줄거리에 해당하는 overview 열이다.

좋아하는 영화를 입력하면, 해당 영화의 줄거리와 줄거리가 유사한 영화를 찾아서 추천하는 시스템을 만들 것이다.

In [10]:
# 20000개의 샘플만 가지고 학습하기 위해 데이터를 줄임.

data = data.head(20000)

In [11]:
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [12]:
data.overview[0]

"Led by Woody, Andy's toys live happily in his room until Andy's birthday brings Buzz Lightyear onto the scene. Afraid of losing his place in Andy's heart, Woody plots against Buzz. But when circumstances separate Buzz and Woody from their owner, the duo eventually learns to put aside their differences."

In [13]:
# tf-idf의 대상이 되는 overview열의 Null값
data['overview'].isnull().sum()

135

In [14]:
# 결측값 제거
data['overview'] = data['overview'].fillna('')

In [15]:
data['overview'].isnull().sum()

0

#### tf-idf 수행

In [16]:
tfidf = TfidfVectorizer(stop_words = 'english')
# overview에 대해 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(data['overview'])
print(tfidf_matrix.shape)

(20000, 47487)


overview열에 대해 tf-idf를 수행한 결과, 20000개의 영화를 표현하기 위해 총 47487개의 단어가 사용되었음을 보여주고 있다.

이제 코사인 유사도를 사용하면 바로 문서의 유사도를 구할 수 있다.

In [17]:
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [18]:
# 영화의 타이틀과 인덱스를 가진 테이블 생성
indices = pd.Series(data.index, index = data['title']).drop_duplicates()

In [19]:
# 인덱스 5개 출력
print(indices.head())

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


In [20]:
# 영화의 타이틀을 입력하면 인덱스를 리턴
idx = indices['Father of the Bride Part II']
print(idx)

4


이제 선택한 영화에 대해서 코사인 유사도를 이용하여, 가장 overview가 유사한 10개의 영화를 찾아내는 함수를 만든다. 

In [21]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옴, 선택한 영화를 가지고 연산
    idx = indices[title]

    # 모든 영화에 대해서 해당 영화와의 유사도 계산
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 저장
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 저장
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴
    return data['title'].iloc[movie_indices]

In [22]:
# 다크 나이트 라이즈와 유사한 영화들
get_recommendations('The Dark Knight Rises')

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
10122                              Batman Begins
Name: title, dtype: object

다크나이트가 첫 번째로, 그 외에도 전부 배트맨 영화를 찾아냈다.