# 출처 : 딥 러닝을 이용한 자연어 처리 입문
## 1. 코사인 유사도
### 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미
    * 두 벡터의 방향이 완전히 동일한 경우: 1
    * 90°의 각인 경우: 0
    * 180°로 반대의 방향인 경우: -1

![코사인 유사도 공식](./data/06_cosine_similarity.svg)

In [5]:
from numpy import dot
from numpy.linalg import norm
import numpy as np
def cos_sim(A, B):
       return round(dot(A, B)/(norm(A)*norm(B)), 2)

### 간단한 예
문서1 : 저는 사과 좋아요<br>
문서2 : 저는 바나나 좋아요<br>
문서3 : 저는 바나나 좋아요 저는 바나나 좋아요<br>

| 항목 |바나나|사과|저는|좋아요|
|:--:|:--:|:--:|:--:|:--:|
|문서1 |0 |1 |1 |1 |
|문서2 |1 |0 |1 |1 |
|문서3 |2 |0 |2 |2 |

In [3]:
# 문서1, 문서2, 문서3에 대해서 각각 BoW를 생성
doc1=np.array([0,1,1,1])
doc2=np.array([1,0,1,1])
doc3=np.array([2,0,2,2])

In [6]:
print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도

0.67
0.67
1.0


## 2. 사이킷런을 이용한 DTM과 TF-IDF
- 단어 빈도(TF: Term Frequency)와 역 문서 빈도(Inverse Document Frequency)의 곱
    1. tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
    2. df(t) : 특정 단어 t가 등장한 문서의 수
    3. idf(d, t) : df(t)에 반비례하는 수
- 문장내에서 각 단어들마다 중요한 정도를 가중치로 주는 방법

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'you know I want your love',
    'I like you, I love you',
    'what should I do ',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray()) # 코퍼스로부터 각 단어의 빈도 수를 기록한다.
print(vector.vocabulary_) # 각 단어의 인덱스가 어떻게 부여되었는지를 보여준다.

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 1 0 0 0 2 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [33]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'you know I want your love',
    'I like you, I love you',
    'what should I do ',    
]
tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.49047908 0.         0.37302199 0.         0.49047908
  0.         0.37302199 0.49047908]
 [0.         0.         0.50689001 0.38550292 0.         0.
  0.         0.77100584 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


## 3. 유사도를 이용한 추천 시스템 구현하기
- 캐글에서 사용되었던 영화 데이터셋을 가지고 영화 추천 시스템을 만들어보자.
- TF-IDF와 코사인 유사도만으로 영화의 줄거리에 기반해서 영화를 추천하는 추천 시스템을 만들 수 있음
- 다운로드 링크: https://www.kaggle.com/rounakbanik/the-movies-dataset

In [8]:
import pandas as pd
df = pd.read_csv('data/the-movies-dataset/movies_metadata.csv', low_memory=False)
df.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [9]:
df.shape

(45466, 24)

In [10]:
# tf-idf의 대상이 되는 overview 열에 Null 값이 있는지 확인
df['overview'].isnull().sum()

954

In [11]:
# Null 값 제거
df['overview'] = df['overview'].fillna('')

In [12]:
df['overview'].isnull().sum()

0

In [14]:
# TF-IDF(Term Frequency - Inverse Document Frequency) 수행
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['overview'])
# overview에 대해서 tf-idf 수행
print(tfidf_matrix.shape)

(45466, 75827)


**총 45,466개의 영화 리뷰를 표현하기 위해 총 75,827개의 단어가 사용되었음**

### 문서의 유사도

In [15]:
from sklearn.metrics.pairwise import linear_kernel
%time cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [16]:
# 코사인 유사도 구하기
indices = pd.Series(df.index, index=df['title']).drop_duplicates()
print(indices.head())

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


#### indices 테이블 용도 : 영화의 타이틀을 입력하면 인덱스를 리턴하기 위함

In [18]:
idx = indices['Father of the Bride Part II']
print(idx)

4


#### 가장 overview가 유사한 10개의 영화를 찾아내는 함수

In [19]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 영화를 가지고 연산할 수 있습니다.
    idx = indices[title]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구합니다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬합니다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아옵니다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 받아옵니다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴합니다.
    return df['title'].iloc[movie_indices]

#### 영화 다크 나이트 라이즈와 overview가 유사한 영화

In [20]:
get_recommendations('The Dark Knight Rises')

12481                                      The Dark Knight
150                                         Batman Forever
1328                                        Batman Returns
15511                           Batman: Under the Red Hood
585                                                 Batman
21194    Batman Unmasked: The Psychology of the Dark Kn...
9230                    Batman Beyond: Return of the Joker
18035                                     Batman: Year One
19792              Batman: The Dark Knight Returns, Part 1
3095                          Batman: Mask of the Phantasm
Name: title, dtype: object