### @khs note - 코사인 유사도

- 벡터와 벡터간의 유사도를 비교할 때 두 벡터간의 사잇각을 구해서 얼마나 유사한지 수치로 나타내는 것임
- 벡터 값의 관계
    - 벡터 방향이 반대가 될수록 반대 관계
    - 벡터 방향이 90도 일때는 관련성 없음
    - 벡터 방향이 비슷할 수록 두 벡터는 유사

<img src='./images/CosineS.png'>

    - 피처 벡터 행렬은 음수값이 없으므로 유사도가 음수가 되지는 않아 코사인 유사도는 0~1 사이 값을 갖음

- <img src='./images/ABVector.png'>
- <img src='./images/Similarity.png'>  

In [12]:
# 유사도 이해하기 - 예시1
import numpy as np
from numpy import dot
from numpy.linalg import norm

'''
doc1 : 저는 사과 좋아요           
doc2 : 저는 바나나 좋아요
doc3 : 저는 바나나 좋아요 저는 바나나 좋아요

doc matrix : 바나나 사과 저는 좋아요 
- 길이가 비슷한 경우 유사도 높을 수 있지만 cosine 유사도를 사용하여 해결
'''

doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

def cos_sim(A, B):
  return dot(A, B)/(norm(A)*norm(B))

print('doc1 과 doc2의 유사도 :',cos_sim(doc1, doc2).round(2))
print('doc1 과 doc3의 유사도 :',cos_sim(doc1, doc3).round(2))
print('doc2 와 doc3의 유사도 :',cos_sim(doc2, doc3).round(2))

doc1 과 doc2의 유사도 : 0.67
doc1 과 doc3의 유사도 : 0.67
doc2 와 doc3의 유사도 : 1.0


▲ 결과 이해
- doc1 과 doc2의 코사인 유사도 와 doc1과 doc3의 코사인 유사도가 같다
- doc2 와 doc2의 코사인 유사도가 1 이다

In [13]:
# 유사도 사용하기 - 예시2
import numpy as np

# 코사인 유사도 함수 정의
def cos_similarity(v1, v2):    
    dot_product = np.dot(v1, v2)        
    l2_norm = (np.sqrt(sum(np.square(v1))) * np.sqrt(sum(np.square(v2))))         
    similarity = dot_product / l2_norm                   
                              
    return similarity  

# Tfidf 구하기
from sklearn.feature_extraction.text import TfidfVectorizer

doc_list = ['if you take the blue pill, the story ends' ,
            'if you take the red pill, you stay in Wonderland',
            'if you take the red pill, I show you how deep the rabbit hole goes']

tfidf_vect_simple = TfidfVectorizer()
feature_vect_simple = tfidf_vect_simple.fit_transform(doc_list)

print(feature_vect_simple.shape)
print(type(feature_vect_simple))
print(feature_vect_simple)

# TFidfVectorizer로 transform()한 결과는 Sparse Matrix이므로 Dense Matrix로 변환. 
feature_vect_dense = feature_vect_simple.todense()

#첫번째, 두번째, 세번째 문장 feature vector 추출
vect1 = np.array(feature_vect_dense[0]).reshape(-1,)
vect2 = np.array(feature_vect_dense[1]).reshape(-1,)
vect3 = np.array(feature_vect_dense[2]).reshape(-1,)

#첫번째 문장과 두번째 문장의 feature vector로 두개 문장의 Cosine 유사도 추출
similarity_simple1 = cos_similarity(vect1, vect2)
similarity_simple2 = cos_similarity(vect1, vect3)
similarity_simple3 = cos_similarity(vect2, vect3)
print('doc1, doc2 코사인 유사도: {0:.3f}'.format(similarity_simple1))
print('doc1, doc3 코사인 유사도: {0:.3f}'.format(similarity_simple2))
print('doc2, doc3 코사인 유사도: {0:.3f}'.format(similarity_simple3))

(3, 18)
<class 'scipy.sparse.csr.csr_matrix'>
  (0, 2)	0.41556360057939173
  (0, 13)	0.41556360057939173
  (0, 8)	0.24543855687841593
  (0, 0)	0.41556360057939173
  (0, 15)	0.49087711375683185
  (0, 14)	0.24543855687841593
  (0, 17)	0.24543855687841593
  (0, 6)	0.24543855687841593
  (1, 16)	0.39624495215024286
  (1, 7)	0.39624495215024286
  (1, 12)	0.39624495215024286
  (1, 10)	0.3013544995034864
  (1, 8)	0.2340286519091622
  (1, 15)	0.2340286519091622
  (1, 14)	0.2340286519091622
  (1, 17)	0.4680573038183244
  (1, 6)	0.2340286519091622
  (2, 3)	0.3098560092999078
  (2, 4)	0.3098560092999078
  (2, 9)	0.3098560092999078
  (2, 1)	0.3098560092999078
  (2, 5)	0.3098560092999078
  (2, 11)	0.3098560092999078
  (2, 10)	0.23565348175165166
  (2, 8)	0.1830059506093466
  (2, 15)	0.3660119012186932
  (2, 14)	0.1830059506093466
  (2, 17)	0.3660119012186932
  (2, 6)	0.1830059506093466
doc1, doc2 코사인 유사도: 0.402
doc1, doc3 코사인 유사도: 0.404
doc2, doc3 코사인 유사도: 0.456


▲ 결과해석

1. to_dense : 희소행렬(Sparse Matrix)로 나타냄
- . `TfidfVectorizer`가 반환하는 행렬은 대부분의 값이 0이므로, 효율적인 메모리 사용을 위해 0이 아닌 값 저장하여 출력니다:
- **(0, 2) 0.4155636005791`(문서 인덱스, 단어 인덱스) TF-IDF 값`의 형태     73**: 
  - 첫 번째 문서(인덱스 0)의 단어 인덱스 2에 해당하는 단어의 TF-IDF 값은 약
  - 값이 클수록 해당 단어가 해당 문서에 더 중요

2. reshape(-1,) 
- 2차원 행렬 형태로 되어 있는 첫 번째 문서의 벡터 표현을 1차원 배열 형태로 평탄화(flatten) : 변환된 1차원 배열은 다양한 연산이나 함수에 더 적합하게 사용연산을 가능하게 합니다.

In [14]:
# 유사도 사용하기 - 예시3
from sklearn.metrics.pairwise import cosine_similarity

similarity_simple_pair = cosine_similarity(feature_vect_simple , feature_vect_simple)
print(similarity_simple_pair)

[[1.         0.40207758 0.40425045]
 [0.40207758 1.         0.45647296]
 [0.40425045 0.45647296 1.        ]]


▲ 결과해석
sklearn.metrics.pairwise.cosine_similarity는 희소 행렬을 직접 지원하므로 todense() 변환 없이도 사용할 수 있음

### <유사도(cosine_similarity)를 이용한 영화 추천 시스템>

In [15]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('movies_metadata.csv', low_memory=False)
data.head(2)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0


In [16]:
df = data.head(20000) # 데이터 양이 많아 상위 200000개만 사용

In [17]:
df['overview'].isnull().sum() # overview 열에 존재하는 모든 결측값을 전부 카운트하여 출력

135

In [18]:
# 결측값을 빈 값으로 대체 ( copy()해서 사용하거나 다음처럼 사용)
df.loc[:, 'overview'] = df['overview'].fillna('')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(ilocs[0], value, pi)


### scikit-learn : TfidfVectorizer()
CountVectorizer()+ TfidfTransformer()       
=> TfidfVectorizer() : 사용자의 편의를 위해 TF-IDF 변환을 빠르게 적용

In [19]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['overview'])
tfidf_matrix.shape

(20000, 47487)

In [20]:
# 200000개의 문서 벡터와 자기 자신을 포함한 20,000개의 문서 벡터간의 유사도 행렬 (즉, 각 영화의 개요에 대한 TF-IDF 벡터) 간의 코사인 유사도를 계산
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print('코사인 유사도 연산 결과 :',cosine_sim.shape)

코사인 유사도 연산 결과 : (20000, 20000)


In [23]:
title_to_index = dict(zip(df['title'], df.index))

# 영화 제목 Father of the Bride Part II의 인덱스를 리턴
idx = title_to_index['Father of the Bride Part II']
print(idx)

4


In [24]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당 영화의 인덱스를 받아온다.
    idx = title_to_index[title]

    # 해당 영화와 모든 영화와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 얻는다.
    movie_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return df['title'].iloc[movie_indices]


In [25]:
# 다크 나이트 라이즈와 overview가 유사한 영화 찾기
get_recommendations('The Dark Knight Rises')

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
10122                              Batman Begins
Name: title, dtype: object

### <유사도(cosine_similarity)를 이용한 영화 추천 시스템> 통합코드

In [26]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

data = pd.read_csv('movies_metadata.csv', low_memory=False)
df = data.head(20000)
#df['overview'].isnull().sum()
df.loc[:, 'overview'] = df['overview'].fillna('')

# tfidf 구하기
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['overview'])

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

title_to_index = dict(zip(df['title'], df.index))

def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당 영화의 인덱스를 받아온다.
    idx = title_to_index[title]

    # 해당 영화와 모든 영화와의 유사도를 가져온다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다. 
    # 0번 인덱스에는 선택한 영화와의 유사도가 저장되어 있어 이를 제외하고 나머지 영화들(1번부터 10번까지)의 유사도를 가져옴
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 얻는다.
    movie_indices = [idx[0] for idx in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return df['title'].iloc[movie_indices]

get_recommendations('The Dark Knight Rises')

12481                            The Dark Knight
150                               Batman Forever
1328                              Batman Returns
15511                 Batman: Under the Red Hood
585                                       Batman
9230          Batman Beyond: Return of the Joker
18035                           Batman: Year One
19792    Batman: The Dark Knight Returns, Part 1
3095                Batman: Mask of the Phantasm
10122                              Batman Begins
Name: title, dtype: object