# 코사인 유사도

In [None]:
# 반대방향(-) / 90도(0) / 동일방향(+)

In [1]:
#유클리드 거리

import numpy as np

def dist(x,y):  
    return np.sqrt(np.sum((x-y)**2))

doc0 = np.array((1,1,0,1))
doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))

print(dist(doc0,doc1)) #doc0과 doc1의 거리
print(dist(doc0,doc2))

2.23606797749979
3.1622776601683795


In [2]:
#자카드 유사도: 두 문서의 총 단어 집합에서 공통적으로 출현한 단어의 비율

doc1 = "python 파이썬 데이터"
doc2 = "빅데이터 python 파이썬"

# 토큰화

tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print(tokenized_doc1)
print(tokenized_doc2)

['python', '파이썬', '데이터']
['빅데이터', 'python', '파이썬']


In [3]:
#합집합

union = set(tokenized_doc1).union(set(tokenized_doc2))

print(union)

{'빅데이터', '데이터', 'python', '파이썬'}


In [4]:
#교집합

intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))

print(intersection)

{'python', '파이썬'}


In [5]:
print(len(intersection)/len(union))

0.5


In [7]:
# Cosine Similarity

# 두 벡터 간의 코사인 각도를 이용하여 구하는 두 벡터의 유사도
# 두 벡터의 방향이 완전히 같으면 1, 90도이면 0, 반대 방향이면 -1
# 1에 가까울수록 유사도가 높다고 판단함

from numpy import dot

a=[0,1,1]
b=[1,0,2]

# 배열의 곱( 0x1 + 1x0 + 1x2)
dot(a,b)

2

In [8]:
from math import sqrt
from numpy.linalg import norm

a=[0,1,1]
b=[1,0,2]

print(norm(a)) #a의 제곱합의 제곱근
print(sqrt(2))
print(norm(b))
print(sqrt(5))
print(norm(a)*norm(b))

1.4142135623730951
1.4142135623730951
2.23606797749979
2.23606797749979
3.1622776601683795


In [9]:
#a,b의 코사인 유사도

print( dot(a,b) / (norm(a)*norm(b)))

0.6324555320336759


In [10]:
def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

In [28]:
import numpy as np

doc1=np.array([0,1,1,1])
doc2=np.array([1,0,1,1])
doc3=np.array([2,0,2,3])
doc4=np.array([0,2,2,2])

print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도
print(cos_sim(doc1, doc4)) #문서1과 문서4의 코사인 유사도
#코사인 유사도는 단순한 빈도수보다도 두 벡터의 방향이 완전히 동일한 경우에는 1(유사도가 최대)

0.6666666666666667
0.7001400420140049
0.9801960588196069
1.0000000000000002


In [12]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
 '매우 좋은 영화네요 매우 추천해요',
 '매우 볼만한 영화네요.',
 '조금 볼만한 영화네요 조금 추천해요',
 '별로 볼 내용이 없는 것 같아요 추천하지 않아요',
]

#DTM(Document Term Matrix, 문서 단어 행렬)
vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수 계산
print(vector.fit_transform(corpus).toarray())   # 출현빈도
print(vector.vocabulary_)   # 단어사전

[[0 0 2 0 0 0 0 1 0 1 0 1]
 [0 0 1 0 1 0 0 1 0 0 0 0]
 [0 0 0 0 1 0 0 1 2 0 0 1]
 [1 1 0 1 0 1 1 0 0 0 1 0]]
{'매우': 2, '좋은': 9, '영화네요': 7, '추천해요': 11, '볼만한': 4, '조금': 8, '별로': 3, '내용이': 1, '없는': 6, '같아요': 0, '추천하지': 10, '않아요': 5}


In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer  

tfidfv = TfidfVectorizer().fit(corpus)  
tfidf_matrix = tfidfv.fit_transform(corpus)  

print(tfidfv)  
print(tfidfv.transform(corpus).toarray())  
print(tfidfv.vocabulary_)

TfidfVectorizer()
[[0.         0.         0.74205499 0.         0.         0.
  0.         0.30037873 0.         0.47060133 0.         0.37102749]
 [0.         0.         0.61366674 0.         0.61366674 0.
  0.         0.49681612 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.33166972 0.
  0.         0.26851522 0.84136197 0.         0.         0.33166972]
 [0.40824829 0.40824829 0.         0.40824829 0.         0.40824829
  0.40824829 0.         0.         0.         0.40824829 0.        ]]
{'매우': 2, '좋은': 9, '영화네요': 7, '추천해요': 11, '볼만한': 4, '조금': 8, '별로': 3, '내용이': 1, '없는': 6, '같아요': 0, '추천하지': 10, '않아요': 5}


In [14]:
from sklearn.metrics.pairwise import linear_kernel  

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)  

cosine_sim

#           문장1   문장2   문장3   문장4
#   문장1
#   문장2
#   문장3
#   문장4

array([[1.        , 0.60460746, 0.20371485, 0.        ],
       [0.60460746, 1.        , 0.33693737, 0.        ],
       [0.20371485, 0.33693737, 1.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        ]])

In [15]:
#줄거리가 유사한 영화 추천

import pandas as pd

#https://www.kaggle.com/rounakbanik/the-movies-dataset

df = pd.read_csv('c:/workspace3/data/movies_metadata.csv',low_memory=False)
df.head()

# 일부 컬럼에 자료형이 혼합된 경우 메모리 사용량이 증가할 수 있으므로 low_memory=False 사용

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [16]:
df=df.head(10000) #1만개의 행으로 실습

# overview(줄거리) 필드의 결측값이 있는 행의 수
df['overview'].isnull().sum()

29

In [17]:
#결측값을 빈값으로 채움

df['overview'] = df['overview'].fillna('')
df['overview'].isnull().sum()

0

In [18]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')
#                         불용어

# overview에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(df['overview'])

print(tfidf_matrix.shape)
#단어 개수 32350

(10000, 32350)


In [29]:
tfidf_matrix[0]
# sparse matrix : 희소행렬

<1x32350 sparse matrix of type '<class 'numpy.float64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [19]:
for idx,value in enumerate(tfidf_matrix[0].toarray()[0]):  
    if value>0:
        print(idx, value)

902 0.15117478233143042
1454 0.42392042026514853
1981 0.16286909320527743
3295 0.1297104481680652
4007 0.11144337304471348
4375 0.5039312222568495
5502 0.13015717076993974
8160 0.13773181837307621
9069 0.13469257688044736
10050 0.10098899142189678
12957 0.13413569108104803
13182 0.10651606055561727
16657 0.10437460173367771
16682 0.11056336286192948
16946 0.185198454093184
17089 0.09235735150746406
17288 0.12032396861553211
20940 0.10463026623909469
21963 0.09735511488229845
22065 0.1370865241690154
24768 0.11977460922250864
25398 0.11771461367669954
25822 0.14053973231737085
29507 0.16526304049384546
31861 0.4463425051285872


In [20]:
from sklearn.metrics.pairwise import linear_kernel

#tfidf에서는 dot product를 구하면 코사인 유사도를 얻을 수 있음
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

linear_kernel([[1,2]],[[1,2]]) # 1x1 + 2x2

array([[5.]])

In [21]:
#영화 제목과 인덱스, drop_duplicates() 중복값 제거

indices = pd.Series(df.index, index=df['title']).drop_duplicates()

print(indices.head())

title
Toy Story                      0
Jumanji                        1
Grumpier Old Men               2
Waiting to Exhale              3
Father of the Bride Part II    4
dtype: int64


In [24]:
#영화제목을 입력하면 인덱스가 리턴됨

idx = indices['Jumanji']
idx

1

In [26]:
def get_recommendations(title, cosine_sim=cosine_sim):

    # 영화의 제목으로 인덱스 조회
    idx = indices[title]

    # 해당 영화와의 유사도 계산
    sim_scores = list(enumerate(cosine_sim[idx]))
   
    # 유사도에 따라 정렬, key 정렬기준 필드(두번째값 기준 정렬), reverse 내림차순
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화 리스트
    sim_scores = sim_scores[1:11]
    print(sim_scores)

    # 리스트의 0번 인덱스
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목
    return df['title'].iloc[movie_indices]

#가장 유사한 영화 목록
get_recommendations('Toy Story')

[(2997, 0.4563847223997509), (8327, 0.2125051726227112), (1071, 0.18331721941453483), (3057, 0.14787027144517378), (1932, 0.14188013382197437), (485, 0.14122665831617187), (5797, 0.13658886827487585), (7254, 0.1301910487191963), (6944, 0.1262789816742374), (7615, 0.12460340953655337)]


2997                                    Toy Story 2
8327                                      The Champ
1071                          Rebel Without a Cause
3057                                Man on the Moon
1932                                      Condorman
485                                          Malice
5797                                  Class of 1984
7254                                 Africa Screams
6944                               Rivers and Tides
7615    The First $20 Million Is Always the Hardest
Name: title, dtype: object