## Cosine Similarity

In [None]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

In [None]:
doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

In [None]:
print(cos_sim(doc1, doc2)) #문서1과 문서2의 코사인 유사도
print(cos_sim(doc1, doc3)) #문서1과 문서3의 코사인 유사도
print(cos_sim(doc2, doc3)) #문서2과 문서3의 코사인 유사도

## 유사도를 이용한 추천 시스템 구현하기

In [None]:
import pandas as pd
data = pd.read_csv(r'./movies_metadata.csv', low_memory=False)

data.head(2)

In [None]:
data = data.head(20000)

In [None]:
data['overview'].isnull().sum()

In [None]:
data['overview'] = data['overview'].fillna('')
# overview에서 Null 값을 가진 경우에는 값 제거

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(data['overview'])  # overview에 대해서 tf-idf 수행
print(tfidf_matrix.shape)

In [None]:
from sklearn.metrics.pairwise import linear_kernel

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [None]:
indices = pd.Series(data.index, index=data['title']).drop_duplicates()
print(indices.head())

In [None]:
idx = indices['Father of the Bride Part II']
print(idx)

In [None]:
def get_recommendations(title, cosine_sim=cosine_sim):
    # 선택한 영화의 타이틀로부터 해당되는 Index를 받아온다.
    #이제 선택한 영화를 가지고 연산할 수 있다.
    idx = indices[title]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구한다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬한다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아온다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 Index를 받아온다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴한다.
    return data['title'].iloc[movie_indices]

In [None]:
get_recommendations('The Dark Knight Rises')

## 유클리드 거리(Euclidean distance)

In [None]:
import numpy as np

def dist(x,y):   
    return np.sqrt(np.sum((x-y)**2))

In [None]:
doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print(dist(doc1,docQ))
print(dist(doc2,docQ))
print(dist(doc3,docQ))

## 자카드 유사도(Jaccard similarity)

In [None]:
# 다음과 같은 두 개의 문서가 있다.
# 두 문서 모두에서 등장한 단어는 apple과 banana 2개.
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화를 수행한다.
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

# 토큰화 결과 출력한다.
print(tokenized_doc1)
print(tokenized_doc2)

In [None]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print(union)

In [None]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print(intersection)

In [None]:
print(len(intersection)/len(union)) # 2를 12로 나눔.