#prepare

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import warnings
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.metrics.pairwise import pairwise_distances
from sklearn.feature_extraction.text import TfidfVectorizer

warnings.filterwarnings(action='ignore')
%matplotlib inline

#data

In [None]:
data = pd.read_csv('./Books.csv', encoding = 'utf-8')

In [None]:
data = data.dropna(subset = ['overview'], axis = 0).reset_index().drop(['index'], axis = 1)

#functions

In [None]:
id2title = {}
title2id =  {}

for id, tilte in enumerate(data['title']):
  id2title[id] = tilte
  title2id[tilte] = id

In [None]:
def get_sim_score(score, idx, top = 10):
  score = [(i, c) for i, c in enumerate(score[idx]) if i != idx]
  score = sorted(score, key = lambda x: x[1], reverse=True)
  score = [(id2title[i], round(score, 2)) for i, score in score[0:top]]
  return score

In [None]:
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(data['overview'])
tfidf_matrix.shape

(21508, 358684)

#similarity

In [None]:
idx = title2id['내가 틀릴 수도 있습니다 - 숲속의 현자가 전하는 마지막 인생 수업']

In [None]:
#코사인 유사도
cosine_scores = cosine_similarity(tfidf_matrix, tfidf_matrix)
get_sim_score(cosine_scores, idx)

[('화이트 러시', 0.08),
 ('세도나 메서드 심플 가이드', 0.07),
 ('사라진 소녀들의 숲', 0.07),
 ('모두가 기다리는 사람', 0.07),
 ('지워진 우리들의 날', 0.07),
 ('생각이 행동으로 변하는 8가지 방법 - 온은주의 비주얼씽킹', 0.07),
 ('있으려나 서점', 0.06),
 ('자각의 연금술', 0.06),
 ('사랑은 하지 않고 있습니다', 0.06),
 ('아주 오래된 노래 - 가슴을 울리는 포크 음악 이야기, 제2부', 0.06)]

In [None]:
#유클리드 거리
euclidean_scores = euclidean_distances(tfidf_matrix, tfidf_matrix)
get_sim_score(euclidean_scores, idx)

[('중국시가의 이미지 - 詩歌意象論 ― 의상, 상을 세워 뜻을 표현하다', 1.41),
 ('일제강점기 일본어 단행본 목록집 - [ 양장 ]', 1.41),
 ('성스러운 한 끼 - 아라비아의 디저트부터 산사의 국수까지, 맛과 믿음의 음식인문학', 1.41),
 ('주자학의 형성과 전개 - [ 양장 ]', 1.41),
 ('강화학파의 양명학', 1.41),
 ('강화 양명학 연구사 1', 1.41),
 ('명화로 보는 일리아스 - 그리스 신화의 또 다른 어드벤처!', 1.41),
 ('신화의 역사', 1.41),
 ('문화사의 과제 - [ 개정판 ]', 1.41),
 ('반일 종족주의  - 대한민국 위기의 근원', 1.41)]