In [16]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [17]:
dir_path = './data/'

In [20]:
def load_books_data(file_path):
    books_df = pd.read_excel(file_path, engine='openpyxl')
    return books_df

def create_tfidf_matrix(books_df):
    vectorizer = TfidfVectorizer(stop_words='english')
    tfidf_matrix = vectorizer.fit_transform(books_df['description'])
    return tfidf_matrix

def calculate_similarity_matrix(tfidf_matrix):
    similarity_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)
    return similarity_matrix

def recommend_books(book_title, books_df, similarity_matrix, top_n=5):
    indices = pd.Series(books_df.index, index=books_df['title'])
    book_index = indices[book_title]

    similarity_scores = list(enumerate(similarity_matrix[book_index]))
    similarity_scores = sorted(similarity_scores, key=lambda x: x[1], reverse=True)
    top_similar_books_indices = [i[0] for i in similarity_scores[1:top_n+1]]

    return books_df.iloc[top_similar_books_indices]

if __name__ == '__main__':
    books_data_path = dir_path+'aladin_20230502.xlsx'
    books_df = load_books_data(books_data_path)
    tfidf_matrix = create_tfidf_matrix(books_df)
    similarity_matrix = calculate_similarity_matrix(tfidf_matrix)

    book_title = '세이노의 가르침' # The book title you want to get recommendations for
    recommendations = recommend_books(book_title, books_df, similarity_matrix)
    print(recommendations)

               isbn     itemid  \
156   9791161506999  314022991   
487   9788934943419  313188851   
423   9791136756541  303110146   
472   9791187038030  314515930   
1728  9791169794572  313528786   

                                                  title  \
156        초등 사자소학 - 분당강쌤의 수능 필수어휘, 초등학교 때 시작하는 수능 필수어휘   
487                    구름관찰자를 위한 가이드 - 신기하고 매혹적인 구름의 세계   
423                                              지옥락 10   
472   왜 세계의 절반은 굶주리는가? (리커버 특별판) - 유엔 식량특별조사관이 아들에게 ...   
1728                                      닐 게이먼 베스트 컬렉션   

                                            description  \
156   다른 사자소학 책들과 달리 초등 시기 어휘력 향상을 목표로 한다. 이를 위해 기본 ...   
487   개빈 프레터피니가 구름감상협회를 만든 후, 그의 ‘솜털 친구들을 옹호하기 위해 쓴 ...   
423   선약을 탈취하기 위해 사형수와 아사에몬이 저마다 한 조가 되어 수많은 희생을 치르면...   
472   2000년부터 유엔 인권위원회의 식량특별조사관으로 활동하고 있는 장 지글러가 기아의...   
1728  1984년부터 2018년까지 35년 동안 집필된 닐 게이먼의 장편과 중&#8228;...   

                                     author  salesPoint    CID  \
156                

In [22]:
recommendations

Unnamed: 0,isbn,itemid,title,description,author,salesPoint,CID,customer_review_rank,pricesales,pricestandard,pubdate,publisher,mall,category_name,1Depth,2Depth
156,9791161506999,314022991,"초등 사자소학 - 분당강쌤의 수능 필수어휘, 초등학교 때 시작하는 수능 필수어휘",다른 사자소학 책들과 달리 초등 시기 어휘력 향상을 목표로 한다. 이를 위해 기본 ...,분당강쌤 (지은이),22910,48940,10,13320,14800,2023-03-28,시원북스,국내도서,사자성어/고사성어,어린이,어린이 한자
487,9788934943419,313188851,구름관찰자를 위한 가이드 - 신기하고 매혹적인 구름의 세계,"개빈 프레터피니가 구름감상협회를 만든 후, 그의 ‘솜털 친구들을 옹호하기 위해 쓴 ...","개빈 프레터피니 (지은이), 김성훈 (옮긴이)",10420,51318,9,19800,22000,2023-03-13,김영사,국내도서,기상학/기후,과학,지구과학
423,9791136756541,303110146,지옥락 10,선약을 탈취하기 위해 사형수와 아사에몬이 저마다 한 조가 되어 수많은 희생을 치르면...,"카쿠 유지 (지은이), 도영명 (옮긴이)",5575,4133,10,5400,6000,2022-10-14,서울미디어코믹스(서울문화사),국내도서,액션 판타지,만화,본격장르만화
472,9791187038030,314515930,왜 세계의 절반은 굶주리는가? (리커버 특별판) - 유엔 식량특별조사관이 아들에게 ...,2000년부터 유엔 인권위원회의 식량특별조사관으로 활동하고 있는 장 지글러가 기아의...,"장 지글러 (지은이), 유영미 (옮긴이), 주경복, 우석훈 (해제)",41466,51073,9,11520,12800,2023-04-03,갈라파고스,국내도서,빈곤/불평등문제,사회과학,사회문제
1728,9791169794572,313528786,닐 게이먼 베스트 컬렉션,1984년부터 2018년까지 35년 동안 집필된 닐 게이먼의 장편과 중&#8228;...,"닐 게이먼 (지은이), 정지현 (옮긴이)",1360,57727,10,27000,27000,2023-03-30,하빌리스,전자책,외국판타지/환상소설,소설/시/희곡,판타지/환상문학
