In [1]:
import os
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
books = pd.read_csv('2024_books.csv') #교보문고 데이터 다운
reviews = pd.read_csv('new_reviews.csv') #크롤링

In [22]:
# 데이터프레임 병합 (inner join) 및 분야 유니크 값 확인
merge_df = pd.merge(reviews, books, left_on='bookId', right_on='판매상품ID')

In [24]:
np.unique(merge_df['분야'], return_counts=True)

(array(['가정/육아', '어린이(초등)', '요리', '유아(0~7세)', '청소년'], dtype=object),
 array([3116, 8936, 1842, 3291, 5504], dtype=int64))

# 책별로 중요한 리뷰 상위 10개 키워드 추출

In [10]:
result = reviews.groupby('bookId')['review'].apply(lambda x: '_'.join(x)).reset_index()

In [12]:
result

Unnamed: 0,bookId,review
0,S000000554988,"진정으로 찾고 있던 책을 만난느낌! ""나는 레시피를 그대로 따라하는데 왜!!! 사진..."
1,S000000555409,1.5리터 와인병을 매그넘이라고 합니다. 그만큼 전편보다 많은 내용을 담고 있겠지요...
2,S000000597566,교보에서 책을 시작한 것이 20년이 넘었지만 이렇게 선뜻 리뷰를 먼저 쓰기는 처음입...
3,S000000597842,실생활에 사용되고 필요한 내용이지만심도있지는 않아요. 이 상황에 어떻게 말해야한다~...
4,S000000611323,아이 키우는 친구가 추천해줘서 구입했어요. 30대 중반 성인여잔데 일상의 위로를 받...
...,...,...
174,S000214094381,내용은 좋습니다만 초보자용은 아니예요. 구움과자 좀 해본 분이 더 향상시키기 위한 ...
175,S000214106784,사자마자 다 읽었어요._아이가 좋아해요 2권도 궁금하네요_아이가 아주 좋아해요_재미...
176,S000214299107,아이를 대할 때의 내 마음가짐을 바꿔보고 싶었습니다. 아이와 함께 하는 일들을 퀘스...
177,S000214299207,아이가 재미있어해요_스도쿠를 재밌게 해볼 수 있어요_아이가 서점에서 이 책을 보느라...


In [14]:
result['review'] = result['review'].replace('[^ㄱ-ㅎ가-힣 ]', '', regex=True) # 한국어만 남기기
result['review'] = result['review'].replace('^ +', '', regex=True) #특수문자 제거
result['review'] = result['review'].replace('', np.nan) #공백제거
result = result.dropna()
result = result.reset_index(drop=True)
result

Unnamed: 0,bookId,review
0,S000000554988,진정으로 찾고 있던 책을 만난느낌 나는 레시피를 그대로 따라하는데 왜 사진처럼 또는...
1,S000000555409,리터 와인병을 매그넘이라고 합니다 그만큼 전편보다 많은 내용을 담고 있겠지요 풍부한...
2,S000000597566,교보에서 책을 시작한 것이 년이 넘었지만 이렇게 선뜻 리뷰를 먼저 쓰기는 처음입니다...
3,S000000597842,실생활에 사용되고 필요한 내용이지만심도있지는 않아요 이 상황에 어떻게 말해야한다 딱...
4,S000000611323,아이 키우는 친구가 추천해줘서 구입했어요 대 중반 성인여잔데 일상의 위로를 받을 수...
...,...,...
174,S000214094381,내용은 좋습니다만 초보자용은 아니예요 구움과자 좀 해본 분이 더 향상시키기 위한 그...
175,S000214106784,사자마자 다 읽었어요아이가 좋아해요 권도 궁금하네요아이가 아주 좋아해요재미있게 보고...
176,S000214299107,아이를 대할 때의 내 마음가짐을 바꿔보고 싶었습니다 아이와 함께 하는 일들을 퀘스트...
177,S000214299207,아이가 재미있어해요스도쿠를 재밌게 해볼 수 있어요아이가 서점에서 이 책을 보느라 안...


In [16]:
# 반복 문자 정제화: 3번 이상 반복된 글자를 최대 2번까지만 남기기 위한 패키지 불러오기
from soynlp import *
from soynlp.normalizer import repeat_normalize
import re

def custom_repeat_normalize(text, num_repeats=2): 
    return re.sub(r'(.)\1{'+str(num_repeats)+',}', lambda m: m.group(1)*num_repeats, text)

result['review'] =result['review'].apply(lambda text: custom_repeat_normalize(text, num_repeats=2))


In [18]:
# 한국어 자연어 처리용 형태소 분석기 라이브러리
from kiwipiepy import Kiwi

kiwi = Kiwi()
sents = result['review']

keep_tags = {
      'NNG'  # 일반명사
     ,'NNP' # 고유명사
     ,'NP' # 대명사
     ,'MAG'  # 일반 부사
     ,'VA'   # 형용사 어간
}

# 각 리뷰 문장에서 지정한 품사만 추출 + 표제어(원형)로 변환하여 리스트로 저장
X_data = [
    [t.lemma for t in kiwi.tokenize(sent) if t.tag in keep_tags]
    for sent in result['review']
]

In [19]:
# 단어 등장 빈도를 세기 위한 라이브러리 불러오기
from collections import Counter

# 불용어(제외할 단어) 리스트 
stopwords = {'있다', '같다', '내용', '구매','없다','팅','신천지','잘','너무','많다','때','안','왜','좋다'
            ,'재미'}

#자주 나온단어 Top10 확인 후 저장
book_keywords = {}
for book_id, tokens in zip(result['bookId'], X_data):
    filtered_tokens = [token for token in tokens if token not in stopwords]
    token_counts = Counter(filtered_tokens)
    top_10 = token_counts.most_common(10)
    book_keywords[book_id] = top_10

# 각 bookId별로 키워드 리스트만 추출해서 DataFrame 생성
book_keyword_df = pd.DataFrame(
    [(book_id, [word for word, count in keywords]) for book_id, keywords in book_keywords.items()],
    columns=['bookId', 'keywords']
)

book_keyword_df

Unnamed: 0,bookId,keywords
0,S000000554988,"[요리, 책, 과학, 추천, 도움, 설명, 기본, 유용, 생각, 공부]"
1,S000000555409,"[와인, 책, 추천, 입문서, 공부, 유용, 입문, 도움, 정리, 정보]"
2,S000000597566,"[책, 요리, 집밥, 가족, 밥, 마음, 이재명, 사랑, 맛있다, 추천]"
3,S000000597842,"[책, 아이, 도움, 말, 육아, 많이, 오은영, 박사, 생각, 저]"
4,S000000611323,"[아이, 책, 수박, 그림, 여름, 재미있다, 수영장, 상상력, 예쁘다, 재밌다]"
...,...,...
174,S000214094381,"[책, 도움, 감사, 좀, 정말, 레시피, 높다, 많이, 과자, 초보자]"
175,S000214106784,"[아이, 재미있다, 책, 재밌다, 유튜브, 유튜버, 권, 아주, 생일, 선물]"
176,S000214299107,"[아이, 책, 마음, 육아, 부모, 도움, 아기, 박소영, 기대, 생각]"
177,S000214299207,"[아이, 시리즈, 책, 재미있다, 재밌다, 스도쿠, 다, 구입, 바로, 선물]"


# 콘텐츠 + 협업 => 하이브리드 추천시스템

In [11]:
#기본연산모듈
import numpy as np
import pandas as pd
#협업 필터링을 위한 모듈
from surprise import Dataset,Reader, SVD
from surprise.model_selection import train_test_split
#내용 기반을 위한 모듈
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [50]:
# 협업 필터링용 데이터셋 지정
from surprise import Dataset, Reader, model_selection

reader = Reader(rating_scale=(2.5, 10.0))
data = Dataset.load_from_df(reviews[['userId', 'bookId', '평점']], reader)
tr_ds, tt_ds = model_selection.train_test_split(data, test_size=0.2)

In [43]:
# 협업 필터링(SVD) : 행렬 분해 기반 추천 모델(사용자-아이템 평점 예측)
m = SVD()
m.fit(tr_ds)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x23aec2dec60>

In [53]:
# 내용 기반 추천
## 도서 분야를 벡터화하고 도서 간 유사도 계산
tf_idf_v = TfidfVectorizer()
tf_idf_d = tf_idf_v.fit_transform(books['분야'])
c1 = cosine_similarity(tf_idf_d, tf_idf_d)

In [56]:
# 도서 ID 매핑
book_idx_map = dict(zip(books['판매상품ID'], books.index))
title_to_bookId_map = dict(zip(books['상품명'], books['판매상품ID']))

In [69]:
# 하이브리드 추천 함수

def 추천(user_id, title, top_n=5, alpha=0.5):
    t_m_id = title_to_bookId_map[title]  # 도서 제목으로 도서ID 찾기
    t_idx = book_idx_map[t_m_id]         # 도서ID로 데이터프레임의 인덱스 찾기
    sim_sc = list(enumerate(c1[t_idx]))  # 유사도 리스트

    hy_score = []
    for idx, sim in sim_sc:
        recommend_book_id = books['판매상품ID'].iloc[idx]
        try:
            p_r = m.predict(user_id, recommend_book_id).est  # 협업 필터링 예측
            sc = alpha * sim + (1 - alpha) * (p_r / 5)
            hy_score.append((idx, sc))
        except:
            continue

    hy_score.sort(key=lambda x: x[1], reverse=True)  # 점수 기준 내림차순 정렬
    top_i = [idx for idx, _ in hy_score[1:top_n+1]]  # 자기 자신(0번째) 제외, top_n개
    return books['상품명'].iloc[top_i]

In [203]:
bold = '\033[1m'
reset = '\033[0m'

userid = 'tj******'
user_b_book = books[books['판매상품ID']=='S000001967752']['상품명'].iloc[0]
recommend_book_l = 추천(userid, user_b_book , top_n=3, alpha=0.5)   # 하이브리드 추천

print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')
print()
print(f'📚  {bold}{userid}{reset}님이 구매한 책: {bold}「{user_b_book}」{reset}')
print()
print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')
print(f'{bold}✨ 다른 베스트셀러를 추천드려요! ✨{reset}')
print()

for i, book in enumerate(recommend_book_l, 1):
    # 추천 도서의 bookId 찾기
    book_id = books[books['상품명'] == book]['판매상품ID'].iloc[0]
    # 키워드 찾기 (없으면 빈 리스트)
    keywords = book_keyword_df[book_keyword_df['bookId'] == book_id]['keywords']
    keywords_str = ', '.join(keywords.iloc[0]) if not keywords.empty else '(키워드 없음)'
    print(f"{i}. 📖 {book}")
    print(f"   🔑 [키워드: {keywords_str}]")
    print()
print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

📚  [1mtj******[0m님이 구매한 책: [1m「삐뽀삐뽀 119 이유식」[0m

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[1m✨ 다른 베스트셀러를 추천드려요! ✨[0m

1. 📖 백종원이 추천하는 집밥 메뉴(애장판)
   🔑 [키워드: 좋다, 요리, 책, 도움, 메뉴, 집, 레시피, 설명, 엄마, 아주]

2. 📖 안밥모 베스트 유아식
   🔑 [키워드: 책, 도움, 좋다, 밥, 레시피, 많이, 아기, 아이, 가입, 바로]

3. 📖 생선 바이블
   🔑 [키워드: 책, 생선, 좋다, 정보, 활자, 주문, 수산물, 구입, 생각, 전문]

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


In [85]:
def precision_recall_at_k(predictions, k=5, threshold=7.5):
    '''Precision@K and Recall@K for each user'''
    from collections import defaultdict

    # 1. 유저별로 예측 평점과 실제 평점을 저장할 딕셔너리 생성
    user_est_true = defaultdict(list)
    for pred in predictions:
        # pred.uid: 사용자ID, pred.est: 예측 평점, pred.r_ui: 실제 평점
        user_est_true[pred.uid].append((pred.est, pred.r_ui))

    precisions = dict()
    recalls = dict()
    for uid, user_ratings in user_est_true.items():
        # 2. 예측 평점 기준으로 내림차순 정렬 (추천 리스트 만들기)
        user_ratings.sort(key=lambda x: x[0], reverse=True)
        # 3. Top-K 추천 아이템만 추출
        top_k = user_ratings[:k]
        # 4. 실제 평점이 threshold 이상인 아이템(좋아한 아이템) 개수
        n_rel = sum((true_r >= threshold) for (_, true_r) in user_ratings)
        # 5. 추천 Top-K 중 예측 평점이 threshold 이상인 아이템 개수
        n_rec_k = sum((est >= threshold) for (est, _) in top_k)
        # 6. 추천 Top-K 중 실제로도 좋아한 아이템 개수
        n_rel_and_rec_k = sum(((true_r >= threshold) and (est >= threshold)) for (est, true_r) in top_k)

        # 7. Precision@K, Recall@K 계산
        precisions[uid] = n_rel_and_rec_k / n_rec_k if n_rec_k != 0 else 0
        recalls[uid] = n_rel_and_rec_k / n_rel if n_rel != 0 else 0

    # 8. 전체 유저의 평균 Precision@K, Recall@K 계산
    mean_precision = sum(prec for prec in precisions.values()) / len(precisions)
    mean_recall = sum(rec for rec in recalls.values()) / len(recalls)
    return mean_precision, mean_recall

In [100]:
# 테스트셋에서 예측값 생성
predictions = m.test(tt_ds)
print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')
print(f"RMSE: {rmse_value:.4f}")
print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')


# 별점5.0이하는 불만족, 7.5이상은 만족으로 기준을 정함
for th in [5.0, 7.5]:   
    # 2. Precisionll@K 계산 
    print(f'평점>={th}')
    print('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━')
    mean_precision, mean_recall = precision_recall_at_k(predictions, k=5, threshold=th)
    rmse_value = accuracy.rmse(predictions)
    # 3. 결과 출력  
    print(f"Precision: {mean_precision:.4f}")
    print(f"Recall: {mean_recall:.4f}")
    print()

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
RMSE: 0.6341
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
평점>=5.0
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
RMSE: 0.6341
Precision: 0.9960
Recall: 0.9531

평점>=7.5
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
RMSE: 0.6341
Precision: 0.9887
Recall: 0.9476



# **콘텐츠 + 협업 => 하이브리드 추천시스템**
- 협업 필터링(SVD)과 내용 기반 추천(TF-IDF, 코사인 유사도)
두 가지 방식을 결합한 하이브리드 추천 시스템을 구현

## **[수행 과정]**
1. 도서 카테고리 기반 유사도 측정
2. 도서 제목 기반 유사도 측정
3. 모델 튜닝

## **[결과]**
━━━━━━━━━━━━━━━━━━━━━━━━━━━━

📚  **tj******님이 구매한 책: 「삐뽀삐뽀 119 이유식」**

**1안** ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1. 📖 최강록의 요리 노트
   🔑 [키워드: 좋다, 요리, 책, 록, 최강, 도움, 설명, 쉐프, 많이, 재밌다]

2. 📖 베이킹은 과학이다: 제빵편
   🔑 [키워드: 좋다, 책, 베이킹, 제빵, 빵, 설명, 도움, 제과, 많이, 공부]

3. 📖 셰프의 가벼운 레스토랑
   🔑 [키워드: 요리, 책, 좋다, 건강, 사월, 맛있다, 진짜, 유용, 체중, 꿀]

**2안** ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1. 📖 삐뽀삐뽀 119 소아과
   🔑 [키워드: 책, 좋다, 도움, 육아, 유용, 아이, 많이, 아기, 선물, 정보]

2. 📖 튼이 이유식
   🔑 [키워드: 이유식, 책, 좋다, 도움, 시작, 설명, 준비, 많이, 아기, 유용]

3. 📖 뿐이 토핑 이유식
   🔑 [키워드: 이유식, 도움, 좋다, 책, 시작, 토핑, 많이, 블로그, 그대로, 유식]

**2안+모델 튜닝** ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
1. 📖 삐뽀삐뽀 119 소아과
   🔑 [키워드: 책, 좋다, 도움, 육아, 유용, 아이, 많이, 아기, 선물, 정보]

2. 📖 튼이 이유식
   🔑 [키워드: 이유식, 책, 좋다, 도움, 시작, 설명, 준비, 많이, 아기, 유용]

3. 📖 뿐이 토핑 이유식
   🔑 [키워드: 이유식, 도움, 좋다, 책, 시작, 토핑, 많이, 블로그, 그대로, 유식]

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
![image.png](attachment:c19c0d52-c3e6-441b-a1f4-2b43b4e127d6.png)    

**참고로 y값인 구매자 평점이 2.5, 5.0, 10.0으로만 구성되어 y를 연속형으로 예측한 값은 RMSE로 평가하였고, 도출된 연속형 평점을 임계값을 기준으로 긍정/부정 이진변수화하여 평가한 값은 Precision, Recall로 평가하였습니다.**