# 들어가며
- **이커머스 추천시스템 포트폴리오 만들기** 강의에 오신 것을 환영합니다.
- 지난 "이커머스 예측모델 포트폴리오 만들기"의 후속 강의로,
- 이머커스에서 중요하게 다루는 추천시스템을 구축하고 그 과정을 캐글노트북에 기록하는 과정을 강의에 담았습니다.
- 여러분의 데이터사이언스 포트폴리오 구축에 도움이 되면 좋겠습니다.

## 강의 목적
- 실제 IT 이커머스 도메인에서 실무에서 자주 사용하는 유사한 데이터를 이용하여 추천 모델을 개발하고 성능을 실험하는 과정을 안내합니다.
- 이머커스 및 추천시스템에 관심 있는 누구나 자신만의 모델과 포트폴리오를 만들수 있도록 가이드를 제공합니다.
- 자신의 포트폴리오를 통해 실력을 증명할수 있는 결과물을 만들고 과정을 이해함으로써, 이직이나 취업에 활용하도록 합니다.


## 강사 소개
- 이름: Liam Song
- 직무: 데이터사이언티스트 (13년차)
- 직장: 마켓컬리, 현대카드, 우아한형제들 등 이커머스 회사에서 다양한 데이터사이언스 프로젝트를 진행했습니다.
- 주요 프로젝트는 아래와 같습니다.
  - Generative AI 모델 개발
  - 수요예측, 추천/검색 개인화 모델 개발 및 운영
  - 가격 최적화 모델 구축
  - 다양한 머신러닝 모델을 개발하고 서비스 배포를 위해 MLOPS 환경 구축
  - 로그를 이용한 고객 행동 분석, 세그멘테이션, 마케팅 효율화 모델 개발
  - AARRR 프레임워크 기반 대시보드 구축 및 비즈니스 헬스 모니터링

## 주요 특징
  - 이머커스 도메인과 실제 비즈니스에서 유의미한 주제인 추천시스템을 통해 문제를 해결해보는 과정을 경험합니다.
  - 데이터사이언스 실무에서 활용하는 유사한 데이터를 이용해, 추천모델과 함수/코드를 구축해봅니다.
  - 실전에서 경험하게 되는 현실적이고 실제적인 이슈(데이터양, 퀄리티, 피드백 유형 등)에 대해서도 공유합니다.
  - Python 코딩 및 기초적인 모델링 지식은 사전에 습득한 것으로 가정하고 진행합니다.

## 목차
- **1강 : 데이터 소개 및 실습 준비**
 - 환경 세팅
 - 실습 데이터셋 소개
 - EDA 및 전처리
- **2강 : 추천시스템 개요**
 - 추천시스템 목적 및 활용 사례
 - 추천 알고리즘 Overview
 - 알고리즘별 주요 특성
 - 추천 성능 지표의 이해
- **3강 : 베이스라인 추천 알고리즘 구축**
 - (Memory-based) Collaborative Filtering
 - (Model-based) Matrix Factorazation (SVD, NMF, SVDpp)
- **4강 : 추천 알고리즘 성능 고도화**
 - (Model-based) DeepLearning (DNN, NCF)
 - (Model-based) Machine Learning-based Model
- **5강 : Cold Start Issues**
 - Content-based filtering
 - Populairity-based 
- **6강 : 최종 추천모델 클래스 구성**
 - Matrix Factorization(SVD), Machine Learning(GBR), Content+Poupularity 추천을 위한 클래스
- **7강 : Real-world Problem**
 - 실무에서 경험하는 이슈와 해결 경험

# 1강 데이터 소개 및 실습 준비
- 1강에서는 모델 개발에 필요한 환경을 세팅하고 필요한 데이터셋을 준비합니다.
- 프로젝트에 활용할 데이터에 대해 EDA 및 시각화를 통해 이해합니다.

## 필수 개발 환경 소개
- **Kaggle Notebook**
    - 코드 작성, 시각화 등을 위해 사용할 코드편집 툴입니다.
    - https://www.kaggle.com/code (캐글 계정 필요)
    - 클라우드 기반 노트북이며 코드 및 결과를 타인에게 쉽게 공유 가능합니다.
    - 무료 HDD, CPU, GPU, RAM 등 무료 이용 가능합니다.
    - 유사 서비스인 Colab 대비 제공되는 리소스나 활용도가 좋은 편이며 Git, Colab 등과 쉽게 연동 가능합니다.
- **Python 및 관련 라이브러리**
    - 추천모델 개발을 위한 필수 프로그래밍 언어이며
    - 이번 강의에서는 중급 이상의 Python 프로그래밍 역량을 보유한 것으로 가정하고 진행합니다.
    - **Pandas, Numpy, Matplotlib, Seaborn, scikit-surprise, TensorFlow(Keras)** 등이 주로 이용할 라이브러리입니다.
    - 캐글노트북 환경에서 제공하는 라이브러리의 기준에 맞춰 코드가 작성되었습니다.



## 데이터셋 소개
- 이번 강의에서는 Kaggle에 공개된 [소스데이터: Book Recommendation Dataset](https://www.kaggle.com/datasets/arashnic/book-recommendation-dataset/data)를 한번 더 가공한 [실습 데이터: books-data](https://www.kaggle.com/datasets/liamsong/books-data)를 이용합니다.
    - 불필요한 레코드와 데이터는 삭제하고, 최대한 포트폴리오 구축에 필요한 데이터만 이용하여 전처리한 파일입니다.
    - [books-data](https://www.kaggle.com/datasets/liamsong/books-data) 왼쪽 링크로 들어가 오른쪽 download 한후 본인의 노트북에 upload를 진행합니다. (경로확인 필수)
  
### About Dataset 

- Source: Collected by Cai-Nicolas Ziegler in a 4-week crawl (August / September 2004) from the Book-Crossing community with kind permission from Ron Hornbaker, CTO of Humankind Systems. Contains 278,858 users (anonymized but with demographic information) providing 1,149,780 ratings (explicit / implicit) about 271,379 books.
- 강의용 Dataset 소개
  - 원본은 Users, Books, Rating 각 별도의 데이터셋으로 구성. 이번 강의용으로 Dataset을 전처리 진행하여 하나의 데이터셋으로 변형
  - 로컬 기반 장비에서 동작할수 있는 수준의 용량 및 shape 으로 필터링 진행. 불필요한 컬럼(이미지 주소 등) 제거 진행
  - rating 0 인 경우, 실제 negative의 의미가 아닌 unknown에 가까운 의미임. 이번 강의에서는 제외.

In [None]:
import warnings
warnings.filterwarnings(action='ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option('display.max_colwidth', None)
sns.set(style="whitegrid")
from IPython.display import Image, display

data_path = '/kaggle/input/books-data/' # 각자 경로 확인 필요
file_name = 'books.csv'

In [None]:
df = pd.read_csv(data_path+file_name)
df.tail()

In [None]:
df.info()

In [None]:
df.groupby("Category").size().sort_values(ascending=False)[:10]

In [None]:
# Preprocessing
df.columns = df.columns.str.lower() # 컬럼명 소문자 처리
df['rating'] = df['rating'].astype(float) 
df['age_range'] = (df['age']/10).astype(int)*10 # 십의 자리수로 연령대 변환
df['category'] = df['category'].replace("9", np.nan) # null 로 변환
df['category'] = df['category'].str.replace("['", "").str.replace("']", "") # 불필요한 문제 제거
df['summary'] = df['summary'].replace("9", np.nan) # # null 로 변환

In [None]:
df.tail()

## EDA (Exploratory Data Analysis)
- 데이터의 형태, 사이즈, 고유한 갯수 등 **기본적인 데이터에 대한 이해는 필수** 입니다.
- 모델을 개발하기 전 다루는 **데이터셋의 특성과 이슈, 문제점을 잘 이해하고 진행해야 효율적으로 개발이 가능**합니다.
- 모델의 퍼포먼스에 **첫 번째로 영향을 주는 것이 데이터셋의 퀄리티**이며, 이 부분만 잘 진행이되어도 간단한 모델/알고리즘으로도 대부분의 비즈니스 문제 해결이 가능합니다.
- EDA에서는 주로 Type 및 Shape 체크, 필터링 및 아웃라이어 제거, Missing Value 확인 및 처리, 분포 확인 및 상관관계 확인 등을 진행합니다.
- EDA 방법에 대해 자세히 알고 싶다면 [링크](https://eda-ai-lab.tistory.com/13) 참조해주세요.

In [None]:
print(df.shape)
print(df.user_id.nunique()) # the number of unique users
print(df.isbn.nunique()) # the number of unique items

In [None]:
# ISBN 별로 groupby 이후에 평점 평균, 리뷰 갯수 등 통계 만들기
# 이 데이터프레임을 추후에 여러 목적으로 활용 (추천결과 확인, Popularity-based 추천 등)
book_info = df[['isbn', 'book_title', 'year_of_publication', 'book_author', 'category']].drop_duplicates()
book_info_rating = df.groupby(['isbn']).agg(rating_mean=('rating', 'mean'), rating_count=('rating', 'size')).reset_index()

book_info = book_info.merge(book_info_rating, on='isbn').sort_values("rating_count", ascending=False)
book_info.head(10)

In [None]:
print(book_info.shape)
print(book_info.isbn.nunique())
print(book_info.book_author.nunique())
print(book_info.category.nunique())

In [None]:
book_info.isnull().sum()

In [None]:
# 1 row and 2 columns suplot 생성
fig, axes = plt.subplots(1, 2, figsize=(9, 4))

# 유저의 연령대별 빈도수 분포
df[['user_id', 'age_range']].drop_duplicates()['age_range'].value_counts().sort_index().plot(kind='bar', rot=0, ax=axes[0])
axes[0].set_title('Age Range Distribution')

# 유저가 남긴 평점들의 분포
df['rating'].value_counts().sort_index().plot(kind='bar', rot=0, ax=axes[1])
axes[1].set_title('Rating Distribution')

plt.tight_layout()
plt.show()

- Note
  - 30대 리뷰어가 대부분이며, 평점은 주로 8점 근처에 수렴
  - 단순 카운트와 유저당 어떤 통계를 내서 비교하는 것은 의미상 차이가 존재
  - 유저당 통계는 단순 카운트와 달리 유저라는 분석 단위를 설정하고 분석하는 방법이며, 좀더 안정적인 통계를 산출하는 경향

In [None]:
df['rating'].describe()

In [None]:
df.head()

In [None]:
# 분석 단위: 68092명으로 변환
df.groupby("user_id")['rating'].mean().describe()

In [None]:
# 유저당 남긴 리뷰수의 분포
df.groupby("user_id")['rating'].size().value_counts().sort_index()[:50].plot(kind='bar', figsize=(12, 4), rot=0)

plt.title("The Count of Users' rates")
plt.tight_layout()

In [None]:
# 유저당 평점의 평균
df.groupby("user_id")['rating'].mean().hist(bins=10, figsize=(5,4), color='green', alpha=.4)

plt.title("The Histogram of Users' rating")
plt.axvline(x=7.487156, color='b', linestyle='--')
plt.grid()
plt.tight_layout()

In [None]:
# Top 10 Books and Authors
top_books = df['book_title'].value_counts().head(15)
top_authors = df['book_author'].value_counts().head(10)
top_cate = df['category'].value_counts().head(10)

In [None]:
top_books

In [None]:
top_authors

In [None]:
top_cate

# 2강 추천시스템 개요

## 추천시스템 목적
- 유튜브, 아마존, 넷플릭스 등 수많은 서비스들에서 개인화된 추천시스템을 개발하고 운영합니다.
- 각 고객의 **니즈와 선호에 맞는 컨텐츠나 상품이 추천되었을 때 비즈니스 효과(전환율, 재방문율 등)가 통계적으로 더 높음**이 이미 증명되었기 때문입니다.
- 개인화 추천시스템의 비즈니스 효과가 비개인화 대비해서 더 좋은 이유는 무엇일까요?
    - (1) 고객이 직접 검색을 통해 원하는 항목을 찾는데 들어가는 시간과 노력을 줄여주기 때문이며 (목적성 구매, 소비의 경우)
    - (2) 고객으로 하여금 특별한 위치와 관계임을 은연중에 전달하기 때문 (기업이 고객과 관계를 중시하는 느낌 전달)
- 기업은 고객의 데이터를 분석/모델링하여 **비즈니스 성과를 극대화**하기 위해 아래 요인을 균형있게 고려한 추천시스템을 개발하고자 노력합니다.
    - (1) 고객의 선호와 니즈에 관련성이 높고 **(Relevance)**
    - (2) 고객이 기존에 느끼지 못한 새로움을 전달하며 **(Novelty)**
    - (3) 관련이 없더라도 새로운 호기심을 자극하며 **(Serendipity)**
    - (4) 최대한 다양한 컨텐츠, 상품을 경험할수 있도록 전달 **(Diversity)** 


## 추천시스템 관련 전문가
- 추천시스템 구축을 위해 영역별 전문 인력 구성이 필요합니다. [MLOps](https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning), 모델 R&D, 데이터 엔지니어링, 비즈니스 전략, 데이터분석 등 많은 협업이 필요합니다. 
- 잘 정제된 고객의 데이터(인구통계학적 정보, 과거 거래 내역, 클릭 등 행동 정보 등)가 필요하며, 데이터를 수집, 정제, 처리할 수 있는 인프라와 프로세스, 모니터링 시스템이 필요합니다. 주로 데이터 엔지니어 혹은 MLOPS가 담당하는 영역입니다. 
- **데이터사이언티스트의 영역인 개인화 추천을 위한 알고리즘 및 모델이 필요**하며 이를 서비스 적용까지 자동화된 파이프라인이나 API 서버 등을 구축해야 합니다.
- 추천시스템의 성과를 지속적으로 모니터링하고 개선할 수 있는 체계 및 프로세스가 필요합니다.
- 이번 강의에서는 데이터사이언티스의 영역인 **추천 알고리즘 개발 및 실험 과정에 주로 포커스** 예정입니다.


## 추천 알고리즘 Overview
- 이번 강의에서는 Core 영역이자 기본영역인 **Collatorative Filtering (Memory-based, Model-based), Content-based** 영역을 중심으로 실습할 예정입니다.
- 일반적으로 Core 영역 구축이후에 상황 및 문제에 맞게 순차적으로 구축하면서 해결합니다 (Advanced 영역에 해당)
![image.png](attachment:ed6462dc-3daf-44b3-af25-e73aaf34694d.png)



## 주요 라이브러리
- 전처리 및 추출, 데이터 분석 및 간단한 모델링은 **Pandas, Numpy, Matplotlib, Seaborn**을 활용합니다. 이번 강의에서는 어느정도 숙지한 것을 가정하고 진행합니다.
- [Surprise](https://surprise.readthedocs.io/en/stable/index.html) 라이브러리를 이용해 Collatorative Filtering (Memory-based) 관련 모델을 구축합니다.
    - 해당 라이브러리는 User-based, Item-based CF 뿐만 아니라 행렬분해 알고리즘인 SVD를 이용한 Matrix Factorizaiton 모델 구축을 지원합니다.
    - 지원하는 알고리즘은 [링크](https://surprise.readthedocs.io/en/stable/prediction_algorithms_package.html) 참조해주세요.
- Collatorative Filtering (Model-based)의 경우 [Scikit-learn](https://scikit-learn.org/stable/)를 활용합니다.
    - Content-based Filtering도 Scikit-learn에서 제공하는 모듈을 이용합니다.
    - Scikit-learn은 Regression, Classification 및 비지도학습 알고리즘과 피처 엔지니어링 관련 모듈을 제공합니다.
    - 이번 강의에서는 Scikit-learn에서 제공하는 Regression 관련 모듈을 이용해 유저의 평점을 예측하는 모델을 구축합니다.
- 딥러닝 기반 추천모델을 개발하기 위해 Keras 라이브러리를 이용할 예정입니다.
    - DNN, Neural Collaborative Filtering 등을 위 라이브러리를 이용하여 실습할 예정입니다.
- 포트폴리오 강의 특성상 자세한 라이브러리 이용 방법이나 이론을 깊게 다루지는 않으나, 시간을 가지고 지속적으로 학습하여 마스터할 필요는 있습니다.    

## 추천 성능 지표

- [성능 지표 참고 블로그](https://sungkee-book.tistory.com/11)
- (1) 오프라인 지표
    - 평점(실수) 예측 기반 평가 지표
        - RMSE (Root Mean Square Error)
        - MAE (Mean Absoulte Error) 
    - 랭킹 예측 기반 평가 지표
        - Precision@K와 Recall@K
        - MAP@K (Mean Average Precision@K)
        - NDCG@K (Normalized Discounted Cumulative Gain)
        - Hit Ratio@K
    - 주로 배포 전 의사결정(어떤 모델을 배포할지)을 하기 위해 활용하고 실제 사용자 피드백을 사전 예측하기 위해 이용
- (2) 온라인 지표 (via AB Test)
    - 실제 서비스에 배포한후 CTR(Click Through Rate), PV(Page View), 매출 등 비즈니스 지표에 미친 영향도 측정
    - AB Test를 통해 지속적으로 추천 알고리즘을 개선
    - 주로 사용자 피드백을 참고해 다음 Iteration에서 기획 및 개발에 필요한 의사결정을 진행하고 프로젝트 성과를 측정/공유하는데 이용
- (3) MLOPS 지표
    - 추천 성능에 영향을 줄수 있는 선행 요인들을 지표화하여 트래킹
    - 피처 퀄리티, 데이터양(사이즈), cpu/ram/gpu 리소스 및 파이프라인 현황 등
    - 이상치 탐지 등 알고리즘이 적용된 경우가 많으며, 알람 시스템을 통해 사전에 장애 및 이슈를 대응하기 위해 이용 
    

# 3강 베이스라인 추천모델 구축
 
## Collaborative Filtering  
- [KNN Basic](https://surprise.readthedocs.io/en/stable/knn_inspired.html#surprise.prediction_algorithms.knns.KNNBasic) 알고리즘은 유사한 사용자들의 평가를 바탕으로, 각 사용자와의 유사도를 고려하여 가중 평균을 계산함으로써 새로운 평점을 예측합니다. 
- 즉 유사한 이웃을 찾아서 해당 이웃이 기존에 부여한 평점의 평균을 구하는데, 유사도를 가중치를 이용하여 평균을 구합니다. 
- 예를 들어, "A"라는 사용자에게 "Life of Pi" 책의 예상 평점을 추천하려고 할때 "A"와 가장 유사한 3명의 이웃(k=3)을 찾았다고 가정합시다.
   - B **(유사도: 0.8) -> 해당 책의 평점이 4.5**
   - C **(유사도: 0.6) -> 해당 책의 평점이 5.0**
   - D **(유사도: 0.5) -> 해당 책의 평점이 3.5**
- 그렇다면 A가 "Life of Pi"에 줄 예측 평점을 구하는 과정은 
    1. 각 이웃의 평점에 유사도를 곱합니다.
       - **B: 4.5 * 0.8 = 3.6**
       - **C: 5.0 * 0.6 = 3.0**
       - **D: 3.5 * 0.5 = 1.75**
    2. 이 값들을 모두 더합니다: **3.6 + 3.0 + 1.75 = 8.35**
    3. 유사도의 합을 계산합니다: **0.8 + 0.6 + 0.5 = 1.9**
    4. 최종 예측 평점을 계산합니다: **8.35 / 1.9 = 4.39**

$$\hat{r}_{\text{A, Life of Pi}} = \frac{8.35}{1.9} = 4.39$$

- 유저간 유사도를 이용하면 **(user-based) collaborative filtering**, 아이템간 유사도를 이용하면 **(item-based) collaborative filtering**이라고 합니다.
- User-based CF의 경우 사용자 간의 유사도를 계산하지만, Item-based는 아이템 간의 유사도를 계산합니다.
- User-based CF는 타겟 사용자와 유사한 사용자들이 좋아한 아이템을 추천하는 반면, Item-based는 사용자가 이미 좋아한 아이템과 유사한 아이템을 추천합니다.
- CF는 단순한 알고리즘이지만 초반에 가볍게 시도하기 좋은 알고리즘이며, 유저나 아이템의 정보가 별도로 주어지지 않아도 추천이 가능하다는 장점이 있습니다.
- 단, 새로운 아이템, 유저에 대해 추천이 어려운 점(Cold-start), 데이터 희소성이 높은 경우 추천퀄리티가 좋지 않고, 사용자수가 증가하면 연산량이 급격히 증가합니다.


## Matrix Factorization
- 대부분의 경우 user-item interaction matrix 는 차원의 수가 불필요하게 많거나 중복이고(노이즈, 매우 희소한(Sparse) 행렬이므로 불필요한 연산량이 많습니다.
- 모델링에 적합하도록 Dense한 형태로 바꿀 필요가 있는데 차원축소 기법(PCA, SVD)을 이용해 Dense한 형태로 바꾸어 모델링을 진행합니다.
- 차원을 축소한다는 의미는 정보 손실량을 최소로하면서 차원의 수를 줄이는 것을 의미합니다.

In [None]:
# 차원축소 예시 2차원->1차원
display(Image(filename='/kaggle/input/pca-concept/pca_new.jpg', width=800))


- [Matrix Factorization](https://surprise.readthedocs.io/en/stable/matrix_factorization.html) 알고리즘은 Netflix Prize 대회에서 우수한 성능을 보여 주목을 받은 알고리즘으로 고차원의 행렬을 저차원의 행렬로 축약하여 예측하는 기법입니다.
- 유저에 대한 잠재적인 요인과 아이템에 대한 잠재적인 요인을 파악하여 평점 예측에 활용합니다.
- 예를 들어, 책 추천 시스템에서 이런 특성들은 '읽기쉬움', '가상현실의', '시간특성' 등일 수 있습니다. 마찬가지로 사용자도 이런 특성에 대한 선호도를 가집니다.
- A가 책 B를 얼마나 좋아할지 예측하려면, A의 특성 벡터와 B의 특성 벡터의 내적을 계산합니다. (이 내적 값이 높을수록 A가 B를 좋아할 확률이 높습니다)
    - **1 x 0.9 +.1 x- .2 = 0.88**
- 실제 평점과 예측 평점의 차이를 최소화하는 방향으로 특성 벡터들을 조정합니다. 이 과정을 통해 시스템은 사용자와 아이템의 숨겨진 특성을 '학습'합니다.

In [None]:
display(Image(filename='/kaggle/input/mf-explain/mf.png', width=900))

- 위 이미지의 소스는 [블로그](https://blog.naver.com/shino1025/222394488801) 입니다. 해당 블로그에 MF, SVD에 대한 자세한 설명이 있습니다.
- Matrix Factorization의 핵심적인 알고리즘은 SVD이라고 하는 행렬 분해 기법입니다. 이를 통해 고차원에서 저차원의 행렬로 변환하여 Dense 행렬로 변환할수 있습니다.
- Suprise 라이브러리는 아래 3개 행렬분해 기법을 적용하는 Matrix Factorization 모델을 지원합니다.
  - 자세한 설명은 [링크](https://surprise.readthedocs.io/en/stable/matrix_factorization.html)를 참조해주세요.
  - **SVD (Singular Value Decomposition)**
    - **기본적인 행렬 분해 방법**입니다.
    - 사용자와 아이템을 잠재 요인(latent factors)으로 표현합니다.
    - 편향(bias) 항을 포함할 수 있어 사용자와 아이템의 전반적인 경향을 고려합니다.
  - **SVDpp (SVD++)** 
    - SVD의 확장 버전으로 명시적 피드백(Explicit Feedback)뿐만 아니라 **암시적 피드백(Implicit Feedback)도 고려**합니다.
    - SVD보다 더 정확한 예측을 할 수 있지만, 계산 비용이 상대적으로 더 높습니다.
  - **NMF (Non-negative Matrix Factorization)**
    - **모든 요소가 음수가 아닌 양수로 제한된 행렬 분해 방법**입니다.
    - 즉 NMF는 입력 행렬 X의 모든 요소가 음수가 아닌 실수(0 또는 양수)여야 합니다.
    - 분해 결과도 음수가 아닌 양수로 제한하므로 해석이 용이합니다. (이미지 처리에서 픽셀 강도는 항상 0 이상인 것처럼, 마이너스값을 통해 부재나 unknown을 표현하지 않습니다)
        - 이번 강의 dataset의 경우 rate=0 인 경우 사전에 제거했으므로 NMF가 적합하지 않을수 있습니다.
    - SVD나 SVDpp에 비해 성능이 약간 떨어질 수 있지만, 결과의 해석이 더 직관적일 수 있습니다.

In [None]:
df.head()

In [None]:
df_mf = df[['user_id', 'isbn', 'rating']].drop_duplicates()
df_mf

In [None]:
# 30번 이상 rating한 유저만 필터링 > 추천시스템 핵심 타깃으로 정의
# 30번 미만 유저의 경우 다른 approach 이용 > 의사결정 방안
user_list = df_mf.groupby("user_id").size().reset_index()
user_list.columns = ['user_id', 'review_cnt']
user_list = user_list[user_list['review_cnt'] >= 30]

df_mf = df_mf[df_mf['user_id'].isin(user_list.user_id)]

In [None]:
df_mf.head()

In [None]:
print(df_mf.shape)
print(df_mf.user_id.nunique())
print(df_mf.isbn.nunique())
print(book_info.isbn.nunique())

In [None]:
book_info.head()

In [None]:
# Calculate sparsity
df_sparsity = df_mf.groupby(['user_id', 'isbn']).agg({'rating': 'count'}).reset_index()
user_item_matrix = df_sparsity.pivot(index='user_id', columns='isbn', values='rating')

non_zero_count = user_item_matrix.count().sum()
total_entries = user_item_matrix.size
sparsity = 1 - (non_zero_count / total_entries)

print(f'Interaction size: ', user_item_matrix.count().sum())
print(f'Matrix total size: ', user_item_matrix.size)
print(f'Sparsity of the matrix: {sparsity:.2%}')

In [None]:
user_item_matrix

In [None]:
from surprise import Dataset, Reader
from surprise.model_selection import train_test_split, cross_validate, GridSearchCV, KFold
from surprise import SVD, SVDpp, NMF, KNNBasic, KNNBaseline, accuracy
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
df_mf.sort_values("user_id").head(30)

In [None]:
#train_data, test_data = train_test_split(data, test_size = 0.3)

split = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42)

for train_idx, test_idx in split.split(df_mf, df_mf['user_id']):
    strat_train_set = df_mf.iloc[train_idx]  # Use iloc for positional indexing
    strat_test_set = df_mf.iloc[test_idx]

In [None]:
print(strat_train_set.user_id.nunique())
print(strat_test_set.user_id.nunique())

In [None]:
strat_train_set.groupby("user_id").size()

In [None]:
strat_test_set.groupby("user_id").size()

In [None]:
# Define a Reader object
min_scale = strat_train_set['rating'].min()
max_scale = strat_train_set['rating'].max()

reader = Reader(rating_scale=(min_scale, max_scale))

# Split data into training and test sets
train_data = Dataset.load_from_df(strat_train_set, reader)
trainset = train_data.build_full_trainset()
testset = [tuple(x) for x in strat_test_set.values]

In [None]:
#testset

In [None]:
# Define a list of algorithms to test
algorithms = [
    SVD(),
    #KNNBasic(sim_options={"name": "cosine", "user_based": False}),
    KNNBasic(sim_options={"name": "cosine", "user_based": True}),
    KNNBaseline(sim_options={"name": "cosine", "user_based": True}),
    NMF(),
    #SVDpp()
    ]

# Define a function to evaluate a model
def evaluate_model(model, trainset, testset):

    model.fit(trainset)
    predictions = model.test(testset)
    rmse = accuracy.rmse(predictions, verbose=False)
    mae = accuracy.mae(predictions, verbose=False)
    return rmse, mae

In [None]:
# Initialize a list to store results
results = []

# Loop through each algorithm and evaluate
for algorithm in algorithms:
    rmse, mae = evaluate_model(algorithm, trainset, testset)
    
    print(f"{algorithm.__class__.__name__} Model Evaluation:")
    print(f"RMSE: {rmse:.4f}")
    print(f"MAE: {mae:.4f}")
    print("-" * 30)
    
    results.append({
        'Algorithm': algorithm.__class__.__name__,
        'RMSE': rmse,
        'MAE': mae
    })

# Convert results to a DataFrame
results_df = pd.DataFrame(results)

In [None]:
results_df

In [None]:
# Set the style of the visualization
sns.set(style="whitegrid")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(9, 4), sharey=True)

# Bar plot for RMSE
sns.barplot(x='Algorithm', y='RMSE', data=results_df, palette='viridis', ax=axes[0])
axes[0].set_title('RMSE for Each Model')
axes[0].tick_params(axis='x', rotation=10)

# Bar plot for MAE
sns.barplot(x='Algorithm', y='MAE', data=results_df, palette='viridis', ax=axes[1])
axes[1].set_title('MAE for Each Model')
axes[1].tick_params(axis='x', rotation=10)

# Adjust layout
plt.tight_layout()
plt.show()

In [None]:
# Precision, Recall
min_scale = strat_train_set['rating'].min()
max_scale = strat_train_set['rating'].max()
reader = Reader(rating_scale=(min_scale, max_scale))

train_data = Dataset.load_from_df(strat_train_set[['user_id', 'isbn', 'rating']], reader)
trainset = train_data.build_full_trainset()
testset = [tuple(x) for x in strat_test_set[['user_id', 'isbn', 'rating']].values]

# Fit model and make predictions
model = SVD()
model.fit(train_data.build_full_trainset())
predictions = model.test(testset)

In [None]:
for x in predictions[:10]:
    print(x)

In [None]:
# Precsion, Recall check def
top_k = 5
threshold = 7

predictions_df = pd.DataFrame(predictions, columns=['user_id', 'isbn', 'true_rating', 'est_rating', 'details'])
predictions_df = predictions_df[['user_id', 'isbn', 'true_rating', 'est_rating']]

predictions_df['pred_rank'] = predictions_df.groupby('user_id')['est_rating'].rank(method='first', ascending=False)
predictions_df['true_rank'] = predictions_df.groupby('user_id')['true_rating'].rank(method='first', ascending=False)
predictions_df['is_relevant'] = predictions_df['true_rank'] <= top_k

predicted_top_k = predictions_df[predictions_df['pred_rank'] <= top_k]
precision_per_user = predicted_top_k.groupby('user_id')['is_relevant'].sum()

total_relevant_items = predictions_df.query("true_rating >= @threshold").groupby("user_id").size()

precision_at_k = precision_per_user / top_k
recall_at_k = precision_per_user / total_relevant_items

print(precision_at_k.mean(), recall_at_k.mean())

In [None]:
predictions_df.head()

In [None]:
#precision_per_user.head()

In [None]:
#total_relevant_items.head()

In [None]:
# Define models to test repeatdly
model_classes = {
    'SVD': SVD(),
    'KNNBasic': KNNBasic(sim_options={"name": "cosine", "user_based": True}),    
    'KNNBaseline': KNNBaseline(sim_options={"name": "cosine", "user_based": True}),
    'NMF': NMF(),
}

In [None]:
def get_precision_recall(predictions, top_n, threshold):
    top_k = top_n
    predictions_df = pd.DataFrame(predictions, columns=['user_id', 'isbn', 'true_rating', 'est_rating', 'details'])
    predictions_df = predictions_df[['user_id', 'isbn', 'true_rating', 'est_rating']]

    predictions_df['pred_rank'] = predictions_df.groupby('user_id')['est_rating'].rank(method='first', ascending=False)
    predictions_df['true_rank'] = predictions_df.groupby('user_id')['true_rating'].rank(method='first', ascending=False)
    predictions_df['is_relevant'] = predictions_df['true_rank'] <= top_k
    predictions_df = predictions_df.sort_values(by='user_id')
    
    predicted_top_k = predictions_df[predictions_df['pred_rank'] <= top_k]
    precision_per_user = predicted_top_k.groupby('user_id')['is_relevant'].sum()
    total_relevant_items = predictions_df.query("true_rating >= @threshold").groupby("user_id").size()

    precision_at_k = precision_per_user / top_k
    recall_at_k = precision_per_user / total_relevant_items
    
    return precision_at_k.mean(), recall_at_k.mean()

In [None]:
# Dictionary to store models and their predictions
models_predictions = {}

# Evaluate models and get hit ratios
top_n_values = [1, 2, 3, 4, 5, 6, 7]
precision_results = []
recall_results = []

for model_name, model in model_classes.items():
    print(f"Evaluating {model_name}...")
    
    # Prepare training data
    train_data = Dataset.load_from_df(strat_train_set[['user_id', 'isbn', 'rating']], reader)
    trainset = train_data.build_full_trainset()
    testset = [tuple(x) for x in strat_test_set[['user_id', 'isbn', 'rating']].values]
    
    # Fit model and make predictions
    model.fit(train_data.build_full_trainset())
    predictions = model.test(testset)
    
    # Save the trained model and predictions to the dictionary
    models_predictions[model_name] = {
       'model': model,
        'predictions': predictions
    }
    
    # Get precision for different Top-N values
    for top_n in top_n_values:
        precision, recall = get_precision_recall(predictions, top_n, 7)
        precision_results.append({'model': model_name, 'topk': top_n, 'precision': precision})
        recall_results.append({'model': model_name, 'topk': top_n,'recall': recall})

In [None]:
precision_results = pd.DataFrame(precision_results)

In [None]:
precision_results.head(10)

In [None]:
precision_results.pivot_table(index='model', columns='topk', values='precision').round(3)

In [None]:
recall_results = pd.DataFrame(recall_results)

In [None]:
recall_results.pivot_table(index='model', columns='topk', values='recall').round(3)

In [None]:
# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plot precision for each algorithm
for algorithm in precision_results['model'].unique():
    subset = precision_results[precision_results['model'] == algorithm]
    axes[0].plot(subset['topk'], subset['precision'], marker='o', label=algorithm, alpha=.7)
    axes[0].set_title('Precision of Different Recommendation Algorithms')
    axes[0].set_xlabel('Top-N')
    axes[0].set_ylabel('Precision')
    axes[0].legend(title='Algorithm')
    axes[0].grid(True)


# Plot recall for each algorithm
for algorithm in recall_results['model'].unique():
    subset = recall_results[recall_results['model'] == algorithm]
    axes[1].plot(subset['topk'], subset['recall'], marker='o', label=algorithm, alpha=.7)
    axes[1].set_title('Recall of Different Recommendation Algorithms')
    axes[1].set_xlabel('Top-N')
    axes[1].set_ylabel('Recall')
    axes[1].legend(title='Algorithm')
    axes[1].grid(True)

plt.tight_layout()
plt.show()

In [None]:
# Number of subplots (equal to number of models)
num_models = len(models_predictions)

# Create subplots (arranged in 2 rows)
fig, axes = plt.subplots(nrows=2, ncols=(num_models + 1) // 2, figsize=(8, 6))

# Flatten the axes array for easier iteration
axes = axes.flatten()

# Iterate over the models and predictions
for idx, (model_name, model_info) in enumerate(models_predictions.items()):
    # Get the true and predicted ratings
    predictions = model_info['predictions']
    y_true = [true_r[2] for true_r in testset]  # True ratings from testset
    y_pred = [pred.est for pred in predictions]  # Predicted ratings

    # Plot histograms for true and predicted ratings in a subplot
    pd.Series(y_true).hist(alpha=0.7, label='True Ratings', ax=axes[idx])
    pd.Series(y_pred).hist(alpha=0.7, label='Predicted Ratings', ax=axes[idx])
    
    # Set titles and labels
    axes[idx].set_title(f'{model_name} Histogram')
    axes[idx].legend()
    axes[idx].grid(True)

plt.tight_layout()
plt.show()

- NOTE
    - RMSE, MAE 기준 SVD가 높은 성능(에러 수치이므로 낮은 값일수록 성능 높음)을 보였으나,
    - 랭킹 지표(Recall, Precision)의 경우 KNNBasic이 가장 높은 성능을 보임. (단 NMF 제외하면 차이는 크지 않음)

# 4강 추천알고리즘 성능 고도화 
- 일반적으로 베이스라인 모델을 빠르게 구축하고 성능 테스트를 진행/확인한 이후 이를 베이스로하여 성능 고도화를 위한 노력을 진행합니다.
- 데이터를 늘리거나 줄이거나 새로운 데이터를 수집해서 실험해보거나 전처리/후처리 조건 등을 변경하는 작업이 필수입니다.
- 위 내용은 실무에서 가능하고 도메인 지식과 밀접히 연결되어 있어 이번 강의에서는 스킵하고 추천 알고리즘을 변경해보는 방향을 위주로 성능 고도화를 진행합니다.
- 3강의 베이스라인 모델의 성능을 개선할 방향성은 크게 아래 2가지입니다.
    - (1) **DeepLearning 계열 DNN, NCF** via TensorFlow
    - (2) **Regression 계열 Model (Linear Regression, Ridge, Random Forest, Gradient Boosting 등)** via Scikit-learn

### Regression 모델
- 머신러닝 모델은 크게 지도학습, 비지도학습 등로 구분되며 지도학습에는 다양한 Regression과 Classification 알고리즘이 있습니다.
- 추천시스템은 특정 유저의 특정 아이템에 대한 평점을 예측하는 Task이므로 **Regression 모델**을 주로 이용합니다.
- 이번 강의에서는 X,y 간의 선형관계를 가정하는 Linear Regression과 비선형관계를 가정하는 Tree-based 앙상블 기법을 이용합니다.
    - [Linear Regression](https://scikit-learn.org/stable/api/sklearn.linear_model.html) 
        - 선형 관계를 가정, Scale 및 아웃라이어에 민감,  데이터가 선형적이면 매우 효과적이고 계산 비용이 적으나 
        - 실제 환경에서 선형관계를 가지는 데이터셋을 모델링하는 경우가 흔하지 않음. 예측 성능이 낮은 경향이 있고, 변수의 독립성 등 가정을 잘 지켜야 함 
    - [Tree-based Ensemble](https://scikit-learn.org/stable/api/sklearn.ensemble.html)
        - 비선형 관계를 가정, Scale 및 아웃라이어에 큰 영향을 받지 않음. 대부분 실제 환경에서 변수가 간 관계는 비선형 관계를 가짐
        - 계산 비용이 높고, 수식이 상대적으로 복잡하며 다소 블랙박스 형태의 모델이므로 예측 과정 및 이유에 대한 설명력이 높지 않음
    
### Deep Learning 모델
- 신경망은 사람의 뇌를 모방한 구조로, 여러개의 레이어(층)로 구성되어 있으며, 각 레이어는 데이터를 처리하고 더 복잡한 패턴을 찾아냅니다. 
- 데이터를 매우 복잡한 방식으로 처리할 수 있으며, 여러 중간 레이어에서 특징 추출(feature extraction)을 자동으로 수행합니다. 
- 특히 이미지, 음성, 자연어 처리 등에서 훨씬 복잡한 패턴을 인식하는 데 매우 뛰어납니다.


In [None]:
# Source: https://www.geeksforgeeks.org/linear-regression-vs-neural-networks-understanding-key-differences/
display(Image(filename='/kaggle/input/lr-vs-dnn/lr_vs_dnn.png', width=700))

In [None]:
# DNN, NCF 모델을 이용하여 1차 성능 고도화 시도를 진행합니다.
# Regression 계열 모델을 이용하여 2차 성능 고도화를 진행합니다.
from sklearn.metrics import mean_squared_error, mean_absolute_error
from keras.models import Model
from keras.layers import Input, Embedding, Flatten, Concatenate, Dense, BatchNormalization, Dropout

# Preparing user and item embeddings
n_users = df_mf['user_id'].nunique()
n_items = df_mf['isbn'].nunique()

# Creating user and item IDs mapping
user_mapping = {user: idx for idx, user in enumerate(df_mf['user_id'].unique())}
item_mapping = {item: idx for idx, item in enumerate(df_mf['isbn'].unique())}

# Mapping user and item IDs
df_mf['user_id_mapped'] = df_mf['user_id'].map(user_mapping)
df_mf['isbn_mapped'] = df_mf['isbn'].map(item_mapping)

In [None]:
df_mf.sort_values("user_id").head()

In [None]:
# Stratified split
split = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42)

for train_idx, test_idx in split.split(df_mf, df_mf['user_id']):
    strat_train_set = df_mf.iloc[train_idx]  # Use iloc for positional indexing
    strat_test_set = df_mf.iloc[test_idx]

# Splitting the data
X_train = strat_train_set[['user_id_mapped', 'isbn_mapped']]
y_train = strat_train_set['rating']

X_test = strat_test_set[['user_id_mapped', 'isbn_mapped']]
y_test = strat_test_set['rating']

In [None]:
X_train.sort_index().head()

In [None]:
strat_train_set.sort_index().head()

In [None]:
print(X_train.shape)
print(X_test.shape)

## DNN (Deep Neural Network)
- 딥러닝 기반 회귀 모델을 구축하고 학습해봅니다. (간단한 회귀 문제나 비교적 작은 데이터셋을 다루는 데 적합한 구조로 진행)
- 각 레이어는 ReLU 활성화 함수와 정규화 기법(Batch Normalization, Dropout)을 사용합니다.
- 입력층에는 128개의 노드가 있으며, 활성화 함수로 ReLU를 사용합니다. ReLU는 음수를 0으로, 양수는 그대로 출력합니다.
- 3개의 중간 레이어 구성: 각 레이어는 Dense 레이어로 구성되며, 차례대로 64, 32, 16개의 노드를 가지고 있습니다. 
- ReLU 활성화 함수와 Batch Normalization, 그리고 20%의 Dropout이 반복적으로 사용됩니다.
- 출력층은 1개로 1개의 노드만 가지면 실수를 출력합니다. (평점 예측값)

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout, BatchNormalization
from keras.optimizers import Adam
from keras.callbacks import EarlyStopping, ReduceLROnPlateau

# Define the model
model = Sequential()

# 입력층
model.add(Dense(128, activation='relu', input_shape=(X_train.shape[1],))) # fully connected, 레이어 입력층 선언
model.add(BatchNormalization()) # 레이어의 출력을 정규화하여 학습을 안정적으로 만듦
model.add(Dropout(0.2)) # 랜덤하게 20% 가중치 삭제

# 히든 레이어
model.add(Dense(64, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.2))

model.add(Dense(32, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.2))

model.add(Dense(16, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.2))

# 출력층
model.add(Dense(1)) #출력층으로, 1개의 노드만 가짐. 출력값이 하나(연속형 값)로

# Compile the model
# learning_rate=0.01 학습 속도, 학습이 진행될수록 decay=0.01를 통해 학습률이 점점 감소
optimizer = Adam(learning_rate=0.01, decay=0.01)
model.compile(optimizer=optimizer, loss='mean_squared_error')

# Define early stopping and learning rate reduction
early_stopping = EarlyStopping(monitor='val_loss', patience=5, min_delta=0.001) #검증 데이터의 손실 값(val_loss)이 5번의 에포크 동안 개선되지 않으면 학습 중단. 5번 에포크수 동안, 손실 값이 0.001 미만으로 개선될 경우 변화로 카운팅 제외
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=3, min_lr=0.0001) #학습률 조절. 검증 손실이 3번의 에포크 동안 개선되지 않으면 학습률을 50% 감소, 최소 학습률은 0.0001

# Train the model
model.fit(X_train, y_train, epochs=20, batch_size=256, validation_split=0.2,
          callbacks=[early_stopping, reduce_lr])

In [None]:
y_pred = model.predict([X_test, X_test])

In [None]:
y_pred

In [None]:
# Calculate RMSE and MAE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'DNN RMSE: {rmse:.4f}')

mae = mean_absolute_error(y_test, y_pred)  # No square root for MAE
print(f'DNN MAE: {mae:.4f}')

In [None]:
results_df

In [None]:
dnn_results = {'Algorithm': 'DNN', 'RMSE': rmse, 'MAE': mae}
dnn_results

In [None]:
results_df = pd.concat([results_df, pd.DataFrame([dnn_results])], ignore_index=True)
results_df

In [None]:
# Set the style of the visualization
sns.set(style="whitegrid")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(9, 4), sharey=False)

# Bar plot for RMSE
sns.barplot(x='Algorithm', y='RMSE', data=results_df, palette='viridis', ax=axes[0])
axes[0].set_title('RMSE for Each Model')
axes[0].tick_params(axis='x', rotation=10)

# Bar plot for MAE
sns.barplot(x='Algorithm', y='MAE', data=results_df, palette='viridis', ax=axes[1])
axes[1].set_title('MAE for Each Model')
axes[1].tick_params(axis='x', rotation=10)

# Adjust layout
plt.tight_layout()
plt.show()

In [None]:
def get_precision_recall_from_testdata(test_data, top_n, threshold, y_pred):
    top_k = top_n
    
    predictions_df = test_data.copy()
    predictions_df = predictions_df[['user_id', 'isbn', 'rating']]
    predictions_df['est_rating'] = y_pred
    
    predictions_df['pred_rank'] = predictions_df.groupby('user_id')['est_rating'].rank(method='first', ascending=False)
    predictions_df['true_rank'] = predictions_df.groupby('user_id')['rating'].rank(method='first', ascending=False)
    predictions_df['is_relevant'] = predictions_df['true_rank'] <= top_k
    predictions_df = predictions_df.sort_values(by='user_id')
    
    predicted_top_k = predictions_df[predictions_df['pred_rank'] <= top_k]
    precision_per_user = predicted_top_k.groupby('user_id')['is_relevant'].sum()
    total_relevant_items = predictions_df.query("rating >= @threshold").groupby("user_id").size()
    
    precision_at_k = precision_per_user / top_k
    recall_at_k = precision_per_user / total_relevant_items

    return precision_at_k.mean(), recall_at_k.mean()

In [None]:
# Dictionary to store models and their predictions
models_predictions = {}

# Evaluate models and get hit ratios
top_n_values = [1, 2, 3, 4, 5, 6, 7]
dnn_precision_results = []
dnn_recall_results = []
threshold = 7

model_name = 'DNN'
# Get precision for different Top-N values
for top_n in top_n_values:
    dnn_precision, dnn_recall = get_precision_recall_from_testdata(strat_test_set, top_n, threshold, y_pred)
    dnn_precision_results.append({'model': model_name, 'topk': top_n, 'precision': dnn_precision})
    dnn_recall_results.append({'model': model_name, 'topk': top_n,'recall': dnn_recall})

In [None]:
dnn_precision_results

In [None]:
dnn_recall_results

In [None]:
precision_results = pd.concat([precision_results, pd.DataFrame(dnn_precision_results)])
recall_results = pd.concat([recall_results, pd.DataFrame(dnn_recall_results)])

In [None]:
precision_results.pivot_table(index='model', columns='topk', values='precision').round(3)

In [None]:
recall_results.pivot_table(index='model', columns='topk', values='recall').round(3)

In [None]:
# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plot precision for each algorithm
for algorithm in precision_results['model'].unique():
    subset = precision_results[precision_results['model'] == algorithm]
    axes[0].plot(subset['topk'], subset['precision'], marker='o', label=algorithm, alpha=.7)
    axes[0].set_title('Precision of Different Recommendation Algorithms')
    axes[0].set_xlabel('Top-N')
    axes[0].set_ylabel('Precision')
    axes[0].legend(title='Algorithm')
    axes[0].grid(True)

# Plot recall for each algorithm
for algorithm in recall_results['model'].unique():
    subset = recall_results[recall_results['model'] == algorithm]
    axes[1].plot(subset['topk'], subset['recall'], marker='o', label=algorithm, alpha=.7)
    axes[1].set_title('Recall of Different Recommendation Algorithms')
    axes[1].set_xlabel('Top-N')
    axes[1].set_ylabel('Recall')
    axes[1].legend(title='Algorithm')
    axes[1].grid(True)

plt.tight_layout()
plt.show()

## Neural Collaborative Filtering (NCF)
- 기본적인 모델인 Collaborative Filtering을 신경망 구조로 확장하여, 사용자와 아이템 간의 비선형 관계를 모델링할 수 있도록 설계된 방법입니다. 
- NCF는 Matrix Factorization처럼 사용자의 잠재 요인(latent factors)과 아이템의 잠재 요인을 학습합니다.
- 이 과정에서 신경망의 비선형 활성 함수를 사용하여 복잡한 패턴을 학습합니다.
- 전통적인 협업 필터링 기법은 선형 모델에 의존하지만(주로 dot product), NCF는 비선형 활성 함수(예: MLP)를 사용하여 사용자와 아이템 간의 복잡한 관계를 포착합니다. 
- 아키텍처는 아래와 같습니다.

In [None]:
display(Image(filename='/kaggle/input/ncf-structure/ncf.png', width=700))

In [None]:
# Neural Collaborative Filtering model
n_latent_factors = 64 # 사용자와 아이템의 잠재 요인 수를 정의 

user_input = Input(shape=(1,))
item_input = Input(shape=(1,))

user_embedding = Embedding(n_users, n_latent_factors)(user_input) # 임베딩 진행
user_vec = Flatten()(user_embedding) # 임베딩된 벡터를 1차원 배열로 변환 -> dense layer 입력용

item_embedding = Embedding(n_items, n_latent_factors)(item_input)
item_vec = Flatten()(item_embedding)

# Concatenate user and item embeddings
concat = Concatenate()([user_vec, item_vec]) #사용자 벡터와 아이템 벡터를 연결하여 하나의 벡터로 통합

# Adding fully connected layers with batch normalization and dropout
dense = Dense(256, activation='relu')(concat)
dense = BatchNormalization()(dense)
dense = Dropout(0.2)(dense)

dense = Dense(128, activation='relu')(dense)
dense = BatchNormalization()(dense)
dense = Dropout(0.2)(dense)

output = Dense(1)(dense)

# Compile model
model = Model([user_input, item_input], output)
model.compile(optimizer='rmsprop', loss='mean_squared_error')

# Fit the model
model.fit([X_train['user_id_mapped'], X_train['isbn_mapped']], y_train, epochs=2, batch_size=128, validation_split=0.2)

# Predict and evaluate
y_pred = model.predict([X_test['user_id_mapped'], X_test['isbn_mapped']])

In [None]:
# Calculate RMSE and MAE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'NCF RMSE: {rmse:.4f}')

mae = mean_absolute_error(y_test, y_pred)  # No square root for MAE
print(f'NCF MAE: {mae:.4f}')

In [None]:
ncf_results = {'Algorithm': 'NCF', 'RMSE': rmse, 'MAE': mae}
ncf_results

In [None]:
results_df = pd.concat([results_df, pd.DataFrame([ncf_results])], ignore_index=True)
results_df

In [None]:
# Set the style of the visualization
sns.set(style="whitegrid")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4), sharey=False)

# Bar plot for RMSE
sns.barplot(x='Algorithm', y='RMSE', data=results_df, palette='viridis', ax=axes[0])
axes[0].set_title('RMSE for Each Model')
axes[0].tick_params(axis='x', rotation=0)

# Bar plot for MAE
sns.barplot(x='Algorithm', y='MAE', data=results_df, palette='viridis', ax=axes[1])
axes[1].set_title('MAE for Each Model')
axes[1].tick_params(axis='x', rotation=0)

# Adjust layout
plt.tight_layout()
plt.show()

In [None]:
# Dictionary to store models and their predictions
models_predictions = {}

# Evaluate models and get hit ratios
top_n_values = [1, 2, 3, 4, 5, 6, 7]
ncf_precision_results = []
ncf_recall_results = []
threshold = 7

model_name = 'NCF'
# Get precision for different Top-N values
for top_n in top_n_values:
    ncf_precision, ncf_recall = get_precision_recall_from_testdata(strat_test_set, top_n, threshold, y_pred)
    ncf_precision_results.append({'model': model_name, 'topk': top_n, 'precision': ncf_precision})
    ncf_recall_results.append({'model': model_name, 'topk': top_n,'recall': ncf_recall})

In [None]:
precision_results = pd.concat([precision_results, pd.DataFrame(ncf_precision_results)])
recall_results = pd.concat([recall_results, pd.DataFrame(ncf_recall_results)])

In [None]:
precision_results.pivot_table(index='model', columns='topk', values='precision').round(3)

In [None]:
recall_results.pivot_table(index='model', columns='topk', values='recall').round(3)

In [None]:
# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plot precision for each algorithm
for algorithm in precision_results['model'].unique():
    subset = precision_results[precision_results['model'] == algorithm]
    axes[0].plot(subset['topk'], subset['precision'], marker='o', label=algorithm, alpha=.7)
    axes[0].set_title('Precision of Different Recommendation Algorithms')
    axes[0].set_xlabel('Top-N')
    axes[0].set_ylabel('Precision')
    axes[0].legend(title='Algorithm')
    axes[0].grid(True)

# Plot recall for each algorithm
for algorithm in recall_results['model'].unique():
    subset = recall_results[recall_results['model'] == algorithm]
    axes[1].plot(subset['topk'], subset['recall'], marker='o', label=algorithm, alpha=.7)
    axes[1].set_title('Recall of Different Recommendation Algorithms')
    axes[1].set_xlabel('Top-N')
    axes[1].set_ylabel('Recall')
    axes[1].legend(title='Algorithm')
    axes[1].grid(True)

plt.tight_layout()
plt.show()

## Machine Learning(Regression) Model

- 딥러닝 모델의 경우 비정형 데이터(이미지, 오디오, 텍스트 등)에서 스스로 피처를 추출하고 복잡한 관계를 학습하는데 특화된 반면
- 간단한 데이터나 Tabular 데이터셋에는 잘 맞지 않는 경향이 있습니다.
- 이 경우 Linear Regression 과 같은 전통적인 구조가 간단하여 속도가 빠르고 설명력이 높고 리소스 및 운영 코스트 효율이 높은 머신러닝 모델을 주로 이용합니다.
- 수많은 Regression 알고리즘 중에서 몇개를 선정하여 아래와 같이 딕셔너리를 선언하여 각 성능을 체크해봅니다.




In [None]:
# non-linear relationship
display(Image(filename='/kaggle/input/dt-regressor/dt_regress.png', width=700))

In [None]:
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, VotingRegressor, ExtraTreesRegressor
from sklearn.neural_network import MLPRegressor
from xgboost import XGBRegressor
from sklearn.linear_model import LinearRegression, Ridge, ElasticNet
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Regression 알고리즘 후보 (이중 높은 성능을 보이는 모델을 실험을 통해 빠르게 찾는 과정이 중요)
models = {
    'Linear Regression': LinearRegression(),
    'Ridge': Ridge(),
    'ElasticNet': ElasticNet(),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),    
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42),
    'ExtraTreesRegressor': ExtraTreesRegressor(),
}

models

In [None]:
df.head()

In [None]:
# Preprocessing
df_mf = df[['user_id', 'isbn', 'rating']].drop_duplicates()

user_list = df_mf.groupby("user_id").size().reset_index()
user_list.columns = ['user_id', 'review_cnt']
user_list = user_list[user_list['review_cnt'] >= 30]

df_mf = df_mf[df_mf['user_id'].isin(user_list.user_id)]

In [None]:
df_mf.head()

In [None]:
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.feature_extraction.text import TfidfVectorizer

split = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42)

for train_idx, test_idx in split.split(df_mf, df_mf['user_id']):
    strat_train_set = df_mf.iloc[train_idx]  
    strat_test_set = df_mf.iloc[test_idx]

In [None]:
strat_train_set.head()

In [None]:
print(strat_train_set.user_id.nunique())
print(strat_test_set.user_id.nunique())

In [None]:
book_info.head()

In [None]:
user_info = df[['user_id', 'age']].drop_duplicates()
user_info.head()

In [None]:
def encode_categorical_columns(df):
    categorical_columns = ['isbn', 'book_author', 'category']
    for column in categorical_columns:
        df[f'{column}_encoded'] = df[column].astype('category').cat.codes
    return df

def prepare_data(df, book_info, user_info):
    merged_df = df.merge(book_info, on=['isbn'])\
                  .merge(user_info[['user_id', 'age']].drop_duplicates(), on='user_id')
    encoded_df = encode_categorical_columns(merged_df)
    return encoded_df

strat_train_set = prepare_data(strat_train_set, book_info, user_info)
strat_test_set = prepare_data(strat_test_set, book_info, user_info)

In [None]:
strat_train_set.head(2)

In [None]:
def split_data(df):
    features = ['age', 'isbn_encoded', 'book_author_encoded', 'year_of_publication',
                'rating_mean', 'rating_count', 'category_encoded']
    
    X = df[features]
    y = df['rating']
    return X, y

X_train, y_train = split_data(strat_train_set)
X_test, y_test = split_data(strat_test_set)

In [None]:
X_train.head()

In [None]:
y_train.head()

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

In [None]:
X_test.head()

In [None]:
models

In [None]:
results = {}
# Iterate over the models and calculate the MAE and RMSE values
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    #print(name, model)
    results[name] = {'MAE': mae, 'RMSE': rmse}

In [None]:
pd.DataFrame(results)

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.bar(results.keys(), [value['RMSE'] for value in results.values()])
plt.ylabel('RMSE')
plt.xticks(rotation=15)
plt.title('RMSE Values for Each Model')

plt.subplot(1, 2, 2)
plt.bar(results.keys(), [value['MAE'] for value in results.values()])
plt.xticks(rotation=15)
plt.ylabel('MAE')
plt.title('MAE Values for Each Model')

plt.tight_layout()
plt.show()

In [None]:
# Set the style of the visualization
sns.set(style="whitegrid")

# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(12, 4), sharey=False)

# Bar plot for RMSE
sns.barplot(x='Algorithm', y='RMSE', data=results_df, palette='viridis', ax=axes[0])
axes[0].set_title('RMSE for Each Model')
axes[0].tick_params(axis='x', rotation=0)

# Bar plot for MAE
sns.barplot(x='Algorithm', y='MAE', data=results_df, palette='viridis', ax=axes[1])
axes[1].set_title('MAE for Each Model')
axes[1].tick_params(axis='x', rotation=0)

# Adjust layout
plt.tight_layout()
plt.show()

- Note
    - Feature 기반의 모델이 성능이 좋으나 항상 Feature 정보가 있는 것은 아니며,
    - Feature Quailty에 의해 성능이 크게 영향을 받는다는 단점이 존재합니다. (예, 장애 및 수집오류로 인한 이슈)
    - 상황에 맞춰 두 방향성을 모두 고려하여 최적화하여 이용하는 것이 필요합니다. (예, ML 모델의 보안으로 cf, mf 이용 등)

In [None]:
models

In [None]:
# Dictionary to store models and their predictions
models_predictions = {}

# Evaluate models and get hit ratios
top_n_values = [1, 2, 3, 4, 5, 6, 7]
ml_precision_results = []
ml_recall_results = []
threshold = 7

for model_name, model in models.items():
    print(f"Evaluating {model_name}...")

    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    models_predictions[model_name] = {
       'model': model,
        'predictions': y_pred
    }
    
    # Get precision for different Top-N values
    for top_n in top_n_values:
        ml_precision, ml_recall = get_precision_recall_from_testdata(strat_test_set, top_n, threshold, y_pred)
        ml_precision_results.append({'model': model_name, 'topk': top_n, 'precision': ml_precision})
        ml_recall_results.append({'model': model_name, 'topk': top_n,'recall': ml_recall})

In [None]:
ml_precision_results = pd.DataFrame(ml_precision_results)
ml_precision_results.head()

In [None]:
ml_recall_results = pd.DataFrame(ml_recall_results)
ml_recall_results.tail()

In [None]:
ml_precision_results.pivot_table(index='model', columns='topk', values='precision')

In [None]:
ml_recall_results.pivot_table(index='model', columns='topk', values='recall')

In [None]:
# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plot precision for each algorithm
for algorithm in ml_precision_results['model'].unique():
    subset = ml_precision_results[ml_precision_results['model'] == algorithm]
    axes[0].plot(subset['topk'], subset['precision'], marker='o', label=algorithm, alpha=.7)
    axes[0].set_title('Precision of Different Recommendation Algorithms')
    axes[0].set_xlabel('Top-N')
    axes[0].set_ylabel('Precision')
    axes[0].legend(title='Algorithm')
    axes[0].grid(True)

# Plot recall for each algorithm
for algorithm in ml_recall_results['model'].unique():
    subset = ml_recall_results[ml_recall_results['model'] == algorithm]
    axes[1].plot(subset['topk'], subset['recall'], marker='o', label=algorithm, alpha=.7)
    axes[1].set_title('Recall of Different Recommendation Algorithms')
    axes[1].set_xlabel('Top-N')
    axes[1].set_ylabel('Recall')
    axes[1].legend(title='Algorithm')
    axes[1].grid(True)

plt.tight_layout()
plt.show()

In [None]:
# Create subplots
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# Plot precision for each algorithm
for algorithm in precision_results['model'].unique():
    subset = precision_results[precision_results['model'] == algorithm]
    axes[0].plot(subset['topk'], subset['precision'], marker='o', label=algorithm, alpha=.7)
    axes[0].set_title('Precision of Different Recommendation Algorithms')
    axes[0].set_xlabel('Top-N')
    axes[0].set_ylabel('Precision')
    axes[0].legend(title='Algorithm')
    axes[0].grid(True)

# Plot recall for each algorithm
for algorithm in recall_results['model'].unique():
    subset = recall_results[recall_results['model'] == algorithm]
    axes[1].plot(subset['topk'], subset['recall'], marker='o', label=algorithm, alpha=.7)
    axes[1].set_title('Recall of Different Recommendation Algorithms')
    axes[1].set_xlabel('Top-N')
    axes[1].set_ylabel('Recall')
    axes[1].legend(title='Algorithm')
    axes[1].grid(True)

plt.tight_layout()
plt.show()

# 5강 Content-Based Filtering & Popularity
- Content-Based Filtering 은 이전 성능을 비교했던 추천 알고리즘과 다소 목적이 다릅니다.
- 새로운 유저, 아이템에 대해 추천할 내용이 없는 경우 Cold Start 문제라고 하며 이는 추천시스템에서 반드시 다루어야할 과제입니다.
- Cold Start 문제를 사용자/아이템 프로파일링, 군집화를 이용해 해결할 수 있으나, 이를 위해 정교한 추가 데이터 분석이 필요합니다.
- 이번 강의에서는 Content-Based Filtering과 Popularity-based 추천을 통해 해결하는 과정을 진행합니다.

## Content-based filtering
- 유저 과거에 혹은 최근에 선호했던 아이템의 특성을 기반으로 비슷한 특성의 새로운 아이템을 추천하는 방법입니다. 
  - 1) 유저가 선호하는 아이템을 정의하고, 
  - 2) 해당 아이템과 유사한 다른 아이템을 찾아서 추천합니다(유사도가 높은 순서대로)
- 아이템 별로 임베딩을 진행하고 모든 아이템 x 아이템 쌍별로 코사인 유사도를 이용해 유사도 기준으로 유사 아이템을 찾아낼수 있습니다.
- 개인화된 추천 아이템을 제공하나, 유사한 아이템이 중복적으로 추천되므로 새로운 아이템(Novelty, Serendipity)이 부족할수 있습니다.
- 따라서 단독 모델로 쓰이기 보다, 보완용 혹은 하이브리드용으로 주로 쓰입니다.

## Popularity-based 추천
- 비개인화된 추천이며, 가장 많이 팔린 아이템, 평점이 높은 아이템 순으로 정렬하여 누구에게나 동일하게 추천하는 단순한 방식입니다.
- 개인화가 반영되지 않아 성능이나 사용자 피드백이 좋지 않은 경향이 있어, 사용하지 않는 추세입니다.

In [None]:
# Content-based filtering
import re
import nltk
#nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, linear_kernel

In [None]:
#!pip install nltk

In [None]:
df.head(2)

In [None]:
book_info.head(2)

In [None]:
# book selection
book_rec = book_info[(book_info['rating_count'] >= 3) & (book_info['rating_mean'] >= 4)] 

# summary added
book_rec = book_rec.merge(df[['isbn', 'summary']].drop_duplicates(), on='isbn', how='left').fillna("")

In [None]:
book_rec.head()

In [None]:
# Function to clean and extract meaningful keywords
def clean_text(summary):
    # Remove punctuation, numbers, and special characters using regex
    cleaned_summary = re.sub(r'[^a-zA-Z\s]', '', summary)
    
    # Tokenize the summary by splitting on whitespace
    words = cleaned_summary.lower().split()
    
    # Filter out stopwords and short words (less than 3 characters)
    meaningful_words = [word for word in words if word not in stop_words and len(word) > 2]
    
    return ' '.join(meaningful_words)  # Return as a single string

In [None]:
# Apply the cleaning function to the 'summary' column
book_rec['cleaned_summary'] = book_rec['summary'].apply(clean_text)
book_rec['keywords'] = book_rec['book_title']+' '+book_rec['book_author']+' '+book_rec['cleaned_summary']+' '+book_rec['category']

book_rec = book_rec[['isbn', 'book_title', 'keywords']]
book_rec['keywords'] = book_rec['keywords'].apply(clean_text)

In [None]:
book_rec.head(2)

In [None]:
book_rec.shape

In [None]:
tfidf = TfidfVectorizer(stop_words='english', max_features=1000, min_df=10)
tfidf_matrix = tfidf.fit_transform(book_rec['keywords'])

cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)

In [None]:
tfidf_matrix

In [None]:
cosine_sim

In [None]:
book_rec[book_rec['isbn'] == my_isbn]

In [None]:
# 0385504209, 059035342X, 0345370775, 0345337662, 0345339681
my_isbn = '0345339681' # 추천기준 아이템
top_n = 10

idx = book_rec[book_rec['isbn'] == my_isbn].index[0]
sim_scores = list(enumerate(cosine_sim[idx]))
sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
sim_scores = sim_scores[1:top_n+1]
book_indices = [i[0] for i in sim_scores]
book_rec.iloc[book_indices]

In [None]:
book_rec[book_rec['isbn'] == my_isbn]

In [None]:
#3426600218, 0385504209, 059035342X, 0345370775, 0345337662, 0345339681
my_isbn = '3426600218'
top_n = 10

def get_recom_items(my_isbn, top_n, cosine_sim, book_rec, std_book_include=True):
    
    idx = book_rec[book_rec['isbn'] == my_isbn].index[0]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    if std_book_include:
        sim_scores = sim_scores[:top_n+1]
    else:
        sim_scores = sim_scores[1:top_n+1]
    book_indices = [i[0] for i in sim_scores]
    
    return book_rec.iloc[book_indices]

In [None]:
recom_result = get_recom_items(my_isbn, top_n, cosine_sim, book_rec, std_book_include=False)
recom_result

- Note
  - 보통 유저별 최근 구매 아이템중에 빈도가 많거나 평가 좋은 아이템을 기준으로 이용
  - 없는 경우, 자주 클릭한 아이템을 이용하거나 세그먼트별 대표아이템을 대안으로 이용
  - 그래도 없으면 회원가입시 간단한 설문조사로 파악(e.g. Netflix)

In [None]:
# Popularity Recommendation, but NON-personalized
category_list = book_info.groupby(['category']).size()
category_list.sort_values(ascending=False)[:10]

In [None]:
#my_cate = 'Business & Economics'
my_cate = 'Business & Economics'
book_info.query("category == @my_cate").sort_values("rating_count", ascending=False)[:10]

In [None]:
book_rec.head()

In [None]:
df_mf['user_id']

In [None]:
# Content-based & Populiarty Hybrid 
user_id = 219008
top_n = 10

def get_recommended_items_content(user_id, top_n):
    
    # the previous book that the user liked the most
    most_liked_isbn = df_mf[df_mf['user_id'] == user_id].sort_values("rating", ascending=False)['isbn']
    if most_liked_isbn.empty:
        return pd.DataFrame()
    most_liked_isbn = most_liked_isbn.values[0] # get the isbm
    
    # popularity-based if none
    if most_liked_isbn not in book_rec['isbn'].values:
        predictions = book_info.sort_values("rating_count", ascending=False)[:top_n]
        predictions['user_id'] = user_id
        predictions = predictions[['user_id', 'isbn', 'book_title', 'book_author']]
    
    # using content-based
    else:
        idx = book_rec[book_rec['isbn'] == most_liked_isbn].index[0]
        sim_scores = list(enumerate(cosine_sim[idx]))
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:top_n+1]
        book_indices = [i[0] for i in sim_scores]
        recommend_books = book_rec.iloc[book_indices]['isbn']
        predictions = book_info[book_info['isbn'].isin(recommend_books)]
        predictions['user_id'] = user_id
        predictions = predictions[['user_id', 'isbn', 'book_title', 'book_author']]
    return predictions

get_recommended_items_content(user_id, top_n)

# 6강 최종 추천모델 클래스 구성
- 마지막 6강에서는 지금까지 3강부터 5강을 통해 실험한 알고리즘중 일부를 선정해 하나의 추천 클래스를 구성해봅니다.
- 클래스 하나에 **Matrix Factorization(SVD), Machine Learning(GBR), Content+Poupularity** 추천을 생성하는 코드를 작성합니다.
- 실제 서비스에는 클래스를 주로 이용하며, 클래스간 상속하는 방식으로 코드 구성하여 배포하는 경우가 대부분입니다.
- 클래스를 사용하는 이유: [링크](https://leedakyeong.tistory.com/entry/Class-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-Class%EB%A5%BC-%EC%93%B0%EB%8A%94-%EC%9D%B4%EC%9C%A0-Class-vs-function)

## SVD Recommender

In [None]:
import pandas as pd
from surprise import Dataset, Reader
from surprise import SVD
from sklearn.ensemble import GradientBoostingRegressor

class SVDRecommender:
    def __init__(self, df_mf):
        self.df_mf = df_mf
        self.svd_model = self.fit_svd_model()

    def fit_svd_model(self):
        # Preprocessing
        df_mf = self.df_mf[['user_id', 'isbn', 'rating']].drop_duplicates()
        user_list = df_mf.groupby("user_id").size().reset_index(name='review_cnt')
        user_list = user_list[user_list['review_cnt'] >= 30]

        df_mf = df_mf[df_mf['user_id'].isin(user_list['user_id'])]

        # Ensure reader is defined
        reader = Reader(rating_scale=(1, 5))  # Adjust scale as needed
        
        # Train
        train_data = Dataset.load_from_df(df_mf[['user_id', 'isbn', 'rating']], reader)
        trainset = train_data.build_full_trainset()
        svd = SVD()
        svd.fit(trainset)
        
        return svd

## GBR Recommender

In [None]:
class GBRRecommender:
    def __init__(self, ml_train_set, book_info, user_info):
        self.ml_train_set = ml_train_set
        self.book_info = book_info
        self.user_info = user_info
        self.gbr_model = self.fit_gbr_model()

    def fit_gbr_model(self):
        # Prepare data for GBR fitting
        df_mf = self.preprocessing(self.ml_train_set)

        # Train
        X_train, y_train = self.split_data(df_mf)
        gbr_model = GradientBoostingRegressor(random_state=42)
        gbr_model.fit(X_train, y_train)
        
        return gbr_model

    def preprocessing(self, df):
        df_mf = df[['user_id', 'isbn', 'rating']].drop_duplicates()
        user_list = df_mf.groupby("user_id").size().reset_index(name='review_cnt')
        user_list = user_list[user_list['review_cnt'] >= 30]

        df_mf = df_mf[df_mf['user_id'].isin(user_list['user_id'])]
        
        merged_df = df_mf.merge(self.book_info, on='isbn')\
                          .merge(self.user_info[['user_id', 'age']].drop_duplicates(), on='user_id')
        return self.encode_categorical_columns(merged_df)
    
    def encode_categorical_columns(self, df):
        """Encode categorical columns in the DataFrame."""
        categorical_columns = ['isbn', 'book_author', 'category']
        for column in categorical_columns:
            df[f'{column}_encoded'] = df[column].astype('category').cat.codes
        return df

    def split_data(self, df):
       
        features = ['age', 'isbn_encoded', 'book_author_encoded', 'year_of_publication',
                    'rating_mean', 'rating_count', 'category_encoded']

        # Check if all features exist in the DataFrame
        missing_features = [feature for feature in features if feature not in df.columns]
        if missing_features:
            print(f"Missing features: {missing_features}")
            raise KeyError(f"None of {missing_features} are in the input DataFrame")

        X = df[features]
        y = df['rating']
        return X, y

## Final Book Recommender with SVD, GBR, Content&Popularity
- SVD Recommender와 GBR Recommender 클래스를 상속받아 Book Recommender 에서는 3개의 알고리즘을 이용해 추천셋 생성

In [None]:
class BookRecommender(SVDRecommender, GBRRecommender):
    
    def __init__(self, df_mf, book_info, book_rec, ml_train_set, cosine_sim):
        SVDRecommender.__init__(self, df_mf)
        GBRRecommender.__init__(self, ml_train_set, book_info, ml_train_set[['user_id', 'age']].drop_duplicates())

        self.book_info = book_info
        self.book_rec = book_rec
        self.cosine_sim = cosine_sim

    def get_recommended_items_mf(self, user_id, top_n):
        """Matrix Factorization based recommendations"""
        user_reviewed_iid = self.df_mf[self.df_mf['user_id'] == user_id]['isbn']
        iid_to_est = self.df_mf[~self.df_mf['isbn'].isin(user_reviewed_iid)]['isbn'].drop_duplicates()
        testset = [(user_id, iid, None) for iid in iid_to_est]

        predictions = self.svd_model.test(testset)
        predictions = pd.DataFrame(predictions)[['uid', 'iid', 'est']]
        predictions.columns = ['user_id', 'isbn', 'predicted_rating']
        predictions['predicted_rank'] = predictions['predicted_rating'].rank(method='first', ascending=False)
        predictions = predictions.sort_values("predicted_rank")[:top_n]
        predictions = predictions.merge(self.book_info, on='isbn')

        return predictions[['user_id', 'isbn', 'book_title', 'book_author']]

    def get_recommended_items_ml(self, user_id, top_n):
        """Machine Learning (GBR) based recommendations"""
        user_reviewed_iid = self.df_mf[self.df_mf['user_id'] == user_id]['isbn']
        iid_to_est = self.df_mf[~self.df_mf['isbn'].isin(user_reviewed_iid)]['isbn'].drop_duplicates()
        ml_test_set = self.ml_train_set[self.ml_train_set['isbn'].isin(iid_to_est)]
        user_age = self.ml_train_set[self.ml_train_set['user_id'] == user_id]['age'].unique()

        features = ['age', 'isbn_encoded', 'book_author_encoded', 'year_of_publication',
                    'rating_mean', 'rating_count', 'category_encoded']

        X = ml_test_set[features].query("age == @user_age")
        y_pred = self.gbr_model.predict(X)

        gbr_rec_result = X.copy()
        gbr_rec_result['y_pred'] = y_pred
        gbr_rec_result = gbr_rec_result.sort_values("y_pred", ascending=False)[:top_n]
        gbr_rec_result = gbr_rec_result.merge(self.ml_train_set[['isbn_encoded', 'isbn', 'book_title', 'book_author']].drop_duplicates(), on='isbn_encoded')
        gbr_rec_result = gbr_rec_result[['isbn', 'book_title', 'book_author']]
        gbr_rec_result['user_id'] = user_id
        gbr_rec_result = gbr_rec_result.reindex(columns=['user_id', 'isbn', 'book_title', 'book_author'])

        return gbr_rec_result
    
    def get_recommended_items_content(self, user_id, top_n):
        """ Content-based recommendations """
        most_liked_isbn = self.df_mf[self.df_mf['user_id'] == user_id].sort_values("rating", ascending=False)['isbn']
        
        if most_liked_isbn.empty:
            return pd.DataFrame()  # Return empty DataFrame if user has no ratings
        
        most_liked_isbn = most_liked_isbn.values[0]
        
        if most_liked_isbn not in self.book_rec['isbn'].values:
            predictions = self.book_info.sort_values("rating_count", ascending=False)[:top_n]
            predictions['user_id'] = user_id
            return predictions[['user_id', 'isbn', 'book_title', 'book_author']]
        else:
            idx = self.book_rec[self.book_rec['isbn'] == most_liked_isbn].index[0]
            sim_scores = list(enumerate(self.cosine_sim[idx]))
            sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:top_n+1]
            book_indices = [i[0] for i in sim_scores]
            recommend_books = self.book_rec.iloc[book_indices]['isbn']
            predictions = self.book_info[self.book_info['isbn'].isin(recommend_books)]
            predictions['user_id'] = user_id
            return predictions[['user_id', 'isbn', 'book_title', 'book_author']]    


book_recommender = BookRecommender(df_mf, book_info, book_rec, strat_train_set, cosine_sim)

In [None]:
# randome user_ids
unique_user_ids = df_mf['user_id'].unique()
np.random.shuffle(unique_user_ids)
print(unique_user_ids[:20])

In [None]:
user_id = 28255 
top_n = 10

mf_rec_result = book_recommender.get_recommended_items_mf(user_id, top_n)
mf_rec_result

In [None]:
ml_rec_result = book_recommender.get_recommended_items_ml(user_id, top_n)
ml_rec_result

In [None]:
content_rec_result = book_recommender.get_recommended_items_content(user_id, top_n)
content_rec_result

# 7강 Real-world challenges
- 마지막 7강에서는 추천시스템 모델 개발을 담당하는 데이터사이언티스트로서 현업에서 겪을수 있는 도전적인 내용과 각 내용을 어떻게 해결할수 있는지 팁을 전달하고자 합니다.
- **Implicit feedback**
    - 사용자가 특정 행동을 취하지 않았더라도(예: 클릭, 구매) 해당 아이템에 대한 선호도를 추정하는 방법입니다. 
    - 예를 들어, 사용자가 영화를 시청한 경우에는 그 영화를 좋아하는 것으로 간주할 수 있습니다. 
    - 실제 비즈니스에서는 이러한 암묵적 피드백을 주로 사용하게 됩니다. (명시적 피드백은 데이터 구하기가 어렵고, 있다고 해도 편항이 있을수 있음)
    - 단 명시적인 피드백(별점, 리뷰 등)을 잘 이용하면 추천 퀄리티가 높아질수 있습니다.
    - Implicit feedback을 고려한 알고리즘이나 라이브러리가 별도 있습니다. 데이터 특성이나 인프라, 환경, 서비스형태 등에 따라 잘 선택해야합니다.
    - https://velog.io/@vvakki_/Matrix-Factorization-1-ExplicitImplicit-Feedback
    - https://github.com/benfred/implicit
- **Business Rules**
    - 비즈니스 규칙은 매우 강력한 룰입니다. 이는 추천 알고리즘에 적용해야 하는 특정 규칙이나 제약 조건이며 전처리나 후처리에서 진행합니다.
    - 예를 들어, 19세 이상의 컨텐츠를 청소년에게 추천하지 않는다거나, 곧 품절될 상품을 추천에서 제외한다거나 수많은 비즈니스 룰이 존재합니다.
    - 주로 비즈니스 팀이나 담당자가 정하는 경우가 많고 이를 지키지 않으면 추후 고객 컴플레인이 올수도 있고 심지어 서비스 명성에 치명적일수 있습니다.
    - 다만 너무 룰을 지키는데 치우쳐지면 추천할 아이템이 너무 없거나 범위가 협소하거나 추천 퀄리티 자체가 안 좋을수 있습니다.
    - 적극적인 커뮤니케이션과 협업을 통해 모델 및 비즈니스룰 간의 균형을 잘 잡을 필요가 있습니다. (현업의 담당자와 친하게 지내야할 이유중 하나입니다)
- **Sparse matrix**
    - 같이 실습했던 것처럼 대부분 추천시스템에서 이용하는 데이터는 희소한 경우가 많습니다. 
    - 행렬분해기법을 이용하거나 유사도 기반(KNN-최근접 이웃 등) 방법을 통해 null을 어떻게든 채워서 진행하는 전략이 유용합니다.
    - 추천 대상을 줄이는 대신 필터링을 진행(예 30회 이상 구매자 & 활성 사용자..)하여 최대한 dense한 형태로 만드는 것을 추천합니다.
    - 위 조건에 제외된 사용자는 5강에서 배운 conten-based 와 같은 알고리즘으로 해결할수 있습니다. (기획자와 친하게 지내야할 이유입니다)
- **Large Data Size**
    - 실제 현업에서 다루어야할 데이터셋은 지금 다루어본 데이터셋과는 비교가 안될 정도로, 여러분의 상상을 뛰어넘을 정도로 방대하고 복잡합니다.
    - 따라서 이 경우에는 데이터 엔지니어와 같은 분들의 도움을 받을수 밖에 없습니다. (스타트업이라면 혼자 알아서 처리해야할수도 있습니다)
    - 데이터 처리시 직렬로는 처리가 되지 않는 경우가 많아 분산 처리(Apache Spark와 같은 분산 처리 프레임워크)를 사용하여 대규모 데이터를 처리합니다.
    - PySpark 과 같은 언어의 문법을 별도로 배워야 합니다.
    - https://wikidocs.net/26513
    - 샘플링이 도움이 되기도 합니다. 만약 일부 샘플이 전체를 대변할수 있다면, 데이터 샘플링 기법을 활용하여 데이터의 일부만을 사용해 모델을 훈련하고 평가합니다.    
- **Data Quaility**
    - 모델의 결과 퀄리티는 모델에 들어가는 인풋인 데이터셋이 거의다 결정한다고 해도 과언이 아닙니다.
    - 데이터 품질이 낮으면 아무리 좋고 복잡한 알고리즘을 쓴다고 해도 추천 시스템 성능이 저하될 수 있습니다. 
    - 주로 오류로 수집된 데이터(이상치), 결측치, 중복 데이터 등이 문제를 일으킵니다. 
    - MLOPS 에서는 이러한 문제를 사전에 발견하고 조치하기 위해 많은 기술들이 나와있습니다. 
    - MLOPS 엔지니어와 협업하여 데이터 품질을 주기적으로 점검하고 유지 관리하는 프로세스를 설정합니다.
    - https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
- **Real time prediction > Stream 처리**
    - 실시간으로 추천을 생성해야 할 때, 대기 시간 없이 사용자의 행동에 빠르게 반응해야 합니다. (특히 유튜브와 같이 컨텐츠 추천이라면 필수입니다)
    - Apache Kafka와 Spark Streaming 와 같이 스트리밍 처리를 사용하여 데이터를 실시간으로 수집하고 처리합니다.
    - 모델 경량화도 도움이 될수 있습니다. 실시간 예측을 위해 모델을 경량화하여 빠른 응답 속도를 유지합니다.
- **AB TEST, MAB**
    - 추천시스템은 지속적으로 사용자의 피드백을 참고하여 개선해나가는 과정을 진행합니다.
    - 이를 위해 AB TEST, MAB 등과 같은 실험 설계 방법론을 알아두고 진행해야합니다.
    - https://docs-kr.hackle.io/docs/mab-vs-ab-test
    ![image.png](attachment:601ad00f-e5a0-47bb-ad54-9cab3910637f.png)
- **Long-tail**
    - 특정 아이템 (주로 인기 있거나 추천이 자주되었거나)에 추천결과가 쏠려버리는 문제입니다.
    - 이렇게 쏠리는 문제로 인해, 추천될 기회조차 없었던 아이템(신규 아이템)이 사용자에게 추천되지 않는 문제가 발생하여 diversity가 낮아질수 있습니다.
    - 예를 들어 유튜브의 뉴스 추천 알고리즘에 지속적으로 노출되어 편향된 정치경향을 갖게 되고 이부분이 강화되는 것과 유사합니다.
    - 해결을 위해 다소 강제로 쿼터나 슬롯을 할당하여 신규 아이템을 노출하는 기획을 하거나 MAB 를 도입하는 것이 도입될수 있습니다.
    - 실험 계획은 매우 정교하게 이루어져야하며, 이에 대한 해석도 조심스럽게 진행해야할 필요가 많이 있습니다. (확증 편향을 조심해야합니다)
- **추가적인 이슈**
    - 위에 언급된 내용 이외에 **개인정보 보안, 사회적 책임, 법률** 등 관련 수많은 관련 이슈와 해결할 과제들이 있습니다.
    - 추천시스템과 관련해 수많은 직무와 외부 영역이 있으므로 단독으로 해결은 어렵습니다. 따라서 **협업을 통한 문제 해결**이 중요합니다. 
        - 각 직무마다 책임지고 담당해야할 일이 있으나, 결국 **하나의 팀으로서 서로 연관된 문제를 해결하고 공동 목표를 달성하는 것이 핵심**입니다.
        - 서로 다른 배경과 견해를 가진 팀원과 갈등이 생기는 것은 자연스러우나 이를 현명하게 해결하고, 
        - 서로의 입장과 생각을 공감하고 경청하고 적극적으로 제안함으로써
        - 발전적인 방향으로 나아가는 과정에서 훌륭한 데이터사이언스티스로 성장할수 있습니다.
   
