## 추천 알고리즘
크게 세 가지 주요 범주로 나눌 수 있습니다: 콘텐츠 기반 필터링(Content-Based Filtering), 협업 필터링(Collaborative Filtering), 그리고 하이브리드 필터링(Hybrid Filtering)입니다.

콘텐츠 기반 필터링 (Content-Based Filtering)<br>
콘텐츠 기반 필터링은 아이템의 특성(속성)을 기반으로 사용자가 선호할 만한 아이템을 추천하는 방법입니다.
- 특징:
  - 각 아이템의 속성을 벡터로 표현합니다.
  - 사용자의 이전 행동(예: 사용자가 좋아한 아이템)으로부터 프로필을 생성합니다.
  - 사용자가 좋아하는 아이템과 유사한 아이템을 추천합니다.
- 예시:
  - 영화 추천에서, 사용자가 좋아하는 영화의 장르, 감독, 배우 등의 특성을 기반으로 유사한 영화를 추천.
  - 문서 추천에서, 사용자가 읽은 문서의 키워드, 주제 등을 분석하여 유사한 문서를 추천.
- 장점:
  - 새로운 아이템도 쉽게 추천할 수 있습니다(콜드 스타트 문제 해결 가능).
  - 사용자의 개별 취향을 잘 반영합니다.
- 단점:
  - 아이템의 모든 속성을 정의하고 분석하는 것이 어려울 수 있습니다.
  - 사용자가 관심을 보이지 않은 속성은 추천하기 어렵습니다.

협업 필터링 (Collaborative Filtering)<br>
협업 필터링은 사용자와 아이템 간의 상호작용 데이터를 바탕으로 추천을 수행하는 방법입니다. 주로 사용자 간의 유사성 또는 아이템 간의 유사성을 이용합니다.
- 사용자 기반 협업 필터링 (User-Based Collaborative Filtering):
  - 사용자가 유사한 다른 사용자가 좋아한 아이템을 추천합니다.
  - 예: 사용자 A와 B가 유사하다면, B가 좋아한 아이템을 A에게 추천.
- 아이템 기반 협업 필터링 (Item-Based Collaborative Filtering):
  - 사용자가 이전에 좋아한 아이템과 유사한 아이템을 추천합니다.
  - 예: 영화 X와 Y가 유사하다면, X를 본 사용자는 Y도 좋아할 가능성이 높음.
- 잠재요인 협업 필터링 (Latent Factor Collaborative Filtering):
  - 행렬 분해(Matrix Factorization) 기법을 사용하여 사용자와 아이템의 잠재요인을 학습합니다.
  - 예: SVD (Singular Value Decomposition), NMF (Non-negative Matrix Factorization).
- 장점:
  - 아이템의 속성 정보 없이도 추천이 가능합니다.
  - 다양한 사용자 행동 데이터를 활용하여 추천 성능이 좋습니다.
- 단점:
  - 새로운 사용자나 아이템에 대한 정보가 부족한 경우(콜드 스타트 문제) 추천이 어려움.
  - 사용자나 아이템의 수가 많아질수록 계산량이 증가.

하이브리드 필터링 (Hybrid Filtering)<br>
하이브리드 필터링은 콘텐츠 기반 필터링과 협업 필터링을 결합하여 각 접근 방식의 단점을 보완하고 장점을 극대화하는 방법입니다.
- 방법:
  - 두 가지 방법의 결과를 결합하여 최종 추천을 생성합니다.
  - 콘텐츠 기반 추천을 초기 단계에서 사용하고, 이후 협업 필터링을 적용하는 방법.
  - 모델을 결합하여 새로운 하이브리드 모델을 학습하는 방법.
- 장점:
  - 각 방법의 장점을 결합하여 더 정확한 추천을 제공.
  - 콜드 스타트 문제를 완화.
  - 다양한 데이터 소스를 활용하여 추천의 다양성과 정확성 증가.
- 단점:
  - 구현이 복잡하고 계산 비용이 증가할 수 있음.
  - 두 가지 방법의 적절한 조합을 찾기 어려울 수 있음.

## Surprise 패키지
- 파이썬으로 작성된 추천 시스템 라이브러리로, 다양한 추천 알고리즘을 쉽게 사용할 수 있게 도와줍니다.
- Surprise는 특히 행렬 분해(Matrix Factorization)와 같은 협업 필터링 알고리즘을 구현하는 데 강력한 기능을 제공합니다.
- 이 패키지는 사용자-아이템 상호작용 데이터를 기반으로 추천 모델을 구축하고 평가하는 과정을 매우 단순화합니다.

- Surprise 패키지의 주요 기능
  - 다양한 알고리즘 지원: Surprise는 다양한 추천 알고리즘을 제공합니다. 대표적인 알고리즘으로는 다음이 있습니다.
    - 기본 알고리즘: NormalPredictor
    - 협업 필터링: KNNBasic, KNNWithMeans, KNNBaseline
    - 행렬 분해: SVD, SVD++, NMF
    - 베이스라인 알고리즘: BaselineOnly
  - 사용자 정의 데이터셋 지원: Surprise는 내장된 데이터셋 외에도 사용자 정의 데이터셋을 로드할 수 있는 기능을 제공합니다. CSV 파일이나 데이터프레임을 로드하여 사용할 수 있습니다.
  - 모델 평가: Surprise는 다양한 평가 지표를 제공합니다. RMSE, MAE와 같은 지표를 사용하여 모델 성능을 평가할 수 있습니다. 또한, 교차 검증(Cross-validation)과 같은 평가 방법도 지원합니다.
  - 쉽고 직관적인 API: Surprise는 간단하고 직관적인 API를 제공하여 추천 시스템을 쉽게 구현할 수 있도록 도와줍니다.

- Surprise 패키지의 주요 모듈
  - Dataset 모듈:
    - Dataset.load_builtin(name): 내장된 데이터셋을 로드합니다.
    - Dataset.load_from_file(file_path, reader): 파일로부터 데이터셋을 로드합니다.
    - Dataset.load_from_df(df, reader): 데이터프레임으로부터 데이터셋을 로드합니다.
  - Reader 모듈:
    - Reader(line_format, sep, rating_scale): 사용자 정의 데이터셋을 로드할 때 사용되는 클래스입니다.
  - Trainset 클래스:
    - build_full_trainset(): 전체 데이터셋을 학습 데이터로 사용합니다.
    - build_testset(): 전체 데이터셋을 테스트 데이터로 사용합니다.
  - Prediction 모듈:
    - accuracy.rmse(predictions): RMSE를 계산합니다.
    - accuracy.mae(predictions): MAE를 계산합니다.

In [1]:
%pip install scikit-surprise

Collecting scikit-surprise
  Downloading scikit_surprise-1.1.4.tar.gz (154 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/154.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m153.6/154.4 kB[0m [31m5.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.4/154.4 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.4-cp310-cp310-linux_x86_64.whl size=2357257 sha256=9dd1f57c05c32c1340bcbe023f256e4a1b2eab0b985bc330a3bd47b56752bcac
  Stored in directory: /root/.cache/pip/wheels/4b/3f/df/6acbf0a

Surprise 패키지에서 제공하는 MovieLens 100k 데이터셋

raw_ratings 속성을 사용하여 데이터셋의 원시 평점 데이터를 가져옵니다. 이 데이터는 사용자 ID, 아이템 ID, 평점, 타임스탬프로 구성된 튜플의 리스트입니다.

In [None]:
import pandas as pd
from surprise import Dataset

# MovieLens 100k 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# Surprise 데이터셋의 raw_ratings 속성을 사용하여 데이터 확인
raw_ratings = data.raw_ratings

# pandas 데이터프레임으로 변환
df = pd.DataFrame(raw_ratings, columns=['user_id', 'item_id', 'rating', 'timestamp'])

# 데이터 확인
print(df.head())


  user_id item_id  rating  timestamp
0     196     242     3.0  881250949
1     186     302     3.0  891717742
2      22     377     1.0  878887116
3     244      51     2.0  880606923
4     166     346     1.0  886397596


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   user_id    100000 non-null  object 
 1   item_id    100000 non-null  object 
 2   rating     100000 non-null  float64
 3   timestamp  100000 non-null  object 
dtypes: float64(1), object(3)
memory usage: 3.1+ MB


NormalPredictor: 사용자나 아이템의 특성을 고려하지 않고, 단순히 평점의 분포를 기반으로 임의의 예측을 수행합니다. 평점의 평균과 표준편차를 사용하여 임의의 예측 값을 생성합니다.

In [None]:
from surprise import Dataset, NormalPredictor
from surprise.model_selection import train_test_split
from surprise import accuracy

# 데이터 로드 및 준비
data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data, test_size=0.25)

# NormalPredictor 모델
algo = NormalPredictor()
algo.fit(trainset)

# 예측 및 평가
predictions = algo.test(testset)
print("NormalPredictor RMSE:", accuracy.rmse(predictions))


RMSE: 1.5346
NormalPredictor RMSE: 1.5345957702746373


KNNBasic: K-Nearest Neighbors 알고리즘을 사용하여 아이템 간 또는 사용자 간의 유사도를 계산하여 추천을 수행합니다.

In [None]:
from surprise import KNNBasic

# KNNBasic 모델
algo_knnbasic = KNNBasic()
algo_knnbasic.fit(trainset)

# 예측 및 평가
predictions_knnbasic = algo_knnbasic.test(testset)
print("KNNBasic RMSE:", accuracy.rmse(predictions_knnbasic))


Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9829
KNNBasic RMSE: 0.9828986300096157


SVD (Singular Value Decomposition): 사용자-아이템 평점 행렬을 분해하여 잠재요인을 추출하고 이를 기반으로 예측을 수행합니다.

In [None]:
from surprise import SVD

# SVD 모델
algo_svd = SVD()
algo_svd.fit(trainset)

# 예측 및 평가
predictions_svd = algo_svd.test(testset)
print("SVD RMSE:", accuracy.rmse(predictions_svd))


RMSE: 0.9397
SVD RMSE: 0.9397385380908942


NMF (Non-negative Matrix Factorization): 비음수 행렬 분해를 사용하여 사용자와 아이템의 잠재요인을 추출하고 예측을 수행합니다.

In [None]:
from surprise import NMF

# NMF 모델
algo_nmf = NMF()
algo_nmf.fit(trainset)

# 예측 및 평가
predictions_nmf = algo_nmf.test(testset)
print("NMF RMSE:", accuracy.rmse(predictions_nmf))


RMSE: 0.9670
NMF RMSE: 0.9669924386783625


MovieLens 100k 데이터셋을 사용하여 KNNBasic 알고리즘으로 추천 시스템을 구축하고, 특정 사용자에게 추천 영화를 제공하는 전체 과정을 보여줍니다. 이 과정은 데이터 로드, 모델 훈련, 평가, 추천 생성의 단계로 구성되어 있으며, Surprise 패키지를 사용하여 쉽게 구현할 수 있습니다.

In [None]:
from surprise import Dataset
from surprise import Reader
from surprise.model_selection import train_test_split
from surprise import KNNBasic

# MovieLens 100k 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# 학습 및 테스트 데이터셋 분리
trainset, testset = train_test_split(data, test_size=0.25)


Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k


## 추천시스템 구현

KNNBasic 알고리즘을 사용하여 추천 모델을 훈련합니다.

In [None]:
algo = KNNBasic()

# 모델 훈련
algo.fit(trainset)


Computing the msd similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBasic at 0x7985175195a0>

In [None]:
from surprise import accuracy

# 예측
predictions = algo.test(testset)

# RMSE 계산
accuracy.rmse(predictions)


RMSE: 0.9830


0.9830493435579412

특정 사용자에게 추천할 영화를 생성합니다. 예를 들어, 사용자 ID가 196인 경우:

In [None]:
# 모든 영화에 대해 예측
user_id = '196'
items = trainset.all_items()
inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

# 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위 10개의 추천 영화 출력
top_n = 10
for pred in predictions[:top_n]:
    print(f"Movie ID: {pred.iid}, Estimated Rating: {pred.est}")


Movie ID: 1500, Estimated Rating: 5
Movie ID: 1558, Estimated Rating: 5
Movie ID: 1191, Estimated Rating: 5
Movie ID: 1653, Estimated Rating: 5
Movie ID: 1467, Estimated Rating: 5
Movie ID: 1189, Estimated Rating: 5
Movie ID: 1491, Estimated Rating: 5
Movie ID: 1122, Estimated Rating: 5
Movie ID: 1599, Estimated Rating: 5
Movie ID: 119, Estimated Rating: 5


Surprise의 SVD 알고리즘을 사용하여 모델을 훈련시키고 평가

In [None]:
from surprise import SVD
from surprise import accuracy

# SVD 알고리즘으로 모델 생성
algo = SVD()

# 모델 훈련
algo.fit(trainset)

# 테스트 데이터셋으로 예측 수행
predictions = algo.test(testset)

# RMSE 계산
print("SVD RMSE:", accuracy.rmse(predictions))


RMSE: 0.9413
SVD RMSE: 0.9412832668092885


훈련된 모델을 사용하여 특정 사용자에게 영화를 추천합니다.

In [None]:

user_id = '196'
items = trainset.all_items()
inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

# 모든 영화에 대해 예측 수행
predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

# 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위 10개의 추천 영화 출력
top_n = 10
for pred in predictions[:top_n]:
    print(f"Movie ID: {pred.iid}, Estimated Rating: {pred.est}")


Movie ID: 603, Estimated Rating: 4.695985523629754
Movie ID: 318, Estimated Rating: 4.6642952397406825
Movie ID: 114, Estimated Rating: 4.553884807536517
Movie ID: 285, Estimated Rating: 4.539887896095724
Movie ID: 64, Estimated Rating: 4.5217239256668735
Movie ID: 313, Estimated Rating: 4.4506148184789485
Movie ID: 169, Estimated Rating: 4.439939949553828
Movie ID: 480, Estimated Rating: 4.36563151150342
Movie ID: 408, Estimated Rating: 4.352880356028372
Movie ID: 611, Estimated Rating: 4.350693178399165


Surprise 패키지를 사용하여 협업 필터링과 콘텐츠 기반 필터링을 결합한 하이브리드 추천 시스템을 구현

In [None]:
from surprise import Dataset
from surprise.model_selection import train_test_split
from surprise import KNNBasic
from surprise import accuracy

# MovieLens 100k 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# 학습 및 테스트 데이터셋 분리
trainset, testset = train_test_split(data, test_size=0.25)

# 협업 필터링 모델 (KNNBasic) 훈련 및 평가
# 협업 필터링 모델 (KNNBasic)
algo_cf = KNNBasic()
algo_cf.fit(trainset)

# 테스트 데이터셋으로 예측 수행
predictions_cf = algo_cf.test(testset)
print("KNNBasic RMSE:", accuracy.rmse(predictions_cf))

# 잠재요인 협업 필터링 모델 (SVD) 훈련 및 평가
from surprise import SVD

# 잠재요인 협업 필터링 모델 (SVD)
algo_svd = SVD()
algo_svd.fit(trainset)

# 테스트 데이터셋으로 예측 수행
predictions_svd = algo_svd.test(testset)
print("SVD RMSE:", accuracy.rmse(predictions_svd))

# 하이브리드 모델 예측 함수 정의
def hybrid_predict(uid, iid):
    pred_cf = algo_cf.predict(uid, iid).est # KNNBasic 모델을 사용하여 예측된 평점(est)을 가져옵니다.
    pred_svd = algo_svd.predict(uid, iid).est # SVD 모델을 사용하여 예측된 평점(est)을 가져옵니다.
    final_pred = (pred_cf + pred_svd) / 2 # 두 모델의 예측 값을 평균하여 최종 예측 값을 계산
    return final_pred

# 특정 사용자에게 추천 생성
user_id = '196'
items = trainset.all_items()
inner_id_list = [iid for iid in items] # 아이템 ID 리스트를 생성
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list] # 내부 아이템 ID를 원래 아이템 ID로 변환

# 하이브리드 예측 수행 : 모든 아이템에 대해 하이브리드 모델을 사용하여 예측 값을 계산하고 리스트로 저장
hybrid_predictions = [(iid, hybrid_predict(user_id, iid)) for iid in raw_id_list]
hybrid_predictions.sort(key=lambda x: x[1], reverse=True) # 예측 값을 기준으로 내림차순으로 정렬

# 상위 10개의 추천 영화 출력
top_n = 10
for pred in hybrid_predictions[:top_n]:
    print(f"Movie ID: {pred[0]}, Hybrid Estimated Rating: {pred[1]}") # pred[0]: 추천 영화의 ID, pred[1]: 하이브리드 모델이 예측한 평점


Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9820
KNNBasic RMSE: 0.9820292202216327
RMSE: 0.9413
SVD RMSE: 0.9413101091747209
Movie ID: 408, Hybrid Estimated Rating: 4.564077704559276
Movie ID: 114, Hybrid Estimated Rating: 4.525858567349232
Movie ID: 285, Hybrid Estimated Rating: 4.507449096501201
Movie ID: 318, Hybrid Estimated Rating: 4.484201288707813
Movie ID: 169, Hybrid Estimated Rating: 4.447630355427655
Movie ID: 98, Hybrid Estimated Rating: 4.4239816726521735
Movie ID: 357, Hybrid Estimated Rating: 4.395740948477316
Movie ID: 1467, Hybrid Estimated Rating: 4.391599874614698
Movie ID: 272, Hybrid Estimated Rating: 4.388198261594159
Movie ID: 286, Hybrid Estimated Rating: 4.349289470297489
