## 추천 알고리즘
크게 세 가지 주요 범주로 나눌 수 있습니다: 콘텐츠 기반 필터링(Content-Based Filtering), 협업 필터링(Collaborative Filtering), 그리고 하이브리드 필터링(Hybrid Filtering)입니다.

콘텐츠 기반 필터링 (Content-Based Filtering)<br>
콘텐츠 기반 필터링은 아이템의 특성(속성)을 기반으로 사용자가 선호할 만한 아이템을 추천하는 방법입니다.
- 특징:
  - 각 아이템의 속성을 벡터로 표현합니다.
  - 사용자의 이전 행동(예: 사용자가 좋아한 아이템)으로부터 프로필을 생성합니다.
  - 사용자가 좋아하는 아이템과 유사한 아이템을 추천합니다.
- 예시:
  - 영화 추천에서, 사용자가 좋아하는 영화의 장르, 감독, 배우 등의 특성을 기반으로 유사한 영화를 추천.
  - 문서 추천에서, 사용자가 읽은 문서의 키워드, 주제 등을 분석하여 유사한 문서를 추천.
- 장점:
  - 새로운 아이템도 쉽게 추천할 수 있습니다(콜드 스타트 문제 해결 가능).
  - 사용자의 개별 취향을 잘 반영합니다.
- 단점:
  - 아이템의 모든 속성을 정의하고 분석하는 것이 어려울 수 있습니다.
  - 사용자가 관심을 보이지 않은 속성은 추천하기 어렵습니다.

협업 필터링 (Collaborative Filtering)<br>
협업 필터링은 사용자와 아이템 간의 상호작용 데이터를 바탕으로 추천을 수행하는 방법입니다. 주로 사용자 간의 유사성 또는 아이템 간의 유사성을 이용합니다.
- 사용자 기반 협업 필터링 (User-Based Collaborative Filtering):
  - 사용자가 유사한 다른 사용자가 좋아한 아이템을 추천합니다.
  - 예: 사용자 A와 B가 유사하다면, B가 좋아한 아이템을 A에게 추천.
- 아이템 기반 협업 필터링 (Item-Based Collaborative Filtering):
  - 사용자가 이전에 좋아한 아이템과 유사한 아이템을 추천합니다.
  - 예: 영화 X와 Y가 유사하다면, X를 본 사용자는 Y도 좋아할 가능성이 높음.
- ★ 잠재요인 협업 필터링 (Latent Factor Collaborative Filtering):
  - 행렬 분해(Matrix Factorization) 기법을 사용하여 사용자와 아이템의 잠재요인을 학습합니다.
  - 예: SVD (Singular Value Decomposition), NMF (Non-negative Matrix Factorization).
- 장점:
  - 아이템의 속성 정보 없이도 추천이 가능합니다.
  - 다양한 사용자 행동 데이터를 활용하여 추천 성능이 좋습니다.
- 단점:
  - 새로운 사용자나 아이템에 대한 정보가 부족한 경우(콜드 스타트 문제) 추천이 어려움.
  - 사용자나 아이템의 수가 많아질수록 계산량이 증가.

하이브리드 필터링 (Hybrid Filtering)<br>
하이브리드 필터링은 콘텐츠 기반 필터링과 협업 필터링을 결합하여 각 접근 방식의 단점을 보완하고 장점을 극대화하는 방법입니다.
- 방법:
  - 두 가지 방법의 결과를 결합하여 최종 추천을 생성합니다.
  - 콘텐츠 기반 추천을 초기 단계에서 사용하고, 이후 협업 필터링을 적용하는 방법.
  - 모델을 결합하여 새로운 하이브리드 모델을 학습하는 방법.
- 장점:
  - 각 방법의 장점을 결합하여 더 정확한 추천을 제공.
  - 콜드 스타트 문제를 완화.
  - 다양한 데이터 소스를 활용하여 추천의 다양성과 정확성 증가.
- 단점:
  - 구현이 복잡하고 계산 비용이 증가할 수 있음.
  - 두 가지 방법의 적절한 조합을 찾기 어려울 수 있음.

## Surprise 패키지
- 파이썬으로 작성된 추천 시스템 라이브러리로, 다양한 추천 알고리즘을 쉽게 사용할 수 있게 도와줍니다.
- Surprise는 특히 행렬 분해(Matrix Factorization)와 같은 협업 필터링 알고리즘을 구현하는 데 강력한 기능을 제공합니다.
- 이 패키지는 사용자-아이템 상호작용 데이터를 기반으로 추천 모델을 구축하고 평가하는 과정을 매우 단순화합니다.

- Surprise 패키지의 주요 기능
  - 다양한 알고리즘 지원: Surprise는 다양한 추천 알고리즘을 제공합니다. 대표적인 알고리즘으로는 다음이 있습니다.
    - 기본 알고리즘: NormalPredictor
    - 협업 필터링: KNNBasic, KNNWithMeans, KNNBaseline
    - 행렬 분해: SVD, SVD++, NMF
    - 베이스라인 알고리즘: BaselineOnly
  - 사용자 정의 데이터셋 지원: Surprise는 내장된 데이터셋 외에도 사용자 정의 데이터셋을 로드할 수 있는 기능을 제공합니다. CSV 파일이나 데이터프레임을 로드하여 사용할 수 있습니다.
  - 모델 평가: Surprise는 다양한 평가 지표를 제공합니다. RMSE, MAE와 같은 지표를 사용하여 모델 성능을 평가할 수 있습니다. 또한, 교차 검증(Cross-validation)과 같은 평가 방법도 지원합니다.
  - 쉽고 직관적인 API: Surprise는 간단하고 직관적인 API를 제공하여 추천 시스템을 쉽게 구현할 수 있도록 도와줍니다.

- Surprise 패키지의 주요 모듈
  - Dataset 모듈:
    - Dataset.load_builtin(name): 내장된 데이터셋을 로드합니다.
    - Dataset.load_from_file(file_path, reader): 파일로부터 데이터셋을 로드합니다.
    - Dataset.load_from_df(df, reader): 데이터프레임으로부터 데이터셋을 로드합니다.
  - Reader 모듈:
    - Reader(line_format, sep, rating_scale): 사용자 정의 데이터셋을 로드할 때 사용되는 클래스입니다.
  - Trainset 클래스:
    - build_full_trainset(): 전체 데이터셋을 학습 데이터로 사용합니다.
    - build_testset(): 전체 데이터셋을 테스트 데이터로 사용합니다.
  - Prediction 모듈:
    - accuracy.rmse(predictions): RMSE를 계산합니다.
    - accuracy.mae(predictions): MAE를 계산합니다.

In [1]:
%pip install scikit-surprise

Collecting scikit-surprise
  Downloading scikit_surprise-1.1.4.tar.gz (154 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/154.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━[0m [32m112.6/154.4 kB[0m [31m3.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.4/154.4 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.4-cp310-cp310-linux_x86_64.whl size=2357245 sha256=7641db58e9bf10f4b765c70de3707d2741021505cba97b5fb5b9b9cbe74bbb28
  Stored in directory: /root/.cache/pip/wheels/4b/3f/d

Surprise 패키지에서 제공하는 MovieLens 100k 데이터셋

raw_ratings 속성을 사용하여 데이터셋의 원시 평점 데이터를 가져옵니다. 이 데이터는 사용자 ID, 아이템 ID, 평점, 타임스탬프로 구성된 튜플의 리스트입니다.

In [2]:
import pandas as pd
from surprise import Dataset

# MovieLens 100k 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# Surprise 데이터셋의 raw_ratins 속성을 사용하여 데이터 확인
raw_ratings = data.raw_ratings
print(raw_ratings[:10])

# pandas 데이터프레임으로 변환
df = pd.DataFrame(raw_ratings, columns=['user', 'item', 'rating', 'timestamp'])

# 데이터 확인
df

Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k
[('196', '242', 3.0, '881250949'), ('186', '302', 3.0, '891717742'), ('22', '377', 1.0, '878887116'), ('244', '51', 2.0, '880606923'), ('166', '346', 1.0, '886397596'), ('298', '474', 4.0, '884182806'), ('115', '265', 2.0, '881171488'), ('253', '465', 5.0, '891628467'), ('305', '451', 3.0, '886324817'), ('6', '86', 3.0, '883603013')]


Unnamed: 0,user,item,rating,timestamp
0,196,242,3.0,881250949
1,186,302,3.0,891717742
2,22,377,1.0,878887116
3,244,51,2.0,880606923
4,166,346,1.0,886397596
...,...,...,...,...
99995,880,476,3.0,880175444
99996,716,204,5.0,879795543
99997,276,1090,1.0,874795795
99998,13,225,2.0,882399156


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   user       100000 non-null  object 
 1   item       100000 non-null  object 
 2   rating     100000 non-null  float64
 3   timestamp  100000 non-null  object 
dtypes: float64(1), object(3)
memory usage: 3.1+ MB


NormalPredictor:
- 사용자나 아이템의 특성을 고려하지 않고, 단순히 평점의 분포를 기반으로 임의의 예측을 수행합니다. 평점의 평균과 표준편차를 사용하여 임의의 예측 값을 생성합니다.
- 실제 추천 시스템에서는 잘 사용되지 않지만, 비교 기준으로 사용할 수 있습니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 주어진 데이터의 평균과 표준편차를 기반으로 무작위 예측을 수행합니다.

In [21]:
from surprise import NormalPredictor
from surprise.model_selection import train_test_split
from surprise import accuracy

# 데이터 로드 및 준비
data = Dataset.load_builtin('ml-100k')

# 데이터셋을 학습 데이터와 테스트 데이터로 분할
trainset, testset = train_test_split(data, test_size=0.25)

# NormalPredictor 모델
algo = NormalPredictor()

# 모델 학습
algo.fit(trainset)

# 테스트 데이터로 예측 수행
predictions = algo.test(testset)

print("NormalPredictor", accuracy.rmse(predictions, verbose=False))

NormalPredictor 1.52114812529778


KNNBasic:
- 사용자 기반 또는 아이템 기반의 최근접 이웃 협업 필터링을 수행합니다. 사용자가 유사한 사용자 또는 유사한 아이템을 찾고, 그들의 평점을 기반으로 추천합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 유사도를 계산하여 최근접 이웃을 찾고, 이웃의 평점을 기반으로 예측합니다.

In [20]:
from surprise import KNNBasic
from surprise.model_selection import train_test_split

# KNNBasic 모델
algo_knn = KNNBasic()

# 모델 학습
algo_knn.fit(trainset)

# 테스트 데이터로 예측 수행
predictions_knn = algo_knn.test(testset)

print("KNNBasic", accuracy.rmse(predictions_knn, verbose=False))

Computing the msd similarity matrix...
Done computing similarity matrix.
KNNBasic 0.9895395384507415


KNNWithMeans
- KNNWithMeans는 KNNBasic과 유사하지만, 각 사용자의 평균 평점을 고려하여 평점을 예측합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 유사도를 계산하여 최근접 이웃을 찾고, 이웃의 평점과 평균 평점을 사용하여 예측합니다.

In [19]:
from surprise import KNNWithMeans

# KNNWithMeans 모델
algo_knn_with_means = KNNWithMeans()

# 모델 학습
algo_knn_with_means.fit(trainset)

# 테스트 데이터로 예측 수행
predictions_knn_with_means = algo_knn_with_means.test(testset)
print("KNNWithMeans", accuracy.rmse(predictions_knn_with_means, verbose=False))

Computing the msd similarity matrix...
Done computing similarity matrix.
KNNWithMeans 0.9600989851785784


SVD (Singular Value Decomposition):
- SVD는 행렬 분해 기반의 협업 필터링 알고리즘입니다. 사용자-아이템 평점 행렬을 분해하여 잠재 요인을 추출하고 이를 기반으로 평점을 예측합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 행렬 분해를 통해 사용자와 아이템의 잠재 요인을 학습하고, 이를 사용하여 평점을 예측합니다.

In [18]:
from surprise import SVD

# SVD 모델
algo_svd = SVD()

# 모델 학습
algo_svd.fit(trainset)

# 테스트 데이터로 예측 수행
predictions_svd = algo_svd.test(testset)

print("SVD", accuracy.rmse(predictions_svd, verbose=False))

SVD 0.9456123360219459


NMF (Non-negative Matrix Factorization):
- 비음수 행렬 분해를 사용하는 알고리즘으로, 사용자와 아이템의 잠재 요인을 추출합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 행렬 분해를 통해 비음수 잠재 요인을 학습하고, 이를 사용하여 평점을 예측합니다.

In [17]:
from surprise import NMF

# NMF 모델
algo_nmf = NMF()

# 모델 학습
algo_nmf.fit(trainset)

# 테스트 데이터로 예측 수행
predictions_nmf = algo_nmf.test(testset)
print("NMF", accuracy.rmse(predictions_nmf, verbose=False))

NMF 0.9725540545237077


#### MovieLens 데이터셋을 이용한 추천시스템 구현

In [23]:
# KNNBasic 알고리즘을 사용하여 모델을 훈련
# Default는 user_based = True / 유사한 사용자를 찾아 이들의 평점을 기반으로 예측
# user_based = False / 유사한 아이템을 찾아 사용자가 해당 아이템에 매긴 평점을 기반으로 예측
algo = KNNBasic()

# 모델 훈련
algo.fit(trainset)


Computing the msd similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBasic at 0x7d57bf051570>

특정 사용자게에 추천할 영화를 생성

In [24]:
# 모든 영화에 대해 예측 / 예를들어 아이디가 196인 경우
user_id = '196'
items = trainset.all_items()

inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

# 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위 10개의 추천 영화 출력
top_n = 10
for pred in predictions[:top_n]:
    print(f"Movie ID : {pred.iid}, Estimated Rating : {pred.est}")

Movie ID : 1599, Estimated Rating : 5
Movie ID : 1642, Estimated Rating : 5
Movie ID : 1122, Estimated Rating : 5
Movie ID : 1189, Estimated Rating : 5
Movie ID : 1594, Estimated Rating : 5
Movie ID : 814, Estimated Rating : 5
Movie ID : 1293, Estimated Rating : 5
Movie ID : 1467, Estimated Rating : 5
Movie ID : 1653, Estimated Rating : 5
Movie ID : 1358, Estimated Rating : 5


In [25]:
# SVD 알고리즘을 사용하여 모델 훈련
algo = SVD()

# 모델 훈련
algo.fit(trainset)

user_id = '196'
items = trainset.all_items()

inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

# 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위 10개의 추천 영화 출력
top_n = 10
for pred in predictions[:top_n]:
    print(f"Movie ID : {pred.iid}, Estimated Rating : {pred.est}")


Movie ID : 357, Estimated Rating : 4.822240666453942
Movie ID : 318, Estimated Rating : 4.743809762015177
Movie ID : 114, Estimated Rating : 4.673093075415089
Movie ID : 408, Estimated Rating : 4.615423677384486
Movie ID : 12, Estimated Rating : 4.588373838951828
Movie ID : 657, Estimated Rating : 4.5460397696534915
Movie ID : 251, Estimated Rating : 4.508450501815757
Movie ID : 483, Estimated Rating : 4.48684814186322
Movie ID : 64, Estimated Rating : 4.4844719571220715
Movie ID : 170, Estimated Rating : 4.456861627461928
