## 추천 알고리즘
크게 세 가지 주요 범주로 나눌 수 있습니다: 콘텐츠 기반 필터링(Content-Based Filtering), 협업 필터링(Collaborative Filtering), 그리고 하이브리드 필터링(Hybrid Filtering)입니다.

콘텐츠 기반 필터링 (Content-Based Filtering)<br>
콘텐츠 기반 필터링은 아이템의 특성(속성)을 기반으로 사용자가 선호할 만한 아이템을 추천하는 방법입니다.
- 특징:
  - 각 아이템의 속성을 벡터로 표현합니다.
  - 사용자의 이전 행동(예: 사용자가 좋아한 아이템)으로부터 프로필을 생성합니다.
  - 사용자가 좋아하는 아이템과 유사한 아이템을 추천합니다.
- 예시:
  - 영화 추천에서, 사용자가 좋아하는 영화의 장르, 감독, 배우 등의 특성을 기반으로 유사한 영화를 추천.
  - 문서 추천에서, 사용자가 읽은 문서의 키워드, 주제 등을 분석하여 유사한 문서를 추천.
- 장점:
  - 새로운 아이템도 쉽게 추천할 수 있습니다(콜드 스타트 문제 해결 가능).
  - 사용자의 개별 취향을 잘 반영합니다.
- 단점:
  - 아이템의 모든 속성을 정의하고 분석하는 것이 어려울 수 있습니다.
  - 사용자가 관심을 보이지 않은 속성은 추천하기 어렵습니다.

협업 필터링 (Collaborative Filtering)<br>
협업 필터링은 사용자와 아이템 간의 상호작용 데이터를 바탕으로 추천을 수행하는 방법입니다. 주로 사용자 간의 유사성 또는 아이템 간의 유사성을 이용합니다.
- 사용자 기반 협업 필터링 (User-Based Collaborative Filtering):
  - 사용자가 유사한 다른 사용자가 좋아한 아이템을 추천합니다.
  - 예: 사용자 A와 B가 유사하다면, B가 좋아한 아이템을 A에게 추천.
- 아이템 기반 협업 필터링 (Item-Based Collaborative Filtering):
  - 사용자가 이전에 좋아한 아이템과 유사한 아이템을 추천합니다.
  - 예: 영화 X와 Y가 유사하다면, X를 본 사용자는 Y도 좋아할 가능성이 높음.
- 잠재요인 협업 필터링 (Latent Factor Collaborative Filtering):
  - 행렬 분해(Matrix Factorization) 기법을 사용하여 사용자와 아이템의 잠재요인을 학습합니다.
  - 예: SVD (Singular Value Decomposition), NMF (Non-negative Matrix Factorization).
- 장점:
  - 아이템의 속성 정보 없이도 추천이 가능합니다.
  - 다양한 사용자 행동 데이터를 활용하여 추천 성능이 좋습니다.
- 단점:
  - 새로운 사용자나 아이템에 대한 정보가 부족한 경우(콜드 스타트 문제) 추천이 어려움.
  - 사용자나 아이템의 수가 많아질수록 계산량이 증가.

하이브리드 필터링 (Hybrid Filtering)<br>
하이브리드 필터링은 콘텐츠 기반 필터링과 협업 필터링을 결합하여 각 접근 방식의 단점을 보완하고 장점을 극대화하는 방법입니다.
- 방법:
  - 두 가지 방법의 결과를 결합하여 최종 추천을 생성합니다.
  - 콘텐츠 기반 추천을 초기 단계에서 사용하고, 이후 협업 필터링을 적용하는 방법.
  - 모델을 결합하여 새로운 하이브리드 모델을 학습하는 방법.
- 장점:
  - 각 방법의 장점을 결합하여 더 정확한 추천을 제공.
  - 콜드 스타트 문제를 완화.
  - 다양한 데이터 소스를 활용하여 추천의 다양성과 정확성 증가.
- 단점:
  - 구현이 복잡하고 계산 비용이 증가할 수 있음.
  - 두 가지 방법의 적절한 조합을 찾기 어려울 수 있음.

## Surprise 패키지
- 파이썬으로 작성된 추천 시스템 라이브러리로, 다양한 추천 알고리즘을 쉽게 사용할 수 있게 도와줍니다.
- Surprise는 특히 행렬 분해(Matrix Factorization)와 같은 협업 필터링 알고리즘을 구현하는 데 강력한 기능을 제공합니다.
- 이 패키지는 사용자-아이템 상호작용 데이터를 기반으로 추천 모델을 구축하고 평가하는 과정을 매우 단순화합니다.

- Surprise 패키지의 주요 기능
  - 다양한 알고리즘 지원: Surprise는 다양한 추천 알고리즘을 제공합니다. 대표적인 알고리즘으로는 다음이 있습니다.
    - 기본 알고리즘: NormalPredictor
    - 협업 필터링: KNNBasic, KNNWithMeans, KNNBaseline
    - 행렬 분해: SVD, SVD++, NMF
    - 베이스라인 알고리즘: BaselineOnly
  - 사용자 정의 데이터셋 지원: Surprise는 내장된 데이터셋 외에도 사용자 정의 데이터셋을 로드할 수 있는 기능을 제공합니다. CSV 파일이나 데이터프레임을 로드하여 사용할 수 있습니다.
  - 모델 평가: Surprise는 다양한 평가 지표를 제공합니다. RMSE, MAE와 같은 지표를 사용하여 모델 성능을 평가할 수 있습니다. 또한, 교차 검증(Cross-validation)과 같은 평가 방법도 지원합니다.
  - 쉽고 직관적인 API: Surprise는 간단하고 직관적인 API를 제공하여 추천 시스템을 쉽게 구현할 수 있도록 도와줍니다.

- Surprise 패키지의 주요 모듈
  - Dataset 모듈:
    - Dataset.load_builtin(name): 내장된 데이터셋을 로드합니다.
    - Dataset.load_from_file(file_path, reader): 파일로부터 데이터셋을 로드합니다.
    - Dataset.load_from_df(df, reader): 데이터프레임으로부터 데이터셋을 로드합니다.
  - Reader 모듈:
    - Reader(line_format, sep, rating_scale): 사용자 정의 데이터셋을 로드할 때 사용되는 클래스입니다.
  - Trainset 클래스:
    - build_full_trainset(): 전체 데이터셋을 학습 데이터로 사용합니다.
    - build_testset(): 전체 데이터셋을 테스트 데이터로 사용합니다.
  - Prediction 모듈:
    - accuracy.rmse(predictions): RMSE를 계산합니다.
    - accuracy.mae(predictions): MAE를 계산합니다.

In [3]:
%pip install scikit-surprise

Collecting scikit-surprise
  Downloading scikit_surprise-1.1.4.tar.gz (154 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.4/154.4 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.4-cp310-cp310-linux_x86_64.whl size=2357247 sha256=9fa32386c3f0121e20fda1a0ebf37e51d81d07ac9e864c08b22c47e987512608
  Stored in directory: /root/.cache/pip/wheels/4b/3f/df/6acbf0a40397d9bf3ff97f582cc22fb9ce66adde75bc71fd54
Successfully built scikit-surprise
Installing collected packages: scikit-surprise
Successfully installed scikit-surprise-1.1.4


Surprise 패키지에서 제공하는 MovieLens 100k 데이터셋  <br>
raw_rating 속성을 사용하여 데이터셋의 원시 평점 데이터를 가져옵니다. 이 데이터는 사용자 ID, 아이템ID, 평점, 타임스탬프로 구성된 튜플의 리스트

In [None]:
import pandas as pd
from surprise import Dataset

## 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# raw ratings 속성을 사용하여 데이터 확인
raw_ratings = data.raw_ratings

# 데이터프레임으로 변환
df=pd.DataFrame(raw_ratings, columns=['user_id', 'item_id', 'rating', 'timestamp'])

print(raw_ratings[:10])
df.head()

Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k
[('196', '242', 3.0, '881250949'), ('186', '302', 3.0, '891717742'), ('22', '377', 1.0, '878887116'), ('244', '51', 2.0, '880606923'), ('166', '346', 1.0, '886397596'), ('298', '474', 4.0, '884182806'), ('115', '265', 2.0, '881171488'), ('253', '465', 5.0, '891628467'), ('305', '451', 3.0, '886324817'), ('6', '86', 3.0, '883603013')]


Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3.0,881250949
1,186,302,3.0,891717742
2,22,377,1.0,878887116
3,244,51,2.0,880606923
4,166,346,1.0,886397596


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   user_id    100000 non-null  object 
 1   item_id    100000 non-null  object 
 2   rating     100000 non-null  float64
 3   timestamp  100000 non-null  object 
dtypes: float64(1), object(3)
memory usage: 3.1+ MB


## 1. NormalPredictor:
- 사용자나 아이템의 특성을 고려하지 않고, 단순히 평점의 분포를 기반으로 임의의 예측을 수행합니다. 평점의 평균과 표준편차를 사용하여 임의의 예측 값을 생성합니다.
- 실제 추천 시스템에서는 잘 사용되지 않지만, 비교 기준으로 사용할 수 있습니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 주어진 데이터의 평균과 표준편차를 기반으로 **무작위 예측**을 수행합니다.

In [None]:
from surprise import NormalPredictor, Dataset
from surprise.model_selection import train_test_split
from surprise import accuracy

## 데이터셋 로드
data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data, test_size=.25)

# Normal predictor 모델
algo=NormalPredictor()

# 학습
algo.fit(trainset)

# 예측
predictions = algo.test(testset)

# 평가
print("Normal Preictor RMSE: ", accuracy.rmse(predictions, verbose=False))

RMSE: 1.5132
Normal Preictor RMSE:  1.5131786037004176


## 2. KNNBasic:
- 사용자 기반 또는 아이템 기반의 최근접 이웃 협업 필터링을 수행합니다. 사용자가 유사한 사용자 또는 유사한 아이템을 찾고, 그들의 평점을 기반으로 추천합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 유사도를 계산하여 최근접 이웃을 찾고, 이웃의 평점을 기반으로 예측합니다.

In [None]:
from surprise import KNNBasic, Dataset
from surprise.model_selection import train_test_split
from surprise import accuracy

## 알고리즘
algo_knnbasic = KNNBasic()
algo_knnbasic.fit(trainset)

# 예측
predictions = algo_knnbasic.test(testset)

# 평가
print("KNNBasic RMSE: ", accuracy.rmse(predictions, verbose=False))


Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9848
KNNBasic RMSE:  0.9848216472775637


**KNNWithMeans**
- KNNWithMeans는 KNNBasic과 유사하지만, 각 사용자의 평균 평점을 고려하여 평점을 예측합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 유사도를 계산하여 최근접 이웃을 찾고, 이웃의 평점과 평균 평점을 사용하여 예측합니다.

In [None]:
from surprise import KNNWithMeans
from surprise.model_selection import train_test_split
from surprise import accuracy

## 알고리즘
algo = KNNWithMeans()
algo.fit(trainset)

# 예측
predictions = algo.test(testset)

# 평가
print("RMSE: ", accuracy.rmse(predictions, verbose=False))

Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9542
RMSE:  0.9542043880597831


SVD (Singular Value Decomposition):
- SVD는 행렬 분해 기반의 협업 필터링 알고리즘입니다. 사용자-아이템 평점 행렬을 분해하여 잠재 요인을 추출하고 이를 기반으로 평점을 예측합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 행렬 분해를 통해 사용자와 아이템의 잠재 요인을 학습하고, 이를 사용하여 평점을 예측합니다.

In [None]:
from surprise import SVD
from surprise.model_selection import train_test_split
from surprise import accuracy

## 알고리즘
algo = SVD()
algo.fit(trainset)

# 예측
predictions = algo.test(testset)

# 평가
print("RMSE: ", accuracy.rmse(predictions, verbose=False))

RMSE:  0.9394290290143879


NMF (Non-negative Matrix Factorization):
- 비음수 행렬 분해를 사용하는 알고리즘으로, 사용자와 아이템의 잠재 요인을 추출합니다.
- 데이터 형태: 사용자 ID, 아이템 ID, 평점, 타임스탬프
- 작동 방식: 행렬 분해를 통해 비음수 잠재 요인을 학습하고, 이를 사용하여 평점을 예측합니다.

In [None]:
from surprise import NMF
from surprise.model_selection import train_test_split
from surprise import accuracy

## 알고리즘
algo = NMF()
algo.fit(trainset)

# 예측
predictions = algo.test(testset)


# 평가
print("RMSE: ", accuracy.rmse(predictions, verbose=False))

RMSE:  0.9679103653603754


## 추천 시스템 구현
- KNNBasic 알고리즘을 사용하여 추천 모델을 훈련합니다.

In [None]:
import pandas as pd
from surprise import Dataset

## 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# 학습/테스트 셋
trainset, testset = train_test_split(data, test_size=.25)

## KNN 알고리즘
algo = KNNBasic()
algo.fit(trainset)

# 예측
predictions = algo.test(testset)

# 평가
print("RMSE: ", accuracy.rmse(predictions, verbose=False))

Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE:  0.9819948227862305


특정 사용자에게 추천할 영화를 생성합니다. 예를 들어 사용자 ID가 196인 경우

In [None]:
## 모든 영화에 대해 예측
user_id='196'
items=trainset.all_items()
inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

## 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위10개 추천 영화 출력
top_n=10
for pred in predictions[:top_n]:
    print(f"Movie ID: {pred.iid}, Estimated Rating: {pred.est}")
#

Movie ID: 1358, Estimated Rating: 5
Movie ID: 1467, Estimated Rating: 5
Movie ID: 1201, Estimated Rating: 5
Movie ID: 1629, Estimated Rating: 5
Movie ID: 1516, Estimated Rating: 5
Movie ID: 1500, Estimated Rating: 5
Movie ID: 1536, Estimated Rating: 5
Movie ID: 1122, Estimated Rating: 5
Movie ID: 1189, Estimated Rating: 5
Movie ID: 1293, Estimated Rating: 5


Surprise의 SVD 알고리즘을 이용해서 특정 사용자에게 추천할 영화를 생성 : 사용자 ID가 196인 경우

In [None]:
## 알고리즘
algo = SVD()
algo.fit(trainset)


In [None]:
## 모든 영화에 대해 예측
user_id='196'
items=trainset.all_items()
inner_id_list = [iid for iid in items]
raw_id_list = [trainset.to_raw_iid(iid) for iid in inner_id_list]

predictions = [algo.predict(user_id, raw_id) for raw_id in raw_id_list]

## 예측된 평점 순으로 정렬
predictions.sort(key=lambda x: x.est, reverse=True)

# 상위10개 추천 영화 출력
top_n=10
for pred in predictions[:top_n]:
    print(f"Movie ID: {pred.iid}, Estimated Rating: {pred.est}")

Movie ID: 1358, Estimated Rating: 5
Movie ID: 1467, Estimated Rating: 5
Movie ID: 1201, Estimated Rating: 5
Movie ID: 1629, Estimated Rating: 5
Movie ID: 1516, Estimated Rating: 5
Movie ID: 1500, Estimated Rating: 5
Movie ID: 1536, Estimated Rating: 5
Movie ID: 1122, Estimated Rating: 5
Movie ID: 1189, Estimated Rating: 5
Movie ID: 1293, Estimated Rating: 5


In [None]:
import pandas as pd
from surprise import SVD, Dataset, Reader, accuarcy
from surprise.dataset import DatasetAutoFolds
from surprise.model_selection import train_test_split
from surprise import accuracy
from google.colab import drive

drive.mount('/content/drive')

## 데이터셋 로드
data = Dataset.load_builtin('ml-100k')

# 학습/테스트 셋
trainset, testset = train_test_split(data, test_size=.25)

SVD를 사용한 영화 추천 시스템 구현

In [4]:
import pandas as pd
from surprise import SVD, Dataset, Reader, accuracy
from surprise.dataset import DatasetAutoFolds
from google.colab import drive

# Google Drive 마운트
drive.mount('/content/drive')

# CSV 파일 경로 설정
ratings_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings.csv'         ## 영화 제목이 없어서 아래 movies.csv를 추가
movies_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/movies.csv'

# ratings 데이터 로드
ratings = pd.read_csv(ratings_file_path)

# DatasetAutoFolds 클래스를 ratings.csv 파일 기반으로 생성
reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5.0))
data_folds = DatasetAutoFolds(ratings_file='/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings_noh.csv', reader=reader)

# 전체 데이터를 학습 데이터로 생성
trainset = data_folds.build_full_trainset()
algo = SVD(n_epochs=20, n_factors=50, random_state=0)
algo.fit(trainset)

# movies 데이터 로드
movies = pd.read_csv(movies_file_path)

# userId=9 의 movieId 데이터 추출하여 movieId=42 데이터가 있는지 확인
movieIds = ratings[ratings['userId'] == 9]['movieId']

if movieIds[movieIds == 42].count() == 0:
    print('사용자 아이디 9는 영화 아이디 42의 평점 없음')

print(movies[movies['movieId'] == 42])

uid = str(9)
iid = str(42)

pred = algo.predict(uid, iid, verbose=True)
print(ratings[ratings['userId'] == 9]['movieId'].tolist())

# 사용자가 보지 않은 영화 목록 생성 함수
def get_unseen_surprise(ratings, movies, userId):
    seen_movies = ratings[ratings['userId'] == userId]['movieId'].tolist()
    total_movies = movies['movieId'].tolist()
    unseen_movies = [movie for movie in total_movies if movie not in seen_movies]
    print('평점 매긴 영화수:', len(seen_movies), '추천대상 영화수:', len(unseen_movies), '전체 영화수:', len(total_movies))
    return unseen_movies

unseen_movies = get_unseen_surprise(ratings, movies, 9)

# 영화 추천 함수
def recomm_movie_by_surprise(algo, userId, unseen_movies, top_n=10):
    predictions = [algo.predict(str(userId), str(movieId)) for movieId in unseen_movies]

    def sortkey_est(pred):
        return pred.est

    predictions.sort(key=sortkey_est, reverse=True)
    top_predictions = predictions[:top_n]

    top_movie_ids = [int(pred.iid) for pred in top_predictions]
    top_movie_rating = [pred.est for pred in top_predictions]
    top_movie_titles = movies[movies.movieId.isin(top_movie_ids)]['title']
    top_movie_preds = [(id, title, rating) for id, title, rating in zip(top_movie_ids, top_movie_titles, top_movie_rating)]

    return top_movie_preds

unseen_movies = get_unseen_surprise(ratings, movies, 9)
top_movie_preds = recomm_movie_by_surprise(algo, 9, unseen_movies, top_n=10)

print('##### Top-10 추천 영화 리스트 #####')
for top_movie in top_movie_preds:
    print(top_movie[1], ":", top_movie[2])


Mounted at /content/drive
사용자 아이디 9는 영화 아이디 42의 평점 없음
    movieId                   title              genres
38       42  Dead Presidents (1995)  Action|Crime|Drama
user: 9          item: 42         r_ui = None   est = 3.13   {'was_impossible': False}
[41, 187, 223, 371, 627, 922, 923, 1037, 1095, 1198, 1270, 1674, 1987, 2011, 2012, 2023, 2300, 2877, 2901, 3173, 3328, 3735, 4131, 4558, 4993, 5218, 5378, 5445, 5447, 5451, 5481, 5507, 5841, 5843, 5872, 5890, 5891, 5893, 5902, 5952, 5956, 5962, 5965, 5988, 6001, 6044]
평점 매긴 영화수: 46 추천대상 영화수: 9696 전체 영화수: 9742
평점 매긴 영화수: 46 추천대상 영화수: 9696 전체 영화수: 9742
##### Top-10 추천 영화 리스트 #####
Usual Suspects, The (1995) : 4.306302135700814
Star Wars: Episode IV - A New Hope (1977) : 4.281663842987387
Pulp Fiction (1994) : 4.278152632122759
Silence of the Lambs, The (1991) : 4.226073566460876
Godfather, The (1972) : 4.1918097904381995
Streetcar Named Desire, A (1951) : 4.154746591122657
Star Wars: Episode V - The Empire Strikes Back (1980) : 4.122016128

In [9]:
import pandas as pd
from surprise import SVD, Dataset, Reader, accuracy
from surprise.dataset import DatasetAutoFolds
from google.colab import drive

# Google Drive 마운트
drive.mount('/content/drive')

# 파일 경로 설정
ratings_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings.csv'
ratings_noh_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings_noh.csv'
movies_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/movies.csv'

# 데이터 로드
ratings = pd.read_csv(ratings_file_path)
movies = pd.read_csv(movies_file_path)

# 헤더가 없는 ratings_noh.csv 생성
ratings.to_csv(ratings_noh_path, index=False, header=False)

# DatasetAutoFolds 클래스를 ratings_noh.csv 파일 기반으로 생성
reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5.0))
data_folds = DatasetAutoFolds(ratings_file=ratings_noh_path, reader=reader)

# 전체 데이터를 학습 데이터로 생성
trainset = data_folds.build_full_trainset()
algo = SVD(n_epochs=20, n_factors=50, random_state=0)
algo.fit(trainset)

# 사용자 9가 보지 않은 영화 목록 생성 함수
def get_unseen_movies(ratings_df, movies_df, user_id):
    seen_movies = ratings_df[ratings_df['userId'] == user_id]['movieId'].tolist()
    all_movies = movies_df['movieId'].tolist()
    unseen_movies = [movie for movie in all_movies if movie not in seen_movies]
    print(f'평점 매긴 영화수: {len(seen_movies)}, 추천 대상 영화수: {len(unseen_movies)}, 전체 영화수: {len(all_movies)}')
    return unseen_movies

# 영화 추천 함수
def recommend_movies(model, user_id, unseen_movies, movies_df, top_n=10):
    predictions = [model.predict(str(user_id), str(movie_id)) for movie_id in unseen_movies]
    top_predictions = sorted(predictions, key=lambda x: x.est, reverse=True)[:top_n]
    top_movie_ids = [int(pred.iid) for pred in top_predictions]
    top_movie_titles = movies_df[movies_df['movieId'].isin(top_movie_ids)]['title'].tolist()
    top_movie_ratings = [pred.est for pred in top_predictions]
    recommendations = list(zip(top_movie_titles, top_movie_ratings))
    return recommendations

# 사용자 9의 보지 않은 영화와 추천 영화 목록 생성 및 출력
user_id = 9
unseen_movies = get_unseen_movies(ratings, movies, user_id)
top_recommendations = recommend_movies(algo, user_id, unseen_movies, movies, top_n=10)

print('##### Top-10 추천 영화 리스트 #####')
for title, rating in top_recommendations:
    print(f'{title}: {rating:.2f}')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
평점 매긴 영화수: 46, 추천 대상 영화수: 9696, 전체 영화수: 9742
##### Top-10 추천 영화 리스트 #####
Usual Suspects, The (1995): 4.31
Star Wars: Episode IV - A New Hope (1977): 4.28
Pulp Fiction (1994): 4.28
Silence of the Lambs, The (1991): 4.23
Godfather, The (1972): 4.19
Streetcar Named Desire, A (1951): 4.15
Star Wars: Episode V - The Empire Strikes Back (1980): 4.12
Star Wars: Episode VI - Return of the Jedi (1983): 4.11
Goodfellas (1990): 4.08
Glory (1989): 4.08


최종 Web 개발을 위한 base code

In [10]:
import pandas as pd
from surprise import SVD, Dataset, Reader, KNNBaseline
from surprise.dataset import DatasetAutoFolds
from google.colab import drive

# Google Drive 마운트
drive.mount('/content/drive')

# 파일 경로 설정
ratings_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings.csv'
ratings_noh_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/ratings_noh.csv'
movies_file_path = '/content/drive/MyDrive/KITA_2024/M5_MachineLearning/dataset/ml-latest-small/movies.csv'

# 데이터 로드
ratings = pd.read_csv(ratings_file_path)
movies = pd.read_csv(movies_file_path)
# print("Ratings 데이터프레임의 첫 몇 행:")
# print(ratings.head())
# print("Movies 데이터프레임의 첫 몇 행:")
# print(movies.head())

# 데이터프레임을 CSV 파일로 저장 (헤더 없이)
ratings.to_csv(ratings_noh_path, index=False, header=False)

# DatasetAutoFolds 클래스를 ratings_noh.csv 파일 기반으로 생성
reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5.0))
data_folds = DatasetAutoFolds(ratings_file=ratings_noh_path, reader=reader)

# 전체 데이터를 학습 데이터로 생성
trainset = data_folds.build_full_trainset()

# trainset 객체 확인
# print("trainset에 포함된 영화 ID 목록:")
# print(list(trainset._raw2inner_id_items.keys()))

# SVD 모델 학습
algo = SVD(n_epochs=20, n_factors=50, random_state=0)
algo.fit(trainset)

# 사용자 9가 보지 않은 영화 목록 생성 함수
def get_unseen_movies(ratings_df, movies_df, user_id):
    seen_movies = ratings_df[ratings_df['userId'] == user_id]['movieId'].tolist()
    all_movies = movies_df['movieId'].tolist()
    unseen_movies = [movie for movie in all_movies if movie not in seen_movies]
    print(f'평점 매긴 영화수: {len(seen_movies)}, 추천 대상 영화수: {len(unseen_movies)}, 전체 영화수: {len(all_movies)}')
    return unseen_movies

# 영화 추천 함수
def recommend_movies(model, user_id, unseen_movies, movies_df, top_n=10):
    predictions = [model.predict(str(user_id), str(movie_id)) for movie_id in unseen_movies]
    top_predictions = sorted(predictions, key=lambda x: x.est, reverse=True)[:top_n]
    top_movie_ids = [int(pred.iid) for pred in top_predictions]
    top_movie_titles = movies_df[movies_df['movieId'].isin(top_movie_ids)]['title'].tolist()
    top_movie_ratings = [pred.est for pred in top_predictions]
    recommendations = list(zip(top_movie_titles, top_movie_ratings))
    return recommendations

# 특정 영화와 유사한 영화를 추천하는 함수
def recommend_similar_movies(movie_id, trainset, movies_df, top_n=10):
    sim_options = {
        'name': 'cosine',
        'user_based': False  # 아이템 기반 유사도
    }
    algo_knn = KNNBaseline(sim_options=sim_options)
    algo_knn.fit(trainset)

    # 영화 ID를 문자열로 변환
    movie_id_str = str(movie_id)

    try:
        inner_id = algo_knn.trainset.to_inner_iid(movie_id_str)
        # print(f"내부 ID: {inner_id}")
    except ValueError:
        print(f"영화 ID {movie_id}는 학습 데이터셋에 포함되어 있지 않습니다.")
        return []

    neighbors = algo_knn.get_neighbors(inner_id, k=top_n)

    neighbors_movie_ids = [algo_knn.trainset.to_raw_iid(inner_id) for inner_id in neighbors]
    neighbors_movie_ids = [int(iid) for iid in neighbors_movie_ids]  # 문자열 ID를 정수형으로 변환
    # print(f"영화 ID {movie_id}의 유사한 영화 IDs: {neighbors_movie_ids}")

    # 영화 제목을 movies 데이터프레임으로부터 가져옴
    neighbors_movies = movies_df[movies_df['movieId'].isin(neighbors_movie_ids)][['movieId', 'title']]

    # 입력받은 영화 ID의 제목 가져오기
    movie_title = movies_df[movies_df['movieId'] == movie_id]['title'].values[0]

    return movie_title, neighbors_movies

# 사용자 입력
while True:
    print("\n1. 사용자 ID로 영화 추천")
    print("2. 영화 ID로 유사한 영화 추천")
    print("3. 종료")
    choice = input("선택하세요 (1, 2, 3): ")

    if choice == '1':
        user_id = int(input("사용자 ID를 입력하세요: "))
        unseen_movies = get_unseen_movies(ratings, movies, user_id)
        top_recommendations = recommend_movies(algo, user_id, unseen_movies, movies, top_n=10)

        print(f'\n##### 사용자 {user_id}의 Top-10 추천 영화 리스트 #####')
        for title, rating in top_recommendations:
            print(f'{title}: {rating:.2f}')

    elif choice == '2':
        movie_id = int(input("영화 ID를 입력하세요: "))
        movie_title, similar_movies = recommend_similar_movies(movie_id, trainset, movies, top_n=10)

        if not similar_movies.empty:
            print(f'\n##### 영화 ID {movie_id} {movie_title}와 유사한 Top-10 리스트 #####')
            for idx, row in similar_movies.iterrows():
                print(f'ID: {row["movieId"]}, 영화제목: {row["title"]}')

    elif choice == '3':
        print("프로그램을 종료합니다.")
        break

    else:
        print("잘못된 선택입니다. 다시 시도하세요.")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

1. 사용자 ID로 영화 추천
2. 영화 ID로 유사한 영화 추천
3. 종료
선택하세요 (1, 2, 3): 2
영화 ID를 입력하세요: 92
Estimating biases using als...
Computing the cosine similarity matrix...
Done computing similarity matrix.

##### 영화 ID 92 (Mary Reilly (1996))와 유사한 Top-10 영화 리스트 #####
영화 ID: 441, 영화 제목: Dazed and Confused (1993)
영화 ID: 804, 영화 제목: She's the One (1996)
영화 ID: 940, 영화 제목: Adventures of Robin Hood, The (1938)
영화 ID: 954, 영화 제목: Mr. Smith Goes to Washington (1939)
영화 ID: 1009, 영화 제목: Escape to Witch Mountain (1975)
영화 ID: 1024, 영화 제목: Three Caballeros, The (1945)
영화 ID: 1031, 영화 제목: Bedknobs and Broomsticks (1971)
영화 ID: 1060, 영화 제목: Swingers (1996)
영화 ID: 1226, 영화 제목: Quiet Man, The (1952)
영화 ID: 1298, 영화 제목: Pink Floyd: The Wall (1982)

1. 사용자 ID로 영화 추천
2. 영화 ID로 유사한 영화 추천
3. 종료
선택하세요 (1, 2, 3): 3
프로그램을 종료합니다.
