<a href="https://colab.research.google.com/github/bbberylll/ESAA_OB/blob/main/ESAA_OB_M7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 07. 행렬 분해를 이용한 잠재 요인 협업 필터링 실습

잠재 요인 협업 필터링은 행렬 분해(Matrix Factorization) 기법을 활용함.

일반적으로 행렬 분해에는 SVD(특잇값 분해)나 NMF 등이 자주 사용됨. 하지만 추천 시스템의 사용자-아이템 평점 행렬은 사용자가 평점을 매기지 않은 Null 데이터가 매우 많은 희소 행렬(Sparse Matrix)임.

이런 희소 행렬에는 일반적인 SVD를 적용하기 어려움. 따라서 실제 추천 시스템에서는 주로 SGD(확률적 경사 하강법)나 ALS(교대 최소 제곱)에 기반한 행렬 분해 방식을 이용함.


### 08. 파이썬 추천 시스템 패키지 - Surprise

Surprise는 파이썬 기반의 추천 시스템 구축을 위한 전용 패키지 중 하나임. 상업적 가치가 큰 추천 시스템을 쉽게 구현할 수 있도록 만들어졌음.

## 장점
다양한 알고리즘: SVD, SVD++, NMF 등 다양한 추천 알고리즘을 쉽게 적용하여 추천 시스템 구축이 가능함.

유사한 API: scikit-learn의 핵심 API와 매우 유사한 API명(예: fit(), predict())으로 작성되어 있음.
****

## 주요 모듈 및 클래스
1. 데이터 로딩 (Dataset) Surprise는 자체 데이터 로더를 제공함.

Dataset.load_builtin(name='ml-100k'): 내장 데이터셋(MovieLens-100k 등)을 불러옴.

Dataset.load_from_file(file_path, reader): 파일로부터 데이터를 불러옴.

Dataset.load_from_df(df, reader): Pandas DataFrame으로부터 데이터를 불러옴.

이때 Reader 클래스를 통해 데이터의 형식(예: line_format, sep, rating_scale)을 지정함.

2. 주요 추천 알고리즘 클래스

SVD: 행렬 분해를 통한 잠재 요인 협업 필터링 알고리즘임.

KNNBasic: 최근접 이웃(K-NN) 기반 협업 필터링 알고리즘임.

BaselineOnly: 사용자 및 아이템 편향(Bias)을 감안한 SGD 기반 베이스라인 알고리즘임.

알고리즘 성능 참고: SVD++ 알고리즘이 RMSE, MAE 성적이 가장 좋으나, 상대적으로 시간이 너무 오래 걸림. 때문에 조금만 큰 데이터를 돌려도 사용하기 어려워짐. 큰 데이터인 경우, 상대적으로 SVD와 K-NN이 좋을 수 있음.

3. SVD 클래스의 주요 파라미터 Surprise의 SVD 비용함수는 베이스라인 편향성을 감안한 평점 예측에 Regularization(정규화)을 적용한 것임.

n_factors: 잠재 요인 K의 개수 (기본값 100)

n_epochs: SGD 수행 시 반복 횟수 (기본값 20)

biased (bool): 베이스라인 평점(사용자 편향) 적용 여부 (기본값 True)

4. 베이스라인 평점 (Baseline Rating) 개인의 성향(예: 점수를 후하게 주거나 짜게 줌)을 반영하여 아이템 평가에 편향성 요소를 반영하는 것을 베이스라인 평점이라고 함.

일반적으로 다음과 같은 공식으로 계산됨.

베이스라인 평점 = (전체 평균 평점) + (사용자 편향 점수) + (아이템 편향 점수)

전체 평균 평점: 모든 사용자의 아이템 평점 평균값

사용자 편향 점수: (해당 사용자 평점 평균) - (전체 평균 평점)

아이템 편향 점수: (해당 아이템 평점 평균) - (전체 평균 평점)

****

## 교차 검증 및 하이퍼 파라미터 튜닝
Surprise는 사이킷런과 유사하게 cross_validate() (교차 검증)와 GridSearchCV (하이퍼 파라미터 튜닝)를 제공함.

### 09. 정리

# 09 정리

추천 시스템의 대표적인 방식은 콘텐츠 기반 필터링과 협업 필터링임.

1. 콘텐츠 기반 필터링 (Content-based Filtering)

아이템을 구성하는 여러 콘텐츠 중 사용자가 좋아하는 콘텐츠를 필터링함.

이를 바탕으로 이에 맞는 아이템을 추천하는 방식임.

2. 협업 필터링 (Collaborative Filtering) 협업 필터링은 최근접 이웃 방식과 잠재 요인 방식으로 나뉨.

  -   최근접 이웃(Neighborhood-based) 협업 필터링

        1) 사용자 기반(User-based): 나와 유사한 사용자를 찾아 그들이 선호한 아이템을 추천함.

        2) 아이템 기반(Item-based): 특정 아이템과 가장 근접하게 유사한 다른 아이템들을 추천함.

  -   잠재 요인(Latent Factor) 협업 필터링
        1) 사용자-아이템 평점 행렬 데이터에 숨어 있는 잠재 요인을 추출함. (주로 행렬 분해 이용)

        2) 이를 통해 사용자가 아직 평점을 매기지 않은 아이템에 대한 평점을 예측함.

Surprise 패키지 요약

Surprise는 사이킷런과 유사한 API를 지향함.
간단한 API만을 이용하여 파이썬 기반 추천 시스템을 구현할 수 있게 해줌.

In [None]:
from sklearn.metrics import mean_squared_error

def get_rmse(R, P, Q, non_zeros):
    error=0

    full_pred_matrix=np.dot(P, Q.T)

    x_non_zero_ind=[non_zero[0] for non_zero in non_zeros]
    y_non_zero_ind=[non_zero[1] for non_zero in non_zeros]
    R_non_zeros=R[x_non_zero_ind, y_non_zero_ind]
    full_pred_matrix_non_zeros=full_pred_matrix[x_non_zero_ind, y_non_zero_ind]
    mse=mean_squared_error(R_non_zeros, full_pred_matrix_non_zeros)
    rmse=np.sqrt(mse)

    return rmse

In [None]:
def matrix_factorization(R, K, steps=200, learning_rate=0.01, r_lambda=0.01):
    num_users, num_items=R.shape
    np.random.seed(1)
    P=np.random.normal(scale=1./K, size=(num_users, K))
    Q=np.random.normal(scale=1./K, size=(num_items, K))

    non_zeros=[(i, j, R[i,j]) for i in range(num_users) for j in range(num_items) if R[i,j] > 0]

    for step in range(steps):
        for i, j, r in non_zeros:
            eij=r - np.dot(P[i, :], Q[j, :].T)
            P[i,:]=P[i,:]+learning_rate*(eij*Q[j, :] - r_lambda*P[i,:])
            Q[j,:]=Q[j,:]+learning_rate*(eij*P[i, :] - r_lambda*Q[j,:])

        rmse=get_rmse(R, P, Q, non_zeros)
        if (step % 10)==0:
            print("###iteration step: ", step, "rmse: ", rmse)

    return P, Q

In [None]:
import pandas as pd
import numpy as np

movies=pd.read_csv('movies.csv')
ratings=pd.read_csv('ratings.csv')
ratings=ratings[['userId', 'movieId', 'rating']]
ratings_matrix=ratings.pivot_table('rating', index='userId', columns='movieId')

rating_movies=pd.merge(ratings, movies, on='movieId')
ratings_matrix=rating_movies.pivot_table('rating', index='userId', columns='title')

In [None]:
P, Q=matrix_factorization(ratings_matrix.values, K=50, steps=200, learning_rate=0.01, r_lambda=0.01)
pred_matrix=np.dot(P, Q.T)

###iteration step:  0 rmse:  2.9023619751336867
###iteration step:  10 rmse:  0.7335768591017927
###iteration step:  20 rmse:  0.5115539026853442
###iteration step:  30 rmse:  0.37261628282537446
###iteration step:  40 rmse:  0.2960818299181014
###iteration step:  50 rmse:  0.2520353192341642
###iteration step:  60 rmse:  0.22487503275269854
###iteration step:  70 rmse:  0.2068545530233154
###iteration step:  80 rmse:  0.19413418783028685
###iteration step:  90 rmse:  0.18470082002720406
###iteration step:  100 rmse:  0.17742927527209104
###iteration step:  110 rmse:  0.1716522696470749
###iteration step:  120 rmse:  0.16695181946871726
###iteration step:  130 rmse:  0.16305292191997542
###iteration step:  140 rmse:  0.15976691929679646
###iteration step:  150 rmse:  0.1569598699945732
###iteration step:  160 rmse:  0.15453398186715425
###iteration step:  170 rmse:  0.15241618551077643
###iteration step:  180 rmse:  0.1505508073962831
###iteration step:  190 rmse:  0.1488947091323209


In [None]:
ratings_pred_matrix=pd.DataFrame(data=pred_matrix, index=ratings_matrix.index,columns=ratings_matrix.columns)

ratings_pred_matrix.head(3)

title,'71 (2014),'Hellboy': The Seeds of Creation (2004),'Round Midnight (1986),'Salem's Lot (2004),'Til There Was You (1997),'Tis the Season for Love (2015),"'burbs, The (1989)",'night Mother (1986),(500) Days of Summer (2009),*batteries not included (1987),...,Zulu (2013),[REC] (2007),[REC]² (2009),[REC]³ 3 Génesis (2012),anohana: The Flower We Saw That Day - The Movie (2013),eXistenZ (1999),xXx (2002),xXx: State of the Union (2005),¡Three Amigos! (1986),À nous la liberté (Freedom for Us) (1931)
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,3.055084,4.092018,3.56413,4.502167,3.981215,1.271694,3.603274,2.333266,5.091749,3.972454,...,1.402608,4.208382,3.705957,2.720514,2.787331,3.475076,3.253458,2.161087,4.010495,0.859474
2,3.170119,3.657992,3.308707,4.166521,4.31189,1.275469,4.237972,1.900366,3.392859,3.647421,...,0.973811,3.528264,3.361532,2.672535,2.404456,4.232789,2.911602,1.634576,4.135735,0.725684
3,2.307073,1.658853,1.443538,2.208859,2.229486,0.78076,1.997043,0.924908,2.9707,2.551446,...,0.520354,1.709494,2.281596,1.782833,1.635173,1.323276,2.88758,1.042618,2.29389,0.396941


In [None]:
def get_unseen_movies(ratings_matrix, userId):
    user_rating=ratings_matrix.loc[userId, :]

    already_seen=user_rating[user_rating>0].index.tolist()

    movies_list=ratings_matrix.columns.tolist()

    unseen_list=[movie for movie in movies_list if movie not in already_seen]

    return unseen_list

In [None]:
def recomm_movie_by_userid(pred_df, userId, unseen_list, top_n=10):
    recomm_movies=pred_df.loc[userId, unseen_list].sort_values(ascending=False)[:top_n]
    return recomm_movies

In [None]:
unseen_list=get_unseen_movies(ratings_matrix, 9)

recomm_movies=recomm_movie_by_userid(ratings_pred_matrix, 9, unseen_list, top_n=10)

recomm_movies=pd.DataFrame(data=recomm_movies.values, index=recomm_movies.index,
                           columns=['pred_score'])
recomm_movies

Unnamed: 0_level_0,pred_score
title,Unnamed: 1_level_1
Rear Window (1954),5.704612
"South Park: Bigger, Longer and Uncut (1999)",5.4511
Rounders (1998),5.298393
Blade Runner (1982),5.244951
Roger & Me (1989),5.191962
Gattaca (1997),5.183179
Ben-Hur (1959),5.130463
Rosencrantz and Guildenstern Are Dead (1990),5.087375
"Big Lebowski, The (1998)",5.03869
Star Wars: Episode V - The Empire Strikes Back (1980),4.989601


### 08.

Surprise를 이용한 추천 시스템 구축

In [None]:
pip install numpy==1.26.4 --force-reinstall

Collecting numpy==1.26.4
  Using cached numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
Using cached numpy-1.26.4-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.0 MB)
Installing collected packages: numpy
  Attempting uninstall: numpy
    Found existing installation: numpy 1.26.4
    Uninstalling numpy-1.26.4:
      Successfully uninstalled numpy-1.26.4
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
jaxlib 0.7.2 requires numpy>=2.0, but you have numpy 1.26.4 which is incompatible.
opencv-python-headless 4.12.0.88 requires numpy<2.3.0,>=2; python_version >= "3.9", but you have numpy 1.26.4 which is incompatible.
jax 0.7.2 requires numpy>=2.0, but you have numpy 1.26.4 which is incompatible.
pytensor 2.35.1 requires numpy>=2.0, but you have numpy 1.26.4 which is incompatible.
opencv-python 4.12.0.88 re

In [None]:
pip install scikit-surprise



In [None]:
from surprise import SVD
from surprise import Dataset
from surprise import accuracy
from surprise.model_selection import train_test_split

In [None]:
data=Dataset.load_builtin('ml-100k')

trainset, testset=train_test_split(data, test_size=.25, random_state=0)

Dataset ml-100k could not be found. Do you want to download it? [Y/n] Y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k


- Surprise가 내려받은 ml-100k, ml-1m은 과거 버전의 데이터 세트
- 주의: 무비렌즈 사이트에서 내려받은 데이터 파일과 동일하게 로우 레벨의 사용자-아이템 평점 데이터를 그대로 적용해야 함

In [None]:
algo=SVD(random_state=0)
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7f5a5a13bb60>

In [None]:
predictions=algo.test(testset)
print('prediction type:', type(predictions), 'size:', len(predictions))
print('prediction 결과의 최초 5개 추출')
predictions[:5]

prediction type: <class 'list'> size: 25000
prediction 결과의 최초 5개 추출


[Prediction(uid='120', iid='282', r_ui=4.0, est=3.370028552274922, details={'was_impossible': False}),
 Prediction(uid='882', iid='291', r_ui=4.0, est=3.814069320903051, details={'was_impossible': False}),
 Prediction(uid='535', iid='507', r_ui=5.0, est=3.94202214484239, details={'was_impossible': False}),
 Prediction(uid='697', iid='244', r_ui=5.0, est=3.6937687875111846, details={'was_impossible': False}),
 Prediction(uid='751', iid='385', r_ui=4.0, est=3.475685745299058, details={'was_impossible': False})]

SVD 알고리즘 객체의 test 메서드 --> 파이썬 리스트 호출,

크기 : 25000개

호출 결과 반환된 리스트 객체는 25,000개의 prediction 객체를 가지고 있음

prediction 객체는 surprise 패키지가 제공하는 데이터 타입임

개별 사용자 아이디, 영화 아이디, 실제 평점 정보에 기반해 surprize의 추천 예측 평점 데이터를 튜플 형태로 가지고 있음

In [None]:
[(pred.uid, pred.iid, pred.est) for pred in predictions[:3]]

[('120', '282', 3.370028552274922),
 ('882', '291', 3.814069320903051),
 ('535', '507', 3.94202214484239)]

In [None]:
uid=str(196)
iid=str(302)
pred=algo.predict(uid, iid)
## predict() : 개별 사용자와 아이템 정보를 받아 추천 예측 평점을 est로 반환
print(pred)

user: 196        item: 302        r_ui = None   est = 4.34   {'was_impossible': False}


In [None]:
accuracy.rmse(predictions)

RMSE: 0.9494


0.9494017340419486

1. Dataset : surprise는 사용자 아이디, 아이템 아이디, 평점 데이터가 로우 레벨이어야 함. 그 이외 형태는 로딩 X & 순서도 반드시 사용자 > 아이템 > 평점 이어야 한다.

2. OS 파일 데이터를 Surprise 데이터 세트 로딩함
>> 칼럼명을 가지는 헤더 문자열이 있으면 오류 >> 있다면 삭제하고 이용할 것

In [None]:
import pandas as pd

ratings=pd.read_csv('ratings.csv')
ratings.to_csv('ratings_noh.csv', index=False, header=False)

In [None]:
from surprise import Reader

reader=Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5))
data=Dataset.load_from_file('ratings_noh.csv',reader=reader)

In [None]:
trainset, testset=train_test_split(data, test_size=.25, random_state=0)

algo=SVD(n_factors=50, random_state=0)

algo.fit(trainset)
predictions=algo.test(testset)
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

판다스 DataFrame에서 Surprise 데이터 세트로 로딩
>> 사용자, 아이템, 평점 순서를 지켜야 함. (위와 동일)

In [None]:
import pandas as pd
from surprise import Reader, Dataset

ratings=pd.read_csv('ratings.csv')
reader= Reader(rating_scale=(0.5, 5.0))

data=Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
trainset, testset=train_test_split(data, test_size=.25, random_state=0)

algo=SVD(n_factors=50, random_state=0)
algo.fit(trainset)
predictions=algo.test(testset)
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

교차 검증과 하이퍼 파라미터 튜닝

In [None]:
from surprise.model_selection import cross_validate

ratings=pd.read_csv('ratings.csv')
reader=Reader(rating_scale=(0.5, 5.0))
data=Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

algo=SVD(random_state=0)
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8739  0.8750  0.8732  0.8717  0.8700  0.8727  0.0018  
MAE (testset)     0.6723  0.6731  0.6710  0.6695  0.6696  0.6711  0.0014  
Fit time          1.47    1.30    1.32    1.30    1.65    1.41    0.14    
Test time         0.23    0.10    0.21    0.12    0.21    0.17    0.05    


{'test_rmse': array([0.87394746, 0.87501136, 0.87316107, 0.87167174, 0.86995257]),
 'test_mae': array([0.67225721, 0.6730643 , 0.67102827, 0.66952832, 0.66963383]),
 'fit_time': (1.4734089374542236,
  1.3021068572998047,
  1.3224453926086426,
  1.2959308624267578,
  1.6461212635040283),
 'test_time': (0.22605299949645996,
  0.09545493125915527,
  0.21250438690185547,
  0.11654114723205566,
  0.20721006393432617)}

In [None]:
from surprise.model_selection import GridSearchCV

param_grid={'n_epochs': [20, 40, 60], 'n_factors': [50, 100, 200]}

gs=GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3)
gs.fit(data)

print(gs.best_score['rmse'])
print(gs.best_params['rmse'])

0.8771625069136313
{'n_epochs': 20, 'n_factors': 50}


Suprise를 이용한 개인화 영화 추천 시스템 구축

추천 데이터를 학습용 & 테스트용 데이터 세트로 분리
-->  SVD 행렬 분해를 통한 잠재 요인 협업 필터링 진행

In [None]:
data=Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
algo=SVD(n_factors=50, random_state=0)
algo.fit(data)

AttributeError: 'DatasetAutoFolds' object has no attribute 'n_users'

In [None]:
from surprise.dataset import DatasetAutoFolds

reader=Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5))
data_folds=DatasetAutoFolds(ratings_file='ratings_noh.csv', reader=reader)

trainset=data_folds.build_full_trainset()

In [None]:
algo=SVD(n_epochs=20, n_factors=50, random_state=0)
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7f5a4ba27920>

In [None]:
movies=pd.read_csv('movies.csv')

movieIds=ratings[ratings['userId']==9]['movieId']
if movieIds[movieIds==42].count()== 0:
    print('사용자 아이디 9는 영화 아이디 42의 평점 없음')

print(movies[movies['movieId']==42])

사용자 아이디 9는 영화 아이디 42의 평점 없음
    movieId                   title              genres
38       42  Dead Presidents (1995)  Action|Crime|Drama


In [None]:
uid=str(9)
iid=str(42)

pred= algo.predict(uid, iid, verbose=True)

user: 9          item: 42         r_ui = None   est = 3.13   {'was_impossible': False}


In [None]:
def get_unseen_surprise(ratings, movies, userId):
    seen_movies=ratings[ratings['userId']== userId]['movieId'].tolist()

    total_movies=movies['movieId'].tolist()

    unseen_movies=[movie for movie in total_movies if movie not in seen_movies]
    print('평점 매긴 영화수:', len(seen_movies), '추천 대상 영화 수:', len(unseen_movies),
          '전체 영화수:',len(total_movies))

    return unseen_movies

unseen_movies=get_unseen_surprise(ratings, movies, 9)

평점 매긴 영화수: 46 추천 대상 영화 수: 9696 전체 영화수: 9742


In [None]:
def recomm_movie_by_surprise(algo, userId, unseen_movies, top_n=10):

    predictions=[algo.predict(str(userId), str(movieId)) for movieId in unseen_movies]

    def sortkey_est(pred):
        return pred.est

    predictions.sort(key=sortkey_est, reverse=True)
    top_predictions=predictions[:top_n]

    top_movie_ids=[int(pred.iid) for pred in top_predictions]
    top_movie_rating=[pred.est for pred in top_predictions]
    top_movie_titles=movies[movies.movieId.isin(top_movie_ids)]['title']

    top_movie_preds=[(id, title, rating) for id, title, rating in \
                      zip(top_movie_ids, top_movie_titles, top_movie_rating)]

    return top_movie_preds

unseen_movies=get_unseen_surprise(ratings, movies, 9)
top_movie_preds=recomm_movie_by_surprise(algo, 9, unseen_movies, top_n=10)

print('##### Top-10 추천 영화 리스트 #####')
for top_movie in top_movie_preds:
    print(top_movie[1], ":", top_movie[2])

평점 매긴 영화수: 46 추천 대상 영화 수: 9696 전체 영화수: 9742
##### Top-10 추천 영화 리스트 #####
Usual Suspects, The (1995) : 4.306302135700814
Star Wars: Episode IV - A New Hope (1977) : 4.281663842987387
Pulp Fiction (1994) : 4.278152632122759
Silence of the Lambs, The (1991) : 4.226073566460876
Godfather, The (1972) : 4.1918097904381995
Streetcar Named Desire, A (1951) : 4.154746591122657
Star Wars: Episode V - The Empire Strikes Back (1980) : 4.122016128534504
Star Wars: Episode VI - Return of the Jedi (1983) : 4.108009609093436
Goodfellas (1990) : 4.083464936588478
Glory (1989) : 4.07887165526957
