# SURPRISE API

In [4]:
import surprise

print(surprise.__version__)

1.1.3


In [16]:
from surprise import SVD
from surprise import Dataset
from surprise import accuracy
from surprise.model_selection import train_test_split

### movie, ratings 데이터 불러오기
- 직접 사이트에서 내려받은 데이터와 다름 주의

In [2]:
data  = Dataset.load_builtin('ml-100k')

Dataset ml-100k could not be found. Do you want to download it? [Y/n] Y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to C:\Users\admin/.surprise_data/ml-100k


In [18]:
# 영화 평점 데이터 불러오기
data  = Dataset.load_builtin('ml-100k')

In [19]:
# 추천시스템을 학습하기 위한 데이터/ 테스트 데이터 나누기

trainset, testset = train_test_split(data, test_size = 0.25, random_state = 0)

## SVD 잠재요인 협업 필터링

### 학습

In [23]:
# svd알고리즘 객체 생성
algo = SVD(random_state = 0)

# 학습하기
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x2ba45dc4fa0>

### 예측
- test(): 사용자-아이템 평점 데이터 센트 전체에 대해 추천을 예측하여 반환하는 메서드
- predict(): 개별 사용자의 평점에 대해 추천 평점 예측해서 반환하는 메서드

#### test()

In [25]:
predictions = algo.test(testset)

print('predictions type: ', type(predictions))
print('precictions size: ', len(predictions))
print('predictions 결과물: \n', predictions[:5])

predictions type:  <class 'list'>
precictions size:  25000
predictions 결과물: 
 [Prediction(uid='120', iid='282', r_ui=4.0, est=3.5114147666251547, details={'was_impossible': False}), Prediction(uid='882', iid='291', r_ui=4.0, est=3.573872419581491, details={'was_impossible': False}), Prediction(uid='535', iid='507', r_ui=5.0, est=4.033583485472447, details={'was_impossible': False}), Prediction(uid='697', iid='244', r_ui=5.0, est=3.8463639495936905, details={'was_impossible': False}), Prediction(uid='751', iid='385', r_ui=4.0, est=3.1807542478219157, details={'was_impossible': False})]


- test 메서드의 호출 결과는 파이썬 리스트임
- 리스트 안에 prediction 객체는 surprise 패키지에서 제공하는 데이터 타입이며, 다음을 나타냄
```
  uid: 개별 사용자 아이디 
  iid:아이템(영화) 아이디
  r_ui: 실제 평점 정보
  est: 추천 예측 평점
  details: 내부 처리 시 추천 예측을 할 수 없는 경우에 로그용으로 데이터를 남기는 데 사용됨 
           'was_impossible' : True 인 경우, 예측값을 생성할 수 없는 데이터라는 의미
```

In [36]:
[ (pred.iid, pred.uid, pred.r_ui, 3, pred.details) for pred in predictions]

[('282', '120', 4.0, 3, {'was_impossible': False}),
 ('291', '882', 4.0, 3, {'was_impossible': False}),
 ('507', '535', 5.0, 3, {'was_impossible': False}),
 ('244', '697', 5.0, 3, {'was_impossible': False}),
 ('385', '751', 4.0, 3, {'was_impossible': False}),
 ('82', '219', 1.0, 3, {'was_impossible': False}),
 ('571', '279', 4.0, 3, {'was_impossible': False}),
 ('568', '429', 3.0, 3, {'was_impossible': False}),
 ('100', '456', 3.0, 3, {'was_impossible': False}),
 ('23', '249', 4.0, 3, {'was_impossible': False}),
 ('183', '493', 5.0, 3, {'was_impossible': False}),
 ('469', '325', 4.0, 3, {'was_impossible': False}),
 ('682', '631', 2.0, 3, {'was_impossible': False}),
 ('121', '276', 4.0, 3, {'was_impossible': False}),
 ('405', '269', 1.0, 3, {'was_impossible': False}),
 ('1095', '159', 5.0, 3, {'was_impossible': False}),
 ('965', '385', 4.0, 3, {'was_impossible': False}),
 ('358', '21', 3.0, 3, {'was_impossible': False}),
 ('1359', '181', 1.0, 3, {'was_impossible': False}),
 ('124', '561

- prediction 객체의 uid, iid, details 속성에 접근하려면, 객채명.uid 등의 형식으로 가능함

#### predict()

In [34]:
uid = str(120)
iid = str(282)

pred = algo.predict(uid, iid)
pred

Prediction(uid='120', iid='282', r_ui=None, est=3.5114147666251547, details={'was_impossible': False})

- predict(uid, iid) 인자를 적어주어야하며, str형태여야함!

- prediction 객체 형태로 한개의 값에 대한 실제값 및 예측값 반환


- test()메서드는 predict()메서드에 모든 사용자아이디, 아이템아이디를 입력한 결과라고 보면 됨  

### 평가
- rmse: 실제값과 예측값 차이 평가

In [37]:
accuracy.rmse(predictions)

RMSE: 0.9467


0.9466860806937948

## Surprise 주요 모듈 소개
- surprise api는 로우 레벨로된 데이터 세트만 적용할 수 있음
    - row: 사용자, column: 아이템, value: 평점으로 구분된 데이터가 아닌, 컬럼명이 사용자, 아이템, 평점인 데이터프레임으로 로딩해야 함
- <span style = 'background-color: #ffdce0'>첫번째 컬럼은 사용자, 두번째 컬럼은 아이템, 세번째 컬럼은 평점으로 가정해서 데이터를 로딩하고, 네번째 컬럼부터는 로딩을 수행하지 않음</span>
    - 따라서, 데이터 세트의 순서를 잘 정리해두어야함

```
1. Dataset.load_builtin(name = 'ml-100k')
    - 무비렌즈 아카이브 FTP 서버에서 무비렌즈 데이터를 내려받아서 .surprise_data 디렉토리 밑에 저장함
    - 해당 디렉토리에 데이터가 있으면 FTP서버에서 다운로드하지 않고 해당 데이터를 이용함
    
2. Dataset.load_from_file(file_path, reader)
    - os 파일에서 데이터를 로딩할 때 사용함
    - ',', '\t' 등으로 컬럼이 분리된 포맷의 os파일에서 데이터를 로딩함

3. Dataset.load_from_df(df, reader)
    - 판다스의 데이터프레임에서 데이터를 로딩함
```

### Dataset.load_from_file API 이용

In [103]:
import pandas as pd

# 데이터 불러오기
ratings = pd.read_csv('./dataset_ml_latest_small/ratings.csv')
display(ratings.head())

# Surprise api로 데이터를 불러오기 위해 헤더를 제거 후 ratings_noh로 저장함
ratings.to_csv('./dataset_ml_latest_small/ratings_noh.csv', index = False, header = False)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


#### 데이터 파싱 후 불러오기

- Reader 클래스 생성자에 각 필드의 컬럼명, 컬럼 분리문자, ratings의 최소/최대 평점을 입력해 객체 생성
- load_from_file()에 생성된 reader 객체를 참조해서 데이터 파일을 파싱함

In [104]:
from surprise import Reader

# 데이터 파싱을 위한 Reader 객체 생성
reader = Reader(line_format = 'user item rating timestamp',
                sep = ',',
                rating_scale = (0.5, 5))

# 데이터 불러오기
data = Dataset.load_from_file('./dataset_ml_latest_small/ratings_noh.csv', reader = reader)

#### 학습

In [105]:
# 학습용/테스트용 데이터 분리
trainset, testset = train_test_split(data, test_size = 0.25, random_state = 0)

# SVD 알고리즘 객체 생성
algo = SVD(n_factors = 50, random_state = 0)

# 학습
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x2ba4ee52dc0>

#### 예측

In [106]:
predictions = algo.test(testset)
predictions[:10]

[Prediction(uid='63', iid='2000', r_ui=3.0, est=3.5016267817280697, details={'was_impossible': False}),
 Prediction(uid='31', iid='788', r_ui=2.0, est=3.2840758900255937, details={'was_impossible': False}),
 Prediction(uid='159', iid='6373', r_ui=4.0, est=2.804939396068158, details={'was_impossible': False}),
 Prediction(uid='105', iid='81564', r_ui=3.0, est=3.9326180027723914, details={'was_impossible': False}),
 Prediction(uid='394', iid='480', r_ui=3.0, est=3.3135580105479114, details={'was_impossible': False}),
 Prediction(uid='181', iid='587', r_ui=5.0, est=3.0461782765780097, details={'was_impossible': False}),
 Prediction(uid='224', iid='3072', r_ui=5.0, est=3.8999397231405495, details={'was_impossible': False}),
 Prediction(uid='328', iid='1391', r_ui=4.5, est=2.573115352187292, details={'was_impossible': False}),
 Prediction(uid='50', iid='104283', r_ui=3.5, est=2.6708184859984074, details={'was_impossible': False}),
 Prediction(uid='125', iid='176371', r_ui=3.5, est=3.8777290

#### 평가

In [107]:
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

### Dataset.load_from_df API 이용

In [108]:
import pandas as pd
from surprise import Reader, Dataset

# csv파일 불러오기
ratings = pd.read_csv('./dataset_ml_latest_small/ratings.csv')
display(ratings)

# 판다스 데이터프레임을 데이터 파싱 후 불러오기
reader = Reader(rating_scale = (0.5, 5.0))
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader = reader)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


#### 학습

In [109]:
# 학습/테스트용 데이터 분리
trainset, testset = train_test_split(data)

# 알고리즘 객체화
algo = SVD(n_factors = 50, random_state = 0)

# 학습
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x2ba5a52c700>

#### 예측

In [110]:
predictions = algo.test(testset)
predictions[:20]

[Prediction(uid=202, iid=2761, r_ui=5.0, est=4.093668844364033, details={'was_impossible': False}),
 Prediction(uid=47, iid=140247, r_ui=1.0, est=3.0384134077477474, details={'was_impossible': False}),
 Prediction(uid=113, iid=3044, r_ui=3.0, est=3.5585746579826845, details={'was_impossible': False}),
 Prediction(uid=607, iid=2422, r_ui=2.0, est=2.9304744384113746, details={'was_impossible': False}),
 Prediction(uid=153, iid=2174, r_ui=1.0, est=2.225333895190696, details={'was_impossible': False}),
 Prediction(uid=567, iid=88140, r_ui=1.5, est=2.47197180945177, details={'was_impossible': False}),
 Prediction(uid=63, iid=108932, r_ui=5.0, est=3.6581398757047254, details={'was_impossible': False}),
 Prediction(uid=492, iid=810, r_ui=3.0, est=3.3128739559457236, details={'was_impossible': False}),
 Prediction(uid=226, iid=532, r_ui=3.0, est=3.097956294716411, details={'was_impossible': False}),
 Prediction(uid=596, iid=1376, r_ui=4.0, est=3.422217396976879, details={'was_impossible': Fals

#### 평가

In [111]:
accuracy.rmse( predictions)

RMSE: 0.8717


0.8716549066355299

## Surprise 추천 알고리즘 클래스

- <b>SVD</b>: 행렬분해를 통한 잠재요인 협업 필터링을 위한 SVD알고리즘
- <b>KNNBasic</b>: 최근접 이웃 협업 필터링을 위한 KNN 알고리즘
- <b>BaselineOnly</b>: 사용자 Bias와 아이템 Bias를 감안한 SGD 베이스라인 알고리즘
- 이 밖에도 SVD++, NMF등 다양한 유형의 알고리즘 수행할 수 있음
<br><br>
- Suprise SVD의 비용함수는 사용자 <span style = 'background-color: #ffdce0'>베이스라인 편향성을 감안한 평점 예측</span>에 Regularization(규제)을 적용한 것
    - 파라미터:
        - n_factors: 잠재요인 k의 개수, 디폴트는 100, 커질수록 정확도가 높아질 수 있으나 과적합 문제 발생
        - n_epochs: SGD 수행 시 반복 횟수, 디폴트는 20
        - biased(bool): 베이스라인 사용자 편향 적용 여부이며, 디폴트는 True
    


- 예측 성능 벤치마크 결과 사이트에서 확인 시, 
   <br>Baseline을 결합한 경우 성능 평가 수치가 대폭 향상함
   <br><br>
   
<b>Baseline</b>
- Baseline이라는 의미는 각 개인이 평점을 부여하는 성향을 반영해 평점을 계산하는 방식임
- 한 개인의 성향을 반영해 아이템 평가에 편향성 요소를 반영하여 평점을 부과하는 것
    - ex) 싫은 소리를 벼로 안하는 사람의 경우는 전반적으로 평가에 후한 경향, 냉정한 평가를 해야한다고 생각하는 사람은 짠 평가를 하는 경향

<br>
<span style = 'background-color: #fff5b1'><b>베이스라인 평점 = 전체 평균 평점 + 사용자 편향 점수 + 아이템 편향 점수</b></span><br>
    - 전체 평균 평점 =  모든 사용자의 아이템에 대한 평점을 평균한 값<br>
    - 사용자 편향 점수 = 사용자별 아이템 평점 평균값 - 전체 평균 평점<br>
    - 아이템 편향 점수 = 아이템별 평점 평균값 -전체 평균 평점<br>

## 교차 검증과 하이퍼파라미터 튜닝
- SURPRISE는 교차검증과 하이퍼파라미터 튜닝을 위해 사이킷런과 유사한 cross_validate(), GridSearchCV 클래스 제공

### cross_validate()
- surprise.model_selection 모듈 내에 존재
- n개의 학습/검증 폴드 데이터 세트로 분리해 교차 검증을 수행하고 rmse, mae로 성능평가 진행함
- 출력결과를 폴드별 성능 평가 수치와 전체 폴드의 평균 성능 평가 수치를 함께 보여줌

#### 데이터 파싱 후 불러오기

In [48]:
import pandas as pd


# 판다스 dataframe에서 surprise 데이터 세트로 데이터 로딩
ratings = pd.read_csv('./dataset_ml_latest_small/ratings.csv')

reader = Reader(rating_scale = (0.5, 5.0))
data = Dataset.load_from_df(ratings[['userId','movieId', 'rating']], reader = reader)

#### 교차 검증
- cross_validate(알고리즘 객체, 데이터프레임, 평가방법(리스트 가능), 폴드개수, 출력 결과 자세히 나타내기 여부)

In [49]:
from surprise import SVD
from surprise.model_selection import cross_validate


# 알고리즘 객체화
algo = SVD(random_state = 0)


# 교차 검증( 알고리즘, 데이터프레임, 평가방법, 폴드 개수, 폴드별 출력 결과 나타내기 여부)
cross_validate(algo, data, measures = ['RMSE', 'MAE'], cv = 5, verbose = True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8709  0.8777  0.8717  0.8729  0.8771  0.8741  0.0028  
MAE (testset)     0.6678  0.6755  0.6701  0.6695  0.6758  0.6718  0.0033  
Fit time          0.77    0.78    0.79    0.77    0.77    0.77    0.01    
Test time         0.11    0.10    0.12    0.11    0.11    0.11    0.00    


{'test_rmse': array([0.87094075, 0.87771248, 0.87174445, 0.8728786 , 0.87705283]),
 'test_mae': array([0.66781736, 0.67548552, 0.67013041, 0.66952606, 0.6758373 ]),
 'fit_time': (0.7663037776947021,
  0.7777009010314941,
  0.7873952388763428,
  0.7703745365142822,
  0.769359827041626),
 'test_time': (0.10899996757507324,
  0.10479903221130371,
  0.1165013313293457,
  0.10977554321289062,
  0.109375)}

#### GridSearchCV
- 사이킷런의 GridSearchCV와 유사하게 교차 검증을 통한 하이퍼파라미터 최적화 수행
- SVD의 경우 아래의 파라미터가 존재함
    - n_epochs: 점진적 하강 방식(SGD) 반복 횟수 step지정
    - n_factors: 잠재요인 개수 k 지정

In [53]:
from surprise.model_selection import GridSearchCV

# 최적화 파라미터를 딕셔너리형태로 지정
params = {'n_epochs': [20, 40, 60],
          'n_factors': [50, 100, 200]}


# 학습
# 폴드는 3개로 지정, 성능 평가는 rmse, mse로 수행하도록 gridsearchcv 구성
gs = GridSearchCV(SVD, params, measures = ['rmse', 'mae'], cv = 3 )
gs.fit(data)

In [56]:
# 최고 RMSE 평가 점수와 하이퍼파라미터 추출

print(np.round(gs.best_score['rmse'],3))
print(gs.best_params['rmse'])

0.878
{'n_epochs': 20, 'n_factors': 50}


## Suprise를 이용한 개인화 영화 추천 시스템 구축

- surprise는 전체 데이터세트를 train_test_split()을 이용해 내부에서 사용하는 trainset 클래스 객체로 변환하지 않으면 fit()을 통해 학습할 수가 없음
- 따라서 전체 데이터 세트를 그대로 fit()에 적용할 수 없는데, 이를 위해 DatasetAutoFolds 클래스를 이용하면 됨

### DatasetAutoFolds.build_full_trainset() 
- 전체 데이터세트를 학습 데이터로 사용

#### 전체 데이터세트를 학습데이터로 지정

In [61]:
from surprise.dataset import DatasetAutoFolds

# 데이터 파싱
reader = Reader(line_format = 'user item rating timestamp',
                sep = ',',
                rating_scale = (0.5, 5))

# 폴드가 알아서 나눠진 형태로 데이터 불러오기
data_folds = DatasetAutoFolds(ratings_file = './dataset_ml_latest_small/ratings_noh.csv', reader = reader)


# 전체 데이터를 학습데이터로 생성하기
trainset = data_folds.build_full_trainset()

#### 학습

In [62]:
# SVD 객체화
algo = SVD(n_epochs = 20, n_factors = 50, random_state = 0)

# 학습
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x2ba4d29fd30>

#### 특정 사용자의 평점 예측

In [69]:
# 데이터 불러오기

ratings = pd.read_csv('./dataset_ml_latest_small/ratings.csv')
movies = pd.read_csv('./dataset_ml_latest_small/movies.csv')

display(ratings.head())
display(movies.head())

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [80]:
# userId = 9 인 사용자의 movieId 데이터를 추출
movieIds = ratings.loc[ratings['userId'] == 9, 'movieId']

# movieId가 42인 데이터 있는지 확인
if movieIds[movieIds == 42].count() == 0:
    print('movieId가 42인 평점 정보 없음')
    
    
    
# movieid가 42인 영화 정보 불러오기
print(movies[movies['movieId'] == 42])

movieId가 42인 평점 정보 없음
    movieId                   title              genres
38       42  Dead Presidents (1995)  Action|Crime|Drama


In [83]:
# 예측 점수 확인

uid = '9'
iid = '42'

pred = algo.predict(uid, iid, verbose = True)
pred.est

user: 9          item: 42         r_ui = None   est = 3.13   {'was_impossible': False}


3.130146490888994

#### 사용자가 평점을 매기지 않은 전체 영화 추출하고 예측 평점 순으로 영화 추천하기

In [88]:
# 사용자가 평점을 매기지 않은 전체 영화 추출

def get_unseen_surprise(rating_df, movie_df, userid):
    # 해당 사용자가 평점을 남긴 movieid 추출하여 리스트 객체화
    seen_movies = rating_df[rating_df['userId'] == userid]['movieId'].tolist()
    
    # 전체 movieid 추출하여 리스트 객체화
    movies_list = movie_df['movieId'].tolist()
    
    # 해당 사용자가 평점을 남기지 않은 movieid 리스트 생성
    unseen_movies = [movie for movie in movies_list if movie not in seen_movies]
    
    print('평점을 매긴 영화 수: ', len(seen_movies))
    print('추천 대상 영화 수: ', len(unseen_movies))
    print('전체 영화 수: ', len(movies_list))
    
    return unseen_movies

unseen_movies = get_unseen_surprise(ratings, movies, 9)

평점을 매긴 영화 수:  46
추천 대상 영화 수:  9696
전체 영화 수:  9742


- userid가 9인 사용자는 46개의 영화에 대해 평점을 남겼고 9696개의 영화에 대해 추천할 수 있음

In [94]:
# 예측 평점을 기반으로 top10개에 대해 영화를 추천하는 함수 생성

def recommend_movie_by_surprise(algo, userId, unseen_movies, top_n = 10):
    
    # 알고리즘 객체를 기반으로 평점을 내리지 않은 영화에 대한 예측 평점 리스트 객체화
    predictions = [algo.predict(str(userId), str(movieId)) for movieId in unseen_movies]
    
    # 예측 평점을 기준으로 정렬하기
    ## sortedkey_est 함수는 list 객체의 sort() 함수의 키값으로 사용되어 정렬 수행
    def sortedkey_est(pred):
        return pred.est
    
    ## sortkey() 반환값의 내림차순으로 수행하고 top_n개 최상위 값 추출
    predictions.sort(key = sortedkey_est, reverse = True)
    top_predictions = predictions[:top_n]
    
    # top_n으로 추출된 영화의 정보 추출 -> 영화 아이디, 추천 예상 평점, 제목 추출
    top_movie_ids = [ int(pred.iid) for pred in top_predictions ]
    top_movie_rating = [ int(pred.est) for pred in top_predictions ]
    top_movie_title = movies[ movies['movieId'].isin(top_movie_ids)]['title']
    
    top_movie_preds = [(ids, titles, ratings) for ids, titles, ratings in zip(top_movie_ids, top_movie_title, top_movie_rating)]
    
    return top_movie_preds

unseen_movies = get_unseen_surprise(ratings, movies, 9)
top_movie_preds = recommend_movie_by_surprise(algo, 9, unseen_movies, top_n = 10)

top_movie_preds

평점을 매긴 영화 수:  46
추천 대상 영화 수:  9696
전체 영화 수:  9742


[(858, 'Usual Suspects, The (1995)', 4),
 (260, 'Star Wars: Episode IV - A New Hope (1977)', 4),
 (296, 'Pulp Fiction (1994)', 4),
 (1196, 'Silence of the Lambs, The (1991)', 4),
 (50, 'Godfather, The (1972)', 4),
 (1104, 'Streetcar Named Desire, A (1951)', 4),
 (1210, 'Star Wars: Episode V - The Empire Strikes Back (1980)', 4),
 (1213, 'Star Wars: Episode VI - Return of the Jedi (1983)', 4),
 (1242, 'Goodfellas (1990)', 4),
 (593, 'Glory (1989)', 4)]