## Surprise - 파이썬 추천 패키지

* R은 recommenderlab, Spark는 MLlib에서 쉽게 Recommendation을 수행할 수 있는 패키지를 가지고 있는 방면에 사이킷런에서는 Recommendation을 쉽게 수행할 수 있는 package를 가지고 있지 않습니다.
* Python에서 recommendation을 쉽게 제공하는 대표적인 패키지로서 surprise가 있습니다. Surprise는 Scikit learn의 API와 유사하게 작성되어 있으며, 이를 이용해 Recommendation Process를 쉽게 적용할 수 있습니다.
* pip 또는 conda로 설치할 수 있으며, 윈도우 운영체제에 설치시에는 Visual studio build tools이 미리 설치되어 있어야 합니다.

### Surprise 패키지를 이용한 추천 수행 프로세스

1. 데이터 로딩
    * 데이터 컬럼 format, rating scaling
        * Reader
    * Built-in, OS, DataFrame에서 데이터 로딩
        * Dataset
2. 모델 설정 및 학습
    * 추천 Algorithm 설정
        * SVD, KNNBasic 등
    * Train 데이터로 학습
        * train() 메소드
3. 예측 및 평가
    * 예측
        * test(), predict()
    * 평가
        * accuracy.rmse 등
        

* cross_validate, GridSearchCV
    * Train 데이터로 학습 ~ 예측&평가

### Surprise를 이용한 추천 구현 기본

1. 필요한 라이브러리 로딩
    * from surprise import SVD, Dataset, accuracy
    * from surprise.model_selection import train_test_split
2. 필요한 데이터 세트를 로딩, 데이터는 Dataset 패키지를 이용, CSV파일 및 Pandas Dataframe에서도 Loading가능, 로딩한 데이터 세트를 학습용과 테스트용 데이터 세트로 분리
    * data = Dataset.load_builtin('ml-100k')
    * trainset, testset = train_test_split(data, test_size=.25)
3. 행렬 분해를 수행할 알고리즘으로 SVD 생성하고 학습용 데이터로 학습
    * algo = SVD()
    * algo.fit(trainset)
4. 테스트 데이터 세트에 대해서 prediction을 수행. 일반적인 scikit learn의 predict() 메소드는 surprise에서 test()메소드, 특정 사용자와 item에 대한 predict는 predict() 메소드.
    * predictions = algo.test(testset)

### Surprise 주요 모듈 소개 - Dataset

* Surprise는 무비렌즈 데이터 세트와 같이 userid, itemid, rating 컬럼들이 사용자(userid)를 기준으로 한 로우 레벨의 평점 데이터로 구성된 데이터 세트만 입력 가능합니다.
* 입력받은 데이터의 첫번째 컬럼을 사용자 ID, 두번째 컬럼을 itemID, 세번째 컬럼을 Rating으로 가정합니다. 네번쨰부터는 Recommendation 알고리즘에 아예 사용하지 않습니다.
    * 사용자ID, 아이템ID, 평점의 컬럼순은 반드시 지켜야 합니다.
* 이렇게 로우 레벨로 입력 받은 사용자-아이템 데이터는 Dataset 객체로 로딩 후 사용자-아이템 평점 행렬로 변환됩니다.

### Dataset 클래스의 주요 메소드

* Dataset.load_builtin(name='ml-100k')
    * 무비렌즈 아카이브 FTP 서버에서 무비렌즈 데이터를 내려받습니다.
    * ml-100k, ml-1M를 내려받을 수 있습니다. 일단 내려받은 데이터는 .surprise_data 디렉토리 밑에 저장되고, 해당 디렉토리에 데이터가 있으면 FTP에서 내려받지 않고 해당 데이터를 이용합니다.
    * 입력 파라미터인 name으로 대상 데이터가 ml-100k인지 ml-1m인지를 입력합니다.(name='ml-100k')
    * 디폴트는 ml-100k입니다.
* Dataset.load_from_file(file_path, reader)
    * OS, 파일에서 데이터를 로딩할 때 사용합니다.
    * 콤마, 탭 등으로 컬럼이 분리된 포맷의 OS 파일에서 데이터를 로딩합니다.
    * 입력 파라미터로 OS 파일명, Reader로 파일의 포맷을 지정합니다.
* Dataset.load_from_df(df, reader)
    * 판다스의 DataFrame에서 데이터를 로딩합니다.
    * 파라미터로 DataFrame을 입력받으며 DataFrame 역시 반드시 3개의 컬럼인 사용자 아이디, 아이템 아이디, 평점 순으로 컬럼 순서가 정해져 있어야 합니다.
    * 입력 파라미터로 DataFrame 객체, Reader로 파일의 포맷을 지정합니다.

### Surprise 주요 모듈 소개 - Reader

* Raw 데이터 소스에서 Dataset로 로딩 규칙을 지정하기 위해 사용됩니다.
* Surprise 데이터 세트는 기본적으로 무비렌즈 데이터와 같은 로우 레벨의 사용자-아이템 평점 데이터 형식을 따르므로, 무비렌즈 데이터 형식이 아닌 경우 이를 변환하여 Dataset로 로딩해야 합니다.


* 예시
    * from surprise import Reader
    * reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5))
    * data = Dataset.load_from_file('./ml-latest-small/rating_noh.csv', reader=reader)
    
    
* line_format(string) : 컬럼을 순서대로 나열합니다. 입력된 문자열을 공백으로 분리해 컬럼으로 인식합니다.
* sep(char) : 컬럼을 분리하는 분리자이며, 디폴트는 '\t'입니다. 판다스 DataFrame에서 입력받을 경우에는 기재할 필요가 없습니다.
* rating_scale(tupe, optional) : 평점 간의 최소~최대 평점을 설정합니다. 디폴트는 (1, 5)이지만 ratings.csv 파일의 경우 최소 평점이 0.5, 최대 평점이 5이므로 (0.5, 5)로 설정했습니다.

---

## Surprise를 이용한 추천 시스템 기본 구현

#### surprise 모듈 설치

In [1]:
# conda install -c conda-forge scikit-surprise

In [2]:
import surprise

print(surprise.__version__)

1.1.1


### Surprise를 이용한 추천 시스템 구축

In [3]:
from surprise import SVD
from surprise import Dataset
from surprise import accuracy
from surprise.model_selection import train_test_split

#### 내장 데이터를 로드하고 학습과 테스트 데이터로 분리

In [4]:
data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data, test_size=.25, random_state=0)

Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from http://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to C:\Users\user/.surprise_data/ml-100k


#### 추천 행렬 분해 알고리즘으로 SVD 객체를 생성하고 학습 수행

In [5]:
algo = SVD()
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x22cf9f6d8b0>

#### 테스트 데이터 세트에 예상 평점 데이터 예측, test()메소드 호출 시에는 Prediction 객체의 리스트로 펑점 예측 데이터 반환

In [6]:
predictions = algo.test(testset)
print('prediction type : ', type(predictions), ' size : ', len(predictions))
print('prediction 결과의 최초 5개 추출')
predictions[:5]

# Prediction 객체가 들어있는 리스트 반환
# r_ui : 실제 평점
# est : 예측한 평점

prediction type :  <class 'list'>  size :  25000
prediction 결과의 최초 5개 추출


[Prediction(uid='120', iid='282', r_ui=4.0, est=3.7003202036929483, details={'was_impossible': False}),
 Prediction(uid='882', iid='291', r_ui=4.0, est=3.8554527445158033, details={'was_impossible': False}),
 Prediction(uid='535', iid='507', r_ui=5.0, est=4.09690441053254, details={'was_impossible': False}),
 Prediction(uid='697', iid='244', r_ui=5.0, est=3.6699218842520316, details={'was_impossible': False}),
 Prediction(uid='751', iid='385', r_ui=4.0, est=3.3095363428270637, details={'was_impossible': False})]

In [7]:
[ (pred.uid, pred.iid, pred.est) for pred in predictions[:3] ]

[('120', '282', 3.7003202036929483),
 ('882', '291', 3.8554527445158033),
 ('535', '507', 4.09690441053254)]

#### predict()메소드는 개별 사용자,아이템에 대한 예측 평점 정보를 반환

In [9]:
# 사용자 아이디, 아이템 아이디는 문자열로 입력해야 함. 
uid = str(196)
iid = str(302)
pred = algo.predict(uid, iid)
print(pred)

user: 196        item: 302        r_ui = None   est = 4.29   {'was_impossible': False}


#### 반환된 Prediction의 리스트 객체를 기반으로 RMSE 평가

In [10]:
accuracy.rmse(predictions)

RMSE: 0.9482


0.9481848514192347

### Surprise 주요 모듈 소개

#### csv 파일로 사용자 평점 데이터 생성

In [11]:
import pandas as pd

ratings = pd.read_csv('./ml-latest-small/ratings.csv')
# ratings_noh.csv 파일로 unload 시 index 와 header를 모두 제거한 새로운 파일 생성.  
ratings.to_csv('./ml-latest-small/ratings_noh.csv', index=False, header=False)

#### Reader클래스로 파일의 포맷팅 지정하고 Dataset의 load_from_file()을 이용하여 데이터셋 로딩

In [12]:
from surprise import Reader

reader = Reader(line_format='user item rating timestamp', sep=',', rating_scale=(0.5, 5))
data=Dataset.load_from_file('./ml-latest-small/ratings_noh.csv',reader=reader)

#### 학습과 테스트 데이터 세트로 분할하고 SVD로 학습후 테스트데이터 평점 예측 후 RMSE평가

In [13]:
trainset, testset = train_test_split(data, test_size=.25, random_state=0)

# 수행시마다 동일한 결과 도출을 위해 random_state 설정 
algo = SVD(n_factors=50, random_state=0) # latent factor : 50개

# 학습 데이터 세트로 학습 후 테스트 데이터 세트로 평점 예측 후 RMSE 평가
algo.fit(trainset) 
predictions = algo.test( testset )
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

#### 판다스 DataFrame기반에서 동일하게 재 수행

In [14]:
import pandas as pd
from surprise import Reader, Dataset

ratings = pd.read_csv('./ml-latest-small/ratings.csv') 
reader = Reader(rating_scale=(0.5, 5.0))

# ratings DataFrame 에서 컬럼은 사용자 아이디, 아이템 아이디, 평점 순서를 지켜야 합니다. 
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)
trainset, testset = train_test_split(data, test_size=.25, random_state=0)

algo = SVD(n_factors=50, random_state=0)
algo.fit(trainset) 
predictions = algo.test( testset )
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

---

### Surprise 추천 알고리즘 클래스


* SVD
    * 행렬 분해를 통한 잠재 요인 협업 필터링을 위한 SVD 알고리즘
* KNNBasic
    * 최근접 이웃 협업 필터링을 위한 KNN 알고리즘
* BaselineOnly
    * 사용자 Bias와 아이템 Bias를 감안한 SGD 베이스라인 알고리즘

### 사용자의 성향을 반영한 Baseline rating

* $r_{ui}' = b_{ui} = \mu + b_u + b_i$
    * 사용자 u의 아이템 i에 대한 예측 평점 = 전체 사용자의 평균 영화 평점 + 사용자 편향점수 + 아이템 편향 점수
    * ex) 사용자 A의 어벤저스 3편 베이스 라인 평점 = 3.5 - 0.5 + 0.7 = 3.7
        * 3.5 + (3.0 - 3.5) + (4.2 - 3.5)
            * 모든 사용자의 평균 영화 평점 : 3.5
            * 사용자 A의 평균 평점 : 3.0
            * 어벤저스 3편의 평균 평점 : 4.2

### Baseline rating을 반영한 행렬 분해의 비용 최소화 함수

* $ min( \sum_{r_ui \in R_train} (r_ui - r_{ui}')^2 + \lambda( b_i^2 + b_u^2 + \vert\vert q_i \vert\vert^2 + \vert\vert p_u \vert\vert^2 ) ) $
    * $b_i$는 아이템 편향 점수
    * $b_u$는 사용자 편향 점수

### SVD의 튜닝 파라미터

* n_factors
    * 잠재 요인 K의 개수, 디폴트는 100, 커질수록 정확도가 높아질 수 있으나 과적합 문제가 발생할 수 있습니다.
        * K가 커질수록 원래 차원과 가까워지니..
* n_epochs
    * SGD(Stochastic Gradient Descent) 수행 시 반복 횟수, 디폴트는 20
* biased (bool)
    * 베이스라인 사용자 편향 적용 여부이며, 디폴트는 True입니다.

### 교차 검증(Cross Validation)과 하이퍼 파라미터 튜닝

* Surprise는 교차 검증과 하이퍼 파라미터 튜닝을 위해 사이킷런과 유사한 cross_validate()와 GridSearchCV 클래스를 제공합니다.

#### cross_validate()를 이용한 교차 검증

In [15]:
from surprise.model_selection import cross_validate 

# Pandas DataFrame에서 Surprise Dataset으로 데이터 로딩 
ratings = pd.read_csv('./ml-latest-small/ratings.csv') # reading data in pandas df
reader = Reader(rating_scale=(0.5, 5.0))
data = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

algo = SVD(random_state=0) 
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True) 

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8735  0.8736  0.8674  0.8747  0.8695  0.8717  0.0028  
MAE (testset)     0.6717  0.6717  0.6664  0.6693  0.6701  0.6698  0.0020  
Fit time          3.62    3.57    3.63    3.58    3.62    3.60    0.02    
Test time         0.10    0.20    0.10    0.10    0.10    0.12    0.04    


{'test_rmse': array([0.87348137, 0.87357741, 0.8673856 , 0.87474475, 0.86953422]),
 'test_mae': array([0.671706  , 0.6716879 , 0.66636703, 0.66929847, 0.67012902]),
 'fit_time': (3.6178171634674072,
  3.5739903450012207,
  3.6338231563568115,
  3.581803798675537,
  3.616804838180542),
 'test_time': (0.101043701171875,
  0.19903898239135742,
  0.10001730918884277,
  0.10202312469482422,
  0.09902310371398926)}

#### GridSearchCV 이용

In [16]:
from surprise.model_selection import GridSearchCV

# 최적화할 파라미터들을 딕셔너리 형태로 지정. 
param_grid = {'n_epochs': [20, 40, 60], 'n_factors': [50, 100, 200] }

# CV를 3개 폴드 세트로 지정, 성능 평가는 rmse, mse 로 수행 하도록 GridSearchCV 구성
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3) # 앞에서처럼 algo를 넣으면 안됨
gs.fit(data)

# 최고 RMSE Evaluation 점수와 그때의 하이퍼 파라미터
print(gs.best_score['rmse'])
print(gs.best_params['rmse'])

0.8771389654851132
{'n_epochs': 20, 'n_factors': 50}
