In [1]:
from surprise import SVD
from surprise import Dataset
from surprise import accuracy
from surprise.model_selection import train_test_split

In [3]:
# 데이터 로딩은 Dataset 클래스 통해서만 가능
# 주요 데이터가 로우(Row) 레벨 형태로 돼있는 포멧의 데이터만 처리

# 무비렌즈(MovieLens) 사이트에서 제공하는 데이터 가져오기
data = Dataset.load_builtin('ml-100k')
 
trainset, testset = train_test_split(data, test_size=.25, random_state=0)

In [5]:
# SVD로 잠재 요인 협업 필터링
algo = SVD()
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x25cfdf05bb0>

In [7]:
# 테스트 데이터 세트에 대한 추천 수행
# test()
predictions = algo.test(testset)
print('prediction type: ', type(predictions), 'size: ', len(predictions))
print('prediction 결과의 최초 5개 추출')
predictions[:5]

prediction type:  <class 'list'> size:  25000
prediction 결과의 최초 5개 추출


[Prediction(uid='120', iid='282', r_ui=4.0, est=3.8223902031583092, details={'was_impossible': False}),
 Prediction(uid='882', iid='291', r_ui=4.0, est=3.5360146519966165, details={'was_impossible': False}),
 Prediction(uid='535', iid='507', r_ui=5.0, est=4.198000391007143, details={'was_impossible': False}),
 Prediction(uid='697', iid='244', r_ui=5.0, est=3.4916333725081277, details={'was_impossible': False}),
 Prediction(uid='751', iid='385', r_ui=4.0, est=3.7035817198944954, details={'was_impossible': False})]

In [8]:
[(pred.uid, pred.iid, pred.est) for pred in predictions[:3]]

[('120', '282', 3.8223902031583092),
 ('882', '291', 3.5360146519966165),
 ('535', '507', 4.198000391007143)]

In [9]:
# 개별 사용자의 아이템에 대한 추천 평점 예측
# predict()

# 사용자 아이디, 아이템 아이디는 문자열로
uid = str(196)
iid = str(302)
pred = algo.predict(uid, iid)
print(pred)

user: 196        item: 302        r_ui = None   est = 4.30   {'was_impossible': False}


In [10]:
# 실제 평점과 추천 예측 평점의 차이
accuracy.rmse(predictions)

RMSE: 0.9488


0.9488053327279888

## Surprise 주요 모듈 소개

### Dataset
*외부 데이터 또한 칼럼 순서가 **사용자 아이디, 아이템 아이디, 평점 순**이어야 한다.*

```Dataset.load_builtin``` 무비렌즈 아카이브 FTP 서버에서 무비렌즈 데이터 내려받기

```Dataset.load_from_file(file_path, reader)``` OS 파일에서 데이터 로딩할 때 사용, 콤마, 탭 등으로 칼럼이 분리된 포맷의 OS 파일에서 데이터 로딩

```Dataset.load_from_df(df, reader)``` 판다스의 DataFrame에서 데이터 로딩

#### OS 파일 데이터를 Surprise 데이터 세트로 로딩
로딩할 때 데이터 파일에 칼럼명을 가지는 헤더 문자열이 있어서는 안 된다.

In [13]:
import pandas as pd

ratings = pd.read_csv('./data/ml-latest-small/ratings.csv')

# header 지운 파일
ratings.to_csv('./data/ml-latest-small/ratings_noh.csv', index=False, header=False)