# Surprise 패키지

In [2]:
import surprise
print(surprise.__version__)

1.1.3


## surprise 를 이용한 추천 시스템 구축

In [4]:
## 라이브러리 import
from surprise import SVD, Dataset, accuracy
from surprise.model_selection import train_test_split


### 내장 데이터를 로드하고 학습과 테스트 데이터로 분리하기

In [7]:
data = Dataset.load_builtin('ml-100k')
trainset, testset = train_test_split(data,test_size=.25, random_state=0)

Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /Users/journeyji/.surprise_data/ml-100k


### 추천 행렬 분해 알고리즘을 통해 SVD 객체 생성 및 학습 수행

In [8]:
## SVD 객체 생성
algo = SVD()
## trainset에 대하여 학습 수행
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7fa4a6532fa0>

### testset의 예상 평점 예측하기

In [9]:
## testset을 통해 평점 예측
predictions = algo.test(testset)
print('prediction type :',type(predictions),' size:',len(predictions))
print('prediction 결과의 최초 5개 추출')
predictions[:5]

prediction type : <class 'list'>  size: 25000
prediction 결과의 최초 5개 추출


[Prediction(uid='120', iid='282', r_ui=4.0, est=3.4641042077045183, details={'was_impossible': False}),
 Prediction(uid='882', iid='291', r_ui=4.0, est=3.706746308694536, details={'was_impossible': False}),
 Prediction(uid='535', iid='507', r_ui=5.0, est=3.954745531575149, details={'was_impossible': False}),
 Prediction(uid='697', iid='244', r_ui=5.0, est=3.4830527684521932, details={'was_impossible': False}),
 Prediction(uid='751', iid='385', r_ui=4.0, est=3.412134827383335, details={'was_impossible': False})]

In [10]:
## 예측 평점만 출력하기
[(pred.uid, pred.iid, pred.est) for pred in predictions[:3]]

[('120', '282', 3.4641042077045183),
 ('882', '291', 3.706746308694536),
 ('535', '507', 3.954745531575149)]

### predict() 메소드는 개별 사용자와 아이템에 대한 예측 평점정보 반환

In [11]:
## 입력시 사용자 아이디와 아이템 아이디는 문자열로 입력해야 함
uid = str(196)
iid = str(302)
pred = algo.predict(uid,iid)
print(pred)

user: 196        item: 302        r_ui = None   est = 4.25   {'was_impossible': False}


### RMSE 평가하기

In [13]:
accuracy.rmse(predictions)

RMSE: 0.9491


0.949132731014194

## Surprise 주요 모듈
csv 파일로 사용자 평점 데이터 생성

In [15]:
import pandas as pd

ratings = pd.read_csv('../../data/ml-latest-small/ratings.csv')

## index와 header를 모두 제거한 ratings_noh.csv 파일 생성
ratings.to_csv('../../data/ml-latest-small/ratings_noh.csv',index=False,header=False)

### Reader 클래스로파일의 포맷을 지정, Dataset의 load_from_file()을 이용하여 데이터셋 로드

In [18]:
from surprise import Reader

## 형식 지정
reader = Reader(line_format = 'user item rating timestamp',sep=',',rating_scale=(0.5,5))

## 지정된 형식으로 ratings_noh.csv 파일의 데이터를 data 변수에 저장
data = Dataset.load_from_file('../../data/ml-latest-small/ratings_noh.csv',reader=reader)

### (Surprise)학습과 테스트 데이터 세트로 분할하고 SVD로 학습후 테스트 데이터 평점 예측 후 RMSE 평가

In [21]:
## 훈련셋, 테스트셋 분할
trainset, testset = train_test_split(data,test_size=.25,random_state=0)

## SVD 학습
algo = SVD(n_factors =50, random_state = 0)
algo.fit(trainset)

## 데이터 평점 예측
predictions = algo.test(testset)

##RMSE 평가
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

### (Pandas,Datafrane)학습과 테스트 데이터 세트로 분할하고 SVD로 학습후 테스트 데이터 평점 예측 후 RMSE 평가

In [23]:
import pandas as pd
from surprise import Reader, Dataset

ratings = pd.read_csv('../../data/ml-latest-small/ratings.csv')
reader = Reader(rating_scale=(0.5,5))

data = Dataset.load_from_df(ratings[['userId','movieId','rating']], reader)
trainset, testset = train_test_split(data,test_size=.25,random_state = 0)

algo = SVD(n_factors=50, random_state=0)
algo.fit(trainset)
predictions = algo.test(testset)
accuracy.rmse(predictions)

RMSE: 0.8682


0.8681952927143516

## 교차 검증 그리고 하이퍼 파라미터 튜닝

### cross_validate() 이용한 교차검증

In [26]:
from surprise.model_selection import cross_validate

ratings = pd.read_csv('../../data/ml-latest-small/ratings.csv')
reader = Reader(rating_scale=(0.5,5))
data = Dataset.load_from_df(ratings[['userId','movieId','rating']],reader)

algo = SVD(random_state=0)
cross_validate(algo,data,measures=['RMSE','MAE'],cv=5,verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8717  0.8758  0.8758  0.8769  0.8723  0.8745  0.0021  
MAE (testset)     0.6684  0.6745  0.6715  0.6750  0.6691  0.6717  0.0027  
Fit time          0.89    0.85    0.84    0.84    0.89    0.86    0.02    
Test time         0.16    0.11    0.11    0.11    0.12    0.12    0.02    


{'test_rmse': array([0.87168852, 0.87579787, 0.87584847, 0.87686525, 0.87229634]),
 'test_mae': array([0.6684076 , 0.67454501, 0.67148385, 0.67504269, 0.66911222]),
 'fit_time': (0.887362003326416,
  0.8521490097045898,
  0.8356571197509766,
  0.8351569175720215,
  0.8902432918548584),
 'test_time': (0.1585988998413086,
  0.11165809631347656,
  0.10645127296447754,
  0.11489987373352051,
  0.11766290664672852)}

### GridSearchCV 이용

In [30]:
from surprise.model_selection import GridSearchCV

param_grid = {'n_epochs':[20,40,60],'n_factors':[50,100,200]}

# CV를 3개 폴드세트로 지정, 성능평가는 rmse, mae로 수행
gs = GridSearchCV(SVD,param_grid,measures=['rmse','mae'],cv=3)
gs.fit(data)


# 최고 rmse evaluation 점수와 그 때의 하이퍼 파라미터 출력
print(gs.best_score['rmse'])
print(gs.best_params['rmse'])

0.8777220685043856
{'n_epochs': 20, 'n_factors': 50}


## Surprise 를 이용한 개인화 영화 추천 시스템 구축하기


### DatasetAutoFolds 를 이용하여 전체 데이터를 TrainSet 클래스로 변환

SVD 학습은 trainset 클래스 이용해야한다.

In [33]:
from surprise.dataset import DatasetAutoFolds

reader = Reader(line_format='user item rating timestamp',sep=',',rating_scale=(0.5,5))
data_folds = DatasetAutoFolds(ratings_file='../../data/ml-latest-small/ratings_noh.csv',reader = reader)

trainset = data_folds.build_full_trainset()



### SVD로 학습하기

In [34]:
algo = SVD(n_epochs=20,n_factors=50, random_state=0)
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7fa4a957dc70>

In [38]:
# 영화에 대한 상세 속성 정보 DataFrame 로딩
movies = pd.read_csv('../../data/ml-latest-small/movies.csv')

# userId= 9 의 movie 데이터를 추출하여 movieId=42데이터가 존재하는지 확ㄱ인

movieIds = ratings[ratings['userId']==9]['movieId']
if movieIds[movieIds==42].count()==0:
    print('사용자 아이디 9는 영화 아이디 42의 평점 없음')
print(movies[movies['movieId']==42])

사용자 아이디 9는 영화 아이디 42의 평점 없음
    movieId                   title              genres
38       42  Dead Presidents (1995)  Action|Crime|Drama


In [40]:
## 9번 사용자의 42번 영화에 대한 예측 평점
uid = str(9)
iid = str(42)

pred = algo.predict(uid, iid,verbose=True)

user: 9          item: 42         r_ui = None   est = 3.13   {'was_impossible': False}


In [41]:
def get_unseen_surprise(ratings,movies,userId):
    ## 특정 userId 사용자가 평점을 매긴 모든 영화를 리스트로 생성
    seen_movies = ratings[ratings['userId']==userId]['movieId'].tolist()
    
    # 모든 영화들의 movieId를 리스트로 생성
    total_movies = movies['movieId'].tolist()
    
    # 모든 영화들의 movieId 중에 이미 평점을 매긴 영화의 movieId를 제거한 리스트를 생성
    unseen_movies = [movie for movie in total_movies if movie not in seen_movies]
    print('평점 매긴 영화수: ',len(seen_movies),'추천 대상 영화수: ',len(unseen_movies), '전체 영화쉬: ',len(total_movies))
    
    
    return unseen_movies

unseen_movies = get_unseen_surprise(ratings,movies,9)

평점 매긴 영화수:  46 추천 대상 영화수:  9696 전체 영화쉬:  9742


In [None]:
## 추천 함수

def recomm_movie_by_surprise(algo,userId,unseen_movies,top_n=10):
    predictions = [algo.predict(str(userId),str(movieId)) for movieId in unseen_movies]
    
    def sortkey_est(pred):
        return pred.est
    
    