# 추천시스템 평가

## 좋은 추천시스템을 만들기 위해 고려해야할 항목

1. 성능 좋고, 빠르고, 설명 가능한 추천 알고리즘
    * 적절한 아이템을 빠르게 찾고, 해당 아이템을 추천하는 이유
2. 추천시스템에 필요한 데이터(User / Item Profiling)
    * 추천 알고리즘을 만들기 위한 좋은 데이터 확보
    * 적절한 추천을 위한 후보군 설정
3. 추천시스템의 목적
    * 추천시스템을 통해 비즈니스 역량 확대, 매출 증대, CTR 증가 등 다양한 목적
4. 플랫폼 내에서 추천시스템의 역할
    * 추천시스템이 주요 기능이고 필수인지 또는 추천시스템이 옵션인지 역할 정의
5. 플랫폼 사용자
    * 사용자에게 어떤 정보를 받는지, 사용자는 어떤 환경인지, 어떻게 서비스를 이용하는지 확인

### 비즈니스 / 서비스 관점
* 추천시스템 적용으로 인해 매출, PV의 증가
* 새로운 추천 아이템으로 인해 유저의 CTR의 상승

### 품질 관점
* 연관성(Relevance) : 추천된 아이템이 유저에게 관련이 있는가?
* 다양성(Diversity): 추천된 Top-K 아이템에 얼마나 다양한 아이템이 추천되는가?
* 새로움(Novelty): 얼마나 새로운 아이템이 추천되고 있는가?
* 참신함(Serendipity): 유저가 기대하지 못한 뜻밖의 아이템이 추천되는가?

## 추천시스템의 성능 평가 방법

### Offline Test

* 새로운 추천 모델을 검증하기 위해 가장 먼저 필요한 단계
* 유저로부터 이미 수집한 데이터를 Train/Valid/Test 로 나누어 모델의 성능을 객관적인 지표로 평가
* RMSE 등 정량적인 지표를 활용한 객관적인 평가 가능
* 수집된 데이터를 바탕으로 평가가 이루어지므로, 실제 서비스 상황에서 다르게 적용될 수 있음
* 다양한 추천 알고리즘을 쉽고 빠르게 평가할 수 있음
* 보통 Offline Test에서 좋은 성능을 보여야 Online 서빙에 투입되지만, 실제 서비스 상황에서는 다양한 양상을 보임(Serving Bias 존재)

**성능지표**
* Precision@K, Recall@K ,MAP
* NDCG, Hit Rate
* RMSE, MAE

### Online Test

* Offline Test에서 검증된 가설이나 모델을 이용해 실제 추천 결과를 서빙하는 단계
* 추천 시스템 변경 전후의 성능을 비교하는 것이 아니라, 동시에 대조군(A)과 실험군(B)의 성능을 평가
    * 단, 대조군과 실험군의 환경을 동일해야함
* 실제 서비스를 통해 얻어지느 결과를 토해 최종 의사결정이 이루어짐
* 대부분 현업에서 의사결정을 위해 사용하는 최종 지표는 모델 성능(RMSE, nDCG 등)이 아닌 매출, CTR 등의 비즈니스/서비스 지표임

## Offline Test 성능지표

### Precision@K

우리가 추천한 K개 아이템 가운데 실제 유저가 관심있는 아이템의 비율

### Recall@K

유저가 관심있는 전체 아이템 가운데 우리가 추천한 아이템의 비율

### MAP(Mean Average Precision@K)

**Average Precision**
* Precision@1부터 Precision@K까지의 평균값을 의미함
* Precision@K와 다르게 relevant한 아이템을 더 높은 순위에 추천할 경우 점수가 상승함

$$ AP@K = \frac{1}{m} \sum^K_{i=1}Precision@i $$

**Mean Average Precision**
모든 유저에 대한 Average Precision 값의 평균 -> 추천 시스템의 성능

$$ MAP@K = \frac{1}{|U|} \sum^{|U|}_{u=1} (AP@K)_u $$

### nDCG(Normalized Discounted Cumulative Gain)

* 추천시스템에 가장 많이 사용되는 지표 중 하나, 원래는 검색(Information Retrieval)에서 등장한 지표
* Precision@K, MAP@K와 마찬가지로 Top K 추천 리스트를 만들고 유저가 선호하는 아이템을 비교하여 값을 구함
* MAP@K처럼 nDCG는 추천의 순서에 가중치를 더 많이 두어 성능을 평가하며 1에 가까울수록 좋음
* MAP는 관련 여부를 binary(0/1)로 평가하지만, nDCG는 관련도 값을 사용할 수 있기 때문에 유저에게 더 관련있는 아이템을 상위로 노출시키는지 알 수 있음

**Cumulative Gain**
* 상위 K개 아이템에 대하여 관련도를 합한 것
* 순서에 따라 Discount하지 않고 동일하게 더한 값
$$ CG_K = \sum^{K}_{i=1} rel_i $$

**Discounted Cumulative Gain**
* 순서에 따라 log값으로 나누어 Cumulative Gain을 Discount함
$$ DCG_K = \sum^{K}_{i=1} \frac{rel_i}{log_2(i+1)} $$

**Idea DCG**
* 이상적인 추천이 일어났을 때의 DCG값
* 가능한 DCG 값 중에 제일 큼

**Normalized DCG**
* 추천 결과에 따라 구해진 DCG를 IDCG로 나눈 값
* 따라서 nDCG는 최대 1
$$ NDCG = \frac{DCG}{IDCG} $$

### Hit Rate @K

* 특정 유저의 선호거나 클릭했던 모든 Item을 가져옴
* 모든 Item 가운데 하나만 의도적으로 제거(Leave-One_out Cross-Validation)
* 남은 Item들을 가지고 추천 모델을 학습한 뒤, Top K 추천 리스트를 추출
* K개의 추천 리스트 가운데 아까 제거한 Item이 있다면 hit, 그렇지 않다면 no hit
$$ Hit Rate = \frac{\text{Number of hit user}}{\text{Number of user}} $$

### RMSE

$$ RMSE = \sqrt{\frac{1}{|\hat{R}|} \sum_{\hat{r}_{ui}\in\hat{R}}(r_{ui} - \hat{r}_{ui})^2} $$

### MAE

$$ MAE = \frac{1}{|\hat{R}|} \sum_{\hat{r}_{ui}\in\hat{R}}|r_{ui} - \hat{r}_{ui}| $$

* RMSE가 MAE보다는 outlier나 bad prediction에 취약함
* RMSE는 절대값이 없기 때문에 수학적으로 간편
    * 대부분의 Machine Learning 모델은 RMSE를 손실함수로 사용

## 성능지표 계산해보기

- **사용자가 영화를 선호한다는 정의는 4.0점 이상의 평가를 내린 것으로 가정**
- 평균 평점 기반 추천 로직을 사용하고, 이를 통해 지표를 직접 계산

In [21]:
import os
import pandas as pd
import numpy as np

In [8]:
path = '/Users/yeomyungro/Documents/github/recommendation/'

In [9]:
rating = pd.read_csv(path+"data/ml-latest-small/ratings.csv", encoding="utf-8")
tag = pd.read_csv(path+"data/ml-latest-small/tags.csv", encoding="utf-8")
movie = pd.read_csv(path+"data/ml-latest-small/movies.csv", encoding="utf-8")

In [10]:
rating.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [12]:
from sklearn.model_selection import train_test_split

In [13]:
train_df, test_df = train_test_split(rating, test_size=0.2, random_state=1990)

In [14]:
print(train_df.shape)
print(test_df.shape)

(80668, 4)
(20168, 4)


In [19]:
movie_summary = pd.DataFrame({
    'numUsers': train_df.groupby('movieId')['userId'].nunique(),
    'avgRating': train_df.groupby('movieId')['rating'].mean(),
    'stdRating': train_df.groupby('movieId')['rating'].std()
})

In [20]:
movie_summary.head()

Unnamed: 0_level_0,numUsers,avgRating,stdRating
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,178,3.896067,0.864645
2,94,3.414894,0.902917
3,43,3.244186,1.054311
4,6,2.25,0.880341
5,33,3.136364,0.92932


In [32]:
movie_summary['steamRating'] = movie_summary['avgRating'] - (movie_summary['avgRating'] - 3.0) \
                                  * np.power(2, -np.log10(movie_summary['numUsers']))
topk_df = movie_summary.sort_values(by='steamRating', ascending=False).reset_index()
topk_df.head()

Unnamed: 0,movieId,numUsers,avgRating,stdRating,steamRating
0,318,257,4.431907,0.69473,4.162473
1,296,242,4.231405,0.947899,3.995465
2,1196,175,4.251429,0.831966,3.987076
3,858,150,4.263333,0.956603,3.98379
4,527,183,4.240437,0.978957,3.981908


### Precision, Recall, MAP

In [33]:
# recommend의 길이가 @ k를 의미

def get_precision(relevant, recommend):
    
    _intersection = set(recommend).intersection(set(relevant))
    return len(_intersection) / len(recommend)

def get_recall(relevant, recommend):
    
    _intersection = set(recommend).intersection(set(relevant))
    return len(_intersection) / len(relevant)

def get_average_precision(relevant, recommend):
    
    _precisions = []
    
    for i in range(len(recommend)):
        _recommend = recommend[:i+1]
        _precisions.append(get_precision(relevant, _recommend))
    
    return np.mean(_precisions)


In [34]:
# 개별 사용자에 대해서 추천을 수행하고 각 지표를 구한 뒤에 이를 합친다.

test_user_set = set(test_df['userId'].unique())

k = 10

recommend_item = topk_df['movieId'][:k].tolist()

In [36]:
precisions = []
recalls = []
average_precisions = []

for user_id in list(test_user_set):
    
    test_user_rating_df = test_df[(test_df['userId'] == user_id) & (test_df['rating'] >= 4.0)]
    relevant_item = test_user_rating_df.sort_values(by='rating', ascending=False)['movieId'].tolist()
    
    
    # 테스트 데이터에 있는 유저 가운데 선호 영화가 아예 없는 케이스도 존재함. (4.0이상 평가한 영화가 아예 없는 유저)
    if len(relevant_item) == 0:
        continue
        
    # precision@k
    
    precision = get_precision(relevant_item, recommend_item)
    precisions.append(precision)
    
    # recall@k

    recall = get_recall(relevant_item, recommend_item)
    recalls.append(recall)
    
    # map@k
    
    average_precision = get_average_precision(relevant_item, recommend_item)
    average_precisions.append(average_precision)

print("precision@k: ", np.mean(precisions))
print("recall@k: ", np.mean(recalls))
print("map@k: ", np.mean(average_precisions))    

precision@k:  0.05413153456998314
recall@k:  0.05583956646876157
map@k:  0.06409232045825639
