# Метрики в рекомендательных системах

В классической задаче рекомендательной системы имеем данные:
* Пользователей $u\in {Users}, N = |Users|$
* Товары $i\in {Items}, M = |Items|$
* Рейтинг $r_{ui}\in {Ratings} $
* Prediction $p_{ui}\in {Prediction} $

Матрица оценок user-item является сильно разряженной и нам требуется заполнить пропущенные значения.

Для того чтобы оценить рекомендательную систему есть несколько способов и метрик, которые нужно использовать в зависимости от задачи:
* Error metrics
* Desicion-support metrics
* User and Usage-centered metrics

Для оценки модели оставляют отложенную выборку <b>по времени</b> (в выборке для обучения данные, которые предшествуют отложенной выборке). Также хорошим правилом будет провести оценку кросс-валидацией по <b>пользователям</b>

## Error metrics

<b>Error metrics</b> расчитываются как разность предсказанным значением и оценкой пользователя на тестовой выборке. К таким метрикам относятся:
$$ MAE = \frac{\sum_{r \in Ratings, p \in Predictions}|p - r|}{|Ratings|} $$
$$ MSE = \frac{\sum_{r \in Ratings, p \in Predictions}(p - r)^2}{|Ratings|} $$
$$ RMSE = \sqrt{\frac{\sum_{r \in Ratings, p \in Predictions}(p - r)^2}{|Ratings|}} $$
Ореинтируясь на эти метрики мы пытаемся как можно лучше приблизить рейтинг выданной моделью к рейтингу пользователя. Ими можно ореинтироваться при обучении модели.
Лучше использовать MSE и RMSE, так как они дают больший штраф при большей разнице между предсказаниями, а RMSE дает интуитивно понятную величину оценки модели.

## Decision-support metrics

Однако, при оценке рекомендательной системы нас не должно волновать какую оценку она поставит данному продукту 3.7 или 3.2. Нам важно, чтобы рекомендательная система научилась оценивать выше хорошие или подходящие товары чем товары, которые будут не интересны. Этот вид метрик работает с бинарными значениями - 0 и 1 (просмотр, лайк, рейтинг >= 3.5 итд). А получив список рекомендаций мы хотим видеть самые подходящие в верху списка. Поэтому Decision-support метрики чаще рассматривают на <b>топ k рекомендациях</b>

Метрика **Precision** показывает долю товаров рекомендаций понравившихся пользователю, precision@k считается на топ k рекомендациях
$$Precision@k = \frac{1}{K}{\sum_{k=1}^{K} Relevance(k)}$$, где $Relevance(k)$ - индикатор релевантности i товара. <br>
Метрика **Recall** показывает долю рекомендаций показанных пользователю, recall@k считается на топ k рекомендациях
$$Recall@k = \frac{\sum_{k=1}^{K} Relevance(k)}{|Relevant|}$$, где # relevant - кол-во понравившихся товаров, $Relevance(k)$ - индикатор релевантности i товара.

Метрика **Average Precision@k** - в отличие от Precision@k и Recall@k, AP@k придает значение не только списку, но и самому порядку этих рекомендаций
$$AP@K = \frac{\sum_{k=1}^{K}(Relevance(k)\cdot Precision@k))}{\sum_{k=1}^{K}Relevance(k)}$$

Метрика **Mean Average Precision @ k (MAP@K)** - наиболее часто использующаяся метрика качества в задачах рекомендательных систем, она получается подсчетом среднего значения по всем пользователям по AP@k
$$ MAP@K = \frac{1}{N}\sum_{u\in {Users}}{AP@K(u)} $$

### Метрики придающие значению на ранжированию внутри топа

Метрика **Mean Reciprocal Rank** (MRR) - для каждого пользователя берется обратная дробь порядка первого товара, который понравился пользователю, в списке рекомендаций модели.
$$MRR@K = \frac{1}{N}\sum_{i=1}^{N}\frac{1}{RR@k}$$

Метрика **Comulative Gain (CG@k)** - простое кол-во релевантных элементов в топе, чем больше - тем лучше. **Не учитывает порядок**
$$ CG@K = \sum_{k=1}^{K}Relevance(k) * Rating(k)$$

Метрика **Discounted Cumulative Gain (DCG@k)**, в отличии от предыдущих делает дисконтирование с каждой позицией в списке, делая акцент на то, чтобы наиболее релевантные продукты шли первыми по списку
$$ DCG@K = \sum_{k=1}^{K}\frac{Relevance(k)Rating(k)}{log_2(k+1)} $$

Метрика **Normalised Discounted Comulative Gain** (NDCG@K) - метрика качества, нормализует DCG@K по IDCG@K наилучшему значению DCG@k.
$$IDCG@K = \sum_{k=1}^{K}\frac{1}{log_2(k+1)}$$
$$NDCG@K = \frac{DCG@K}{NDCG@K}$$

## User and Usage-centered metrics 

In [5]:
def mae():
    pass

def mse():
    pass

def rmse():
    pass

def get_rr():
    pass

def get_mrr(predicted, target):
    # write your code here
    pass

def get_precision_at_k():
    # write your code here
    pass

def get_recall_at_k():
    # write your code here
    pass

def get_map_at_k():
    # write your code here
    pass

def get_cg():
    # write your code here
    pass

def get_dcg():
    # write your code here
    pass

def get_ndcg():
    # write your code here
    pass

In [None]:
predicted_list = [
    [0, 1, 2, 3, 4],              
    [4, 5, 6, 7, 8]
]
# думайте о числах, как об id продуктов
target_list = [
    [0, 2, 4, 5, 6],
    [1, 3, 6, 7, 0]
]

In [4]:
assert np.round(get_mrr(predicted_list, target_list), 2) == 0.67

AssertionError: 

In [None]:
predicted_list = [0, 1, 2, 4, 8]              
target_list = [0, 2, 4, 5, 6]

In [None]:
assert get_precision_at_k(predicted_list, target_list, k=3) == 0.5
assert get_precision_at_k(predicted_list, target_list, k=5) == 0.5 
assert get_precision_at_k([1, 2, 3, 4], [5, 6, 7, 5], 3) == 0 # нет полезных рекомендаций

In [None]:
assert np.round(get_recall_at_l(predicted_list, target_list, k=3)) == 0.67
assert get_recall_at_l(predicted_list, target_list, k=3) == 0.67