# Вебинар 1. Введение, примеры задач, бизнес- и ML-метрики 

---

![evaluate](images/evaluate.png "evaluate")

# 2. Метрики качества

## 1 Метрики точности

*Хороши ли рекомендации, предлагаемые моделью?*  
Обычно считаются для каждого юзера, затем усредняются по юзерам

Представим магазин с товарами (офлайн валидация). 

Офлайн валидация - есть какая-то старая рекомендательная система и пользователь купил на ее основе. А мы получив эти данные, делаем оценку. Из-за того что система старая, могут быть несоответствия. Это дешевая валидация.

Онлайн валидация - дорогое тестирование. Обычно запускается A/B тестирование онлайн, мы используем свежую рекомендательную систему и получаем результат.

In [20]:
import pandas as pd
import numpy as np

In [21]:
data = pd.DataFrame({"user_id": ["u1","u2","u3"], 
              "recommended_list": [
                                      [143, 156, 1134, 991, 27],
                                      [1543, 3345, 533, 11, 43],
                                      [156, 3345, 10, 15, 1134]
                                  ],
             "bought_list": [
                             [156,27],
                             [11,43],
                             [1]
                            ]})
data

Unnamed: 0,user_id,recommended_list,bought_list
0,u1,"[143, 156, 1134, 991, 27]","[156, 27]"
1,u2,"[1543, 3345, 533, 11, 43]","[11, 43]"
2,u3,"[156, 3345, 10, 15, 1134]",[1]


### 1. Hit rate

Hit rate = (был ли хотя бы 1 релевантный товар среди рекомендованных)   

Hit rate@k = (был ли хотя бы 1 релевантный товар среди топ-k рекомендованных)

$$\Large HitRate@K(i) = \max_{j \in [1..K]}\mathbb{1}_{r_{ij}}$$
$\Large \mathbb{1}_{r_{ij}}$ -- Индикаторная функция, показывающая, что пользователь $i$ провзаимойдествовал с объектом $j$

Что такое топ-k рекомендованных?

Для пользователя $i$ мы порекомендовали $k$ объектов. Если хотя бы один из рекомендованных товаров понравился пользователю, то тогда для этого пользователя это 1.

Посмотрим реализацию:

In [22]:
def hit_rate(recommended_list, bought_list):
    bought_list = np.array(bought_list) # лист купленных товаров
    recommended_list = np.array(recommended_list) # рекомендуемые товары
    
    flags = np.isin(recommended_list, bought_list) 
    hit_rate = int(flags.sum() > 0)  
    
    return hit_rate


def hit_rate_at_k(recommended_list, bought_list, k=5):
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list) # товары должны быть отсортированы по популярности?
    
    flags = np.isin(recommended_list[:k], bought_list,)   
    hit_rate = int(flags.sum() > 0)
    
    return hit_rate

In [23]:
data.apply(lambda x: hit_rate_at_k(x[1], x[2], k=3), axis=1).mean()

0.3333333333333333

### 2. Precision

$$\Large Precision@K(i) = \frac {\sum_{j=1}^{K}\mathbb{1}_{r_{ij}}}{K}$$

$\Large \mathbb{1}_{r_{ij}}$ -- Индикаторная функция, показывающая, что пользователь $i$ провзаимойдествовал с объектом $j$


*Precision* - доля релевантных товаров среди рекомендованных = **Какой % рекомендованных товаров  юзер купил**

Пожалуй, самая приближенная к бизнес-метрикам и самая популярная метрика

---

Precision= (# of recommended items that are relevant) / (# of recommended items)  

Precision@k = (# of recommended items @k that are relevant) / (# of recommended items @k)

Money Precision@k = (revenue of recommended items @k that are relevant) / (revenue of recommended items @k)  

**Note:** Обычно k в precision@k достаточно невелико (5-20) и определяется из бизнес-логики. Например, 5 товаров в e-mail рассылке, 20 ответов на первой странице google и т.д

Красная рыба - 400 руб  
Молоко - 60 руб  
Хлеб - 40 руб  
Гречка - 40 руб  
Шоколад - 90 руб  

------  
Варенье - 240 руб  
...  

**Case 1**  
prices_resommended = [400, 60, 40, 40 , 90]  
flags = [1, 0, 0, 0 , 1]  

$$precision@5 = \frac{1 + 0 + 0 +0 + 1}{1+1+1+1+1} = 40\%$$
$$money \; precision@5 = \frac{1*400 + 0*60 + ... + 1*90}{1*400 + 1*60 + ... + 1*90} = 77.7\%$$

  
**Case 2**   
prices_resommended = [400, 60, 40, 40 , 90]  
flags = [0, 1, 0, 0 , 1]  

$$precision@5 = \frac{0 + 1 + 0 +0 + 1}{1+1+1+1+1} = 40\%$$
$$money \; precision@5 = \frac{0*400 + 1*60 + ... + 1*90}{1*400 + 1*60 + ... + 1*90} = 15.8\%$$

In [24]:
def precision(recommended_list, bought_list):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    flags = np.isin(bought_list, recommended_list)
    
    precision = flags.sum() / len(recommended_list)
    
    return precision


def precision_at_k(recommended_list, bought_list, k=5):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    bought_list = bought_list  # Тут нет [:k] !!
    recommended_list = recommended_list[:k]
    
    flags = np.isin(bought_list, recommended_list)
    
    precision = flags.sum() / len(recommended_list)
    
    
    return precision


def money_precision_at_k(recommended_list, bought_list, prices_recommended, k=5):
        
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    prices_recommended = np.array(prices_recommended)
    
    bought_list = bought_list  # Тут нет [:k] !!
    recommended_list = recommended_list[:k]
    prices_recommended = prices_recommended[:k]
    
    flags = np.isin(bought_list, recommended_list)
    
    precision = (flags*prices_recommended).sum() / prices_recommended.sum()
     
    return precision

In [25]:
data.apply(lambda x: precision(x[1], x[2]), axis=1).mean()

0.26666666666666666

In [26]:
data.apply(lambda x: precision_at_k(x[1], x[2], k=2), axis=1).mean()

0.16666666666666666

In [27]:
data.apply(lambda x: precision_at_k(x[1], x[2], k=5), axis=1).mean()

0.26666666666666666

Еще пример

In [28]:
recommended_list = [143, 156, 1134, 991, 27, 1543, 3345, 533, 11, 43] #id товаров
bought_list = [521, 32, 143, 991]

In [29]:
np.isin(bought_list, recommended_list)

array([False, False,  True,  True])

In [30]:
precision(recommended_list, bought_list)

0.2

In [31]:
precision_at_k(recommended_list, bought_list, k=5)

0.4

In [32]:
precision_at_k(recommended_list, bought_list, k=3)

0.3333333333333333

### 3. Recall

$$\Large Recall@K(i) = \frac {\sum_{j=1}^{K}\mathbb{1}_{r_{ij}}}{|Rel_i|}$$

$$\Large Money \; Recall@K(i) = \frac {\sum_{j=1}^{K}\mathbb{1}_{r_{ij}} \cdot Price(j)}{\sum_{s \in Rel_i} Price(s)}$$

$\Large |Rel_i|$ -- количество релевантных товаров для пользователя $i$. Релевантные товары - те товары, которые купил пользователь.

*Recall* - доля рекомендованных товаров среди релевантных = **Какой % купленных товаров был среди рекомендованных**

Обычно используется для моделей пре-фильтрации товаров (убрать те товары, которые точно не будем рекомендовать)

---

Recall= (# of recommended items that are relevant) / (# of relevant items)  

Recall@k = (# of recommended items @k that are relevant) / (# of relevant items)

Money Recall@k = (revenue of recommended items @k that are relevant) / (revenue of relevant items)  

    
  
**Note:** в recall@k число k обычно достаточно большое (50-200), больше чем покупок у среднестатистического юзера

In [33]:
def recall(recommended_list, bought_list):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    flags = np.isin(bought_list, recommended_list)
    
    recall = flags.sum() / len(bought_list)
    
    return recall


def recall_at_k(recommended_list, bought_list, k=5):
    
    # your_code
    
    return recall


def money_recall_at_k(recommended_list, bought_list, prices_recommended, prices_bought, k=5):
    
    # your_code
    
    return recall

In [34]:
recall(recommended_list, bought_list)

0.5

---

## 2 Метрики ранжирования 

Если важен порядок рекомендаций. Подробнее можно почитать [здесь](https://habr.com/ru/company/econtenta/blog/303458/). Формулы в статье могут несколько отличаться от формул в лекции 

Метрики учитывают порядок товара

### AP@k
AP@k - average precision at k

$$\Large AP@K(i) = \frac 1K \sum_{j=1}^{K}\mathbb{1}_{r_{ij}}Precision@j(i)$$

Считаем Precision для каждого $k$ (от 1 до $k$), затем их суммируем и делим на $k$ 

- Суммируем по всем релевантным товарам
- Зависит от порядка рекомендаций

In [35]:
recommended_list = [143, 156, 1134, 991, 27, 1543, 3345, 533, 11, 43] #id товаров
bought_list = [521, 32, 143, 991]

In [38]:
def ap_at_k(recommended_list, bought_list, k=5):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    flags = np.isin(recommended_list, bought_list)
    
    if sum(flags) == 0:
        return 0
    
    sum_ = 0
    for i in range(k):
        
        if flags[i]:
            p_k = precision_at_k(recommended_list, bought_list, k=i+1)
            sum_ += p_k
            
    result = sum_ / k
    
    return result

In [39]:
ap_at_k(recommended_list, bought_list, k=5)

0.3

In [40]:
data.apply(lambda x: ap_at_k(x[1], x[2], k=5), axis=1).mean()

0.10333333333333333

### MAP@k

MAP@k (Mean Average Precision@k)  
Среднее AP@k по всем юзерам
- Показывает средневзвешенную точность рекомендаций

$$\Large MAP@k = \frac{1}{|U|} \sum_u{AP_k}$$
  
|U| - кол-во юзеров

### AUC@k
AUC для первых k наблюдений  
- Можно посчитать как sklern.metrics.roc_auc_score для топ-k предсказаний
- Показывает долю верно отранжированных товаров

Может считаться по разному. 

Например, те товары которые вверху списка рекомендаций - их купили больше всего

### NDCG@k
Normalized discounted cumulative gain

Используется данная метрика в поисковиках

$$\Large DCG@K(i) = \sum_{j=1}^{K}\frac{\mathbb{1}_{r_{ij}}}{\log_2 (j+1)}$$


$\Large \mathbb{1}_{r_{ij}}$ -- индикаторная функция показывает что пользователь $i$ провзаимодействовал с продуктом $j$

Для подсчета $nDCG$ нам необходимо найти максимально возможный $DCG$ для пользователя $i$  и рекомендаций длины $K$.
Максимальный $DCG$ достигается когда мы порекомендовали максимально возможное количество релевантных продуктов и все они в начале списка рекомендаций.

$$\Large IDCG@K(i) = max(DCG@K(i)) = \sum_{j=1}^{K}\frac{\mathbb{1}_{j\le|Rel_i|}}{\log_2 (j+1)}$$

$$\Large nDCG@K(i) = \frac {DCG@K(i)}{IDCG@K(i)}$$

$\Large |Rel_i|$ -- количество релевантных продуктов для пользователя $i$


$DCG@5 = (1 / 1 + 0 / log(3) + 0 / log(4) + 1 / log(5) + 0 / log(6))$  
$ideal DCG@5 = (1 / 1 + 1 / log(3) + 1 / log(4) + 1 / log(5) + 0 / log(6))$  

$NDCG = \frac{DCG}{ideal DCG}$

### MRR@k
Mean Reciprocal Rank

- Считаем для первых k рекоммендаций
- Найти ранк первого релевантного предсказания $k_u$
- Посчитать reciprocal rank = $\frac{1}{k_u}$

$$MRR = mean(\frac{1}{k_u})$$

Mean - это усреднение по пользователям/покупателям и в случае этом и в случае с $MAP@k$

Для одного пользователя:

- Считаем для первых k рекоммендаций
- Найти ранк первого релевантного предсказания $\Large rank_j$
- Посчитать reciprocal rank = $\Large\frac{1}{rank_j}$

$$\Large  MMR(i)@k=\frac {1}{\min\limits_{j\in Rel(i)} rank_j}$$

In [42]:
def reciprocal_rank_at_k(recommended_list, bought_list):
    # your_code
    return result

Есть такая проблема, что разные библиотеки/фреймворки считают общепринятые метрики совершенно по разному.
Взяли одни и те же данные и прогнали их через все метрики все библиотеки:

![metrics_problem](images/metrics_problem.png "metrics_problem")

Как видим, RocAuc везде разные..

Вывод: все метрики мы должны считать с помощью одного фреймворка или с помощью своей реализации

# 3. Связь бизнес-метрик, ML-метрик и функции потерь(loss)

- **loss** - то, что оптимизирует модель (RMSE - Root Mean Squared Error)
- **ML-метрика** - то, как мы измеряем качество на test (money precision@5)
- **Бизнес-метрика** - то, что хочет оптимизировать бизнес (выручка)

В идеале loss = ML-метрика = бизнес-метрика, но это возмонжо в очень редких случаях

Надеемся, что:  
    *Оптимизация loss --> рост ML-метрик --> рост бизнес-метрик*

### Пример: рекомендательная система товаров на сайте  
      
На сайте есть баннер, на котором мы можем разместить 5 товаров. Надо порекомендовать эти 5 товаров персонально каждому юзеру

*Шаг 1: Определим бизнес-метрику*  
Бизнес хочет максимизировать выручку --> бизнес-метрика - **Выручка**  

*Шаг 2: Разложим ее на составляющие*  
Выручка =   
       Средний чек * кол-во покупателей =   
       Средний чек * (число юзеров * конверсия из захода на сайт в заказ) =
       Число юзеров * (Средний чек * конверсия из захода на сайт в заказ)
       
Рекомендательная система влияет только на (Средний чек * конверсия из захода на сайт в заказ).   
Хорошим приближением этого является **money precision@5** - ML-метрика

*Шаг 3: loss*  
Это существенно сложнее. Персонализированные ML-модели не умеют напрямую оптимизировать конверсию. Стандартный loss - **RMSE**. Можно для начала попробовать его. 

P.S. Если вы хотите приблизить RMSE к money precision@5, то можно посчитать weighted RMSE, где вес каждого наблюдения = стоимость товара.   
P.S.S. Про другие виды loss будет рассказано в курсе