# Рекомендательные системы
## Урок 1. Введение, примеры задач, бизнес- и ML-метрики
### Практическое задание

**1) Сравните метрики hit_rate@k, precision@k. Какую метрику использовать предпочтительно и почему. Привидите пример 2-3 задач (опишите, что является клиентом, что товаром), в которой более уместно использовать метрику hit_rate?**  

Роль алгоритма ранжирования (часто называемого системой рекомендаций) состоит в том, чтобы вернуть пользователю набор соответствующих элементов или документов на основе некоторых обучающих данных. Определение релевантности может варьироваться и обычно зависит от приложения. Метрики системы ранжирования направлены на количественную оценку эффективности этих рейтингов или рекомендаций в различных контекстах. Некоторые показатели сравнивают набор рекомендуемых документов с базовым набором соответствующих документов, в то время как другие показатели могут явно включать числовые рейтинги.  

Целью системы ранжирования является создание наиболее подходящей выборки для каждого пользователя. Актуальность наборов и эффективность алгоритмов можно измерить с помощью метрик, перечисленных ниже.

**Hit rate**, как и полнота(recall) - показывает, как много объектов класса 1 находит классификатор или другими словами отражает какой процент объектов положительного класса мы правильно классифицировали (был ли хотя бы 1 релевантный товар среди рекомендованных), а **hit_rate@k** - был ли хотя бы 1 релевантный товар среди топ-k рекомендованных.
Например, нам необходимо понять, насколько хороши наши топ-10 рекомендаций. Для оценки топ-10 мы используем показатель попадания, то есть, если пользователь оценил один из 10 лучших, которые мы рекомендовали, мы считаем это «попаданием».

Общая частота попаданий в систему - это количество попаданий, разделенное на количество тестовых пользователей. Он измеряет, как часто мы можем рекомендовать удаленный рейтинг, чем выше, тем лучше. Очень низкий процент попаданий часто означает, что у нас недостаточно данных для работы.

Точность(precision) - показывает, насколько мы можем доверять классификатору, если он выдаёт ответ – 1 или какой процент рекомендованных товаров приобрел пользователь/покупатель. Чем выше точность, тем меньше ложных срабатываний. **Precision@k** - это мера того, сколько из первых k рекомендованных выборок входит в набор действительно релевантных, усредненных по всем пользователям. В этой метрике не учитывается порядок рекомендаций.

Пример 1(hit_rate@k): Рекомендация категории товаров, например, автомобили, яхты, квартиры. Пользователь - клиент, категория - товар.  
Пример 2(hit_rate@k): Рекомендации дополнительных товаров к текущей покупке. Если человек покупает карабин, то автоматически рекомендуем ему несколько видов подходящих к нему патронов. Пользователь - клиент, товар - товар.  

Пример 1(Precision@k): Поиск дешёвых авиабилетов. Пользователь - клиент, авиабилет - товар.  
Пример 2(Precision@k): Рекомендация YouTube Music. Пользователь - клиент, песня - товар.  

**2) В метрике NDCG@k мы используем логарифм в знаменателе. Как Вы думаете, почему именно логарифм? Какую функцию можно использовать вместо логарифма? Привидите пример метрик/подходов к предобработке данных/функций ошибок в ML, где также в знаменателе присутствует логарифм.**  

Ранее не было теоретически обоснованного обоснования использования логарифмического коэффициента уменьшения, кроме того факта, что он обеспечивает плавное уменьшение. Но авторы дают теоретическую гарантию использования коэффициента логарифмического сокращения в нормализованном DCG (NDCG). Авторы показывают, что для каждой пары существенно различных функций ранжирования NDCG может согласованно решать, какая из них лучше.  

**3) Какие еще матрики (Вы можете вспомнить уже пройденные Вами или посмотреть в интернете) могут использоваться для рекомендательных систем (приведите примеры метрики и чем являются интеракции, чтобы она могла быть использована).**  

В качестве метрик можно использовать ранговые коэффициенты корреляции Спирмена, Кенделла, Мэтьюса, Крамера.

**4) boughted = [1, 3, 5, 7, 9, 11]  
recommended = [2, 5, 7, 4, 11, 9, 8, 10, 12, 3]  
Посчитайте на этих данных pr@8, rec@8, AP@8, NDCG@8, RR@8, ERR@8**

In [1]:
import pandas as pd
import numpy as np

In [2]:
boughted = [1, 3, 5, 7, 9, 11]
recommended = [2, 5, 7, 4, 11, 9, 8, 10, 12, 3]

### pr@8

In [7]:
def precision_at_k(recommended_list, bought_list, k=5):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    bought_list = bought_list  # Тут нет [:k] !!
    recommended_list = recommended_list[:k]
    
    flags = np.isin(bought_list, recommended_list)
    # print(flags)
     
    precision = flags.sum() / len(recommended_list)
     
    return precision

In [8]:
precision_at_k(recommended, boughted, k=8)

0.5

### rec@8

In [13]:
def recall_at_k(recommended_list, bought_list, k=5):
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)[:k]
    
    flags = np.isin(bought_list, recommended_list)
    
    recall = flags.sum() / len(bought_list)
    
    return recall

In [15]:
recall_at_k(recommended, boughted, k=8)

0.6666666666666666

### AP@8

In [16]:
def ap_k(recommended_list, bought_list, k=5):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    flags = np.isin(recommended_list, bought_list)
    
    if sum(flags) == 0:
        return 0
    
    sum_ = 0
    for i in range(1, k+1): 
        if flags[i] == True:
            p_k = precision_at_k(recommended_list, bought_list, k=i)
            sum_ += p_k
            
    result = sum_ / sum(flags)
    
    return result

In [17]:
ap_k(recommended, boughted, k=8)

0.32

### NDCG@8

In [18]:
def NDCG_at_k(recommended_list, bought_list, k):
    recommended_list = recommended_list[:k]
    if recommended_list[0] in bought_list:
        dcg = 1
    else: dcg = 0
    for i in range(1, len(recommended_list)):
        if recommended_list[i] in bought_list:
            dcg += 1/np.log(i+1)
       
    idcg = 1
    for i in range(1, k):
        idcg += 1/np.log(i+1)  
    ndcg = dcg / idcg
    return ndcg

In [19]:
NDCG_at_k(recommended, boughted, 8)

0.5653142737255068

### RR@8

In [35]:
def reciprocal_rank_at_k(recommended_list, bought_list, k):
    recommended_list = recommended_list[:k]
    ranks = 0
    for item_rec in recommended_list:
        for i, item_bought in enumerate(bought_list):
            if item_rec == item_bought:
                ranks += 1 / (i+1)
    return ranks / len(recommended_list)

In [36]:
reciprocal_rank_at_k(recommended, boughted, 8)

0.11875

### ERR@8

In [39]:
def expected_reciprocal_rank_at_k(recommended_list, k):
    if k <= 0:
        return -1
    
    if len(recommended_list) < k:
        k = len(recommended_list)
    
    recommended_list = recommended_list[:k]
    
    grade = max(recommended_list)
    prob = [0]
    prob.extend((2**i-1)/2**grade for i in range(1, grade+1))
    
    return sum(1/i*prob[recommended_list[i-1]]*np.prod([1-prob[recommended_list[j-1]] for j in range(1, i)]) for i in range(1, k+1))

In [40]:
expected_reciprocal_rank_at_k(recommended, 8)

0.2141286747780282