#### Описание задачи

Небольшой интернет-магазин попросил вас добавить ранжирование товаров в блок "Смотрели ранее" - в нем теперь надо показывать не последние просмотренные пользователем товары, а те товары из просмотренных, которые он наиболее вероятно купит. Качество вашего решения будет оцениваться по количеству покупок в сравнении с прошлым решением в ходе А/В теста, т.к. по доходу от продаж статзначимость будет достигаться дольше из-за разброса цен. Таким образом, ничего заранее не зная про корреляцию оффлайновых и онлайновых метрик качества, в начале проекта вы можете лишь постараться оптимизировать recall@k и precision@k.

Это задание посвящено построению простых бейзлайнов для этой задачи: ранжирование просмотренных товаров по частоте просмотров и по частоте покупок. Эти бейзлайны, с одной стороны, могут помочь вам грубо оценить возможный эффект от ранжирования товаров в блоке - например, чтобы вписать какие-то числа в коммерческое предложение заказчику, а с другой стороны, могут оказаться самым хорошим вариантом, если данных очень мало (недостаточно для обучения даже простых моделей).

#### Входные данные

Вам дается две выборки с пользовательскими сессиями - id-шниками просмотренных и id-шниками купленных товаров. Одна выборка будет использоваться для обучения (оценки популярностей товаров), а другая - для теста.

В файлах записаны сессии по одной в каждой строке. Формат сессии: id просмотренных товаров через , затем идёт ; после чего следуют id купленных товаров (если такие имеются), разделённые запятой. Например, 1,2,3,4; или 1,2,3,4;5,6.

Гарантируется, что среди id купленных товаров все различные.

#### Важно:

* Сессии, в которых пользователь ничего не купил, исключаем из оценки качества.
* Если товар не встречался в обучающей выборке, его популярность равна 0.
* Рекомендуем разные товары. И их число должно быть не больше, чем количество различных просмотренных пользователем товаров.
* Рекомендаций всегда не больше, чем минимум из двух чисел: количество просмотренных пользователем товаров и k в recall@k / precision@k.

#### Задание

1. На обучении постройте частоты появления id в просмотренных и в купленных (id может несколько раз появляться в просмотренных, все появления надо учитывать)
2. Реализуйте два алгоритма рекомендаций:
* сортировка просмотренных id по популярности (частота появления в просмотренных),
* сортировка просмотренных id по покупаемости (частота появления в покупках).
3. Для данных алгоритмов выпишите через пробел AverageRecall@1, AveragePrecision@1, AverageRecall@5, AveragePrecision@5 на обучающей и тестовых выборках, округляя до 2 знака после запятой. Это будут ваши ответы в этом задании. Посмотрите, как они соотносятся друг с другом. Где качество получилось выше? Значимо ли это различие? Обратите внимание на различие качества на обучающей и тестовой выборке в случае рекомендаций по частотам покупки.

Если частота одинаковая, то сортировать нужно по возрастанию момента просмотра (чем раньше появился в просмотренных, тем больше приоритет)

#### Дополнительные вопросы

Обратите внимание, что при сортировке по покупаемости возникает много товаров с одинаковым рангом - это означает, что значение метрик будет зависеть от того, как мы будем сортировать товары с одинаковым рангом. Попробуйте убедиться, что при изменении сортировки таких товаров recall@k меняется. Подумайте, как оценить минимальное и максимальное значение recall@k в зависимости от правила сортировки.
Мы обучаемся и тестируемся на полных сессиях (в которых есть все просмотренные за сессию товары). Подумайте, почему полученная нами оценка качества рекомендаций в этом случае несколько завышена.

In [80]:
import pandas as pd
import numpy as np

In [81]:
data_train = pd.read_csv("coursera_sessions_train.txt", ";", header = 0, names = ["viewed", "bought"])
data_test = pd.read_csv("coursera_sessions_test.txt", ";", header = 0, names = ["viewed", "bought"])

In [82]:
data_train.head()

Unnamed: 0,viewed,bought
0,9101191112911,
1,161718192021,
2,2425262724,
3,343536343735363738393839,
4,42,


In [83]:
def parse_session_string(string):
    return [int(val) for val in string.split(",")]

def parse_session(views_string, buys_string):
    return (parse_session_string(views_string), parse_session_string(buys_string) if isinstance(buys_string, str) else [])

def update_frequencies(items, frequencies):
    for item in items:
        frequencies[item] = frequencies[item] + 1 if item in frequencies else 1

def build_data_frequencies(data):
    views_freq = {}
    buys_freq = {}
    for views_string, buys_string in data.values:
        views, buys = parse_session(views_string, buys_string)
        update_frequencies(views, views_freq)
        update_frequencies(buys, buys_freq)
    return (views_freq, buys_freq)

In [84]:
""" Merge sort module """

def merge(left_list, left_length, right_list, right_length, key, descending):
    """ applies ordered merging of two lists based on key """
    left_index = 0
    right_index = 0
    result = []
    if descending:
        less_than = (lambda right, left: right > left)
    else:
        less_than = (lambda right, left: right < left)
    while left_index < left_length and right_index < right_length:
        left = left_list[left_index]
        right = right_list[right_index]
        if less_than(key(right), key(left)):
            result.append(right)
            right_index += 1
        else:
            result.append(left)
            left_index += 1
    if left_index == left_length:
        return result + right_list[right_index:right_length]
    else:
        return result + left_list[left_index:left_length]

def merge_sort(data, key, descending=False):
    """ Applies merge sort in data based on key """
    list_length = len(data)
    if list_length > 1:
        left_length = int(list_length/2)
        right_length = list_length-left_length
        left_list = merge_sort(data[0:left_length], key, descending)
        right_list = merge_sort(data[left_length:list_length], key, descending)

        return merge(left_list, left_length, right_list, right_length, key, descending)
    else:
        return data

In [85]:
views_frequencies, buys_frequencies =  build_data_frequencies(data_train)

In [94]:
def popularity(view, frequencies):
    return float(frequencies[view] if view in frequencies else 0)

def unique_values(data, key):
    values = {}
    result = []
    for value in data:
        k = key(value)
        if k not in values:
            result.append(value)
            values[k] = True
    return result

def build_recommendations(views, frequencies, k):
    views_popularity = [(view, popularity(view, frequencies)) for view in views]
    sorted_views = merge_sort(views_popularity, lambda v: v[1], descending = True)
    recommendations_len = min(k, len(set(views)))
    return [view for (view, pop) in unique_values(sorted_views, lambda v: v[0])][:recommendations_len]

In [99]:
def precision(buys, recommendations, k):
    recommendations_in_buys = [1 if recommendation in buys else 0 for recommendation in recommendations]
    return float(sum(recommendations_in_buys))/float(k)

def recall(buys, recommendations):
    recommendations_in_buys = [1 if recommendation in buys else 0 for recommendation in recommendations]
    return float(sum(recommendations_in_buys))/float(len(buys)) if len(recommendations_in_buys) > 0 else 0.

def estimate_model(data, model, k):
    precision_sum = 0.
    recall_sum = 0.
    for views_string, buys_string in data.values:
        views, buys = parse_session(views_string, buys_string)
        recommendations = model(views, k)
        precision_sum += precision(buys, recommendations, k)
        recall_sum += recall(buys, recommendations)
    data_length = float(len(data))
    return (recall_sum/data_length, precision_sum/data_length)

In [100]:
models = [
    ("View frequency model", lambda views, k: build_recommendations(views, views_frequencies, k)),
    ("Purchase frequency model", lambda views, k: build_recommendations(views, buys_frequencies, k))
]

datas = [
    ("Train", data_train),
    ("Test", data_test)
]

ks = [1, 5]

data_train = data_train.dropna()
data_test = data_test.dropna()

for model_name, model in models:
    print(model_name)
    for data_name, data in datas:
        print(data_name)
        for k in ks:
            print(k, ":")
            average_recall, average_precision = estimate_model(data, model, k)
            print(np.round(average_recall, 2), np.round(average_precision, 2))

View frequency model
Train
1 :
0.44 0.51
5 :
0.82 0.21
Test
1 :
0.42 0.48
5 :
0.8 0.2
Purchase frequency model
Train
1 :
0.69 0.8
5 :
0.93 0.25
Test
1 :
0.46 0.53
5 :
0.82 0.21
