# Рекомендательные системы
## Programming assignment

***Oписание задачи:***

Небольшой интернет-магазин попросил вас добавить ранжирование товаров в блок "Смотрели ранее" - в нем теперь надо показывать не последние просмотренные пользователем товары, а те товары из просмотренных, которые он наиболее вероятно купит. Качество вашего решения будет оцениваться по количеству покупок в сравнении с прошлым решением в ходе А/В теста, т.к. по доходу от продаж статзначимость будет достигаться дольше из-за разброса цен. Таким образом, ничего заранее не зная про корреляцию оффлайновых и онлайновых метрик качества, в начале проекта вы можете лишь постараться оптимизировать **recall@k** и **precision@k**.

Это задание посвящено построению простых бейзлайнов для этой задачи: ранжирование просмотренных товаров по частоте просмотров и по частоте покупок. Эти бейзлайны, с одной стороны, могут помочь вам грубо оценить возможный эффект от ранжирования товаров в блоке - например, чтобы вписать какие-то числа в коммерческое предложение заказчику, а с другой стороны, могут оказаться самым хорошим вариантом, если данных очень мало (недостаточно для обучения даже простых моделей).

In [115]:
import pandas as pd
import numpy as np
from __future__ import division

In [116]:
train_data = pd.read_csv('coursera_sessions_train.txt', sep=';', names=['viewed', 'purchased'])
test_data = pd.read_csv('coursera_sessions_test.txt', sep=';', names=['viewed', 'purchased'])

***Входные данные***

Вам дается две выборки с пользовательскими сессиями - **id**-шниками просмотренных и **id**-шниками купленных товаров. Одна выборка будет использоваться для обучения (оценки популярностей товаров), а другая - для теста.

В файлах записаны сессии по одной в каждой строке. Формат сессии: **id** просмотренных товаров через , затем идёт ; после чего следуют id купленных товаров (если такие имеются), разделённые запятой. Например, **1,2,3,4**; или **1,2,3,4;5,6**.

Гарантируется, что среди **id** купленных товаров все различные.

***Важно:***

- Сессии, в которых пользователь ничего не купил, исключаем из оценки качества.
- Если товар не встречался в обучающей выборке, его популярность равна 0.
- Рекомендуем разные товары. И их число должно быть не больше, чем количество различных просмотренных пользователем товаров.
- Рекомендаций всегда не больше, чем минимум из двух чисел: количество просмотренных пользователем товаров и **k** в **recall@k / precision@k.**

**Задание:**

1. На обучении постройте частоты появления **id** в просмотренных и в купленных (**id** может несколько раз появляться в просмотренных, все появления надо учитывать)
2. Реализуйте два алгоритма рекомендаций:
    - сортировка просмотренных **id** по популярности (частота появления в просмотренных),
    - сортировка просмотренных **id** по покупаемости (частота появления в покупках).
3. Для данных алгоритмов выпишите через пробел **AverageRecall@1**, **AveragePrecision@1**, **AverageRecall@5**, **AveragePrecision@5** на обучающей и тестовых выборках, округляя до 2 знака после запятой. Это будут ваши ответы в этом задании. Посмотрите, как они соотносятся друг с другом. Где качество получилось выше? Значимо ли это различие? Обратите внимание на различие качества на обучающей и тестовой выборке в случае рекомендаций по частотам покупки.

Если частота одинаковая, то сортировать нужно по возрастанию момента просмотра (чем раньше появился в просмотренных, тем больше приоритет)

In [318]:
from collections import OrderedDict, Counter


viewed = OrderedDict()
for session in train_data['viewed']:
    for product in session.split(','):
        viewed[product] = viewed.get(product, 0) + 1 

for session in test_data.dropna()['viewed'].values:
    for product in session.split(','):
        if product not in viewed:
            viewed[product] = 0
        elif product not in purchased:
            purchased[product] = 0
                   
purchased = OrderedDict()
for session in train_data.dropna()['purchased']:
    for product in session.split(','):
        purchased[product] = purchased.get(product, 0) + 1

In [315]:
is_viewed = []
for session in train_data['viewed'].values:
    for product in session.split(','):
        is_viewed_train.append(product)

In [335]:
is_viewed_test = []
for session in test_data['viewed'].values:
    for product in session.split(','):
        is_viewed_test.append(product)

In [369]:
for product in is_viewed:
    if product not in purchased:
        purchased[product] = 0

In [336]:
for product in is_viewed_test:
    if product not in purchased:
        purchased[product] = 0

In [328]:
purchased['70']

KeyError: '70'

In [119]:
sorted_train_viewed = []
sorted_train_purchased = []
for idx in train_data.dropna()['viewed'].values:
    sorted_train_viewed.append(sorted(set(idx.split(',')), key=lambda idx: viewed[idx], reverse=True))
    sorted_train_purchased.append(sorted(set(idx.split(',')), key=lambda idx: purchased[idx], reverse=True))

In [321]:
sorted_train_purchased = []
for idx in train_data.dropna()['viewed'].values:
    sorted_train_purchased.append(sorted(set(idx.split(',')), key=lambda idx: (purchased[idx], train_order[idx]), reverse=True))

In [373]:
sorted_test_purchased = []
for idx in test_data.dropna()['viewed'].values:
    sorted_test_purchased.append(sorted(set(idx.split(',')), key=lambda idx: (purchased[idx], test_order[idx]), reverse=True))

In [372]:
train_order

{'50088': 16,
 '58146': 16,
 '44884': 14,
 '13356': 16,
 '73399': 15,
 '99682': 15,
 '11542': 19,
 '11543': 18,
 '11540': 19,
 '11541': 20,
 '11546': 15,
 '11547': 14,
 '11544': 17,
 '11545': 16,
 '89378': 14,
 '89379': 13,
 '11548': 19,
 '11549': 19,
 '91138': 19,
 '5988': 20,
 '19399': -17,
 '19398': -15,
 '5982': 11,
 '19396': -13,
 '5980': 13,
 '5981': 12,
 '5986': 19,
 '5987': 18,
 '19391': -7,
 '5985': 20,
 '73393': 13,
 '82449': 16,
 '82448': 17,
 '72706': 20,
 '73392': 20,
 '82443': 11,
 '36602': 20,
 '82441': 13,
 '82440': 14,
 '82447': 18,
 '82446': 19,
 '82445': 20,
 '82444': 20,
 '57481': 11,
 '57480': 12,
 '83894': 13,
 '57483': 18,
 '2555': 20,
 '57485': 18,
 '73394': 20,
 '72628': 17,
 '82991': 20,
 '82990': 18,
 '82993': 20,
 '82992': 20,
 '88391': 19,
 '88390': 20,
 '46139': 17,
 '46138': 18,
 '46137': 19,
 '46136': 20,
 '46135': 16,
 '46134': 18,
 '46133': 20,
 '46132': 18,
 '46131': 20,
 '46130': 19,
 '72704': 20,
 '36706': 6,
 '89374': 19,
 '97150': 20,
 '89375': 18

In [291]:
train_order = dict()
for session in train_data['viewed'].values:
    idx = 20
    for product in session.split(','):
        if product not in train_order:
            train_order[product] = idx
            idx -= 1

In [293]:
test_order = dict()
for session in test_data['viewed'].values:
    idx = 20
    for product in session.split(','):
        if product not in test_order:
            test_order[product] = idx
            idx -= 1

In [157]:
sorted_test_viewed = []
sorted_test_purchased = []
for idx in test_data.dropna()['viewed'].values:
    sorted_test_viewed.append(sorted(set(idx.split(',')), key=lambda idx: viewed[idx], reverse=True))
    sorted_test_purchased.append(sorted(set(idx.split(',')), key=lambda idx: purchased[idx], reverse=True))

In [16]:
def precision_k(sorted_list, data, k):
    answer_list = []
    for viewed, purchased in zip(sorted_list, data.dropna()['purchased'].values):
        res = len(set(viewed[:k]) & set(purchased.split(','))) / k
        answer_list.append(res)
    return round(np.mean(answer_list), 2)

In [23]:
def recall_k(sorted_list, data, k):
    answer_list = []
    for viewed, purchased in zip(sorted_list, data.dropna()['purchased'].values):
        res = len(set(viewed[:k]) & set(purchased.split(','))) / len(purchased.split(','))
        answer_list.append(res)
    return round(np.mean(answer_list), 2)

In [178]:
def write_answer_to_file(answer, filename):
    with open(filename, 'w') as f_out:
        f_out.write(' '.join(str(num) for num in answer))

In [158]:
answer_1 = recall_k(sorted_train_viewed, train_data, k=1), precision_k(sorted_train_viewed, train_data, k=1), \
           recall_k(sorted_train_viewed, train_data, k=5), precision_k(sorted_train_viewed, train_data, k=5)

In [159]:
answer_2 = recall_k(sorted_test_viewed, test_data, k=1), precision_k(sorted_test_viewed, test_data, k=1), \
           recall_k(sorted_test_viewed, test_data, k=5), precision_k(sorted_test_viewed, test_data, k=5)

In [324]:
answer_3 = recall_k(sorted_train_purchased, train_data, k=1), precision_k(sorted_train_purchased, train_data, k=1), \
           recall_k(sorted_train_purchased, train_data, k=5), precision_k(sorted_train_purchased, train_data, k=5)

In [374]:
answer_4 = recall_k(sorted_test_purchased, test_data, k=1), precision_k(sorted_test_purchased, test_data, k=1), \
           recall_k(sorted_test_purchased, test_data, k=5), precision_k(sorted_test_purchased, test_data, k=5)

In [299]:
sorted_train_purchased[1]

['85', '93', '86', '84', '87', '88', '89', '90', '91', '92']

In [375]:
answer_4

(0.43, 0.49, 0.8, 0.2)

In [367]:
purchased['546']

0

In [363]:
sorted_test_purchased[6]

['544', '545', '543', '546']

In [346]:
test_data.dropna()

Unnamed: 0,viewed,purchased
7,63686970666159616668,6663
14,158159160159161162,162
19,200201202203204,201205
34,371372371,371373
40,422,422
47,"463,465,466,465,19,467,464,468,469,470,471,472...",462460
57,543544545546,543
94,"900,894,904,894,902,904,905,906,895,894,901,89...",904
115,1063,1063
125,"1119,1120,1121,1122,1123,1124,1125,1126,1123,1...",1126


In [340]:
write_answer_to_file(answer_1, 'views_popularity_train.txt')
write_answer_to_file(answer_2, 'views_popularity_test.txt')
write_answer_to_file(answer_3, 'purchases_popularity_train.txt')
write_answer_to_file(answer_4, 'purchases_popularity_test.txt')