# Рекоммендательные системы.
### Описание задачи.
Небольшой интернет-магазин попросил вас добавить ранжирование товаров в блок "Смотрели ранее" - в нем теперь надо показывать не последние просмотренные пользователем товары, а те товары из просмотренных, которые он наиболее вероятно купит. Качество вашего решения будет оцениваться по количеству покупок в сравнении с прошлым решением в ходе А/В теста, т.к. по доходу от продаж статзначимость будет достигаться дольше из-за разброса цен. Таким образом, ничего заранее не зная про корреляцию оффлайновых и онлайновых метрик качества, в начале проекта вы можете лишь постараться оптимизировать recall@k и precision@k.

Это задание посвящено построению простых бейзлайнов для этой задачи: ранжирование просмотренных товаров по частоте просмотров и по частоте покупок. Эти бейзлайны, с одной стороны, могут помочь вам грубо оценить возможный эффект от ранжирования товаров в блоке - например, чтобы вписать какие-то числа в коммерческое предложение заказчику, а с другой стороны, могут оказаться самым хорошим вариантом, если данных очень мало (недостаточно для обучения даже простых моделей).
### Входные данные.
Вам дается две выборки с пользовательскими сессиями - id-шниками просмотренных и id-шниками купленных товаров. Одна выборка будет использоваться для обучения (оценки популярностей товаров), а другая - для теста.

В файлах записаны сессии по одной в каждой строке. Формат сессии: id просмотренных товаров через , затем идёт ; после чего следуют id купленных товаров (если такие имеются), разделённые запятой. Например, 1,2,3,4; или 1,2,3,4;5,6.

Гарантируется, что среди id купленных товаров все различные.
### Важно.
 - Сессии, в которых пользователь ничего не купил, исключаем из оценки качества.
 - Если товар не встречался в обучающей выборке, его популярность равна 0.
 - Рекомендуем разные товары. И их число должно быть не больше, чем количество различных просмотренных пользователем товаров.
 - Рекомендаций всегда не больше, чем минимум из двух чисел: количество просмотренных пользователем товаров и k в recall@k / precision@k.
 
### Задание.
 - На обучении постройте частоты появления id в просмотренных и в купленных (id может несколько раз появляться в просмотренных, все появления надо учитывать) 


 - Реализуйте два алгоритма рекомендаций:
     1. сортировка просмотренных id по популярности (частота появления в просмотренных),
     2.  сортировка просмотренных id по покупаемости (частота появления в покупках).
 

 - Для данных алгоритмов выпишите через пробел AverageRecall@1, AveragePrecision@1, AverageRecall@5, AveragePrecision@5 на обучающей и тестовых выборках, округляя до 2 знака после запятой. Это будут ваши ответы в этом задании. Посмотрите, как они соотносятся друг с другом. Где качество получилось выше? Значимо ли это различие? Обратите внимание на различие качества на обучающей и тестовой выборке в случае рекомендаций по частотам покупки.

Если частота одинаковая, то сортировать нужно по возрастанию момента просмотра (чем раньше появился в просмотренных, тем больше приоритет)

### Дополнительные вопросы.

Обратите внимание, что при сортировке по покупаемости возникает много товаров с одинаковым рангом - это означает, что значение метрик будет зависеть от того, как мы будем сортировать товары с одинаковым рангом. Попробуйте убедиться, что при изменении сортировки таких товаров recall@k меняется. Подумайте, как оценить минимальное и максимальное значение recall@k в зависимости от правила сортировки.
Мы обучаемся и тестируемся на полных сессиях (в которых есть все просмотренные за сессию товары). Подумайте, почему полученная нами оценка качества рекомендаций в этом случае несколько завышена.



In [1]:
import numpy as np
from collections import Counter, OrderedDict

#### 1. Reading train and test data.

In [2]:
with open('coursera_sessions_train.txt', 'r') as f:
    train_data = f.read().splitlines()

with open('coursera_sessions_test.txt', 'r') as f:
    test_data = f.read().splitlines()

#### 2. Creating a dictionary from a session and adding it to the sessions list.

In [3]:
def list_of_dicts(data):
    new_list = []
    for session in data:
        viewed_id, purchased_id = session.split(';')
        viewed_id = list(map(int, viewed_id.split(',')))
        if len(purchased_id) > 0:
            purchased_id = list(map(int, purchased_id.split(',')))
        else:
            purchased_id = []
        new_list.append({'viewed': viewed_id, 'purchased': purchased_id})
    return new_list

train_sessions = list_of_dicts(train_data)
test_sessions = list_of_dicts(test_data)

#### 3. Creating counters.

In [4]:
viewed_counter = Counter()
purchased_counter = Counter()

for session in train_sessions:
    viewed_counter.update(session['viewed'])
    purchased_counter.update(session['purchased'])

#### 4. Creating lists of sessions where purchase was made.

In [5]:
ptrain_sessions = []
ptest_sessions = []

for session in train_sessions:
    if session['purchased'] != []:
        ptrain_sessions.append(session)

for session in test_sessions:
    if session['purchased'] != []:
        ptest_sessions.append(session)

#### 5. Sorting viewed ids by popularity and by purchasing.

In [6]:
def sorting_by_popularity(sessions_data):
    new_list = []
    for session in sessions_data:
        d = {}
        ids = list(OrderedDict.fromkeys(session['viewed']))
        d['viewed'] = sorted(ids, key=lambda x: viewed_counter[x], reverse=True) 
        d['purchased'] = session['purchased']
        new_list.append(d)
    return new_list
    

def sorting_by_purchasing(sessions_data):
    new_list = []
    for session in sessions_data:
        d = {}
        ids = list(OrderedDict.fromkeys(session['viewed']))
        d['viewed'] = sorted(ids, key=lambda x: purchased_counter[x], reverse=True)
        d['purchased'] = session['purchased']
        new_list.append(d)
    return new_list

In [7]:
ptrain_popularity = sorting_by_popularity(ptrain_sessions)
ptrain_purchasing = sorting_by_purchasing(ptrain_sessions)

ptest_popularity = sorting_by_popularity(ptest_sessions)
ptest_purchasing = sorting_by_purchasing(ptest_sessions)

#### 6. Functions of precision@k and recall@k.

In [8]:
def precision_k(sessions_data, k):
    precisions_list = []
    for session in sessions_data:
        i = 0
        rec_ids = session['viewed'][:k]
        pur_ids = session['purchased']
        for rec in rec_ids:
            for pur in pur_ids:
                if rec == pur:
                    i += 1
        precisions_list.append(i/k)
    return precisions_list

def recall_k(sessions_data, k):
    recalls_list = []
    for session in sessions_data:
        i = 0
        rec_ids = session['viewed'][:k]
        pur_ids = session['purchased']
        for rec in rec_ids:
            for pur in pur_ids:
                if rec == pur:
                    i +=1
        recalls_list.append(i/len(pur_ids))
    return recalls_list                 

#### 7. Calculating and writing answers.

In [9]:
def answer(data):
    answer = []
    for k in (1, 5):
        rec = round(np.mean(recall_k(data, k)), 2)
        answer.append(rec)
        prec = round(np.mean(precision_k(data, k)), 2)
        answer.append(prec)
    return answer

answer1 = answer(ptrain_popularity)
print('Answer 1: ' + ' '.join(map(str, answer1)))
with open('answer1.txt', 'w') as f:
    f.write(' '.join(map(str, answer1)))
    
answer2 = answer(ptest_popularity)
print('Answer 2: ' + ' '.join(map(str, answer2)))
with open('answer2.txt', 'w') as f:
    f.write(' '.join(map(str, answer2)))

answer3 = answer(ptrain_purchasing)
print('Answer 3: ' + ' '.join(map(str, answer3)))
with open('answer3.txt', 'w') as f:
    f.write(' '.join(map(str, answer3)))
    
answer4 = answer(ptest_purchasing)
print('Answer 4: ' + ' '.join(map(str, answer4)))
with open('answer4.txt', 'w') as f:
    f.write(' '.join(map(str, answer4)))

Answer 1: 0.44 0.51 0.82 0.21
Answer 2: 0.42 0.48 0.8 0.2
Answer 3: 0.69 0.8 0.93 0.25
Answer 4: 0.46 0.53 0.82 0.21
