In [1]:
import numpy as np
import pandas as pd
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [2]:
with open("coursera_sessions_train.txt", "r") as f:
    train = f.read().splitlines()
with open("coursera_sessions_test.txt", "r") as f:
    test = f.read().splitlines()
def save_answerArray(fname, array):
    with open(fname,"w") as fout:
        fout.write(" ".join([str(el) for el in array]))

**Описание задачи**

Небольшой интернет-магазин попросил вас добавить ранжирование товаров в блок "Смотрели ранее" - в нем теперь надо показывать не последние просмотренные пользователем товары, а те товары из просмотренных, которые он наиболее вероятно купит. Качество вашего решения будет оцениваться по количеству покупок в сравнении с прошлым решением в ходе А/В теста, т.к. по доходу от продаж статзначимость будет достигаться дольше из-за разброса цен. Таким образом, ничего заранее не зная про корреляцию оффлайновых и онлайновых метрик качества, в начале проекта вы можете лишь постараться оптимизировать recall@k и precision@k.

Это задание посвящено построению простых бейзлайнов для этой задачи: ранжирование просмотренных товаров по частоте просмотров и по частоте покупок. Эти бейзлайны, с одной стороны, могут помочь вам грубо оценить возможный эффект от ранжирования товаров в блоке - например, чтобы вписать какие-то числа в коммерческое предложение заказчику, а с другой стороны, могут оказаться самым хорошим вариантом, если данных очень мало (недостаточно для обучения даже простых моделей).

**Входные данные**

Вам дается две выборки с пользовательскими сессиями - id-шниками просмотренных и id-шниками купленных товаров. Одна выборка будет использоваться для обучения (оценки популярностей товаров), а другая - для теста.

В файлах записаны сессии по одной в каждой строке. Формат сессии: id просмотренных товаров через , затем идёт ; после чего следуют id купленных товаров (если такие имеются), разделённые запятой. Например, 1,2,3,4; или 1,2,3,4;5,6.

Гарантируется, что среди id купленных товаров все различные.

**Важно:**

* Сессии, в которых пользователь ничего не купил, исключаем из оценки качества.
* Если товар не встречался в обучающей выборке, его популярность равна 0.
* Рекомендуем разные товары. И их число должно быть не больше, чем количество различных просмотренных пользователем товаров.
* Рекомендаций всегда не больше, чем минимум из двух чисел: количество просмотренных пользователем товаров и k в recall@k / precision@k.

**Задание**

1. На обучении постройте частоты появления id в просмотренных и в купленных (id может несколько раз появляться в просмотренных, все появления надо учитывать)
2. Реализуйте два алгоритма рекомендаций:
    * сортировка просмотренных id по популярности (частота появления в просмотренных),
    * сортировка просмотренных id по покупаемости (частота появления в покупках).
3. Для данных алгоритмов выпишите через пробел **AverageRecall@1, AveragePrecision@1, AverageRecall@5, AveragePrecision@5** на обучающей и тестовых выборках, округляя до 2 знака после запятой. Это будут ваши ответы в этом задании. Посмотрите, как они соотносятся друг с другом. Где качество получилось выше? Значимо ли это различие? Обратите внимание на различие качества на обучающей и тестовой выборке в случае рекомендаций по частотам покупки.

Если частота одинаковая, то сортировать нужно по возрастанию момента просмотра (чем раньше появился в просмотренных, тем больше приоритет)

**Дополнительные вопросы**

* Обратите внимание, что при сортировке по покупаемости возникает много товаров с одинаковым рангом - это означает, что значение метрик будет зависеть от того, как мы будем сортировать товары с одинаковым рангом. Попробуйте убедиться, что при изменении сортировки таких товаров **recall@k** меняется. Подумайте, как оценить минимальное и максимальное значение **recall@k** в зависимости от правила сортировки.
* Мы обучаемся и тестируемся на полных сессиях (в которых есть все просмотренные за сессию товары). Подумайте, почему полученная нами оценка качества рекомендаций в этом случае несколько завышена.


In [91]:
#split to looks and purchases sorting by freq of of looks/purchases
def make_split(x):
    purchases = []
    looks = []
    for session in x:
        l, p = session.split(';')
        l = [int(t) for t in l.split(',')]
        if len(p) > 0:
            p = [int(t) for t in p.split(',')]
        else:
            p = []
        looks.append(l)
        purchases.append(p)    
    looks_unique = np.transpose(np.unique(np.array([id_ for sess in looks for id_ in sess]),
                                              return_counts = True))
    purchases_unique = np.transpose(np.unique(np.array([id_ for sess in purchases for id_ in sess]),
                                              return_counts = True))
    return looks_unique, purchases_unique, purchases, looks

looks_unique, purchases_unique, purchases, looks = make_split(train)
looks_unique = looks_unique[looks_unique[:, 1].argsort()][::-1]
purchases_unique = purchases_unique[purchases_unique[:, 1].argsort()][::-1]

In [92]:
test_looks_unique, test_purchases_unique, test_purchases, test_looks = make_split(test)

In [93]:
#defining metrics
def precision_recall_metrics(session, reccomendations, k):
    purchase = 0
    for ind in reccomendations:
        if ind in session:
            purchase += 1 
    precision = purchase / k
    recall = purchase / len(session)
    return(precision, recall)

In [94]:
#by populartity
k1 = 1; k5 = 5
prec_k1, prec_k5 = [], []
recall_k1, recall_k5 = [], []

for index, session in enumerate(purchases):
    if session == []:
        continue
        
    corresp_looks = looks[index]
    looks_session = []
    
    for jndex in range(len(corresp_looks)):
        looks_session.append(np.where(looks_unique[:, 0] == corresp_looks[jndex])[0][0])
        
    unique_looks_session = np.unique(looks_session)
    
    # k1 recommendations
    num_of_recs_k1 = min(k1, len(corresp_looks))
    if num_of_recs_k1 != 0: 
        recs_k1 = looks_unique[unique_looks_session[:num_of_recs_k1], 0]
    
    # k1 metrics
    prec_1, rec_1 = precision_recall_metrics(session, recs_k1, k1)
    prec_k1.append(prec_1)
    recall_k1.append(rec_1)
    
    # k5 recommendations
    num_of_recs_k5 = min(k5, len(corresp_looks))
    if num_of_recs_k5 != 0:
        recs_k5 = looks_unique[unique_looks_session[:num_of_recs_k5], 0]
    
    # k5 metrics
    prec_5, rec_5 = precision_recall_metrics(session, recs_k5, k5)
    prec_k5.append(prec_5)
    recall_k5.append(rec_5)


In [95]:
print(round(np.mean(recall_k1), 2))
print(round(np.mean(prec_k1), 2))
print(round(np.mean(recall_k5), 2))
print(round(np.mean(prec_k5), 2))
#save_answerArray("A__3.txt", [0.40, 0.46, 0.79, 0.20])
#save_answerArray("A__1.txt", [0.44, 0.51, 0.83, 0.21])

0.44
0.51
0.83
0.21


In [96]:
#by purchases
prec_k1, prec_k5 = [], []
recall_k1, recall_k5 = [], []

for index, _session in enumerate(purchases):
    if _session == []:
        continue
        
    corresp_looks = looks[index]
    session = []
    
    for jndex in range(len(corresp_looks)):
        if corresp_looks[jndex] in purchases_unique[:, 0]: 
            session.append(np.where(purchases_unique[:, 0] == corresp_looks[jndex])[0][0])
            
    unique_session = np.unique(session)

    # k1 recommendations
    num_of_recs_k1 = min(k1, len(unique_session))
    if num_of_recs_k1 != 0:
        recs_k1 = purchases_unique[unique_session[:num_of_recs_k1], 0]

    # k1 metrics
    prec_1, rec_1 = precision_recall_metrics(_session, recs_k1, k1)
    prec_k1.append(prec_1)
    recall_k1.append(rec_1)

    # k5 recommendations
    num_of_recs_k5 = min(k5, len(unique_session))
    if num_of_recs_k5 != 0:
        recs_k5 = purchases_unique[unique_session[:num_of_recs_k5], 0]

    # k5 metrics
    prec_5, rec_5 = precision_recall_metrics(_session, recs_k5, k5)
    prec_k5.append(prec_5)
    recall_k5.append(rec_5)


In [97]:
print(round(np.mean(recall_k1), 2))
print(round(np.mean(prec_k1), 2))
print(round(np.mean(recall_k5), 2))
print(round(np.mean(prec_k5), 2))
#save_answerArray("A__4.txt", [0.64, 0.74, 0.91, 0.25])
#save_answerArray("A__2.txt", [0.68, 0.79, 0.93, 0.25])

0.67
0.79
0.93
0.25


In [98]:
#by populartity -- test
k1 = 1; k5 = 5
prec_k1, prec_k5 = [], []
recall_k1, recall_k5 = [], []
for index, session in enumerate(test_purchases):
    if session == []:
        continue
        
    corresp_looks = test_looks[index]
    looks_session = []
    new_ids = []
    
    for jndex in range(len(corresp_looks)):
        if corresp_looks[jndex] not in looks_unique[:, 0]:
            new_ids.append(corresp_looks[jndex])
            continue
        looks_session.append(np.where(looks_unique[:, 0] == corresp_looks[jndex])[0][0])
        
    unique_looks_session = np.unique(looks_session)
    
    # k1 recommendations
    num_of_recs_k1 = min(k1, len(corresp_looks))
    if num_of_recs_k1 != 0: 
        if looks_session != []:
            recs_k1 = looks_unique[unique_looks_session[:num_of_recs_k1],0]
        else:
            recs_k1 = []
        recs_k1 = np.concatenate((np.array(recs_k1),
                                  np.unique(np.array(new_ids))))[:num_of_recs_k1]    
  
    # k1 metrics
    prec_1, rec_1 = precision_recall_metrics(session, recs_k1, k1)
    prec_k1.append(prec_1)
    recall_k1.append(rec_1)
    
    # k5 recommendations
    num_of_recs_k5 = min(k5, len(corresp_looks))
    if num_of_recs_k5 != 0: 
        if looks_session != []:
            recs_k5 = looks_unique[unique_looks_session[:num_of_recs_k5], 0]
        else:
            recs_k5 = []
        recs_k5 = np.concatenate((np.array(recs_k5),
                                  np.unique(np.array(new_ids))))[:num_of_recs_k5]  
    
    # k5 metrics
    prec_5, rec_5 = precision_recall_metrics(session, recs_k5, k5)
    prec_k5.append(prec_5)
    recall_k5.append(rec_5)


In [99]:
print(round(np.mean(recall_k1), 2))
print(round(np.mean(prec_k1), 2))
print(round(np.mean(recall_k5), 2))
print(round(np.mean(prec_k5), 2))
save_answerArray("A__3.txt", [0.42, 0.48, 0.80, 0.20])

0.42
0.48
0.8
0.2


In [112]:
#by purchases -- test
prec_k1, prec_k5 = [], []
recall_k1, recall_k5 = [], []

def f(seq):
    seen = set()
    return [x for x in seq if not (x in seen or seen.add(x))]

for index, session in enumerate(test_purchases):
    if session == []:
        continue
        
    corresp_looks = test_looks[index]
    looks_session = []
    new_ids = []
    
    for jndex in range(len(corresp_looks)):
        if corresp_looks[jndex] not in purchases_unique[:, 0]:
            new_ids.append(corresp_looks[jndex])
            continue
        looks_session.append(np.where(purchases_unique[:, 0] == corresp_looks[jndex])[0][0])
            
    unique_session = np.unique(looks_session)

    # k1 recommendations
    num_of_recs_k1 = min(k1, len(corresp_looks))
    if num_of_recs_k1 != 0: 
        if looks_session != []:
            recs_k1 = purchases_unique[unique_session[:num_of_recs_k1],0]
        else:
            recs_k1 = []
    
        recs_k1 = np.concatenate((np.array(recs_k1),
                                  np.array(f(new_ids))))[:num_of_recs_k1]    
  
    # k1 metrics
    prec_1, rec_1 = precision_recall_metrics(session, recs_k1, k1)
    prec_k1.append(prec_1)
    recall_k1.append(rec_1)
    
    # k5 recommendations
    num_of_recs_k5 = min(k5, len(corresp_looks))
    if num_of_recs_k5 != 0: 
        if looks_session != []:
            recs_k5 = purchases_unique[unique_session[:num_of_recs_k5], 0]
        else:
            recs_k5 = []
   
        recs_k5 = np.concatenate((np.array(recs_k5),
                                  np.array(f(new_ids))))[:num_of_recs_k5]    
    # k5 metrics
    prec_5, rec_5 = precision_recall_metrics(session, recs_k5, k5)
    prec_k5.append(prec_5)
    recall_k5.append(rec_5)

In [113]:
print(round(np.mean(recall_k1), 2))
print(round(np.mean(prec_k1), 2))
print(round(np.mean(recall_k5), 2))
print(round(np.mean(prec_k5), 2))
save_answerArray("A__4.txt", [0.46, 0.52, 0.82, 0.21])

0.46
0.52
0.82
0.21
