# GeekBrains, Recommendation Systems
# Lesson 3 Homework

**Импорт библиотек**

In [26]:
import itertools as it

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Для работы с матрицами
from scipy.sparse import csr_matrix

# Для поиска параметров ALS
from sklearn.model_selection import GridSearchCV

# Матричная факторизация
from implicit.als import AlternatingLeastSquares
from implicit.nearest_neighbours import bm25_weight, tfidf_weight
    
from metrics import precision_at_k, recall_at_k


%matplotlib inline

## Задание 1
**Ситуация**: Вы работаете Data Scientist'ом в крупном продуктовом российском ритейлере. Ваш конкурент сделал рекомендательную систему, и его продажи выросли. Ваш менеджмент тоже хочет увеличить продажи.

**Задача со слов менеджера**: Сделайте рекомендательную систему топ-10 товаров для рассылки по e-mail.

**Ожидание:** Отправляем e-mail с топ-10 товарами, отсортированными по вероятности.

**Реальность:**
1. Чего хочет менеджер от рекомендательной системы? (рост показателя X на Y% за Z недель)
2. По-хорошему надо бы предварительно посчитать потенциальный эффект от рекоммендательной системы (Оценки эффектов у менеджера и у вас могут сильно не совпадать: как правило, вы знаете про данные больше)
3. А у нас вообще есть e-mail-ы пользователей? Для скольки %? Не устарели ли они?
4. Будем ли использовать СМС и push-уведомления в приложении? Может, будем печатать рекомендации на чеке после оплаты на кассе?
5. Как будет выглядеть e-mail? (решаем задачу топ-10 рекомендаций или ранжирования? И топ-10 ли?)
6. Какие товары должны быть в e-mail? Есть ли какие-то ограничения (только акции и т п)?
7. Сколько денег мы готовы потратить на привлечение 1 юзера? CAC - Customer Aquisition Cost. Обычно CAC = расходы на коммуникацию + расходы на скидки
8. Cколько мы хотим зарабатывать с одного привлеченного юзера?

**Попытаться ответить на вопросы/выдвинуть гипотезы:**

9. А точно нужно сортировать по вероятности?
10. Какую метрику использовать?
11. Сколько раз в неделю отправляем рассылку?
12. В какое время отправляем рассылку?
13. Будем отправлять одному юзеру много раз наши рекоммендации. Как добиться того, чтобы они хоть немного отличались?
14. Нужно ли, чтобы в одной рассылке были *разные* товары? Как определить, что товары *разные*? Как добиться того, чтобы они были разными?

### Решение Задания 1

Если крупный продуктовый ритейлер, то значит торговля в большой степени продуктами питания, потребители покупают достаточно часто.

9. А точно нужно сортировать по вероятности?

Стоит сортировать не по вероятности, а по потенциальной выручке с товара - выручка с товара * вероятность.

10. Какую метрику использовать?

Money precision - она учитывает то, что мы рекомендуем именно релевантные товары, а также стоимость каждого рекомендованного товара.

11. Сколько раз в неделю отправляем рассылку?

2 раза в неделю вполне достаточно: 1. В пятницу, перед большой закупкой продуктов на выходных, 2. В середине недели, примерно во вторник, для подогрева интереса и покупки более мелких, импульсивных товаров.

12. В какое время отправляем рассылку?

В пятницу - утром или днем, чтобы увидели перед походом в магазин, а если пользователь заказывает онлайн - вечером пятницы или днем субботы. Во вторник - примерно за 1-2 часа до конца рабочего дня.

13. Будем отправлять одному юзеру много раз наши рекомендации. Как добиться того, чтобы они хоть немного отличались?

Можно рекомендовать не самый топ-10 товаров, а набирать 10 товаров из топ-5 или топ-7 товаров наиболее интересующих пользователя категорий. Таким образом, будет некий запас товаров, благодаря которым можно варьировать рекомендации. Еще один способ - дать некоторым категориям товаров увеличенный вес в соответствии со днем недели рассылки. Например, рекомендовать больше сладостей и закусок в середине недели, а хозяйственные товары оставить на конец недели.

14. Нужно ли, чтобы в одной рассылке были *разные* товары? Как определить, что товары *разные*? Как добиться того, чтобы они были разными?

Да, не стоит рекомендовать 5 различных брендов молока. "Разные" товары - те, которые при покупке пользователем первого товара не сильно влияют на покупку второго товара. Пример - вряд ли пользователь купит 2 разных вида молока, он просто возьмет 1 из них, другая рекомендация окажется бесполезной в повышении суммы продаж. Вместо этой бесполезной рекомендации стоит показать товар другой группы - хлеб, к примеру. Добить "разности" товаров можно с помощью ограничения на вхождение в рекомендации товаров каждой категории (напр. макс 1-2 молочных товара). Также можно найти "похожие" товары с помощью близости их векторов - если она выше определенного порога, то не рекомендуем эти товары вместе. Еще один вариант - посмотреть в датасете, какие товары никогда или очень редко покупаются вместе - они могут быть слишком похожи. Последний метод можно также объединить с методом подсчета близости векторов товаров.

## Задание 2
Доделать прошлые домашния задания.

### Решение Задания 2

+

## Задание 3
Прочитать статьи BM25/MatrixFactorization:
- BM25 - https://en.wikipedia.org/wiki/Okapi_BM25#:~:text=BM25%20is%20a%20bag%2Dof,slightly%20different%20components%20and%20parameters.
- Matrix factorization (ALS, SVD) - https://datasciencemadesimpler.wordpress.com/tag/alternating-least-squares/

### Решение Задания 3

+

## Задание 4
Поэкспериментировать с ALS (grid-search).

### Решение Задания 4

### 1. Базовое применение

Данные

In [2]:
data = pd.read_csv('../data/retail_train.csv')

In [3]:
data.columns = [col.lower() for col in data.columns]
data.rename(columns={'household_key': 'user_id',
                    'product_id': 'item_id'},
            inplace=True)

In [4]:
test_size_weeks = 3

data_train = data[data['week_no'] < data['week_no'].max() - test_size_weeks]
data_test = data[data['week_no'] >= data['week_no'].max() - test_size_weeks]

In [5]:
item_features = pd.read_csv('../data/product.csv')
item_features.columns = [col.lower() for col in item_features.columns]
item_features.rename(columns={'product_id': 'item_id'}, inplace=True)

In [6]:
result = data_test.groupby('user_id')['item_id'].unique().reset_index()
result.columns=['user_id', 'actual']

In [7]:
popularity = data_train.groupby('item_id')['quantity'].sum().reset_index()
popularity.rename(columns={'quantity': 'n_sold'}, inplace=True)
top_5000 = popularity.sort_values('n_sold', ascending=False).head(5000).item_id.tolist()

In [8]:
# Заведем фиктивный item_id
data_train.loc[~data_train['item_id'].isin(top_5000), 'item_id'] = 999999

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [9]:
user_item_matrix = pd.pivot_table(data_train, 
                                  index='user_id', columns='item_id', 
                                  values='quantity', # Можно пробоват ьдругие варианты
                                  aggfunc='count', 
                                  fill_value=0
                                 )

user_item_matrix = user_item_matrix.astype(float) # необходимый тип матрицы для implicit

In [10]:
# переведем в формат saprse matrix
sparse_user_item = csr_matrix(user_item_matrix)

In [11]:
userids = user_item_matrix.index.values
itemids = user_item_matrix.columns.values

matrix_userids = np.arange(len(userids))
matrix_itemids = np.arange(len(itemids))

id_to_itemid = dict(zip(matrix_itemids, itemids))
id_to_userid = dict(zip(matrix_userids, userids))

itemid_to_id = dict(zip(itemids, matrix_itemids))
userid_to_id = dict(zip(userids, matrix_userids))

ALS

In [22]:
def get_recommendations(user, model, N=5):
    res = [id_to_itemid[rec[0]] for rec in 
                    model.recommend(userid=userid_to_id[user], 
                                    user_items=sparse_user_item,   # на вход user-item matrix
                                    N=N, 
                                    filter_already_liked_items=False, 
                                    filter_items=None, 
                                    recalculate_user=True)]
    return res

In [55]:
def score_als_precision(model, user_ids, actual_recs, N=5):
#     model.fit(csr_matrix(user_item_matrix).T,  # На вход item-user matrix
#               show_progress=True)

#     recs = model.recommend(userid=userid_to_id[2],  # userid - id от 0 до N
#                            user_items=csr_matrix(user_item_matrix).tocsr(),   # на вход user-item matrix
#                            N=5, # кол-во рекомендаций 
#                            filter_already_liked_items=False, 
#                            filter_items=None, 
#                            recalculate_user=True)
    
    recs = user_ids.apply(lambda x: get_recommendations(x, model=model, N=N))
    result = pd.DataFrame(actual_recs)
    result = result.rename(columns={'user_id': 'actual'})
    result['recs'] = recs
    score = result.apply(lambda row: precision_at_k(row['recs'], row['actual']), axis=1).mean()
    
    return score

In [37]:
rec_results = data_test.groupby('user_id')['item_id'].unique().reset_index()
rec_results.columns=['user_id', 'actual']
rec_results.head(2)

Unnamed: 0,user_id,actual
0,1,"[821867, 834484, 856942, 865456, 889248, 90795..."
1,3,"[835476, 851057, 872021, 878302, 879948, 90963..."


In [25]:
parameters = {'factors': [32, 64, 128],
              'regularization': [0.0001, 0.001, 0.01],
              'iterations': [10, 15, 20]}

In [58]:
%%time

scores = []
for factors, reg, iters in it.product(*parameters.values()):
    model = AlternatingLeastSquares(factors=factors, 
                                    regularization=reg,
                                    iterations=iters, 
                                    calculate_training_loss=True, 
                                    num_threads=6)

    model.fit(csr_matrix(user_item_matrix).T,  # На вход item-user matrix
              show_progress=True)
    
    score = {'factors': factors,
             'regularization': reg,
             'iterations': iters,
             'score': score_als_precision(model, rec_results['user_id'], rec_results['actual'], N=5)}
    scores.append(score)

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/15 [00:00<?, ?it/s]

  0%|          | 0/20 [00:00<?, ?it/s]

Wall time: 17min 4s


In [None]:
scores

In [61]:
pd.DataFrame(scores, index=range(len(scores))).sort_values('score', ascending=False)

Unnamed: 0,factors,regularization,iterations,score
7,32,0.01,15,0.170813
12,64,0.001,10,0.16905
17,64,0.01,20,0.16905
15,64,0.01,10,0.16856
3,32,0.001,10,0.168168
2,32,0.0001,20,0.167385
6,32,0.01,10,0.166601
8,32,0.01,20,0.166503
0,32,0.0001,10,0.166308
4,32,0.001,15,0.166112


Лучше всего себя показала модель с параметрами:
- factors = 32
- regularization = 0.01
- iterations = 15