In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Для работы с матрицами
from scipy.sparse import csr_matrix

# Матричная факторизация
from implicit.als import AlternatingLeastSquares
from implicit.nearest_neighbours import bm25_weight, tfidf_weight

# Функции из 1-ого вебинара
import os, sys

module_path = os.path.abspath(os.path.join(os.pardir))
if module_path not in sys.path:
    sys.path.append(module_path)
    
from metrics import precision_at_k, recall_at_k

In [2]:
data = pd.read_csv('transaction_data.csv')

data.columns = [col.lower() for col in data.columns]
data.rename(columns={'household_key': 'user_id',
                    'product_id': 'item_id'},
           inplace=True)


test_size_weeks = 3

data_train = data[data['week_no'] < data['week_no'].max() - test_size_weeks]
data_test = data[data['week_no'] >= data['week_no'].max() - test_size_weeks]

data_train.head(10)

Unnamed: 0,user_id,basket_id,day,item_id,quantity,sales_value,store_id,retail_disc,trans_time,week_no,coupon_disc,coupon_match_disc
0,2375,26984851472,1,1004906,1,1.39,364,-0.6,1631,1,0.0,0.0
1,2375,26984851472,1,1033142,1,0.82,364,0.0,1631,1,0.0,0.0
2,2375,26984851472,1,1036325,1,0.99,364,-0.3,1631,1,0.0,0.0
3,2375,26984851472,1,1082185,1,1.21,364,0.0,1631,1,0.0,0.0
4,2375,26984851472,1,8160430,1,1.5,364,-0.39,1631,1,0.0,0.0
5,2375,26984851516,1,826249,2,1.98,364,-0.6,1642,1,0.0,0.0
6,2375,26984851516,1,1043142,1,1.57,364,-0.68,1642,1,0.0,0.0
7,2375,26984851516,1,1085983,1,2.99,364,-0.4,1642,1,0.0,0.0
8,2375,26984851516,1,1102651,1,1.89,364,0.0,1642,1,0.0,0.0
9,2375,26984851516,1,6423775,1,2.0,364,-0.79,1642,1,0.0,0.0


In [3]:
item_features = pd.read_csv('../les02/product.csv')
item_features.columns = [col.lower() for col in item_features.columns]
item_features.rename(columns={'product_id': 'item_id'}, inplace=True)

item_features.head(2)

Unnamed: 0,item_id,manufacturer,department,brand,commodity_desc,sub_commodity_desc,curr_size_of_product
0,25671,2,GROCERY,National,FRZN ICE,ICE - CRUSHED/CUBED,22 LB
1,26081,2,MISC. TRANS.,National,NO COMMODITY DESCRIPTION,NO SUBCOMMODITY DESCRIPTION,


In [4]:
result = data_test.groupby('user_id')['item_id'].unique().reset_index()
result.columns=['user_id', 'actual']
result.head(2)

Unnamed: 0,user_id,actual
0,1,"[879517, 934369, 1115576, 1124029, 5572301, 65..."
1,3,"[823704, 834117, 840244, 913785, 917816, 93870..."


In [5]:
popularity = data_train.groupby('item_id')['quantity'].sum().reset_index()
popularity.rename(columns={'quantity': 'n_sold'}, inplace=True)

top_5000 = popularity.sort_values('n_sold', ascending=False).head(5000).item_id.tolist()

In [6]:
# Заведем фиктивный item_id

data_train.loc[~data_train['item_id'].isin(top_5000), 'item_id'] = 999999

user_item_matrix = pd.pivot_table(data_train, 
                                  index='user_id', columns='item_id', 
                                  values='quantity', # Можно пробоват ьдругие варианты
                                  aggfunc='count', 
                                  fill_value=0
                                 )

user_item_matrix = user_item_matrix.astype(float) # необходимый тип матрицы для implicit

# переведем в формат saprse matrix
sparse_user_item = csr_matrix(user_item_matrix).tocsr()

user_item_matrix.head(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)


item_id,202291,397896,420647,480014,545926,707683,731106,818980,819063,819227,...,15926885,15926886,15926887,15926927,15927033,15927403,15927661,15927850,16809471,17105257
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [7]:
userids = user_item_matrix.index.values
itemids = user_item_matrix.columns.values

matrix_userids = np.arange(len(userids))
matrix_itemids = np.arange(len(itemids))

id_to_itemid = dict(zip(matrix_itemids, itemids))
id_to_userid = dict(zip(matrix_userids, userids))

itemid_to_id = dict(zip(itemids, matrix_itemids))
userid_to_id = dict(zip(userids, matrix_userids))

In [8]:
%%time

model = AlternatingLeastSquares(factors=100, 
                                regularization=0.001,
                                iterations=15, 
                                calculate_training_loss=True, 
                                num_threads=4)

model.fit(csr_matrix(user_item_matrix).T.tocsr(),  # На вход item-user matrix
          show_progress=True)

recs = model.recommend(userid=userid_to_id[2],  # userid - id от 0 до N
                        user_items=csr_matrix(user_item_matrix).tocsr(),   # на вход user-item matrix
                        N=5, # кол-во рекомендаций 
                        filter_already_liked_items=False, 
                        filter_items=[itemid_to_id[999999]], #убрала 999999
                        recalculate_user=True)



HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


Wall time: 12.7 s


In [9]:
[id_to_itemid[rec[0]] for rec in recs]

[5569230, 1133018, 1106523, 1082185, 916122]

In [10]:
def get_recommendations(user, model, N=5):
    res = [id_to_itemid[rec[0]] for rec in 
                    model.recommend(userid=userid_to_id[user], 
                                    user_items=sparse_user_item,   # на вход user-item matrix
                                    N=N, 
                                    filter_already_liked_items=False, 
                                    filter_items=[itemid_to_id[999999]], #убрала 999999
                                    recalculate_user=True)]
    return res

In [11]:
%%time
    
result['als'] = result['user_id'].apply(lambda x: get_recommendations(x, model=model, N=5))
result.apply(lambda row: precision_at_k(row['als'], row['actual']), axis=1).mean()

Wall time: 42.5 s


0.16534404821697418

In [12]:
result.head(2)

Unnamed: 0,user_id,actual,als
0,1,"[879517, 934369, 1115576, 1124029, 5572301, 65...","[1033142, 878996, 1005186, 979707, 1105488]"
1,3,"[823704, 834117, 840244, 913785, 917816, 93870...","[1106523, 5569327, 1022003, 1133018, 5568378]"


#### model params

In [13]:
import itertools

In [14]:
factors = [64, 128, 256]
neighbours = [1, 2, 3, 5, 8]
already_liked = [False, True]

# factors = [64]
# neighbours = [1]
# already_liked = [False]

In [15]:
%%time
metrics = {}
for f, n, a in itertools.product(factors, neighbours, already_liked):
    print(f, a, n)
    
    model = AlternatingLeastSquares(factors=f, 
                                regularization=0.001,
                                iterations=15, 
                                calculate_training_loss=True, 
                                num_threads=4)
    model.fit(csr_matrix(user_item_matrix).T.tocsr(),  # На вход item-user matrix
          show_progress=True)
    
    result['als'] = result['user_id'].apply(lambda x: get_recommendations(x, model=model, N=5))
    metrics[str(f) + str(a) + str(n)] = result.apply(lambda row: precision_at_k(row['als'], row['actual']), axis=1).mean()

64 False 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 True 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 False 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 True 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 False 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 True 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 False 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 True 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 False 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


64 True 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 False 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 True 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 False 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 True 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 False 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 True 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 False 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 True 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 False 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


128 True 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 False 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 True 1


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 False 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 True 2


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 False 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 True 3


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 False 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 True 5


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 False 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


256 True 8


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=15.0), HTML(value='')))


Wall time: 39min 31s


In [28]:
pd.DataFrame.from_dict(metrics, orient='index', columns = ['prc']).sort_values(by = 'prc', ascending = False).head(5)

Unnamed: 0,prc
642False,0.174485
645True,0.17328
641False,0.172677
648False,0.172275
648True,0.172074


# Production

Начиная с этого вебинара, мы будем строить *базовое решение* для системы рекомендаций топ-N товаров. В финальном проекте вам нужно будет его сущесвтенно улучшить.  
  
**Ситуация**: Вы работает data scientist в крупном продуктовом российском ритейлере iFood. Ваш конкурент сделал рекомендательную систему, и его продажи выросли. Ваш менеджмент тоже хочет увеличить продажи   
**Задача со слов менеджера**: Сделайте рекомендательную систему топ-10 товаров для рассылки по e-mail

**Ожидание:**
- Отправляем e-mail с топ-10 товарами, отсортированными по вероятности

**Реальность:**
- Чего хочет менеджер от рекомендательной системы? (рост показателя X на Y% за Z недель)
- По-хорошему надо бы предварительно посчитать потенциальный эффект от рекоммендательной системы (Оценки эффектов у менеджера и у вас могут сильно не совпадать: как правило, вы знаете про данные больше)
- А у нас вообще есть e-mail-ы пользователей? Для скольки %? Не устарели ли они?
- Будем ли использовать СМС и push-уведомления в приложении? Может, будем печатать рекомендации на чеке после оплаты на кассе?
- Как будет выглядеть e-mail? (решаем задачу топ-10 рекомендаций или ранжирования? И топ-10 ли?)
- Какие товары должны быть в e-mail? Есть ли какие-то ограничения (только акции и т п)?
- Сколько денег мы готовы потратить на привлечение 1 юзера? CAC - Customer Aquisition Cost. Обычно CAC = расходы на коммуникацию + расходы на скидки
- Cколько мы хотим зарабатывать с одного привлеченного юзера?
---
- А точно нужно сортировать по вероятности?
- Какую метрику использовать?
- Сколько раз в неделю отпрпавляем рассылку?
- В какое время отправляем рассылку?
- Будем отправлять одному юзеру много раз наши рекоммендации. Как добиться того, чтобы они хоть немного отличались?
- Нужно ли, чтобы в одной рассылке были *разные* товары? Как определить, что товары *разные*? Как добиться того, чтобы они были разными?
- И многое другое:)

**В итоге договорились, что:**
- Хотим повысить выручку минимум на 6% за 4 месяца. Будем повышать за счет роста Retention минимум на  3% и среднего чека минимум на 3%
- Топ-5 товаров, а не топ-10 (В e-mail 10 выглядят не красиво, в push и на чек больше 5 не влезает)
- Рассылаем в e-mail (5% клиентов) и push-уведомлении (20% клиентов), печатаем на чеке (все оффлайн клиенты)
- **3 товара с акцией** (Как это учесть? А если на товар была акция 10%, а потом 50%, что будет стоять в user-item матрице?)
- **1 новый товар** (юзер никогда не покупал. Просто фильтруем аутпут ALS? А если у таких товаров очень маленькая вероятность покупки? Может, использовать другую логику/модель?) 
- **1 товар для роста среднего чека** (товары минимум дороже чем обычно покупает юзер. Как это измерить? На сколько дороже?)

**3 товара с акцией** <br>
Ткк в user-item матрице мы учитываем фактические покупки клиентов, то стоит отслеживать и потраченные на эти покупки деньги. То есть ввести поправку на стоимость проданных товаров, а не аггрегировать только по количеству купленных в штуках. 

**1 новый товар** <br>
Возможно, здесть стоит рекомендовать те товары, которые этот пользователь не покупал, а похожие на него пользователи - покупали

**1 товар для роста среднего чека** <br>
Пользователей можно побить по сегментам на основе их платежных характеристик - среднего чека, размера последней покупки и тд. Добавить каждому товару еще одну характеристику - к которому сегменту он подходит больше всего. И рекомендовать каждому из наших пользователей товар из соседнего с ним сегмента