# Train model

## Описание решения

В процессе решения задачи задачи мы пробовали несколько разных алгоритмов и подходов, начиная от простых алгоритмов, заканчивая нейросетями. В результате, в нашем случае, лучший результат показал алгоритм нахождения ближайших похожих книг для каждого пользователя посредством нахождения косинусного расстояния на основании матрицы взаимодействия пользователей и книг (матрица users-items).

Текущий ноутбук с решение содержит только тренировку и формирование модели по этому алгоритму. Все другие наши эксперименты сюда не входят.

__Общий алгоритм подготовки датасета для обучения__

(содержится в отдельном блокноте: `build_dataset.ipynb`)

1. Сворачиваем датасет с книгами по названию и автору, также удаляем из него книги без названий. Для удобства сохраняем соответствие  recId для каждой книги в исходном датасете для книг в новом свернутом датасете (датасет книг: `data/books.csv`; соответствие recId: `data/books_map.csv`)

2. На основании датасета выдачи книг готови датасет взаимодействий пользователей и книг: перекодируем книги на основании `data/books_map.csv`, удаляем лишние поля и сворачиваем. В результате получаем датасет: `data/interactions.csv`

__Тренировка модели и оценка модели__

1. Делим подготовленный датасет `data/interactions.csv` на train и test случайным образом в соотношении 90/10

2. На основании train готовим матрицу вида users-items 

3. Обучаем модель используя библиотеку `impicit` и `CosineRecomender`

4. Строим датасет `result`, который содержит фактически взятые книги пользователей из датасета `test`, а также рекомендации модели. Для честной оценки в датасет `result` включаются только пользователи, кто взял 5 и более книг в датасете `test`.

5. Считаем метрику `precision@5` по каждому пользователю (как процент угаданных книг из тех, которые он взял фактически). Считаем итоговую метрику `Average Precision@5` по всем пользователям.

6. Переучиваем модель модель с тренировки на всем датасете и сохраняем для использования в flask приложении.


## Тренировка и оценка модели

In [141]:
import numpy as np
import pandas as pd
import joblib

from sklearn.model_selection import train_test_split
from scipy.sparse import csr_matrix
import implicit

from scipy.sparse import csr_matrix
from pandas.api.types import CategoricalDtype

from implicit.nearest_neighbours import CosineRecommender

In [142]:
def precision_at_k(recommended_list, bought_list, k=5):
    
    bought_list = np.array(bought_list)
    recommended_list = np.array(recommended_list)
    
    bought_list = bought_list  # Тут нет [:k] !!
    recommended_list = recommended_list[:k]
    
    flags = np.isin(bought_list, recommended_list)
    precision = flags.sum() / len(recommended_list)
    
    
    return precision

In [143]:
df = pd.read_csv('data/interactions.csv', parse_dates=['date']).drop('Unnamed: 0', axis=1)
df.rename(columns={'item_id': 'item', 'user_id': 'user'}, inplace=True)
df['interaction'] = 1
df.sort_values(by='date')
print(df.shape)
df.head(2)

(11383578, 4)


Unnamed: 0,date,user,item,interaction
0,2019-09-01,1188,12555,1
1,2019-09-01,23276,252072,1


In [144]:
data_train, data_test = train_test_split(df, test_size=0.1, random_state=42)
data_test = data_test[data_test['user'].isin(data_train['user'])]
data_test = data_test[data_test['item'].isin(data_train['item'])]

In [145]:
data_train.drop('date', axis=1, inplace=True)
data_train.drop_duplicates(ignore_index=True, keep='first', inplace=True)
print(data_train.shape)
data_train.head()

(9191619, 3)


Unnamed: 0,user,item,interaction
0,602580,128074,1
1,445326,306934,1
2,559995,905984,1
3,341602,1563321,1
4,469041,62978,1


In [146]:
person_c = CategoricalDtype(sorted(data_train.user.unique()), ordered=True)
thing_c = CategoricalDtype(sorted(data_train.item.unique()), ordered=True)

row = data_train.user.astype(person_c).cat.codes
col = data_train.item.astype(thing_c).cat.codes
sparse_user_item = csr_matrix((data_train["interaction"], (row, col)), \
                           shape=(person_c.categories.size, thing_c.categories.size)).tocsr()

sparse_user_item = sparse_user_item.astype(np.float64)

In [147]:
sparse_user_item.sum(), sparse_user_item.shape

(9191619.0, (547133, 346976))

In [148]:
# перенумеруем пользователей и товары
userids = person_c.categories.to_list()
itemids = thing_c.categories.to_list()

matrix_userids = np.arange(len(userids))
matrix_itemids = np.arange(len(itemids))

id_to_itemid = dict(zip(matrix_itemids, itemids))
id_to_userid = dict(zip(matrix_userids, userids))

itemid_to_id = dict(zip(itemids, matrix_itemids))
userid_to_id = dict(zip(userids, matrix_userids))

In [149]:
result = data_test.groupby('user')['item'].unique().reset_index()
result.columns=['user', 'actual']
result['actual'] = result['actual'].apply(lambda x: list(x))
result['actual_count'] = result['actual'].apply(lambda x: len(x))
result = result.loc[result['actual_count']>=5]
print(result.shape)
result.head(10)

(61937, 3)


Unnamed: 0,user,actual,actual_count
1,171,"[26612, 249379, 272308, 52383, 356434]",5
8,188,"[124303, 357246, 586439, 301465, 30697, 117820...",7
20,232,"[11527, 123661, 122056, 48793, 532234, 48254, ...",18
21,233,"[297395, 12446, 5613, 20779, 30167, 1190698, 2...",13
22,234,"[40843, 253158, 34861, 6566, 269092, 10199, 34...",14
23,235,"[268139, 9334, 57344, 26598, 35652, 116273, 32...",9
24,236,"[308318, 1334309, 5308, 21012, 1528923, 4950, ...",17
27,242,"[2389, 1869334, 40152, 118024, 55626, 90396, 1...",8
28,243,"[1, 470433, 1426384, 1398353, 16840, 5361, 377...",11
30,245,"[725170, 94272, 899996, 20381, 7618]",5


In [150]:
model = CosineRecommender(K=5, num_threads=4) # K - кол-во билжайших соседей

model.fit(sparse_user_item.T.tocsr(), 
          show_progress=True)

  0%|          | 0/346976 [00:00<?, ?it/s]

In [151]:
recs = model.recommend(userid=0, 
                        user_items=sparse_user_item.tocsr(),   # на вход user-item matrix
                        N=5, 
                        filter_already_liked_items=True, 
                        filter_items=None, 
                        recalculate_user=False)

[id_to_itemid[rec[0]] for rec in recs]

[12, 17936, 256275, 10245, 240293]

In [152]:
%%time

result['recommend'] = result['user'].\
    apply(lambda x: [id_to_itemid[rec[0]] for rec in 
                    model.recommend(userid=userid_to_id[x], 
                                    user_items=sparse_user_item,   # на вход user-item matrix
                                    N=5, 
                                    filter_already_liked_items=True, 
                                    filter_items=None, 
                                    recalculate_user=True)])

CPU times: user 2.49 s, sys: 0 ns, total: 2.49 s
Wall time: 2.49 s


In [153]:
result['precision@5'] =  result.apply(lambda row: precision_at_k(row['recommend'], row['actual'], 5), axis=1)

In [154]:
print(result.shape)
result.loc[result['precision@5'] > 0].head(20)

(61937, 5)


Unnamed: 0,user,actual,actual_count,recommend,precision@5
23,235,"[268139, 9334, 57344, 26598, 35652, 116273, 32...",9,"[324604, 8327, 23185, 8346, 903291]",0.2
36,260,"[23578, 16060, 283791, 328346, 713934, 1691250...",16,"[439155, 272075, 416677, 1357235, 326471]",0.2
38,263,"[199425, 34334, 69308, 980673, 89019]",5,"[5897, 5914, 184088, 2109029, 980673]",0.2
58,291,"[139204, 16460, 17446, 106701, 6137, 390376, 1...",8,"[1271306, 150269, 11165, 146947, 31343]",0.2
76,324,"[1651837, 738145, 1205797, 380549, 99837, 52992]",6,"[380549, 1651837, 1082943, 738145, 547019]",0.6
88,344,"[9428, 10845, 20779, 1553876, 23802, 1672040, ...",22,"[248061, 2120183, 463933, 310588, 409517]",0.2
119,395,"[11177, 23802, 1525, 1807794, 33259, 1398353, ...",11,"[283791, 10668, 250688, 439155, 234344]",0.2
125,402,"[30060, 11462, 353219, 5721, 7449]",5,"[246777, 283791, 570219, 353219, 1133419]",0.2
181,480,"[325010, 254629, 63760, 43985, 42326, 3556, 23...",7,"[23802, 1271306, 16234, 1463117, 953670]",0.2
183,483,"[1656235, 1271049, 245538, 129798, 23802, 1088...",10,"[639595, 1271163, 105664, 174962, 19734]",0.2


In [155]:
print('Итоговая метрика Average Precision@5:', result['precision@5'].mean())

Итоговая метрика Average Precision@5: 0.06304470671810879


## Обучение модели на всех данных и сохранение

In [156]:
person_c = CategoricalDtype(sorted(df.user.unique()), ordered=True)
thing_c = CategoricalDtype(sorted(df.item.unique()), ordered=True)

row = df.user.astype(person_c).cat.codes
col = df.item.astype(thing_c).cat.codes
sparse_user_item = csr_matrix((df["interaction"], (row, col)), \
                           shape=(person_c.categories.size, thing_c.categories.size)).tocsr()

sparse_user_item = sparse_user_item.astype(np.float64)

In [157]:
sparse_user_item.sum(), sparse_user_item.shape

(11383578.0, (553767, 355565))

In [158]:
# перенумеруем пользователей и товары
userids = person_c.categories.to_list()
itemids = thing_c.categories.to_list()

matrix_userids = np.arange(len(userids))
matrix_itemids = np.arange(len(itemids))

id_to_itemid = dict(zip(matrix_itemids, itemids))
id_to_userid = dict(zip(matrix_userids, userids))

itemid_to_id = dict(zip(itemids, matrix_itemids))
userid_to_id = dict(zip(userids, matrix_userids))

In [107]:
# сохраняем результат перенумерации 
joblib.dump(id_to_itemid, 'model/id_to_itemid')
joblib.dump(id_to_userid, 'model/id_to_userid')
joblib.dump(itemid_to_id, 'model/itemid_to_id')
joblib.dump(userid_to_id, 'model/userid_to_id')

# сохраняем матрицу
sparse_user_item
joblib.dump(sparse_user_item, 'model/sparse_user_item')

['model/sparse_user_item']

In [185]:
model = CosineRecommender(K=5, num_threads=4) 

model.fit(sparse_user_item.T.tocsr(), 
          show_progress=True)

  0%|          | 0/355565 [00:00<?, ?it/s]

In [186]:
%%time
recs = model.recommend(userid=userid_to_id[2222], 
                        user_items=sparse_user_item.tocsr(),   # на вход user-item matrix
                        N=5, 
                        filter_already_liked_items=True, 
                        filter_items=None, 
                        recalculate_user=False)

[id_to_itemid[rec[0]] for rec in recs]

CPU times: user 318 µs, sys: 16 µs, total: 334 µs
Wall time: 264 µs


[862378, 468165, 733184, 2881187, 2884177]

In [187]:
# сохраняем модель
joblib.dump(model, 'model/model_cosine_k5')

['model/model_cosine_k5']

#### Функции для flask

In [73]:
def model_predictions(user_id):
    try:
        id = userid_to_id[user_id]
    except:
        return [] # для пользователей о ком ничего не делаем рекомендаций. В будущем можно будет рекомендовать топ или собирать их предпочтения
    
    recs = model.recommend(userid=id, 
                        user_items=sparse_user_item.tocsr(),   # на вход user-item matrix
                        N=5, 
                        filter_already_liked_items=True, 
                        filter_items=None, 
                        recalculate_user=False)
    return [id_to_itemid[rec[0]] for rec in recs]
  
print(model_predictions(user_id=1188))
print(model_predictions(user_id=1111))
print(model_predictions(user_id=1133333333333333388))

[853656, 490513, 463397, 377311, 656324]
[1011857, 1203734, 6316, 91208, 80708]
[]


In [129]:
%%time
def get_json_books(predictions: [int]):
    result = []
    for pred in predictions:
        id = str(pred)
        book = books.loc[books['recId'] == id]
        title = book['title'].values[0]
        aut = book['aut'].values[0]
        result.append({"id": id, "title": title, "author": aut})
    return result
        
get_json_books([853656, 490513, 463397, 377311, 656324])

CPU times: user 539 ms, sys: 9.74 ms, total: 549 ms
Wall time: 543 ms


[{'id': '853656',
  'title': 'Капитанская дочка. Дубровский. Повести покойного Ивана Петровича Белкина',
  'author': 'Пушкин Александр Сергеевич'},
 {'id': '490513', 'title': 'Здравствуй, белолапый!', 'author': nan},
 {'id': '463397',
  'title': 'Трудный возраст и 6 "Б"',
  'author': 'Матвеева Людмила Григорьевна'},
 {'id': '377311',
  'title': 'Тимошкин ковш',
  'author': 'Беляков Иван Васильевич'},
 {'id': '656324',
  'title': 'Билеты в цирк',
  'author': 'Аксенова Анна Сергеевна'}]

In [134]:
%%time
def get_json_books2(predictions: [int]):
    result = []
    for pred in predictions:
        id = str(pred)
        b#ook = books.loc[books['recId'] == id]
        title = books.loc[books['recId'] == id, ['title', 'aut']]
        #aut = book['aut'].values[0]
        result.append({"id": id, "title": title, "author": 1})
    return result

get_json_books([853656, 490513, 463397, 377311, 656324])

CPU times: user 332 ms, sys: 76 µs, total: 332 ms
Wall time: 329 ms


[{'id': '853656',
  'title': 'Капитанская дочка. Дубровский. Повести покойного Ивана Петровича Белкина',
  'author': 'Пушкин Александр Сергеевич'},
 {'id': '490513', 'title': 'Здравствуй, белолапый!', 'author': nan},
 {'id': '463397',
  'title': 'Трудный возраст и 6 "Б"',
  'author': 'Матвеева Людмила Григорьевна'},
 {'id': '377311',
  'title': 'Тимошкин ковш',
  'author': 'Беляков Иван Васильевич'},
 {'id': '656324',
  'title': 'Билеты в цирк',
  'author': 'Аксенова Анна Сергеевна'}]

In [122]:
def get_history(use_id):
    return list(interactions.loc[interactions['user_id'] == 1188]['item_id'].values)
                

[{'id': '12555', 'title': 'Семья 3х1', 'author': 'Майорош Нора'},
 {'id': '94424',
  'title': 'Неизвестный цветок',
  'author': 'Платонов Андрей Платонович'},
 {'id': '112234', 'title': 'Мальчики', 'author': 'Чехов Антон Павлович'},
 {'id': '264533', 'title': 'Кусака', 'author': 'Андреев Леонид'},
 {'id': '114610',
  'title': 'Приключения Незнайки и его друзей , Незнайка в Солнечном городе , Незнайка на Луне',
  'author': 'Носов Николай Николаевич'},
 {'id': '256134',
  'title': 'Этажи леса',
  'author': 'Пришвин Михаил Михайлович'},
 {'id': '1301',
  'title': 'Стрижонок Скрип',
  'author': 'Астафьев Виктор Петрович'},
 {'id': '269023', 'title': 'Ю-Ю', 'author': 'Куприн Александр Иванович'},
 {'id': '285528',
  'title': 'Приемыш',
  'author': 'Мамин-Сибиряк Дмитрий Наркисович'},
 {'id': '1526',
  'title': 'Чей нос лучше?',
  'author': 'Бианки Виталий Валентинович'},
 {'id': '33449',
  'title': 'Карлссон, который живет на крыше',
  'author': 'Линдгрен Астрид'},
 {'id': '2878',
  'title'

## Заполняем Ексель

In [200]:
result = df.groupby('user')['item'].unique().reset_index()
result.columns=['user', 'actual']
result['actual'] = result['actual'].apply(lambda x: list(x))
result['actual_count'] = result['actual'].apply(lambda x: len(x))
print(result.shape)
result.head()

(553767, 3)


Unnamed: 0,user,actual,actual_count
0,163,"[37437, 199565, 6, 841833, 428001, 2691]",6
1,165,"[770278, 11451, 2359]",3
2,170,"[206050, 309490, 396723]",3
3,171,"[26612, 706657, 112793, 357252, 356758, 13182,...",35
4,173,"[55947, 100740]",2


In [201]:
%%time

result['recommend'] = result['user'].\
    apply(lambda x: [id_to_itemid[rec[0]] for rec in 
                    model.recommend(userid=userid_to_id[x], 
                                    user_items=sparse_user_item,   # на вход user-item matrix
                                    N=5, 
                                    filter_already_liked_items=True, 
                                    filter_items=None, 
                                    recalculate_user=True)])

result.head()

CPU times: user 13.8 s, sys: 205 ms, total: 14 s
Wall time: 14 s


Unnamed: 0,user,actual,actual_count,recommend
0,163,"[37437, 199565, 6, 841833, 428001, 2691]",6,"[12, 9, 15, 46262, 240293]"
1,165,"[770278, 11451, 2359]",3,"[48446, 120422, 1327457, 1702171, 1372]"
2,170,"[206050, 309490, 396723]",3,"[540264, 1133107, 1059405, 813010, 626663]"
3,171,"[26612, 706657, 112793, 357252, 356758, 13182,...",35,"[1104471, 1390935, 257038, 324390, 1010548]"
4,173,"[55947, 100740]",2,"[1460021, 595937, 813325, 826921, 962896]"


In [202]:
result['books'] = result['recommend'].apply(lambda x: len(x))

In [208]:
def popularity_recommendation(data, n=5):
    """Топ-n популярных товаров"""
    
    popular = data.groupby('item')['interaction'].sum().reset_index()
    popular.sort_values('interaction', ascending=False, inplace=True)
    
    recs = popular.head(n).item
    
    return recs.tolist()

popularity_recommendation(df, 5)

[248061, 10668, 2, 117820, 283791]

In [211]:
result['book_id_1'] = result['recommend'].apply(lambda x: x[0])
result['book_id_2'] = result['recommend'].apply(lambda x: x[1] if len(x)>=2 else 248061)
result['book_id_3'] = result['recommend'].apply(lambda x: x[2] if len(x)>=3 else 10668)
result['book_id_4'] = result['recommend'].apply(lambda x: x[3] if len(x)>=4 else 117820)
result['book_id_5'] = result['recommend'].apply(lambda x: x[4] if len(x)>=5 else 2)

In [210]:
result.shape
result.head()

Unnamed: 0,user,actual,actual_count,recommend,books,book_id_1,book_id_2,book_id_3,book_id_4,book_id_5
0,163,"[37437, 199565, 6, 841833, 428001, 2691]",6,"[12, 9, 15, 46262, 240293]",5,12,9,15,46262,240293
1,165,"[770278, 11451, 2359]",3,"[48446, 120422, 1327457, 1702171, 1372]",5,48446,120422,1327457,1702171,1372
2,170,"[206050, 309490, 396723]",3,"[540264, 1133107, 1059405, 813010, 626663]",5,540264,1133107,1059405,813010,626663
3,171,"[26612, 706657, 112793, 357252, 356758, 13182,...",35,"[1104471, 1390935, 257038, 324390, 1010548]",5,1104471,1390935,257038,324390,1010548
4,173,"[55947, 100740]",2,"[1460021, 595937, 813325, 826921, 962896]",5,1460021,595937,813325,826921,962896


In [212]:
result.drop(['actual', 'actual_count', 'recommend', 'books'], axis=1, inplace=True)
result.rename(columns={'user' : 'user_id'}, inplace=True)

In [213]:
result.head()

Unnamed: 0,user_id,book_id_1,book_id_2,book_id_3,book_id_4,book_id_5
0,163,12,9,15,46262,240293
1,165,48446,120422,1327457,1702171,1372
2,170,540264,1133107,1059405,813010,626663
3,171,1104471,1390935,257038,324390,1010548
4,173,1460021,595937,813325,826921,962896


In [216]:
result.to_csv('recommendations.csv', encoding='utf-8', index=False)