# Rekko challenge 2019

```
                           /$$$$$$$  /$$$$$$$$ /$$   /$$ /$$   /$$  /$$$$$$ 
                          | $$__  $$| $$_____/| $$  /$$/| $$  /$$/ /$$__  $$
                          | $$  \ $$| $$      | $$ /$$/ | $$ /$$/ | $$  \ $$
                          | $$$$$$$/| $$$$$   | $$$$$/  | $$$$$/  | $$  | $$
                          | $$__  $$| $$__/   | $$  $$  | $$  $$  | $$  | $$
                          | $$  \ $$| $$      | $$\  $$ | $$\  $$ | $$  | $$
                          | $$  | $$| $$$$$$$$| $$ \  $$| $$ \  $$|  $$$$$$/
                          |__/  |__/|________/|__/  \__/|__/  \__/ \______/ 
                                                                            
```

Добро пожаловать на соревнование по машинному обучению от онлайн-кинотеатра [Okko](http://okko.tv) Rekko Challenge 2019.

В этом ноутбуке мы покажем вам пример простого но полного решения, от загрузки данных до формирования ответа. Для работы нам понадобятся библиотеки `pandas`, `numpy`, `scipy`, `implicit`, `pprint`, `tqdm`. Установить их в вашем рабочем окружении можно следующей командой.
```
pip install pandas numpy scipy implicit pprint tqdm
```

In [1]:
import os
import json
import pandas as pd
import numpy as np
import tqdm
import scipy.sparse as sp
import seaborn as sns
import matplotlib as plt 
%matplotlib inline

from pprint import pprint

### Загрузка данных

Замените `DATA_PATH` на путь к данным, которые вы скачали со страницы соревнования.

In [2]:
DATA_PATH = './'

---

`catalogue.json` содержит анонимизированную метаинформацию о доступных в сервисе фильмах и сериалах.

In [82]:
with open(os.path.join(DATA_PATH, 'catalogue.json'), 'r') as f:
    catalogue = json.load(f)

type(catalogue)
catalogue = {int(k): v for k, v in catalogue.items()}

In [83]:
len(catalogue)

10200

In [84]:
pprint(catalogue[0])

{'attributes': [31115, 6713, 10906, 31116, 31117, 270, 24431, 42, 31118, 31119],
 'availability': [],
 'duration': 80,
 'feature_1': 29121982.214158818,
 'feature_2': 0.5752595062,
 'feature_3': 0,
 'feature_4': 1.1283323575,
 'feature_5': 0.6547073468,
 'type': 'movie'}


#### Превращаем каталог в DataFrame

In [87]:
df_catalogue = pd.DataFrame.from_dict(catalogue, orient='index')

In [88]:
df_catalogue.head()

Unnamed: 0,type,availability,duration,feature_1,feature_2,feature_3,feature_4,feature_5,attributes
0,movie,[],80,29121980.0,0.57526,0,1.128332,0.654707,"[31115, 6713, 10906, 31116, 31117, 270, 24431,..."
1,movie,"[purchase, rent]",120,6610431.0,0.773224,3,1.112014,0.654707,"[2786, 385, 2799, 3730, 886, 7, 11700, 42, 20,..."
2,movie,[],80,13158740.0,0.699502,0,1.110127,0.68041,"[31442, 31443, 31444, 31445, 113, 31446, 42, 3..."
3,series,[],20,41577120.0,0.702981,0,1.141929,0.654707,"[34361, 34362, 23033, 14887, 270, 20089, 43, 25]"
4,movie,"[purchase, rent, subscription]",70,39995790.0,0.626596,8,1.130076,0.592716,"[26732, 26733, 26734, 9367, 7792, 336, 26735, ..."


In [89]:
df_catalogue.describe()
df_catalogue.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10200 entries, 0 to 10199
Data columns (total 9 columns):
type            10200 non-null object
availability    10200 non-null object
duration        10200 non-null int64
feature_1       10200 non-null float64
feature_2       10200 non-null float64
feature_3       10200 non-null int64
feature_4       10200 non-null float64
feature_5       10200 non-null float64
attributes      10200 non-null object
dtypes: float64(4), int64(2), object(3)
memory usage: 796.9+ KB


 - `attributes` — мешок атрибутов
 - `availability` — доступность (может содержать значения `purchase`, `rent` и `subscription`)
 - `duration` — длительность в минутах, округлённая до десятков (продолжительность серии для сериалов и многосерийных фильмов)
 - `feature_1..5` — пять анонимизированных вещественных и порядковых признаков
 - `type` — принимает значения `movie`, `multipart_movie` или `series`

---

`test_users.json` содержит список пользователей, для которых необходимо построить предсказание

In [6]:
with open(os.path.join(DATA_PATH, 'test_users.json'), 'r') as f:
    test_users = set(json.load(f)['users'])

---

`transactions.csv` — список всех транзакций за определённый период времени

In [18]:
%%time
transactions = pd.read_csv(
    os.path.join(DATA_PATH, 'transactions.csv'),
    dtype={
        'element_uid': np.uint16,
        'user_uid': np.uint32,
        'consumption_mode': 'category',
        'ts': np.float64,
        'watched_time': np.uint64,
        'device_type': np.uint8,
        'device_manufacturer': np.uint8
    }
)

Wall time: 7.71 s


In [8]:
transactions.head(3)

Unnamed: 0,element_uid,user_uid,consumption_mode,ts,watched_time,device_type,device_manufacturer
0,3336,5177,S,44305180.0,4282,0,50
1,481,593316,S,44305180.0,2989,0,11
2,4128,262355,S,44305180.0,833,0,50


#### Подтянем к транзакциям сведения о фильме

In [90]:
transactions = pd.merge(transactions, df_catalogue, how='left', left_on='element_uid', right_index=True)

 - `element_uid` — идентификатор элемента
 - `user_uid` — идентификатор пользователя
 - `consumption_mode` — тип потребления (`P` — покупка, `R` — аренда, `S` — просмотр по подписке)
 - `ts` — время совершения транзакции или начала просмотра в случае просмотра по подписке
 - `watched_time` — число просмотренных по транзакции секунд
 - `device_type` — анонимизированный тип устройства, с которого была совершена транзакция или начат просмотр
 - `device_manufacturer` — анонимизированный производитель устройства, с которого была совершена транзакция или начат просмотр

In [91]:
transactions.describe()

Unnamed: 0,element_uid,user_uid,ts,watched_time,device_type,device_manufacturer,duration,feature_1,feature_2,feature_3,feature_4,feature_5
count,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0,9643012.0
mean,4903.627,297215.6,43082950.0,6338.216,0.7113436,53.7805,92.95729,30092300.0,0.7278252,19.64941,1.130437,0.5248951
std,2962.026,171097.0,745909.6,18234.38,1.523222,30.64894,31.81568,13423690.0,0.05150818,10.81772,0.02107137,0.295806
min,0.0,0.0,41730630.0,0.0,0.0,0.0,0.0,100.6248,0.2658995,0.0,0.7343941,-1.0
25%,2332.0,148995.0,42437550.0,978.0,0.0,50.0,80.0,19007470.0,0.698,12.0,1.130076,0.5927161
50%,4661.0,297363.0,43148930.0,4959.0,0.0,50.0,100.0,36334990.0,0.7360206,17.0,1.138604,0.6547073
75%,7433.0,445327.0,43728650.0,6446.0,0.0,90.0,110.0,41297270.0,0.7662538,26.0,1.140273,0.6547073
max,10199.0,593489.0,44305180.0,4326296.0,6.0,99.0,290.0,43806750.0,0.8270144,50.0,1.141929,0.6804097


#### Проставляем флаг того, что клиент потребил фильм

In [94]:
element_agg = transactions.groupby('element_uid').agg({'watched_time': ['mean', 'median']})
element_agg.columns = ['elem_watched_time_mean', 'elem_watched_time_median']
transactions = pd.merge(transactions, element_agg, how='left', left_on='element_uid', right_index=True)

In [95]:
transactions.head()

Unnamed: 0,element_uid,user_uid,consumption_mode,ts,watched_time,device_type,device_manufacturer,type,availability,duration,feature_1,feature_2,feature_3,feature_4,feature_5,attributes,elem_watched_time_mean,elem_watched_time_median
0,3336,5177,S,44305180.0,4282,0,50,movie,"[purchase, rent, subscription]",90,41661080.0,0.739609,45,1.141929,0.654707,"[19924, 28181, 6732, 23032, 270, 24805, 43, 14...",5643.628182,5592.0
1,481,593316,S,44305180.0,2989,0,11,movie,"[purchase, subscription]",50,42934190.0,0.750161,11,1.119409,0.592716,"[30070, 30071, 30072, 30073, 51, 52, 30074, 42...",1984.34148,2752.0
2,4128,262355,S,44305180.0,833,0,50,movie,"[purchase, rent, subscription]",100,27777300.0,0.750161,12,1.130076,0.654707,"[6165, 8130, 24969, 24970, 24971, 367, 571, 27...",4218.449081,5715.0
3,6272,74296,S,44305180.0,2530,0,99,movie,"[purchase, rent, subscription]",100,40415560.0,0.675218,34,1.140273,0.68041,"[143, 4349, 1950, 5680, 714, 7, 9036, 9037, 43...",4316.218321,5367.0
4,5543,340623,P,44305180.0,6282,0,50,movie,"[purchase, rent]",70,9212964.0,0.783234,14,1.113885,0.0,"[10235, 1462, 4719, 9368, 1613, 7, 5402, 4300,...",8410.737034,4441.0


In [None]:
train_targets = transactions.query(''' 
    (type == 'series' or type == 'multipart_movie') and (consumptions_mode == 'P' or consumptions_mode == 'R') 
    or consumptions_mode == 'S' and watched_time > elem_watched_time_median /3 
    or type == 'movie' and (consumptions_mode == 'P' or consumptions_mode == 'R') 
    or consumptions_mode == 'S' and watched_time / 60 > duration / 2''')

---

`ratings.csv` содержит информацию о поставленных пользователями оценках

In [10]:
%%time
ratings = pd.read_csv(
    os.path.join(DATA_PATH, 'ratings.csv'),
    dtype={
        'element_uid': np.uint16,
        'user_uid': np.uint32,
        'ts': np.float64,
        'rating': np.uint8
    }
)

Wall time: 264 ms


In [11]:
ratings.head(3)

Unnamed: 0,user_uid,element_uid,rating,ts
0,571252,1364,10,44305170.0
1,63140,3037,10,44305140.0
2,443817,4363,8,44305140.0


 - `rating` — поставленный пользователем рейтинг (от `0` до `10`)

---

In [12]:
ratings.describe()

Unnamed: 0,user_uid,element_uid,rating,ts
count,438790.0,438790.0,438790.0,438790.0
mean,297633.918918,4877.467467,8.189079,42981660.0
std,170411.749934,2952.99426,2.07455,727568.2
min,1.0,3.0,0.0,41730650.0
25%,147598.0,2297.0,7.0,42327470.0
50%,300425.0,4709.0,9.0,43017070.0
75%,445190.0,7381.0,10.0,43589600.0
max,593486.0,10199.0,10.0,44305170.0


`bookmarks.csv` содержит информацию об элементах, добавленных пользователями в список «Избранное»

In [13]:
%%time
bookmarks = pd.read_csv(
    os.path.join(DATA_PATH, 'bookmarks.csv'),
    dtype={
        'element_uid': np.uint16,
        'user_uid': np.uint32,
        'ts': np.float64
    }
)

Wall time: 479 ms


In [14]:
bookmarks.head(3)

Unnamed: 0,user_uid,element_uid,ts
0,301135,7185,44305160.0
1,301135,4083,44305160.0
2,301135,10158,44305160.0


### Решение

Для начала построим список элементов, которые тестовые пользователи уже купили или посмотрели по подписке: они не смогут купить их второй раз, а просмотр по подписке второй раз маловероятен, поэтому мы захотим отфильтровать такие элементы из финального ответа.

Точно так же можно поступить и с рейтингами и добавлениями в избранное, если это будет казаться правильным.

In [15]:
from collections import defaultdict

filtered_elements = defaultdict(set)

for user_uid, element_uid in tqdm.tqdm(transactions.loc[:, ['user_uid', 'element_uid']].values):
    if user_uid not in test_users:
        continue
    filtered_elements[user_uid].add(element_uid)

100%|████████████████████████████████████████████████████████████████████| 9643012/9643012 [00:16<00:00, 583254.03it/s]


---

#### Построим разреженную матрицу по транзакциям и обучимся только на "старых" данных

In [21]:
old_transactions = pd.DataFrame(transactions.query('ts < 4.3e7'))
old_transactions['user_uid'] = old_transactions['user_uid'].astype('category')
old_transactions['element_uid'] = old_transactions['element_uid'].astype('category')
old_transactions['has_trans_flg'] = 1

transactions_matrix = sp.coo_matrix(
    (old_transactions['has_trans_flg'].astype(np.float32),
        (
            old_transactions['element_uid'].cat.codes.copy(),
            old_transactions['user_uid'].cat.codes.copy()
        )
    )
)

transactions_matrix = transactions_matrix.tocsr()

In [22]:
sparsity = transactions_matrix.nnz / (transactions_matrix.shape[0] * transactions_matrix.shape[1])
print('Sparsity: %.6f' % sparsity)

Sparsity: 0.001602


Обучить модель крайне просто.

In [24]:
from implicit.nearest_neighbours import TFIDFRecommender

model = TFIDFRecommender()
model.fit(transactions_matrix)

100%|███████████████████████████████████████████████████████████████████████████| 7856/7856 [00:00<00:00, 13194.31it/s]


---

In [29]:
transactions_matrix_T = transactions_matrix.T.tocsr()

Отображения из оригинальной категории во внутреннюю пригодится нам в дальнейшем.

In [31]:
user_uid_to_cat = dict(zip(
    old_transactions['user_uid'].cat.categories,
    range(len(old_transactions['user_uid'].cat.categories))
))

In [32]:
element_uid_to_cat = dict(zip(
    old_transactions['element_uid'].cat.categories,
    range(len(old_transactions['element_uid'].cat.categories))
))

In [33]:
filtered_elements_cat = {k: [element_uid_to_cat.get(x, None) for x in v] for k, v in filtered_elements.items()}

---

В метод `model.recommend` мы передаём идентификатор пользователя, который получаем обратным преобразованием из категории, транспонированную матрицу взаимодействий, число необходимых рекомендаций и список элементов, которые мы договорились фильтровать из ответа.

Возвращает метод список пар (`element_cat`, `score`), отсортированный по вторым элементам. Из него необходимо достать все первые элементы пар и из категории преобразовать их к `element_uid`.

**Важно:** Не все тестовые пользователи есть в `ratings.csv` и не все из них есть в `transactions.csv`. Используя только один источник данных мы не можем построить полное предсказание. Такой ответ с неполным числом пользователей бдет принят системой, но при вычислении средней метрики метрика для отсутствующих пользователей будет принята равной нулю.

In [71]:
validation_transactions = transactions.query('ts >= 4.3e7')
validation_users = set(validation_transactions['user_uid'])
validation_result = {k: g["element_uid"].tolist() for k,g in validation_transactions.groupby("user_uid")}
len(validation_result)

397796

In [72]:
result = {}

for user_uid in tqdm.tqdm(validation_users):
    # transform user_uid to model's internal user category
    try:
        user_cat = user_uid_to_cat[user_uid]
    except LookupError:
        continue
    
    # perform inference
    recs = model.recommend(
        user_cat,
        transactions_matrix_T,
        N=20,
        filter_already_liked_items=True,
        filter_items=filtered_elements_cat.get(user_uid, set())
    )
    
    # drop scores and transform model's internal elelemnt category to element_uid for every prediction
    # also convert np.uint64 to int so it could be json serialized later
    result[user_uid] = [int(old_transactions['element_uid'].cat.categories[i]) for i, _ in recs]

100%|████████████████████████████████████████████████████████████████████████| 397796/397796 [01:06<00:00, 6022.79it/s]


In [73]:
len(result)

235798

Используя только информацию о рейтингах мы смогли построить предсказание для `13251` из `50000` тестовых пользователей. Ровно в таком виде ответы и стоит сохранить для отправки.

In [40]:
with open('submits/transactions-2019-03-12.json', 'w') as f:
    json.dump(result, f)

19629

In [60]:
validation_transactions.describe()
old_transactions.describe()

Unnamed: 0,ts,watched_time,device_type,device_manufacturer,has_trans_flg
count,4249008.0,4249008.0,4249008.0,4249008.0,4249008.0
mean,42357520.0,6449.238,0.7120747,53.88125,1.0
std,378637.9,18658.9,1.526348,30.41135,0.0
min,41730630.0,0.0,0.0,0.0,1.0
25%,42018960.0,1041.0,0.0,50.0,1.0
50%,42341030.0,5050.0,0.0,50.0,1.0
75%,42694750.0,6556.0,0.0,90.0,1.0
max,43000000.0,4326296.0,6.0,99.0,1.0


In [45]:
import time
import pyximport; pyximport.install()

(None, <pyximport.pyximport.PyxImporter at 0x27599849160>)

In [46]:
def average_precision(
        dict data_true,
        dict data_predicted,
        const unsigned long int k
) -> float:
    cdef:
        unsigned long int n_items_predicted
        unsigned long int n_items_true
        unsigned long int n_correct_items
        unsigned long int item_idx

        double average_precision_sum
        double precision

        set items_true
        list items_predicted

    if not data_true:
        raise ValueError('data_true is empty')

    average_precision_sum = 0.0

    for key, items_true in data_true.items():
        items_predicted = data_predicted.get(key, [])

        n_items_true = len(items_true)
        n_items_predicted = min(len(items_predicted), k)

        if n_items_true == 0 or n_items_predicted == 0:
            continue

        n_correct_items = 0
        precision = 0.0

        for item_idx in range(n_items_predicted):
            if items_predicted[item_idx] in items_true:
                n_correct_items += 1
                precision += <double>n_correct_items / <double>(item_idx + 1)

        average_precision_sum += <double>precision / <double>min(n_items_true, k)

    return average_precision_sum / <double>len(data_true)

def metric(true_data, predicted_data, k=20):
    true_data_set = {k: set(v) for k, v in true_data.items()}

    return average_precision(true_data_set, predicted_data, k=k)

SyntaxError: invalid syntax (<ipython-input-46-0ff73656d40c>, line 2)

In [47]:
import time

def count(limit):
    result = 0
    for a in range(1, limit + 1):
        for b in range(a + 1, limit + 1):
            for c in range(b + 1, limit + 1):
                if c * c > a * a + b * b:
                    break
 
                if c * c == (a * a + b * b):
                    result += 1
    return result
 
if __name__ == '__main__':
    start = time.time()
    result = count(1000)
    duration = time.time() - start
    print(result, duration)

881 13.76365041732788


In [49]:
import time
import pyximport; pyximport.install()
import pythagorean_triples

def main():
    start = time.time()
    result = pythagorean_triples.count(1000)
    duration = time.time() - start
    print(result, duration)
    
if __name__ == '__main__':
    main()

881 9.140591144561768


In [66]:
import time
import pyximport; pyximport.install()
import metric

In [74]:
metric.metric(validation_result, result)

0.014124230025753842

In [70]:
validation_transactions['user_uid'].nunique()

19629