## Неперсонализированные рекомендации

Из разряда "пользователи, посмотревшие этот фильм, также посмотрели и этот"

In [47]:
import pandas as pd
import os
import numpy as np

In [48]:
DATA_PATH = '../data/'

In [49]:
transactions_main = pd.read_csv(
    os.path.join(DATA_PATH, 'transactions.csv'),
    dtype={
        'element_uid': np.uint16,
        'user_uid': np.uint32,
        'consumption_mode': 'category',
        'ts': np.float64,
        'watched_time': np.uint64,
        'device_type': np.uint8,
        'device_manufacturer': np.uint8
    }
)

Сформировали dataframe из csv-файла \
Если ```transactions.csv``` находится в той же папке, можно просто ```pd.read_csv('transactions.csv', ...)```

In [50]:
transactions_main.head(6)

Unnamed: 0,element_uid,user_uid,consumption_mode,ts,watched_time,device_type,device_manufacturer
0,3336,5177,S,44305180.0,4282,0,50
1,481,593316,S,44305180.0,2989,0,11
2,4128,262355,S,44305180.0,833,0,50
3,6272,74296,S,44305180.0,2530,0,99
4,5543,340623,P,44305180.0,6282,0,50
5,236,332814,S,44305180.0,3109,0,50


consumption_mode — тип потребления (P — покупка, R — аренда, S — просмотр по подписке) \
ts — время совершения операции \
watched_time — время просмотра в секундах

С их сайта (https://promo.okko.tv/pamyatka):
    
1)Покупка \
(фильм можно пересматривать бесконечное количество раз) \
Российские картины появляются в Okko в течение месяца после показа \
в кинотеатрах, а премьеры ведущих мировых студий — через 2-3 месяца. 

2)Аренда \
(после начала воспроизведения фильм доступен 48 часов) \
Российский фильм можно взять в аренду через 2 месяца после показа в кино, \
голливудскую премьеру — через 3-4 месяца. 

3)Подписка \
Мы стараемся, чтобы как можно больше популярных фильмов попадало в подписку, \
ведь за их просмотр не нужно платить отдельно. \
Приобретая пакет подписок, вы получаете неограниченный доступ к тысячам фильмов и сериалов. 

In [51]:
def generate_transactions(data) -> dict:
    transactions = dict()
    
    for _, trans_item in data.iterrows():
        user_id = trans_item['user_uid']
        
        if user_id not in transactions:
            transactions[user_id] = []
        
        transactions[user_id].append(trans_item['element_uid'])
        #то есть пока не учитываем тип потребления
    
    return transactions

In [78]:
#вырежем первые 30000 строк для тестирования
transactions = transactions_main.iloc[:30000]

In [55]:
transactions_dict = generate_transactions(transactions)

In [56]:
from collections import defaultdict

def calculate_itemsets_one(transactions_dict: dict, min_sup=0.005) -> dict:
    N = len(transactions_dict)
    temp_dict = defaultdict(int)
    one_itemsets = {}
    
    for key, items in transactions_dict.items():
        for item in items:
            inx = frozenset({item}) 
            temp_dict[inx] += 1

    # remove all items that is not supported.
    for key, itemset in temp_dict.items():
        if itemset > min_sup * N:
            one_itemsets[key] = itemset
    
    return one_itemsets

In [57]:
one_itemsets = calculate_itemsets_one(transactions_dict)

In [58]:
def has_support(items: list, one_itemsets: dict) -> bool:
    return ((frozenset({items[0]}) in one_itemsets) and (frozenset({items[1]}) in one_itemsets))

In [59]:
from itertools import combinations

def calculate_itemsets_two(transactions_dict: dict, one_itemsets: dict) -> dict:
    two_itemsets = defaultdict(int)
    
    for key, items in transactions_dict.items():
        items = list(set(items)) #remove duplications
        
        if (len(items) > 2):
            for perm in combinations(items, 2):
                if has_support(perm, one_itemsets):
                    two_itemsets[frozenset(perm)] += 1
        elif len(items) == 2:
            if has_support(items, one_itemsets):
                two_itemsets[frozenset(items)] += 1

    return two_itemsets

In [60]:
two_itemsets = calculate_itemsets_two(transactions_dict, one_itemsets)

In [61]:
def calculate_association_rules(one_itemsets: dict, two_itemsets: dict, N: int) -> list:
    rules = []

    for source, source_freq in one_itemsets.items():
        for key, group_freq in two_itemsets.items():
            if source.issubset(key):
                target = key.difference(source)
                support = group_freq / N
                confidence = group_freq / source_freq
                rules.append((next(iter(source)), next(iter(target)), confidence, support))
    
    return rules

In [62]:
rules = calculate_association_rules(one_itemsets, two_itemsets, len(transactions_dict))

In [63]:
rules_1 = sorted(sorted(rules)[:8], key = lambda l : l[2], reverse = True)
rules_1[:6]

[(51, 72, 0.05384615384615385, 0.0003752948745442848),
 (51, 3567, 0.046153846153846156, 0.0003216813210379584),
 (51, 2245, 0.015384615384615385, 0.0001072271070126528),
 (51, 2694, 0.015384615384615385, 0.0001072271070126528),
 (51, 4366, 0.015384615384615385, 0.0001072271070126528),
 (51, 2327, 0.007692307692307693, 5.36135535063264e-05)]

In [64]:
#пример применения для пользователя 240316 из transactions_dict (словарь для первых 30000 строк)
recs_list = []

for rule in rules:
    for element_id in transactions_dict[240316]:
        if rule[0] == element_id:
            recs_list.append(rule)

recs_list = sorted(recs_list, key = lambda l : l[2], reverse = True)

In [65]:
recs_list[:6]

[(9661, 9341, 0.07717041800643087, 0.0025734505683036673),
 (2694, 9341, 0.0748502994011976, 0.00134033883765816),
 (2694, 9661, 0.0688622754491018, 0.0012331117306455073),
 (2694, 8739, 0.04491017964071856, 0.0008042033025948959),
 (9661, 4548, 0.03858520900321544, 0.0012867252841518336),
 (9661, 2694, 0.03697749196141479, 0.0012331117306455073)]

In [67]:
#удаляем дубликаты, пересчитывая поддержку как среднее арифметическое
#поддержок всех рекомендаций соответствующего элемента
recs_dict = {}

for rec in recs_list:
    if rec[1] not in recs_dict:
        recs_dict[rec[1]] = [rec[2], 1]
    else:
        (recs_dict[rec[1]])[0] += rec[2]
        (recs_dict[rec[1]])[1] += 1

recs_list_final = []
        
for key, item in recs_dict.items():
    recs_list_final.append((key, item[0]/item[1]))
    
recs_list_final = sorted(recs_list_final, key = lambda t : t[1], reverse = True)

In [68]:
recs_list_final[:6]

[(9341, 0.07601035870381423),
 (9661, 0.0688622754491018),
 (2694, 0.03697749196141479),
 (8739, 0.034512967633864106),
 (4548, 0.023783622465679576),
 (4366, 0.020014633113194832)]

In [69]:
import json

#рекомендации для группы пользователей можно будет записывать в файл 
#вместо вывода на экран
print(json.dumps({240316: [t[0] for t in recs_list_final][:10]}))

{"240316": [9341, 9661, 2694, 8739, 4548, 4366, 6955, 9311, 603, 9817]}


In [79]:
movies_rec = set()

def make_rec_list(user):

    recs_list = []

    for rule in rules:
        for element_id in transactions_dict[user]:
            if rule[0] == element_id:
                recs_list.append(rule)

    recs_list = sorted(recs_list, key = lambda l : l[2], reverse = True)
    
    #удаляем дубликаты, пересчитывая поддержку как среднее арифметическое
    #поддержок всех рекомендаций соответствующего элемента
    recs_dict = {}

    for rec in recs_list:
        if rec[1] not in recs_dict:
            recs_dict[rec[1]] = [rec[2], 1]
        else:
            (recs_dict[rec[1]])[0] += rec[2]
            (recs_dict[rec[1]])[1] += 1

    recs_list_final = []
        
    for key, item in recs_dict.items():
        recs_list_final.append((key, item[0]/item[1]))
    
    recs_list_final = sorted(recs_list_final, key = lambda t : t[1], reverse = True)
    ans = [t[0] for t in recs_list_final][:10]
    
    return set(ans)

for user in transactions_dict.keys():
    movies_rec |= make_rec_list(user)

In [80]:
len(movies_rec) / len(transactions['element_uid'].unique())

0.006649850951616602

In [81]:
transactions_main

Unnamed: 0,element_uid,user_uid,consumption_mode,ts,watched_time,device_type,device_manufacturer
0,3336,5177,S,4.430518e+07,4282,0,50
1,481,593316,S,4.430518e+07,2989,0,11
2,4128,262355,S,4.430518e+07,833,0,50
3,6272,74296,S,4.430518e+07,2530,0,99
4,5543,340623,P,4.430518e+07,6282,0,50
...,...,...,...,...,...,...,...
9643007,2252,180823,S,4.173063e+07,2503,0,11
9643008,8436,458827,S,4.173063e+07,8360,0,50
9643009,8888,50431,S,4.173063e+07,5763,0,11
9643010,6099,59148,S,4.173063e+07,6831,0,50
