In [1]:
import pandas as pd
from tqdm import tqdm 
from collections import defaultdict
import math 

import time

def get_sim_item(all_click, user_col, item_col, time_col, use_iuf = False, use_time = False):
    #生成用户的点击商品序列，一行代表一个用户的点击序列
    user_item = all_click.groupby(user_col)[item_col].agg(list).reset_index()
    #生成字典
    user_item_dict = dict(zip(user_item[user_col], user_item[item_col]))
    #生成用户的点击时间序列
    user_time = all_click.groupby(user_col)[time_col].agg(list).reset_index()#引入时间因素
    user_time_dict = dict(zip(user_time[user_col], user_time[time_col]))

    sim_item = {}#保存商品相似度
    item_cnt = defaultdict(int) #商品被点击次数
    for user, items in tqdm(user_item_dict.items()):
        #被同一个用户点击的商品
        for ixi, i in enumerate(items):#ixi是loc1，i是item
            item_cnt[i] += 1
            sim_item.setdefault(i, {})

            for ixj, j in enumerate(items):#ixj是loc2，j是relate_item
                if i == j:
                    continue
                sim_item[i].setdefault(j, 0)

                t1 = user_time_dict[user][ixi]#点击时间提取
                t2 = user_time_dict[user][ixj]

                if not use_iuf:
                    sim_item[i][j] += 1
                else:
                    if not use_time:
                        sim_item[i][j] += 1 / math.log(1 + len(items))
                    else:
                        flag = True if ixi > ixj else False 
                        num = max(ixi - ixj, ixj - ixi) - 1
                        t = max(t1 - t2, t2 - t1) * 10000
                        indicator = 1.0 if flag else 1.0 
                        sim_item[i][j] += 1.0 * indicator * (0.8 ** num) * (1 - t) / math.log(1 + len(items))
    
    sim_item_corr = sim_item.copy()#引入AB的各种被点击次数
    for i, related_items in tqdm(sim_item.items()):
        for j, sim in related_items.items():
            #sim_item_corr[i][j] = sim / math.sqrt(item_cnt[i] * item_cnt[j])
            sim_item_corr[i][j] = sim / (item_cnt[i] * item_cnt[j]) ** 0.2

    return sim_item_corr, user_item_dict

#交互行为打分，根据位置远近添加权重
def recommend(item_sim_list, user_item_dict, user_id, topk, item_num):
    
    user_items = user_item_dict[user_id]
    user_items = user_items[::-1]
    rank = {}
    for ixi, i in enumerate(user_items):
        for j, sim in sorted(item_sim_list[i].items(), key = lambda x: x[1], reverse = True)[: topk]:
       # 青禹小生
            if j not in user_items:
                rank.setdefault(j, 0)
                rank[j] += sim * (0.75 ** ixi)
                
    return  sorted(rank.items(), key = lambda x: x[1], reverse = True)[: item_num]

#fill user to 50 items，召回的50个商品中，是最后一次点击的商品label是1，反之为0.
def get_predict(rec_df, pred_col, top_50_clicks):
    top_50_clicks = [int(t) for t in top_50_clicks.split(',')]
    scores = [-1 * (i + 1) for i in range(0, len(top_50_clicks))]
    ids = list(rec_df['user_id'].unique())
    
    fill_df = pd.DataFrame(ids * len(top_50_clicks), columns=['user_id'])
    fill_df.sort_values('user_id', inplace = True)
    fill_df['item_id'] = top_50_clicks * len(ids)
    fill_df[pred_col] = scores * len(ids)
    rec_df = rec_df.append(fill_df)
    rec_df.sort_values(pred_col, ascending=False, inplace=True)
    rec_df = rec_df.drop_duplicates(subset=['user_id', 'item_id'], keep='first')
    rec_df['rank'] = rec_df.groupby('user_id')[pred_col].rank(method = 'first', ascending=False)
    rec_df = rec_df[rec_df['rank'] <= 50]
    rec_df = rec_df.groupby('user_id')['item_id'].apply(lambda x : ','.join([str(i) for i in x])).str.split(',', expand = True).reset_index()
    
    return rec_df


if __name__ == '__main__':
    current_phase = 9
    train_path = 'E:/JupyterFile/Code/KDD/data/underexpose_train/'
    test_path = 'E:/JupyterFile/Code/KDD/data/underexpose_test/'
    rec_items = []

    whole_click = pd.DataFrame()
    for phase in range(7, current_phase + 1):
        print("phase: ", phase)
        train_click = pd.read_csv(train_path + 'underexpose_train_click-{}.csv'.format(phase), header = None, names=['user_id', 'item_id', 'time'])
        test_click = pd.read_csv(test_path + 'underexpose_test_click-{}.csv'.format(phase), header = None, names = ['user_id', 'item_id', 'time'])
        test_users = pd.read_csv(test_path + 'underexpose_test_qtime-{}.csv'.format(phase), header = None, names = ['user_id','time'])

        all_click = train_click.append(test_click)
        whole_click = whole_click.append(all_click)
        whole_click = whole_click.drop_duplicates(subset = ['user_id', 'item_id', 'time'], keep = 'last')
        whole_click = whole_click.sort_values('time')#get_sim_click的输入

        item_sim_list, user_item = get_sim_item(whole_click, 'user_id', 'item_id', 'time', use_iuf = True, use_time = True)
        
        
        for i in tqdm(test_users['user_id'].unique()):#qtime，unique()返回参数数组中所有不同的数并从小到大排序
            rank_items = recommend(item_sim_list, user_item, i, 500, 50)#推荐50
            for j in rank_items:
                rec_items.append([i, j[0], j[1]])
        
    '''
    test_users = pd.read_csv(test_path + 'underexpose_test_qtime-{}.csv'.format(current_phase), header = None, names = ['user_id','time'])

    for i in tqdm(test_users['user_id'].unique()):
            rank_items = recommend(item_sim_list, user_item, i, 500, 50)
            for j in rank_items:
                rec_items.append([i, j[0], j[1]])
    '''
    # find most popular items for cold-start users
    top_50_clicks = whole_click['item_id'].value_counts().index[:50].values 
    top_50_clicks = ','.join([str(i) for i in top_50_clicks])

    rec_df = pd.DataFrame(rec_items, columns=['user_id', 'item_id', 'sim'])
    result = get_predict(rec_df, 'sim', top_50_clicks)
    time_str = time.strftime("%Y-%m-%d_%H_%M_%S", time.localtime())
    file_name = './underexpose_submit{time_str}.csv'.format(time_str=time_str)
    result.to_csv(file_name, index = False, header = None)



phase:  0


100%|██████████████████████████████████████████████████████████████████████████| 18505/18505 [00:15<00:00, 1215.74it/s]
100%|█████████████████████████████████████████████████████████████████████████| 40776/40776 [00:03<00:00, 10816.85it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1663/1663 [00:07<00:00, 220.69it/s]


phase:  1


100%|███████████████████████████████████████████████████████████████████████████| 21457/21457 [00:24<00:00, 868.33it/s]
100%|██████████████████████████████████████████████████████████████████████████| 51914/51914 [00:05<00:00, 9237.38it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1726/1726 [00:18<00:00, 91.19it/s]


phase:  2


100%|███████████████████████████████████████████████████████████████████████████| 23816/23816 [00:40<00:00, 585.51it/s]
100%|██████████████████████████████████████████████████████████████████████████| 61905/61905 [00:09<00:00, 6628.21it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1690/1690 [00:26<00:00, 63.82it/s]


phase:  3


100%|███████████████████████████████████████████████████████████████████████████| 26046/26046 [01:02<00:00, 417.07it/s]
100%|██████████████████████████████████████████████████████████████████████████| 71904/71904 [00:21<00:00, 3305.87it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1675/1675 [00:46<00:00, 35.84it/s]


phase:  4


100%|███████████████████████████████████████████████████████████████████████████| 27768/27768 [01:23<00:00, 332.34it/s]
100%|██████████████████████████████████████████████████████████████████████████| 80750/80750 [00:18<00:00, 4299.72it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1708/1708 [01:10<00:00, 24.21it/s]


phase:  5


100%|███████████████████████████████████████████████████████████████████████████| 29571/29571 [01:55<00:00, 256.67it/s]
100%|██████████████████████████████████████████████████████████████████████████| 89473/89473 [00:23<00:00, 3739.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1798/1798 [01:35<00:00, 18.76it/s]


phase:  6


100%|███████████████████████████████████████████████████████████████████████████| 31525/31525 [02:33<00:00, 206.02it/s]
100%|██████████████████████████████████████████████████████████████████████████| 98769/98769 [00:32<00:00, 3050.50it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1821/1821 [02:10<00:00, 13.91it/s]
