In [1]:
import os
import numpy as np
import pandas as pd
from tqdm import tqdm, trange

import torch
from torch_geometric.nn import GAE
from torch_geometric.utils import is_undirected, to_undirected


from torch.utils.data import DataLoader, TensorDataset
from sklearn.metrics import f1_score
from sklearn.preprocessing import MinMaxScaler

from model.GCN_GRU import SingleGCN_GRU, Decoder
from utils import *

In [2]:
shop_col = 'stonc_6_label'
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
#device = torch.device('cpu')
embedding_dim = 64
entity_dim = 8
epochs = 1000
learning_rate = 0.001
batch_size = 1000

weights_path = 'SingleGCN_GRU_Link_Prediction'

In [3]:
data_path = './data'

chid_dict_file = 'sample/sample_50k_idx_map.npy'
cdtx_file = 'sample/sample_50k_cdtx.csv'
cust_file = 'preprocessed/df_cust_log_without_shop.csv'

chid_path = os.path.join(data_path, chid_dict_file)
cdtx_path = os.path.join(data_path, cdtx_file)
cust_path = os.path.join(data_path, cust_file)

In [4]:
df_cdtx, df_cust, n_users, n_shops = read_sample_files(cdtx_path,
                                                       cust_path,
                                                       chid_path,
                                                       shop_col)

Start reading cdtx file...
Finish reading cdtx file !
Start reading cust file...
Finish reading cust file !
Start maping encodeing...
Finish !!


In [5]:
list_months = sorted(df_cdtx.csmdt.unique())
ma = np.log(df_cdtx.groupby(['chid', 'csmdt']).objam.sum().max()+1)

ignore_cols = ['chid', 'data_dt']
category_cols = [f'category_{i+1}' for i in range(6)]
numeric_cols = list(set(df_cust.columns) - set(category_cols) - set(ignore_cols))

emb_dims = list(df_cust[category_cols].nunique())

input_dim = len(category_cols)*entity_dim + len(numeric_cols)

In [6]:
edge_dict = {}
edge_weights_dict = {}
for month in tqdm(list_months):
    edges = df_cdtx[df_cdtx.csmdt==month].groupby(['chid', shop_col]).objam.sum()
    edge_pairs = np.stack([np.array(i) for i in edges.index]).T
    edge_pairs = torch.LongTensor(edge_pairs)
    
    edge_weights = np.log(edges.values+1)
    edge_weights = torch.Tensor(edge_weights)
    
    if not is_undirected(edge_pairs):
        edge_pairs = torch.cat([edge_pairs, edge_pairs[[1,0],:]], -1)
        edge_weights = edge_weights.repeat(2)
    
    edge_dict[month] = edge_pairs
    edge_weights_dict[month] = edge_weights

100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:18<00:00,  1.38it/s]


In [7]:
model = GAE(SingleGCN_GRU(input_dim, embedding_dim, entity_dim, emb_dims), Decoder(embedding_dim, 6)).to(device)

x_num = []
x_cat = []
y = []
for i in list_months:
    cust_num_features = df_cust[df_cust.data_dt==i][numeric_cols].to_numpy()
    cust_num_features = torch.Tensor(cust_num_features)
    cust_cat_features = df_cust[df_cust.data_dt==i][category_cols].to_numpy()
    cust_cat_features = torch.LongTensor(cust_cat_features)
    
    shop_num_features = torch.zeros(n_shops, cust_num_features.shape[1])
    shop_cat_features = torch.zeros(n_shops, cust_cat_features.shape[1]).long()
    
    temp_y = np.e**(df_cust[df_cust.data_dt==i]['objam'].to_numpy()*ma)
    ind1 = (temp_y >0) & (temp_y <= 1e4)
    ind2 = (temp_y >1e4) & (temp_y <= 5e4)
    ind3 = (temp_y >5e4) & (temp_y <= 1e5)
    ind4 = (temp_y >1e5) & (temp_y <= 3e5)
    ind5 = (temp_y >3e5)

    temp_y[ind1] = 1
    temp_y[ind2] = 2
    temp_y[ind3] = 3
    temp_y[ind4] = 4
    temp_y[ind5] = 5
    
    x_num.append(torch.cat([cust_num_features, shop_num_features], 0).to(device))
    x_cat.append(torch.cat([cust_cat_features, shop_cat_features], 0).to(device))
    y.append(torch.LongTensor(temp_y).to(device))
    
optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)
pos_edge_index = [i.to(device) for i in edge_dict.values()]
pos_edge_weigts = [i.to(device) for i in edge_weights_dict.values()]

In [12]:
model.encoder.load_state_dict(torch.load(weights_path))
model.eval()

criterion = torch.nn.CrossEntropyLoss()

In [13]:
def train():
    model.train()
    train_output = []
    train_y = np.array([])
    for i in tqdm(range(10)):
        
        train_dataset = TensorDataset(y[i+12])
        train_loader = DataLoader(dataset=train_dataset, shuffle=False, batch_size=batch_size)
        
        for j, true_y in enumerate(train_loader):
            optimizer.zero_grad()
            z = model.encode(x_cat[i:i+12], x_num[i:i+12], pos_edge_index[i:i+12], pos_edge_weigts[i:i+12])
            output = model.decode(z[j*batch_size:(j+1)*batch_size])
            loss = criterion(output, true_y[0])
            train_output.append(output.cpu().detach().numpy())
            train_y = np.concatenate([train_y, true_y[0].cpu().detach().numpy().reshape(-1)])
        
            loss.backward()
            optimizer.step()
        
            
    return loss/10, train_output, train_y

In [14]:
def test():
    model.eval()
    test_output = []
    test_y = np.array([])
    
    for i in range(10,12):

        with torch.no_grad():
            z = model.encode(x_cat[i:i+12], x_num[i:i+12], pos_edge_index[i:i+12], pos_edge_weigts[i:i+12])
            output = model.decode(z[:n_users])
            test_output.append(output.cpu().detach().numpy())
            test_y = np.concatenate([test_y, y[i+12].cpu().detach().numpy().reshape(-1)])
            
    return test_output, test_y

In [15]:
for epoch in range(epochs):
    loss, train_output, train_y  = train()
    
    test_output, test_y = test()
    
    print('train',f1_score(train_y, np.argmax(np.concatenate(train_output,0),-1), average='macro'))
    print('test', f1_score(test_y, np.argmax(np.concatenate(test_output,0),-1), average='macro'))

100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:40<00:00, 10.07s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.2584663960313687
test 0.33226212435402935


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:40<00:00, 10.05s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.3493761685552349
test 0.3736855021976474


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.37137236838826315
test 0.38520259144828467


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:38<00:00,  9.90s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.3831446346781182
test 0.41250720552426945


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.3911231030274459
test 0.4216543343775789


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.3966467258885374
test 0.42571524835855223


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.94s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4007416510370675
test 0.42975795596387856


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4045571281426083
test 0.43314448627678087


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4075799525505016
test 0.4336540998164284


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.40997720021712114
test 0.43548389449892344


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.94s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4121663869708588
test 0.4378875618668056


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4146892098801712
test 0.439910571493499


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.41626183660864546
test 0.4409116447663143


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4177191707343203
test 0.44081421463376297


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.41894848617633185
test 0.44091214505663245


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.94s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4197678182343128
test 0.44215631025314533


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4205776163375755
test 0.4429850011764576


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42132050305220464
test 0.44320387226688435


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4220998190976831
test 0.44610499511635765


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42304772898912146
test 0.44604166612085994


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4242018626601878
test 0.4475456816299771


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4248494970463114
test 0.44803224504847117


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4252331340757388
test 0.4487759955785801


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4257653203547891
test 0.44875892702326114


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42682652720010694
test 0.4502567084935893


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42745627739384806
test 0.4501999420004331


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42851904553417786
test 0.4499501561432643


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42883472917190646
test 0.4500969693681555


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.42952780072706476
test 0.4501386281452132


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.93s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4303313318646221
test 0.4506661602033487


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43106849075641673
test 0.44940647000397027


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43143673553677175
test 0.44920502332601864


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43221251356590196
test 0.4495728012851107


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.93s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43244595508793227
test 0.44997805997585577


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43315679378837757
test 0.4494351066161573


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:40<00:00, 10.02s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43383457762322986
test 0.4508227457402091


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00, 10.00s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4346134856494464
test 0.4504842786310581


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43525614377138755
test 0.4515391822372057


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.95s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4352511512347051
test 0.45091522011600205


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.435647973769116
test 0.45245861945074434


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4360114293471584
test 0.4520245512751845


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4366406206892123
test 0.45229097545867053


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.96s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4368011860198003
test 0.45274909311019707


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4373062513664686
test 0.4531834902829752


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4376161597561469
test 0.4521902294559955


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.95s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43746669689110124
test 0.4323242274484054


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.90s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4377955455563807
test 0.4360405056465626


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4383387186122569
test 0.44346468030444147


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4392420844006534
test 0.4466048539894407


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4398427757074109
test 0.4464272932743888


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.43986703338245164
test 0.44639451282718634


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.91s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.440796087388908
test 0.4461033995888567


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.92s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4409970805066159
test 0.44200392898346336


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.90s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4413116105250638
test 0.43759443271366766


100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:39<00:00,  9.90s/it]
  0%|                                                                                           | 0/10 [00:00<?, ?it/s]

train 0.4417401126650825
test 0.4382966090380561


 20%|████████████████▌                                                                  | 2/10 [00:30<02:00, 15.12s/it]


KeyboardInterrupt: 