In [1]:
import os

from collections import deque
from six import next
from box import Box

import torch
from scipy.sparse import lil_matrix

from dataset import GraphRecDataset
from model import GraphRecModel
from trainer import GraphRecTrainer

In [2]:
args = {
    ##############datasets###############
    'data_path' : '/opt/ml/input/data/train/',
    'test_ratio' : 0.2,
    'use_exist' : True, # test_ratio 바꾸면 한번 False 처리해서 다시 불러와야함!
    'is_graph' : True,

    'use_side_information' : True,
    'side_titles' : False, # Not implement yet
    'side_genres' : True,
    'side_directors' : False, # Not implement yet
    'side_writers' : False, # Not implement yet
    'side_years' : True,
    
    #############optimizer###############
    'lr' : 2e-4,
    'wd' : 0.00,
    
    ##############model##################
    'user_weight' : 0.008,
    'movie_weight' : 0.006,
    'mf_size' : 50,
    
    ##############trainer#################
    'batch_size' : 256,
    'epochs' : 5,
    'num_negative' : 5,
    
    #################etc##################
    'device' : 'cuda'
    
}
args = Box(args)

dirs = {
    'ratings' : os.path.join(args.data_path, 'train_ratings.csv'),
    'titles' : os.path.join(args.data_path, 'titles.tsv'),
    'genres' : os.path.join(args.data_path, 'genres.tsv'),
    'directors' : os.path.join(args.data_path, 'directors.tsv'),
    'years' : os.path.join(args.data_path, 'years_new.tsv'),
    'writers' : os.path.join(args.data_path, 'writers.tsv'),
    'output' : './output/',
    'model_output' : './model'
}
dirs = Box(dirs)

In [3]:
dataset = GraphRecDataset(args, dirs)

load existing train graphs!
load train side information...
load existing inference graphs!
load inference side information...


In [4]:
import time

In [5]:
from operator import itemgetter

In [6]:
import numpy as np
import pandas as pd

In [7]:
import torch.optim as optim

In [8]:
model = GraphRecModel(args, dataset).to(args.device)
model_best = GraphRecModel(args, dataset).to(args.device)
optimizer = optim.Adam(model.parameters(), lr=args.lr, weight_decay=args.wd)

In [9]:
trainer = GraphRecTrainer(args, dirs, dataset,
                         model, model_best, optimizer)

In [10]:
trainer.train()

  0%|          | 59/16108 [00:05<23:54, 11.18it/s]


KeyboardInterrupt: 

In [9]:
data = data.sample(frac=1, random_state=42).reset_index(drop=True) 

In [10]:
shuffled_data = data.sample(frac=1, random_state=42).reset_index(drop=True) 
total_length = len(shuffled_data)
n_batches = np.ceil(total_length / 256)

In [11]:
user_graph = dataset.train_user_graph

In [12]:
movie_graph = dataset.train_movie_graph

In [13]:
optimizer = optim.Adam(model.parameters(), lr=args.lr, weight_decay=args.wd)

In [46]:
shuffled_data = data.sample(frac=1, random_state=42).reset_index(drop=True)
user_data = np.array(shuffled_data['user'])
movie_data = np.array(shuffled_data['item'])
rating_data = np.array(shuffled_data['rating'])

total_length = len(shuffled_data)
n_batches = np.ceil(total_length / 256)

In [43]:
from tqdm import tqdm

In [48]:
for e in range(5):
    shuffled_data = data.sample(frac=1, random_state=42).reset_index(drop=True)
    user_data = np.array(shuffled_data['user'])
    movie_data = np.array(shuffled_data['item'])
    rating_data = np.array(shuffled_data['rating'])

    total_length = len(shuffled_data)
    n_batches = np.ceil(total_length / 256)
    e_loss = 0.0
    for start_index in tqdm(range(0, total_length, 256)) :
        end_index = min(start_index + 256, total_length)

        user_idx = user_data[start_index:end_index]
        movie_idx = movie_data[start_index:end_index]
        target = rating_data[start_index:end_index]

        user_input = torch.FloatTensor(user_graph[user_idx]).to('cuda')
        movie_input = torch.FloatTensor(movie_graph[movie_idx]).to('cuda')
        target = torch.FloatTensor(target).to('cuda')

        optimizer.zero_grad()
        pred, regularizer = model(user_input, movie_input)
        cost_l2 = torch.sum((target-pred)**2) / 2
        loss = torch.add(cost_l2, regularizer)    
        e_loss += loss
        loss.backward()
        optimizer.step()

    print(e_loss / n_batches)

100%|██████████| 16108/16108 [23:14<00:00, 11.55it/s]


tensor(42.7058, device='cuda:0', grad_fn=<DivBackward0>)


100%|██████████| 16108/16108 [13:29<00:00, 19.89it/s]


tensor(56.4256, device='cuda:0', grad_fn=<DivBackward0>)


100%|██████████| 16108/16108 [21:26<00:00, 12.52it/s]


tensor(60.5044, device='cuda:0', grad_fn=<DivBackward0>)


 18%|█▊        | 2952/16108 [03:52<17:16, 12.70it/s]


KeyboardInterrupt: 

In [40]:
target

tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 

In [40]:
user_input

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.07567336],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.05002138],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.13381787],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.21205643],
       [0.        , 0.        , 0.        , ..., 0.        , 1.        ,
        0.56263363],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.02821719]], dtype=float32)

In [46]:
movie_graph.shape

(6807, 38187)

In [47]:
movie_input.shape

(256, 38187)

In [35]:
adataset.train_data.iloc[[2,3,4]]['user']

2    23612
3    16172
4    30836
Name: user, dtype: int64

In [52]:
gr = dataset.train_user_graph

In [54]:
np.nonzero(gr)

(array([    0,     0,     0, ..., 31359, 31359, 31359]),
 array([    0, 31360, 31378, ..., 37167, 37190, 38167]))

In [60]:
import torch.nn as nn

In [61]:
criterion = nn.BCELoss()

In [65]:
target

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [23]:
import numpy as np
from tqdm import tqdm

In [24]:
neg_dct = {}
for ind, samples in tqdm(enumerate(dataset.train_user_graph)):
    neg_dct[ind] = np.where(samples == 0)

31360it [00:07, 4015.60it/s]


In [28]:
np.where(dataset.train_user_graph[0] == 0)

(array([    1,     2,     3, ..., 38164, 38165, 38166]),)

In [None]:
criterion(pred,)

In [63]:
type(criterion)

torch.nn.modules.loss.BCELoss

In [62]:
criterion(pred, target)

TypeError: 'int' object is not callable