test data generated from training data? #9

diskun00 · 2019-06-10T18:07:39Z

Hi Rianne,

I have a question regarding the support matrix data. From the code, it seems you are using train rating matrix as a full dataset to generate also test support matrix.

rating support matrix rating_mx_train is generated from training rating data. (in testing, it contains training and validation data).

gc-mc/gcmc/preprocessing.py

Lines 191 to 193 in 722f37d

    
           rating_mx_train = np.zeros(num_users * num_items, dtype=np.float32) 
        
           rating_mx_train[train_idx] = labels[train_idx].astype(np.float32) + 1. 
        
           rating_mx_train = sp.csr_matrix(rating_mx_train.reshape(num_users, num_items))

support matrix is generated from the adj_train which is the rating_mx_train

gc-mc/gcmc/train.py

Lines 203 to 216 in 722f37d

    
           adj_train_int = sp.csr_matrix(adj_train, dtype=np.int32) 
        
           for i in range(NUMCLASSES): 
        
               # build individual binary rating matrices (supports) for each rating 
        
               support_unnormalized = sp.csr_matrix(adj_train_int == i + 1, dtype=np.float32) 
        
               if support_unnormalized.nnz == 0 and DATASET != 'yahoo_music': 
        
                   # yahoo music has dataset split with not all ratings types present in training set. 
        
                   # this produces empty adjacency matrices for these ratings. 
        
                   sys.exit('ERROR: normalized bipartite adjacency matrix has only zero entries!!!!!') 
        
               support_unnormalized_transpose = support_unnormalized.T 
        
               support.append(support_unnormalized) 
        
               support_t.append(support_unnormalized_transpose)

But then 'test_support' is extracted from 'support'.

gc-mc/gcmc/train.py

Line 246 in 722f37d

test_support = support[np.array(test_u)]

Shouldn't we change line 192 to
rating_mx_train[idx_nonzero] = labels[idx_nonzero].astype(np.float32) + 1.0
such that all rating_mx_train contains all rating data.

gc-mc/gcmc/preprocessing.py

Lines 191 to 193 in 722f37d

    
           rating_mx_train = np.zeros(num_users * num_items, dtype=np.float32) 
        
           rating_mx_train[train_idx] = labels[train_idx].astype(np.float32) + 1. 
        
           rating_mx_train = sp.csr_matrix(rating_mx_train.reshape(num_users, num_items))

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

test data generated from training data? #9

test data generated from training data? #9

diskun00 commented Jun 10, 2019

test data generated from training data? #9

test data generated from training data? #9

Comments

diskun00 commented Jun 10, 2019