In [36]:
import random
import math
import gc

import numpy as np
import pandas as pd
from tqdm.notebook import tqdm

import torch
from torch import nn
from torch_geometric.data import Data
from torch_geometric.nn.inits import uniform

tqdm.pandas()

In [37]:
n_samples = 1000
min_nodes = 4
max_nodes = 20
min_edges = 4

data_list = []

for i in tqdm(range(n_samples)):
    n_nodes = random.randint(min_nodes, max_nodes)
    x_features = torch.randn((n_nodes, 3))
    x_mask = torch.zeros((n_nodes, 1))
    x = torch.cat([x_features, x_mask], dim=1)
        
#     max_edges = math.factorial(n_nodes)
    n_edges = random.randint(min_edges, n_nodes * 2)
    edge_index = torch.randint(0, n_nodes - 1, (2, n_edges)).long()
    
    direction = torch.tensor([[int(edge_index[0][i] > edge_index[1][i])] for i in range(n_edges)])
    
    edge_attr = torch.cat([torch.randn((n_edges, 1)), direction, torch.zeros((n_edges, 2))], dim=1)

    data = Data(
        x=x,
        edge_index=edge_index,
        edge_attr=edge_attr
    )
    
    data_list.append(data)

  0%|          | 0/1000 [00:00<?, ?it/s]

In [38]:
data_list[0].x.shape[1]

4

In [39]:
data_list[0].edge_attr.shape[1]

4

In [40]:
CONFIG = {
    "device": 0,
    "batch_size": 256,
    "epochs": 100,
    "lr": 0.001,
    "decay": 0,
    "num_layer": 5,
    "emb_dim": 300,
    "dropout_ratio": 0,
    "mask_rate": 0.15,
    "mask_edge": 1,
    "JK": "last",
    "output_model_file": '',
    "gnn_type": "gat",
    "seed": 0, 
    "num_workers": 8
}

In [41]:
CONFIG["num_layer"]

5

In [42]:
def cycle_index(num, shift):
    arr = torch.arange(num) + shift
    arr[-shift:] = torch.arange(shift)
    return arr

class Discriminator(nn.Module):
    def __init__(self, hidden_dim):
        super(Discriminator, self).__init__()
        self.weight = nn.Parameter(torch.Tensor(hidden_dim, hidden_dim))
        self.reset_parameters()

    def reset_parameters(self):
        size = self.weight.size(0)
        uniform(size, self.weight)

    def forward(self, x, summary):
        h = torch.matmul(summary, self.weight)
        return torch.sum(x * h, dim = 1)

class Infomax(nn.Module):
    def __init__(self, gnn, discriminator):
        super(Infomax, self).__init__()
        self.gnn = gnn
        self.discriminator = discriminator
        self.loss = nn.BCEWithLogitsLoss()
        self.pool = global_mean_pool


def train(args, model, device, loader, optimizer):
    model.train()

    train_acc_accum = 0
    train_loss_accum = 0

    for step, batch in enumerate(tqdm(loader, desc="Iteration")):
        batch = batch.to(device)
        node_emb = model.gnn(batch.x, batch.edge_index, batch.edge_attr)
        summary_emb = torch.sigmoid(model.pool(node_emb, batch.batch))

        positive_expanded_summary_emb = summary_emb[batch.batch]

        shifted_summary_emb = summary_emb[cycle_index(len(summary_emb), 1)]
        negative_expanded_summary_emb = shifted_summary_emb[batch.batch]

        positive_score = model.discriminator(node_emb, positive_expanded_summary_emb)
        negative_score = model.discriminator(node_emb, negative_expanded_summary_emb)      

        optimizer.zero_grad()
        loss = model.loss(positive_score, torch.ones_like(positive_score)) + model.loss(negative_score, torch.zeros_like(negative_score))
        loss.backward()

        optimizer.step()

        train_loss_accum += float(loss.detach().cpu().item())
        acc = (torch.sum(positive_score > 0) + torch.sum(negative_score < 0)).to(torch.float32)/float(2*len(positive_score))
        train_acc_accum += float(acc.detach().cpu().item())

    return train_acc_accum/step, train_loss_accum/step

In [47]:
import argparse

from chem.dataloader import DataLoaderMasking  # , DataListLoader
from chem.mydataset import MyDataset
from torch_geometric.data import DataLoader

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from tqdm import tqdm
import numpy as np

from chem.model import GNN, GNN_graphpred

import pandas as pd

from chem.util import MaskNode

from torch_geometric.nn import global_add_pool, global_mean_pool, global_max_pool

criterion = nn.MSELoss()

torch.manual_seed(0)
np.random.seed(0)
device = torch.device("cuda:" + str(CONFIG["device"])) if torch.cuda.is_available() else torch.device("cpu")
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(0)


#set up dataset
dataset = MyDataset(data_list)
loader = DataLoader(dataset, batch_size=1, shuffle=True, num_workers=0)

#set up model
gnn = GNN(CONFIG["num_layer"], 
          CONFIG["emb_dim"], 
          x_input_dim = data_list[0].x.shape[1],
          edge_attr_input_dim = data_list[0].edge_attr.shape[1],
          JK = CONFIG["JK"],
          drop_ratio = CONFIG["dropout_ratio"], 
          gnn_type = CONFIG["gnn_type"])

discriminator = Discriminator(CONFIG["emb_dim"])
model = Infomax(gnn, discriminator)
model.to(device)

#set up optimizer
optimizer = optim.Adam(model.parameters(), lr=CONFIG["lr"], weight_decay=CONFIG["decay"])

for epoch in range(1, CONFIG["epochs"] + 1):
    print("====epoch " + str(epoch))

    train_loss = train(CONFIG, model=model, device=device, loader=loader, optimizer=optimizer)
    print(train_loss)

if not CONFIG["model_file"] == "":
    torch.save(model.state_dict(), CONFIG["model_file"] + ".pth")

====epoch 1


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:10<00:00, 93.12it/s]


(0.5005005005005005, 4.4379396946938545)
====epoch 2


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 83.16it/s]


(0.5005005005005005, 2.654238336556428)
====epoch 3


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.12it/s]


(0.5005005005005005, 2.3342450258132814)
====epoch 4


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 70.84it/s]


(0.5005005005005005, 2.0729039641352625)
====epoch 5


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 77.83it/s]


(0.5005005005005005, 1.8513793859395895)
====epoch 6


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 69.09it/s]


(0.5005005005005005, 1.7305115487601783)
====epoch 7


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 69.86it/s]


(0.5005005005005005, 1.7453218802317485)
====epoch 8


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 72.29it/s]


(0.5005005005005005, 1.7141757061531593)
====epoch 9


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 77.45it/s]


(0.5005005005005005, 1.5478010162099585)
====epoch 10


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 67.51it/s]


(0.5005005005005005, 1.487009546300909)
====epoch 11


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 71.36it/s]


(0.5005005005005005, 1.4920894411113765)
====epoch 12


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 66.91it/s]


(0.5005005005005005, 1.424224091960384)
====epoch 13


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:17<00:00, 57.78it/s]


(0.5005005005005005, 1.4878845849671998)
====epoch 14


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:17<00:00, 56.81it/s]


(0.5005005005005005, 1.3954699825834822)
====epoch 15


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.57it/s]


(0.5005005005005005, 1.3981879903031542)
====epoch 16


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 72.93it/s]


(0.5005005005005005, 1.3964835937555369)
====epoch 17


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 74.90it/s]


(0.5005005005005005, 1.4108950220667444)
====epoch 18


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.50it/s]


(0.5005005005005005, 1.3927108622170068)
====epoch 19


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 80.19it/s]


(0.5005005005005005, 1.3937917629161753)
====epoch 20


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.64it/s]


(0.5005005005005005, 1.3914179717217598)
====epoch 21


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:15<00:00, 64.46it/s]


(0.5005005005005005, 1.390152139587326)
====epoch 22


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 84.67it/s]


(0.5005005005005005, 1.3896601091514718)
====epoch 23


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 82.24it/s]


(0.5005005005005005, 1.3894521036186256)
====epoch 24


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 75.22it/s]


(0.5005005005005005, 1.3891621373437189)
====epoch 25


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 79.75it/s]


(0.5005005005005005, 1.3882859983482398)
====epoch 26


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 75.18it/s]


(0.5005005005005005, 1.388986283475095)
====epoch 27


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.31it/s]


(0.5005005005005005, 1.3879281585519616)
====epoch 28


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 67.76it/s]


(0.5005005005005005, 1.3885305211828038)
====epoch 29


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 69.85it/s]


(0.5005005005005005, 1.3882193444846749)
====epoch 30


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.62it/s]


(0.5005005005005005, 1.3894816108413406)
====epoch 31


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 74.27it/s]


(0.5005005005005005, 1.387819640390627)
====epoch 32


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.84it/s]


(0.5005005005005005, 1.3879080977406468)
====epoch 33


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 86.63it/s]


(0.5005005005005005, 1.387802197649195)
====epoch 34


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 83.95it/s]


(0.5005005005005005, 1.3877851034666564)
====epoch 35


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.41it/s]


(0.5005005005005005, 1.388054818123788)
====epoch 36


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:17<00:00, 58.73it/s]


(0.5005005005005005, 1.388095553692158)
====epoch 37


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 78.79it/s]


(0.5005005005005005, 1.3878815104892184)
====epoch 38


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 82.98it/s]


(0.5005005005005005, 1.3877291692508473)
====epoch 39


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 80.19it/s]


(0.5005005005005005, 1.387723089338423)
====epoch 40


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 73.51it/s]


(0.5005005005005005, 1.3877108180606448)
====epoch 41


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 78.51it/s]


(0.5005005005005005, 1.3877035047676232)
====epoch 42


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 77.63it/s]


(0.5005005005005005, 1.3882042156444774)
====epoch 43


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.19it/s]


(0.5005005005005005, 1.3876854896068096)
====epoch 44


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 81.62it/s]


(0.5004647504519653, 1.3876833381118239)
====epoch 45


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 80.78it/s]


(0.5005005005005005, 1.3876869331251036)
====epoch 46


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 71.86it/s]


(0.5005005005005005, 1.3876883691256947)
====epoch 47


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:15<00:00, 65.59it/s]


(0.5004647504519653, 1.3876863961463217)
====epoch 48


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 77.91it/s]


(0.5005005005005005, 1.3876972345260528)
====epoch 49


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.58it/s]


(0.5005005005005005, 1.3907423481210932)
====epoch 50


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 80.16it/s]


(0.5005005005005005, 1.3876956432789296)
====epoch 51


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 79.21it/s]


(0.5005005005005005, 1.3877445644325204)
====epoch 52


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 76.04it/s]


(0.5005005005005005, 1.3877061957472914)
====epoch 53


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 83.64it/s]


(0.5005005005005005, 1.387692739297678)
====epoch 54


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 83.89it/s]


(0.5005005005005005, 1.387697055771783)
====epoch 55


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:11<00:00, 86.55it/s]


(0.5005005005005005, 1.3876851473723326)
====epoch 56


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 68.09it/s]


(0.5005005005005005, 1.3876823365867317)
====epoch 57


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 75.78it/s]


(0.5005005005005005, 1.3876823840795218)
====epoch 58


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 68.96it/s]


(0.5005005005005005, 1.387682300549489)
====epoch 59


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:12<00:00, 80.93it/s]


(0.5005005005005005, 1.387682758055411)
====epoch 60


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 70.54it/s]


(0.5005005005005005, 1.3876823557986393)
====epoch 61


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 75.78it/s]


(0.5005005005005005, 1.387682149598787)
====epoch 62


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 74.86it/s]


(0.5005005005005005, 1.3882508822031565)
====epoch 63


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:14<00:00, 68.19it/s]


(0.5005005005005005, 1.3876872383677088)
====epoch 64


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 73.73it/s]


(0.5005005005005005, 1.3876873681972455)
====epoch 65


Iteration: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:13<00:00, 72.54it/s]


(0.5005005005005005, 1.3877187657046008)
====epoch 66


Iteration:  59%|███████████████████████████████████████████████████████████████████████                                                  | 587/1000 [00:08<00:06, 68.03it/s]


KeyboardInterrupt: 

In [None]:
import importlib
from chem import model, util, batch

importlib.reload(model)
importlib.reload(util)
importlib.reload(batch)

In [None]:
!cat "chem/batch.py"