dataset.py

import numpy as np

import torch

import dgl
from dgl.data import (
    CoraGraphDataset, 
    CiteseerGraphDataset, 
    PubmedGraphDataset,
    AmazonCoBuyPhotoDataset, AmazonCoBuyComputerDataset,
    CoauthorCSDataset, CoauthorPhysicsDataset,
    WikiCSDataset
)
from ogb.nodeproppred import DglNodePropPredDataset

from sklearn.preprocessing import StandardScaler


GRAPH_DICT = {
    "cora": CoraGraphDataset,
    "citeseer": CiteseerGraphDataset,
    "pubmed": PubmedGraphDataset,
    "ogbn-arxiv": DglNodePropPredDataset,
    "wikics": WikiCSDataset,
    "photo": AmazonCoBuyPhotoDataset,
    "computer": AmazonCoBuyComputerDataset,
    "cs": CoauthorCSDataset,
    "physics": CoauthorPhysicsDataset
}


def preprocess(graph):
    feat = graph.ndata["feat"]
    graph = dgl.to_bidirected(graph)
    graph.ndata["feat"] = feat

    graph = graph.remove_self_loop().add_self_loop()
    graph.create_formats_()
    return graph


def scale_feats(x):
    scaler = StandardScaler()
    feats = x.numpy()
    scaler.fit(feats)
    feats = torch.from_numpy(scaler.transform(feats)).float()
    return feats


def load_dataset(dataset_name):
    assert dataset_name in GRAPH_DICT, f"Unknow dataset: {dataset_name}."
    if dataset_name.startswith("ogbn"):
        dataset = GRAPH_DICT[dataset_name](dataset_name, root='/home/zhengyimei/dataset/')
    else:
        dataset = GRAPH_DICT[dataset_name]()

    citegraph = ['cora', 'citeseer', 'pubmed', 'wikics']
    cograph = ['photo', 'computer', 'cs', 'physics']

    if dataset_name == "ogbn-arxiv":
        graph, labels = dataset[0]
        num_nodes = graph.num_nodes()

        split_idx = dataset.get_idx_split()
        train_idx, val_idx, test_idx = split_idx["train"], split_idx["valid"], split_idx["test"]
        graph = preprocess(graph)

        if not torch.is_tensor(train_idx):
            train_idx = torch.as_tensor(train_idx)
            val_idx = torch.as_tensor(val_idx)
            test_idx = torch.as_tensor(test_idx)

        feat = graph.ndata["feat"]
        feat = scale_feats(feat)
        graph.ndata["feat"] = feat

        train_mask = torch.full((num_nodes,), False).index_fill_(0, train_idx, True)
        val_mask = torch.full((num_nodes,), False).index_fill_(0, val_idx, True)
        test_mask = torch.full((num_nodes,), False).index_fill_(0, test_idx, True)
        graph.ndata["label"] = labels.view(-1)
        graph.ndata["train_mask"], graph.ndata["val_mask"], graph.ndata["test_mask"] = train_mask, val_mask, test_mask
    elif dataset_name in citegraph:
        graph = dataset[0]
        graph = graph.remove_self_loop()
        graph = graph.add_self_loop()

        train_mask = graph.ndata["train_mask"]
        val_mask = graph.ndata["val_mask"]
        test_mask = graph.ndata["test_mask"]

        train_idx = torch.nonzero(train_mask, as_tuple=False).squeeze()
        val_idx = torch.nonzero(val_mask, as_tuple=False).squeeze()
        test_idx = torch.nonzero(test_mask, as_tuple=False).squeeze()

    elif dataset_name in cograph:
        graph = dataset[0]
        graph = graph.remove_self_loop()
        graph = graph.add_self_loop()

        # split training/validing/testing
        train_ratio = 0.1
        val_ratio = 0.1
        test_ratio = 0.8

        N = graph.number_of_nodes()
        train_num = int(N * train_ratio)
        val_num = int(N * (train_ratio + val_ratio))

        idx = np.arange(N)
        np.random.shuffle(idx)

        train_idx = torch.tensor(idx[:train_num])
        val_idx = torch.tensor(idx[train_num:val_num])
        test_idx = torch.tensor(idx[val_num:])

        train_mask = torch.full((N,), False).index_fill_(0, train_idx, True)
        val_mask = torch.full((N,), False).index_fill_(0, val_idx, True)
        test_mask = torch.full((N,), False).index_fill_(0, test_idx, True)
        graph.ndata["train_mask"], graph.ndata["val_mask"], graph.ndata["test_mask"] = train_mask, val_mask, test_mask

    num_features = graph.ndata["feat"].shape[1]
    num_classes = dataset.num_classes
    return graph, (num_features, num_classes)