Oneflow-Inc · oneflow-ci-bot · Aug 13, 2021 · Jul 28, 2021 · Jul 28, 2021 · Jul 28, 2021
diff --git a/python/oneflow/test/dataloader/data_utils.py b/python/oneflow/test/dataloader/data_utils.py
@@ -0,0 +1,140 @@
+import os
+import oneflow as flow
+import oneflow.utils.vision.transforms as transforms
+
+
+def load_data_cifar10(
+    batch_size,
+    data_dir="./data-test/cifar10",
+    download=True,
+    transform=None,
+    source_url=None,
+    num_workers=0,
+):
+    cifar10_train = flow.utils.vision.datasets.CIFAR10(
+        root=data_dir,
+        train=True,
+        download=download,
+        transform=transform,
+        source_url=source_url,
+    )
+    cifar10_test = flow.utils.vision.datasets.CIFAR10(
+        root=data_dir,
+        train=False,
+        download=download,
+        transform=transform,
+        source_url=source_url,
+    )
+
+    train_iter = flow.utils.data.DataLoader(
+        cifar10_train, batch_size=batch_size, shuffle=True, num_workers=num_workers
+    )
+    test_iter = flow.utils.data.DataLoader(
+        cifar10_test, batch_size=batch_size, shuffle=False, num_workers=num_workers
+    )
+    return train_iter, test_iter
+
+
+def load_data_mnist(
+    batch_size, resize=None, root="./data/mnist", download=True, source_url=None
+):
+    """Download the MNIST dataset and then load into memory."""
+    root = os.path.expanduser(root)
+    transformer = []
+    if resize:
+        transformer += [transforms.Resize(resize)]
+    transformer += [transforms.ToTensor()]
+    transformer = transforms.Compose(transformer)
+
+    mnist_train = flow.utils.vision.datasets.MNIST(
+        root=root,
+        train=True,
+        transform=transformer,
+        download=download,
+        source_url=source_url,
+    )
+    mnist_test = flow.utils.vision.datasets.MNIST(
+        root=root,
+        train=False,
+        transform=transformer,
+        download=download,
+        source_url=source_url,
+    )
+    train_iter = flow.utils.data.DataLoader(
+        mnist_train, batch_size, shuffle=True
+    )
+    test_iter = flow.utils.data.DataLoader(
+        mnist_test, batch_size, shuffle=False
+    )
+    return train_iter, test_iter
+
+
+def get_fashion_mnist_dataset(
+    resize=None,
+    root="./data-test/fashion-mnist",
+    download=True,
+    source_url=None,
+):
+    root = os.path.expanduser(root)
+    trans = []
+    if resize:
+        trans.append(transforms.Resize(resize))
+    trans.append(transforms.ToTensor())
+    transform = transforms.Compose(trans)
+
+    mnist_train = flow.utils.vision.datasets.FashionMNIST(
+        root=root,
+        train=True,
+        transform=transform,
+        download=download,
+        source_url=source_url,
+    )
+    mnist_test = flow.utils.vision.datasets.FashionMNIST(
+        root=root,
+        train=False,
+        transform=transform,
+        download=download,
+        source_url=source_url,
+    )
+    return mnist_train, mnist_test
+
+
+# reference: http://tangshusen.me/Dive-into-DL-PyTorch/#/chapter03_DL-basics/3.10_mlp-pytorch
+def load_data_fashion_mnist(
+    batch_size,
+    resize=None,
+    root="./data-test/fashion-mnist",
+    download=True,
+    source_url=None,
+    num_workers=0,
+):
+    """Download the Fashion-MNIST dataset and then load into memory."""
+    root = os.path.expanduser(root)
+    trans = []
+    if resize:
+        trans.append(transforms.Resize(resize))
+    trans.append(transforms.ToTensor())
+    transform = transforms.Compose(trans)
+
+    mnist_train = flow.utils.vision.datasets.FashionMNIST(
+        root=root,
+        train=True,
+        transform=transform,
+        download=download,
+        source_url=source_url,
+    )
+    mnist_test = flow.utils.vision.datasets.FashionMNIST(
+        root=root,
+        train=False,
+        transform=transform,
+        download=download,
+        source_url=source_url,
+    )
+
+    train_iter = flow.utils.data.DataLoader(
+        mnist_train, batch_size, shuffle=True, num_workers=num_workers
+    )
+    test_iter = flow.utils.data.DataLoader(
+        mnist_test, batch_size, shuffle=False, num_workers=num_workers
+    )
+    return train_iter, test_iter
diff --git a/python/oneflow/test/dataloader/test_cifar_dataset.py b/python/oneflow/test/dataloader/test_cifar_dataset.py
@@ -20,6 +20,7 @@
 import oneflow as flow
 import oneflow.nn as nn
 import oneflow.optim as optim
+from data_utils import load_data_cifar10
 
 
 classes = (
@@ -81,21 +82,19 @@ def test(test_case):
         os.getenv("ONEFLOW_TEST_CACHE_DIR", "./data-test"), "cifar10"
     )
 
-    trainset = flow.utils.vision.datasets.CIFAR10(
-        root=data_dir,
-        train=True,
+    train_iter, test_iter = load_data_cifar10(
+        batch_size=batch_size, 
+        data_dir=data_dir,
         download=True,
         transform=transform,
         source_url="https://oneflow-public.oss-cn-beijing.aliyuncs.com/datasets/cifar/cifar-10-python.tar.gz",
-    )
-    trainloader = flow.utils.data.DataLoader(
-        trainset, batch_size=batch_size, shuffle=False, num_workers=0
+        num_workers=0
     )
 
     final_loss = 0
     for epoch in range(1, train_epoch + 1):  # loop over the dataset multiple times
         running_loss = 0.0
-        for i, data in enumerate(trainloader, 1):
+        for i, data in enumerate(train_iter, 1):
             # get the inputs; data is a list of [inputs, labels]
             inputs, labels = data
             inputs = inputs.to(dtype=flow.float32, device=device)

diff --git a/python/oneflow/test/dataloader/test_ddp_flow.py b/python/oneflow/test/dataloader/test_ddp_flow.py
@@ -0,0 +1,88 @@
+# ref:https://zhuanlan.zhihu.com/p/178402798
+import argparse
+from tqdm import tqdm
+
+import oneflow as flow
+import oneflow.utils.vision as vision
+import oneflow.nn as nn
+import oneflow.F as F
+import oneflow.utils as utils
+import oneflow.optim as optim
+import oneflow.distributed as dist
+from oneflow.nn.parallel import DistributedDataParallel as DDP
+
+
+class ToyModel(nn.Module):
+    def __init__(self):
+        super(ToyModel, self).__init__()
+        self.conv1 = nn.Conv2d(3, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+def get_dataset():
+    transform = vision.transforms.Compose([
+        vision.transforms.ToTensor(),
+        vision.transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+    ])
+    my_trainset = vision.datasets.CIFAR10(root='./data', train=True, 
+        download=True, transform=transform)
+
+    train_sampler = utils.data.distributed.DistributedSampler(my_trainset)
+    trainloader = utils.data.DataLoader(my_trainset, 
+        batch_size=16, num_workers=2, sampler=train_sampler)
+    return trainloader
+
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--local_rank", default=-1, type=int)
+FLAGS = parser.parse_args()
+# local_rank = FLAGS.local_rank
+local_rank = flow.device("cuda")
+
+# torch.cuda.set_device(local_rank)
+# dist.init_process_group(backend='nccl')
+
+trainloader = get_dataset()
+
+model = ToyModel().to(local_rank)
+
+ckpt_path = None
+# if dist.get_rank() == 0 and ckpt_path is not None:
+#     model.load_state_dict(torch.load(ckpt_path))
+# DDP model
+# model = DDP(model, device_ids=[local_rank], output_device=local_rank)
+model = DDP(model)
+optimizer = optim.SGD(model.parameters(), lr=0.001)
+loss_func = nn.CrossEntropyLoss().to(local_rank)
+
+
+model.train()
+iterator = tqdm(range(10))
+for epoch in iterator:
+    trainloader.sampler.set_epoch(epoch)
+    for data, label in trainloader:
+        data, label = data.to(local_rank), label.to(local_rank)
+        optimizer.zero_grad()
+        prediction = model(data)
+        loss = loss_func(prediction, label)
+        loss.backward()
+        iterator.desc = "loss = %0.3f" % loss.numpy()
+        optimizer.step()
+
+    # if dist.get_rank() == 0:
+    #     torch.save(model.module.state_dict(), "%d.ckpt" % epoch)
+
+################
+# export CUDA_VISIBLE_DEVICES="0,1"
+# python -m oneflow.distributed.launch --nproc_per_node 2 test_ddp_flow.py
diff --git a/python/oneflow/test/dataloader/test_ddp_torch.py b/python/oneflow/test/dataloader/test_ddp_torch.py
@@ -0,0 +1,85 @@
+# ref:https://zhuanlan.zhihu.com/p/178402798
+import argparse
+from tqdm import tqdm
+import torch
+import torchvision as vision
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.utils as utils
+import torch.optim as optim
+import torch.distributed as dist
+from torch.nn.parallel import DistributedDataParallel as DDP
+
+
+class ToyModel(nn.Module):
+    def __init__(self):
+        super(ToyModel, self).__init__()
+        self.conv1 = nn.Conv2d(3, 6, 5)
+        self.pool = nn.MaxPool2d(2, 2)
+        self.conv2 = nn.Conv2d(6, 16, 5)
+        self.fc1 = nn.Linear(16 * 5 * 5, 120)
+        self.fc2 = nn.Linear(120, 84)
+        self.fc3 = nn.Linear(84, 10)
+    def forward(self, x):
+        x = self.pool(F.relu(self.conv1(x)))
+        x = self.pool(F.relu(self.conv2(x)))
+        x = x.view(-1, 16 * 5 * 5)
+        x = F.relu(self.fc1(x))
+        x = F.relu(self.fc2(x))
+        x = self.fc3(x)
+        return x
+
+def get_dataset():
+    transform = vision.transforms.Compose([
+        vision.transforms.ToTensor(),
+        vision.transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+    ])
+    my_trainset = vision.datasets.CIFAR10(root='./data', train=True, 
+        download=True, transform=transform)
+
+    train_sampler = utils.data.distributed.DistributedSampler(my_trainset)
+    trainloader = utils.data.DataLoader(my_trainset, 
+        batch_size=16, num_workers=2, sampler=train_sampler)
+    return trainloader
+
+
+parser = argparse.ArgumentParser()
+parser.add_argument("--local_rank", default=-1, type=int)
+FLAGS = parser.parse_args()
+local_rank = FLAGS.local_rank
+
+torch.cuda.set_device(local_rank)
+dist.init_process_group(backend='nccl')
+
+trainloader = get_dataset()
+
+model = ToyModel().to(local_rank)
+
+ckpt_path = None
+if dist.get_rank() == 0 and ckpt_path is not None:
+    model.load_state_dict(torch.load(ckpt_path))
+# DDP model
+model = DDP(model, device_ids=[local_rank], output_device=local_rank)
+optimizer = optim.SGD(model.parameters(), lr=0.001)
+loss_func = nn.CrossEntropyLoss().to(local_rank)
+
+
+model.train()
+iterator = tqdm(range(10))
+for epoch in iterator:
+    trainloader.sampler.set_epoch(epoch)
+    for data, label in trainloader:
+        data, label = data.to(local_rank), label.to(local_rank)
+        optimizer.zero_grad()
+        prediction = model(data)
+        loss = loss_func(prediction, label)
+        loss.backward()
+        iterator.desc = "loss = %0.3f" % loss
+        optimizer.step()
+
+    # if dist.get_rank() == 0:
+    #     torch.save(model.module.state_dict(), "%d.ckpt" % epoch)
+
+################
+# export CUDA_VISIBLE_DEVICES="0,1"
+# python -m torch.distributed.launch --nproc_per_node 2 test_ddp_torch.py