
Hyperparameter tuning with Ray Tune
===================================

- Hyper-parameter Tuning은 평균 모델과 매우 정확한 모델을 구분할 수 있습니다. 다른 학습률을 선택하거나 네트워크 계층 크기를 변경하는 것과 같은 간단한 작업이 모델 성능에 큰 영향을 줄 수 있습니다.

- [Ray Tune](https://docs.ray.io/en/latest/tune.html)은 최적의 매개변수 조합을 찾는 데 도움이 되는 도구 입니다.
분산 하이퍼파라미터 튜닝 및 최신 하이퍼파라미터 검색 알고리즘,  TensorBoard, 분산 교육을 지원 및 기타 분석 라이브러리를 포함하는 업계 표준 도구입니다.

- 이 튜토리얼에서는 CIFAR10 이미지 분류기를 훈련하기 위해 Ray Tune을 PyTorch 교육 워크플로에 통합하는 방법을 보여줍니다. 

- 다음과 같은 약간의 수정만 추가하면 됩니다.

1. 함수에서 데이터 로드 및 training을 래핑합니다.
2. 일부 네트워크 매개변수를 configurable 하게 만들고,
3. 체크포인트 추가(선택 사항)
4. 모델 튜닝을 위한 검색 공간 정의

In [1]:
pip install -q ray 

Note: you may need to restart the kernel to use updated packages.


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-api-core 1.31.0 requires google-auth<2.0dev,>=1.25.0, which is not installed.


In [3]:
from functools import partial
import numpy as np
import os
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import random_split
import torchvision
import torchvision.transforms as transforms
from ray import tune
from ray.tune import CLIReporter
from ray.tune.schedulers import ASHAScheduler

데이터 로더
----------
데이터 로더를 자체 함수로 래핑하고 전역 데이터 디렉토리를 전달합니다.
이런 식으로 서로 다른 trial 간에 데이터 디렉토리를 공유할 수 있습니다.



In [4]:
def load_data(data_dir="./data"):
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ])

    trainset = torchvision.datasets.CIFAR10(
        root=data_dir, train=True, download=True, transform=transform)

    testset = torchvision.datasets.CIFAR10(
        root=data_dir, train=False, download=True, transform=transform)

    return trainset, testset

Configurable neural network
---------------------------
구성 가능한 매개변수만 조정할 수 있습니다. 이 예에서는 완전 연결 계층의 계층 크기를 지정할 수 있습니다.



In [5]:
class Net(nn.Module):
    def __init__(self, l1=120, l2=84):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, l1)
        self.fc2 = nn.Linear(l1, l2)
        self.fc3 = nn.Linear(l2, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

The train function
------------------
이제 [PyTorch 문서](https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html)에서 예제에 대한 몇 가지 변경 사항을 도입하기 때문에 흥미로워집니다. 

훈련 스크립트를 ``train_cifar(config, checkpoint_dir=None, data_dir=None)`` 함수로 래핑합니다.

짐작할 수 있듯이 ``config`` 매개변수는 우리가 훈련할 하이퍼파라미터를 받습니다. ``checkpoint_dir`` 매개변수는 체크포인트를 복원하는 데 사용됩니다. ``data_dir``은 데이터를 로드하고 저장할 디렉토리를 지정하므로 여러 run이 동일한 데이터 소스를 공유할 수 있습니다.

.. code-block:: python

    net = Net(config["l1"], config["l2"])

    if checkpoint_dir:
        model_state, optimizer_state = torch.load(
            os.path.join(checkpoint_dir, "checkpoint"))
        net.load_state_dict(model_state)
        optimizer.load_state_dict(optimizer_state)

옵티마이저의 learning rate 도 configure 할 수 있습니다.

.. code-block:: python

    optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)

또한 훈련 데이터를 훈련 및 검증 subset으로 나눕니다. 따라서 우리는 데이터의 80%에 대해 훈련하고 나머지 20%에 대해 유효성 검사 손실을 계산합니다. 훈련 및 테스트 세트를 iterate하는 batch size 도 cofigure 할 수 있습니다.

DataParallel로 (다중) GPU 지원 추가
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
이미지 분류는 GPU의 이점이 많습니다. 운 좋게도 Ray Tune에서 PyTorch의 추상화를 계속 사용할 수 있습니다. 따라서 여러 GPU에서 데이터 병렬 train을 지원하기 위해 모델을 ``nn.DataParallel``로 래핑할 수 있습니다.

.. code-block:: python

    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda:0"
        if torch.cuda.device_count() > 1:
            net = nn.DataParallel(net)
    net.to(device)

By using a ``device`` variable we make sure that training also works when we have
no GPUs available. PyTorch requires us to send our data to the GPU memory explicitly,
like this:

``device`` 변수를 사용하여 사용 가능한 GPU가 없을 때도 훈련이 작동하는지 확인합니다. PyTorch는 데이터를 GPU 메모리에 명시적으로 보내도록 다음가 같이, 요구합니다.

.. code-block:: python

    for i, data in enumerate(trainloader, 0):
        inputs, labels = data
        inputs, labels = inputs.to(device), labels.to(device)

이제 이 코드는 CPU, 단일 GPU 및 여러 GPU에 대한 교육을 지원합니다. 특히 Ray는 fractional GPU도 지원하므로 테스트 간에 GPU를 공유할 수 있습니다. 모델은 여전히 GPU 메모리에 fit 합니다. 나중에 다시 다루겠습니다.

Communicating with Ray Tune
~~~~~~~~~~~~~~~~~~~~~~~~~~~

가장 흥미로운 부분은 Ray Tune과의 커뮤니케이션입니다.

.. code-block:: python

    with tune.checkpoint_dir(epoch) as checkpoint_dir:
        path = os.path.join(checkpoint_dir, "checkpoint")
        torch.save((net.state_dict(), optimizer.state_dict()), path)

    tune.report(loss=(val_loss / val_steps), accuracy=correct / total)

여기에서 먼저 체크포인트를 저장한 다음 일부 메트릭을 Ray Tune에 다시 보고합니다. 특히, 검증 손실과 정확도를 Ray Tune으로 다시 보냅니다. Ray Tune은 이러한 측정항목들을 사용하여 어떤 하이퍼파라미터 구성이 최상의 결과를 가져오는지 결정합니다. 이러한 메트릭은 또한 해당 시도에 리소스 낭비를 방지하기 위해 성능이 좋지 않은 시도를 조기에 중지하는 데 사용할 수 있습니다.

체크포인트 저장은 선택사항이지만 Population Based Training과 같은 고급 스케줄러를 사용하려면 필요합니다.

또한 체크포인트를 저장하면 나중에 훈련된 모델을 로드하고 테스트 세트에서 검증할 수 있습니다.

Full training function
~~~~~~~~~~~~~~~~~~~~~~

전체 코드 예제는 다음과 같습니다.

In [6]:
def train_cifar(config, checkpoint_dir=None, data_dir=None):
    net = Net(config["l1"], config["l2"])

    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda:0"
        if torch.cuda.device_count() > 1:
            net = nn.DataParallel(net)
    net.to(device)

    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(net.parameters(), lr=config["lr"], momentum=0.9)

    if checkpoint_dir:
        model_state, optimizer_state = torch.load(
            os.path.join(checkpoint_dir, "checkpoint"))
        net.load_state_dict(model_state)
        optimizer.load_state_dict(optimizer_state)

    trainset, testset = load_data(data_dir)

    test_abs = int(len(trainset) * 0.8)
    train_subset, val_subset = random_split(
        trainset, [test_abs, len(trainset) - test_abs])

    trainloader = torch.utils.data.DataLoader(
        train_subset,
        batch_size=int(config["batch_size"]),
        shuffle=True,
        num_workers=8)
    valloader = torch.utils.data.DataLoader(
        val_subset,
        batch_size=int(config["batch_size"]),
        shuffle=True,
        num_workers=8)

    for epoch in range(10):  # loop over the dataset multiple times
        running_loss = 0.0
        epoch_steps = 0
        for i, data in enumerate(trainloader, 0):
            # get the inputs; data is a list of [inputs, labels]
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)

            # zero the parameter gradients
            optimizer.zero_grad()

            # forward + backward + optimize
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            # print statistics
            running_loss += loss.item()
            epoch_steps += 1
            if i % 2000 == 1999:  # print every 2000 mini-batches
                print("[%d, %5d] loss: %.3f" % (epoch + 1, i + 1,
                                                running_loss / epoch_steps))
                running_loss = 0.0

        # Validation loss
        val_loss = 0.0
        val_steps = 0
        total = 0
        correct = 0
        for i, data in enumerate(valloader, 0):
            with torch.no_grad():
                inputs, labels = data
                inputs, labels = inputs.to(device), labels.to(device)

                outputs = net(inputs)
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()

                loss = criterion(outputs, labels)
                val_loss += loss.cpu().numpy()
                val_steps += 1

        with tune.checkpoint_dir(epoch) as checkpoint_dir:
            path = os.path.join(checkpoint_dir, "checkpoint")
            torch.save((net.state_dict(), optimizer.state_dict()), path)

        tune.report(loss=(val_loss / val_steps), accuracy=correct / total)
    print("Finished Training")

보시다시피, 대부분의 코드는 원래 예제에서 직접 수정되었습니다.

Test set accuracy
-----------------
일반적으로 머신 러닝 모델의 성능은 모델 훈련에 사용되지 않은 데이터로 홀드아웃 테스트 세트에서 테스트됩니다. 우리는 또한 이것을 함수로 래핑합니다:



In [None]:
def test_accuracy(net, device="cpu"):
    trainset, testset = load_data()

    testloader = torch.utils.data.DataLoader(
        testset, batch_size=4, shuffle=False, num_workers=2)

    correct = 0
    total = 0
    with torch.no_grad():
        for data in testloader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    return correct / total

이 함수는 또한 ``device`` 매개변수를 기대하므로 GPU에서 테스트 세트 유효성 검사를 수행할 수 있습니다.

Configuring the search space
----------------------------
마지막으로 Ray Tune의 검색 공간을 정의해야 합니다. 다음은 예입니다.

.. code-block:: python

    config = {
        "l1": tune.sample_from(lambda _: 2**np.random.randint(2, 9)),
        "l2": tune.sample_from(lambda _: 2**np.random.randint(2, 9)),
        "lr": tune.loguniform(1e-4, 1e-1),
        "batch_size": tune.choice([2, 4, 8, 16])
    }


``tune.sample_from()`` 함수를 사용하면 하이퍼파라미터를 얻기 위해 고유한 샘플 메서드를 정의할 수 있습니다. 이 예에서 ``l1`` 및 ``l2`` 매개변수는 4에서 256 사이의 2의 거듭제곱이어야 하므로 4, 8, 16, 32, 64, 128 또는 256입니다.
``lr``(학습률)은 0.0001과 0.1 사이에서 균일하게 샘플링되어야 합니다. 마지막으로 배치 크기는 2, 4, 8, 16 중에서 선택할 수 있습니다.

각 trial 에서 Ray Tune은 이제 이러한 검색 공간에서 매개변수 조합을 무작위로 샘플링합니다. 그런 다음 여러 모델을 병렬로 훈련하고 이 중에서 가장 성능이 좋은 모델을 찾습니다. 또한 성능이 좋지 않은 시도를 조기에 종료하는 ``ASHAScheduler``를 사용합니다.

``train_cifar`` 함수를 ``functools.partial``로 래핑하여 상수 ``data_dir`` 매개변수를 설정합니다. 또한 Ray Tune에 각 trial 에 사용할 수 있는 리소스가 무엇인지 알릴 수 있습니다.

.. code-block:: python

    gpus_per_trial = 2
    # ...
    result = tune.run(
        partial(train_cifar, data_dir=data_dir),
        resources_per_trial={"cpu": 8, "gpu": gpus_per_trial},
        config=config,
        num_samples=num_samples,
        scheduler=scheduler,
        progress_reporter=reporter,
        checkpoint_at_end=True)

CPU 수를 지정하여 사용할 수 있습니다. 예를 들어, PyTorch ``DataLoader`` 인스턴스의 ``num_workers``를 늘릴 수 있습니다. 각 trial에서는 선택한 수의 GPU가 PyTorch에 사용 됩니다. 각 Trial 은 요청되지 않은 GPU 에 액세스 권한이 없으므로 동일한 리소스 세트를 사용하는 두 개의 시도에 대해 신경 쓸 필요가 없습니다.

각 trial은 GPU 공유도 가능합니다. ``gpus_per_trial=0.5``와 같은 것이 완전히 유효합니다.
모델이 여전히 GPU 메모리에 맞는지 확인하기만 하면 됩니다.

모델을 훈련시킨 후 가장 성능이 좋은 모델을 찾고 체크포인트 파일에서 훈련된 네트워크를 로드합니다. 그런 다음 테스트 세트 정확도를 얻고 모든 것을 인쇄하여 보고합니다.

전체 주요 기능은 다음과 같습니다.

In [None]:
def main(num_samples=10, max_num_epochs=10, gpus_per_trial=2):
    data_dir = os.path.abspath("./data")
    load_data(data_dir)
    config = {
        "l1": tune.sample_from(lambda _: 2 ** np.random.randint(2, 9)),
        "l2": tune.sample_from(lambda _: 2 ** np.random.randint(2, 9)),
        "lr": tune.loguniform(1e-4, 1e-1),
        "batch_size": tune.choice([2, 4, 8, 16])
    }
    scheduler = ASHAScheduler(
        metric="loss",
        mode="min",
        max_t=max_num_epochs,
        grace_period=1,
        reduction_factor=2)
    reporter = CLIReporter(
        # parameter_columns=["l1", "l2", "lr", "batch_size"],
        metric_columns=["loss", "accuracy", "training_iteration"])
    result = tune.run(
        partial(train_cifar, data_dir=data_dir),
        resources_per_trial={"cpu": 2, "gpu": gpus_per_trial},
        config=config,
        num_samples=num_samples,
        scheduler=scheduler,
        progress_reporter=reporter)

    best_trial = result.get_best_trial("loss", "min", "last")
    print("Best trial config: {}".format(best_trial.config))
    print("Best trial final validation loss: {}".format(
        best_trial.last_result["loss"]))
    print("Best trial final validation accuracy: {}".format(
        best_trial.last_result["accuracy"]))

    best_trained_model = Net(best_trial.config["l1"], best_trial.config["l2"])
    device = "cpu"
    if torch.cuda.is_available():
        device = "cuda:0"
        if gpus_per_trial > 1:
            best_trained_model = nn.DataParallel(best_trained_model)
    best_trained_model.to(device)

    best_checkpoint_dir = best_trial.checkpoint.value
    model_state, optimizer_state = torch.load(os.path.join(
        best_checkpoint_dir, "checkpoint"))
    best_trained_model.load_state_dict(model_state)

    test_acc = test_accuracy(best_trained_model, device)
    print("Best trial test set accuracy: {}".format(test_acc))


if __name__ == "__main__":
    # You can change the number of GPUs per trial here:
    main(num_samples=10, max_num_epochs=10, gpus_per_trial=0)

코드를 실행하면 예를 들어 출력은 다음과 같을 수 있습니다.

::

    Number of trials: 10 (10 TERMINATED)
    +-----+------+------+-------------+--------------+---------+------------+--------------------+
    | ... |   l1 |   l2 |          lr |   batch_size |    loss |   accuracy | training_iteration |
    |-----+------+------+-------------+--------------+---------+------------+--------------------|
    | ... |   64 |    4 | 0.00011629  |            2 | 1.87273 |     0.244  |                  2 |
    | ... |   32 |   64 | 0.000339763 |            8 | 1.23603 |     0.567  |                  8 |
    | ... |    8 |   16 | 0.00276249  |           16 | 1.1815  |     0.5836 |                 10 |
    | ... |    4 |   64 | 0.000648721 |            4 | 1.31131 |     0.5224 |                  8 |
    | ... |   32 |   16 | 0.000340753 |            8 | 1.26454 |     0.5444 |                  8 |
    | ... |    8 |    4 | 0.000699775 |            8 | 1.99594 |     0.1983 |                  2 |
    | ... |  256 |    8 | 0.0839654   |           16 | 2.3119  |     0.0993 |                  1 |
    | ... |   16 |  128 | 0.0758154   |           16 | 2.33575 |     0.1327 |                  1 |
    | ... |   16 |    8 | 0.0763312   |           16 | 2.31129 |     0.1042 |                  4 |
    | ... |  128 |   16 | 0.000124903 |            4 | 2.26917 |     0.1945 |                  1 |
    +-----+------+------+-------------+--------------+---------+------------+--------------------+


    Best trial config: {'l1': 8, 'l2': 16, 'lr': 0.00276249, 'batch_size': 16, 'data_dir': '...'}
    Best trial final validation loss: 1.181501
    Best trial final validation accuracy: 0.5836
    Best trial test set accuracy: 0.5806

대부분의 시도는 자원 낭비를 피하기 위해 일찍 중단되었습니다.
가장 잘 수행된 시험은 테스트 세트에서 확인할 수 있는 약 58%의 검증 정확도를 달성했습니다.

이제 PyTorch 모델의 매개변수를 조정할 수 있습니다.

