In [1]:
# 自动计算cell的计算时间
%load_ext autotime

%matplotlib inline
%config InlineBackend.figure_format='svg' #矢量图设置，让绘图更清晰

%reload_ext tensorboard

time: 298 ms (started: 2021-09-01 17:22:05 +08:00)


In [2]:
%%bash

# 增加更新
git add *.ipynb */*.ipynb

git remote -v

git commit -m '更新 #1 Sept 01, 2021'

#git push origin master
git push

origin	git@github.com:ustchope/pytorch_lightning_study.git (fetch)
origin	git@github.com:ustchope/pytorch_lightning_study.git (push)
[main ca7ee2c] 更新 #1 Sept 01, 2021
 4 files changed, 4398 insertions(+), 285 deletions(-)
 create mode 100644 "\346\225\231\347\250\213/.ipynb_checkpoints/PL\347\256\200\344\273\213-checkpoint.ipynb"
 create mode 100644 "\346\225\231\347\250\213/PL\347\256\200\344\273\213.ipynb"


To github.com:ustchope/pytorch_lightning_study.git
   1a4dd6f..ca7ee2c  main -> main


time: 3.85 s (started: 2021-09-01 17:22:38 +08:00)


In [21]:
import os
import torch
from torch import nn
import torch.nn.functional as F
from torchvision import transforms
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader, random_split
import pytorch_lightning as pl
from pytorch_lightning import LightningModule, Trainer
import torchmetrics

PATH_DATASETS = os.environ.get('PATH_DATASETS', '.')
AVAIL_GPUS = min(1, torch.cuda.device_count())
BATCH_SIZE = 256 if AVAIL_GPUS else 64
num_workers = 24

time: 2.42 ms (started: 2021-09-01 17:39:41 +08:00)


# 最简单的例子

这是最简单的最小示例，只有一个训练循环（没有验证，没有测试）。

请记住——LightningModule 是一个 PyTorch nn.Module——它只是有一些更有用的功能。

In [4]:
class MNISTModel(LightningModule):

    def __init__(self):
        super().__init__()
        self.l1 = torch.nn.Linear(28 * 28, 10)

    def forward(self, x):
        return torch.relu(self.l1(x.view(x.size(0), -1)))

    def training_step(self, batch, batch_nb):
        x, y = batch
        loss = F.cross_entropy(self(x), y)
        return loss

    def configure_optimizers(self):
        return torch.optim.Adam(self.parameters(), lr=0.02)

time: 1.78 ms (started: 2021-09-01 17:23:46 +08:00)


通过使用训练器，您将自动获得： 1. Tensorboard 日志记录 2. 模型检查点 3. 训练和验证循环 4. 提前停止

In [9]:
# Init our model
mnist_model = MNISTModel()

# Init DataLoader from MNIST Dataset
train_ds = MNIST(PATH_DATASETS, train=True, download=True, transform=transforms.ToTensor())
train_loader = DataLoader(train_ds, batch_size=BATCH_SIZE, num_workers=num_workers)

# Initialize a trainer
trainer = Trainer(
    gpus=AVAIL_GPUS,
    max_epochs=3,
    progress_bar_refresh_rate=20,
)

# Train the model ⚡
trainer.fit(mnist_model, train_loader)

GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7,8,9]

  | Name | Type   | Params
--------------------------------
0 | l1   | Linear | 7.9 K 
--------------------------------
7.9 K     Trainable params
0         Non-trainable params
7.9 K     Total params
0.031     Total estimated model params size (MB)


Training: -1it [00:00, ?it/s]

time: 9.88 s (started: 2021-09-01 17:26:53 +08:00)


# 一个更完整的 MNIST 闪电模块示例

那不是很难吗？

现在我们已经搞定了，让我们深入一点，为 MNIST 编写一个更完整的 LightningModule ......

这一次，我们将直接在 LightningModule 中烘焙所有特定于数据集的部分。 这样，我们就可以避免每次要运行脚本时在脚本的开头编写额外的代码。

**请注意以下内置函数的作用：**

1. prepare_data() 💾
* 这是我们可以下载数据集的地方。我们指向我们想要的数据集，如果在那里找不到数据集，就要求 torchvision 的 MNIST 数据集类下载。
* 请注意，我们没有在此函数中进行任何状态分配（即 self.something = ...）
2. setup(stage)）⚙️
* 从文件加载数据并为每个分割（训练、验证、测试）准备 PyTorch 张量数据集。
* 设置需要一个“阶段”参数，用于分隔“适合”和“测试”的逻辑。
* 如果您不介意一次加载所有数据集，您可以设置一个条件，以允许“适合”相关设置和“测试”相关设置在 None 传递到阶段时运行（或完全忽略它并排除任何条件）。
* 请注意，这会在所有 GPU 上运行，并且在此处进行状态分配*是*安全的
3. x_dataloader() ♻️
* train_dataloader()、val_dataloader() 和 test_dataloader() 都返回 PyTorch DataLoader 实例，这些实例是通过包装我们在 setup() 中准备的各自数据集创建的

In [19]:
class LitMNIST(LightningModule):

    def __init__(self, data_dir=PATH_DATASETS, hidden_size=64, learning_rate=2e-4):

        super().__init__()

        # 将我们的 init args 设置为类属性
        self.data_dir = data_dir
        self.hidden_size = hidden_size
        self.learning_rate = learning_rate

        # 硬编码一些特定于数据集的属性
        self.num_classes = 10
        self.dims = (1, 28, 28)
        channels, width, height = self.dims
        self.transform = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.1307, ), (0.3081, )),
        ])

        # 定义 PyTorch 模型
        self.model = nn.Sequential(
            nn.Flatten(),
            nn.Linear(channels * width * height, hidden_size),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(hidden_size, hidden_size),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(hidden_size, self.num_classes),
        )

    def forward(self, x):
        x = self.model(x)
        return F.log_softmax(x, dim=1)

    def training_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = F.nll_loss(logits, y)
        return loss

    def validation_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = F.nll_loss(logits, y)
        preds = torch.argmax(logits, dim=1)
        acc = torchmetrics.functional.accuracy(preds, y)

        # 调用 self.log 将在 TensorBoard 中为您显示标量
        self.log('val_loss', loss, prog_bar=True)
        self.log('val_acc', acc, prog_bar=True)
        return loss

    def test_step(self, batch, batch_idx):
        # 这里我们只是重用了validation_step进行测试
        return self.validation_step(batch, batch_idx)

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=self.learning_rate)
        return optimizer

    ####################
    #数据相关的钩子
    ####################

    def prepare_data(self):
        # download
        MNIST(self.data_dir, train=True, download=True)
        MNIST(self.data_dir, train=False, download=True)

    def setup(self, stage=None):

        # 分配 train/val 数据集以用于数据加载器
        if stage in ('fit', None):
            mnist_full = MNIST(self.data_dir, train=True, transform=self.transform)
            self.mnist_train, self.mnist_val = random_split(mnist_full, [55000, 5000])

        # 分配测试数据集以在数据加载器中使用
        if stage in ('test', None):
            self.mnist_test = MNIST(self.data_dir, train=False, transform=self.transform)

    def train_dataloader(self):
        return DataLoader(self.mnist_train, batch_size=BATCH_SIZE, num_workers=num_workers)

    def val_dataloader(self):
        return DataLoader(self.mnist_val, batch_size=BATCH_SIZE, num_workers=num_workers)

    def test_dataloader(self):
        return DataLoader(self.mnist_test, batch_size=BATCH_SIZE, num_workers=num_workers)

time: 1.78 ms (started: 2021-09-01 17:39:20 +08:00)


In [22]:
model = LitMNIST()
trainer = Trainer(
    gpus=AVAIL_GPUS,
    max_epochs=3,
    progress_bar_refresh_rate=20,
)
trainer.fit(model)

GPU available: True, used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7,8,9]

  | Name  | Type       | Params
-------------------------------------
0 | model | Sequential | 55.1 K
-------------------------------------
55.1 K    Trainable params
0         Non-trainable params
55.1 K    Total params
0.220     Total estimated model params size (MB)


Validation sanity check: 0it [00:00, ?it/s]

Training: -1it [00:00, ?it/s]

Validating: 0it [00:00, ?it/s]

Validating: 0it [00:00, ?it/s]

Validating: 0it [00:00, ?it/s]

time: 19.8 s (started: 2021-09-01 17:39:49 +08:00)


# 测试

要测试模型，请调用 trainer.test(model)。

或者，如果您刚刚训练了一个模型，您只需调用 trainer.test()，Lightning 将使用保存最好的检查点（以 val_loss 为条件）自动进行测试。

In [23]:
trainer.test()

LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7,8,9]


Testing: 0it [00:00, ?it/s]

--------------------------------------------------------------------------------
DATALOADER:0 TEST RESULTS
{'val_acc': 0.9262999892234802, 'val_loss': 0.2543572187423706}
--------------------------------------------------------------------------------


[{'val_loss': 0.2543572187423706, 'val_acc': 0.9262999892234802}]

time: 3.2 s (started: 2021-09-01 17:41:15 +08:00)


# 额外提示

您可以多次调用 trainer.fit(model) 继续训练

在 Colab 中，您可以使用 TensorBoard 魔术功能查看 Lightning 为您创建的日志！

In [None]:
# Start tensorboard.
%load_ext tensorboard
%tensorboard --logdir lightning_logs/