<a href="https://colab.research.google.com/github/Bio-MingChen/DL_practice_by_Colab/blob/main/pytorch_lightning_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from IPython.display import clear_output
!pip install lightning
clear_output()

In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

import pytorch_lightning as pl

# 1. 定义一个简单的 PyTorch Dataset
class MyDataset(Dataset):
    def __init__(self, num_samples=1000):
        self.num_samples = num_samples
        # 随机生成一些模拟数据
        self.features = torch.randn(num_samples, 10)
        self.labels = torch.randint(0, 2, (num_samples,)) # 0 或 1 的标签

    def __len__(self):
        return self.num_samples

    def __getitem__(self, idx):
        return self.features[idx], self.labels[idx]

# 2. 定义一个 PyTorch Lightning Module
class MyLightningModule(pl.LightningModule):
    def __init__(self, learning_rate=0.001):
        super().__init__()
        self.learning_rate = learning_rate
        # 定义一个简单的模型
        self.linear = nn.Linear(10, 2)
        # 定义损失函数
        self.criterion = nn.CrossEntropyLoss()

    def forward(self, x):
        # 前向传播
        return self.linear(x)

    def training_step(self, batch, batch_idx):
        # 训练步骤
        x, y = batch
        logits = self(x)
        loss = self.criterion(logits, y)
        # 记录训练损失
        self.log('train_loss', loss)
        return loss

    def configure_optimizers(self):
        # 配置优化器
        optimizer = optim.Adam(self.parameters(), lr=self.learning_rate)
        return optimizer

    def train_dataloader(self):
        # 配置训练数据加载器
        dataset = MyDataset()
        return DataLoader(dataset, batch_size=32, shuffle=True)

# 3. 实例化数据集和模型
dataset = MyDataset()
model = MyLightningModule()

# 4. 实例化 PyTorch Lightning Trainer
# 可以设置训练的轮数 (epochs), GPU 使用等参数
trainer = pl.Trainer(max_epochs=5)

# 5. 开始训练
trainer.fit(model)

print("训练完成！")

INFO:pytorch_lightning.utilities.rank_zero:💡 Tip: For seamless cloud uploads and versioning, try installing [litmodels](https://pypi.org/project/litmodels/) to enable LitModelCheckpoint, which syncs automatically with the Lightning model registry.
INFO:pytorch_lightning.utilities.rank_zero:GPU available: True (cuda), used: True
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.utilities.rank_zero:You are using a CUDA device ('NVIDIA A100-SXM4-40GB') that has Tensor Cores. To properly utilize them, you should set `torch.set_float32_matmul_precision('medium' | 'high')` which will trade-off precision for performance. For more details, read https://pytorch.org/docs/stable/generated/torch.set_float32_matmul_precision.html#torch.set_float32_matmul_precision
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightn

Training: |          | 0/? [00:00<?, ?it/s]

INFO:pytorch_lightning.utilities.rank_zero:`Trainer.fit` stopped: `max_epochs=5` reached.


训练完成！


**代码说明：**

1.  **`MyDataset` 类:**
    *   这是一个标准的 PyTorch `Dataset` 类，用于加载数据。
    *   `__init__` 方法用于初始化数据集，这里生成了一些随机的模拟数据（特征和标签）。
    *   `__len__` 方法返回数据集的大小。
    *   `__getitem__` 方法根据索引返回一个数据样本 (特征和标签)。

2.  **`MyLightningModule` 类:**
    *   这是 PyTorch Lightning 的核心，一个 `pl.LightningModule`。
    *   `__init__` 方法定义了模型的结构 (`nn.Linear`) 和损失函数 (`nn.CrossEntropyLoss`)。
    *   `forward` 方法定义了模型的前向传播过程。
    *   `training_step` 方法定义了训练过程中的一个步骤，接收一个 batch 的数据，计算损失，并记录训练损失。
    *   `configure_optimizers` 方法配置了用于训练的优化器 (这里使用了 Adam)。
    *   `train_dataloader` 方法配置了训练数据加载器，用于批量加载数据进行训练。

3.  **实例化数据集和模型:**
    *   创建 `MyDataset` 和 `MyLightningModule` 的实例。

4.  **实例化 PyTorch Lightning Trainer:**
    *   `pl.Trainer` 是 PyTorch Lightning 的训练引擎。
    *   `max_epochs` 参数设置了最大训练轮数。

5.  **开始训练:**
    *   调用 `trainer.fit(model)` 方法开始训练模型。Trainer 会自动处理训练循环、优化器步进、损失计算、日志记录等。

这个例子展示了 PyTorch Lightning 的基本用法，你可以根据自己的任务修改 `MyDataset` 和 `MyLightningModule` 来构建更复杂的模型和训练流程。