# 如何使用开箱即用的 Flash DataModules

Flash 提供了几个带有辅助函数的 DataModules。 查看图像分类部分（或我们任何其他任务的部分）以了解更多信息。

# 数据处理

目前，通常的做法是实现 torch.utils.data.Dataset 并将其提供给 torch.utils.data.DataLoader。然而，在模型训练之后，需要大量的工程开销来对原始数据进行推理并将模型部署到生产环境中。通常，应该添加额外的处理逻辑来弥合训练数据和原始数据之间的差距。

DataSource 类可用于从多个源（例如文件夹、numpy 等）生成数据集，然后所有这些都可以以相同的方式进行转换。 Preprocess 和 Postprocess 类可用于管理预处理和后处理转换。 Serializer 类提供将 Postprocess 输出转换为所需预测格式（例如类、标签、概率等）的逻辑。

通过提供一系列可被自定义数据处理逻辑覆盖（或仅针对转换）的钩子，Flash 为用户提供了对其数据处理流程的更精细的控制。

以下是主要优点：
* 使对原始数据的推断变得简单
* 使代码更具可读性、模块化和自包含
* 数据增强实验更简单

要仅在给定挂钩的特定阶段更改处理行为，您可以通过添加 train、val、test 或 predict 为每个 Preprocess 和 Postprocess 挂钩添加前缀。

查看预处理以获取一些示例。

# 如何自定义现有的 DataModules

任何 Flash DataModule 都可以使用 from_datasets() 直接从数据集创建，如下所示：

In [None]:
from flash import DataModule, Trainer

data_module = DataModule.from_datasets(train_dataset=MyDataset())
trainer = Trainer()
trainer.fit(model, data_module=data_module)

DataModule 提供了额外的类方法助手 (from_*) 用于从各种来源加载数据。 在每个 from_* 方法中，DataModule 在内部从预处理中检索要使用的正确数据源。 Flash AutoDataset 实例是从用于训练、验证、测试和预测的数据源创建的。 DataModule 使用相应的 AutoDataset 为每个阶段填充 DataLoader。

# 自定义数据模块的预处理

Preprocess 包含与给定任务相关的处理逻辑。 每个 Preprocess 通过 default_transforms() 方法提供一些默认的转换。 用户可以通过向 DataModule 提供他们自己的转换来轻松地覆盖这些。 下面是一个例子：

In [None]:
from flash.core.data.transforms import ApplyToKeys
from flash.image import ImageClassificationData, ImageClassifier

transform = {"to_tensor_transform": ApplyToKeys("input", my_to_tensor_transform)}

datamodule = ImageClassificationData.from_folders(
    train_folder="data/hymenoptera_data/train/",
    val_folder="data/hymenoptera_data/val/",
    test_folder="data/hymenoptera_data/test/",
    train_transform=transform,
    val_transform=transform,
    test_transform=transform,
)

或者，用户可以根据自己的需要直接覆盖钩子，如下所示：

In [None]:
from typing import Any, Dict
from flash.image import ImageClassificationData, ImageClassifier, ImageClassificationPreprocess


class CustomImageClassificationPreprocess(ImageClassificationPreprocess):
    def to_tensor_transform(sample: Dict[str, Any]) -> Dict[str, Any]:
        sample["input"] = my_to_tensor_transform(sample["input"])
        return sample


datamodule = ImageClassificationData.from_folders(
    train_folder="data/hymenoptera_data/train/",
    val_folder="data/hymenoptera_data/val/",
    test_folder="data/hymenoptera_data/test/",
    preprocess=CustomImageClassificationPreprocess(),
)

# 创建自己的 Preprocess 和 DataModule

下面的示例显示了一个非常简单的 ImageClassificationPreprocess，其中包含一个 ImageClassificationFoldersDataSource 和一个 ImageClassificationDataModule。

1. 面向用户的API设计

设计一个易于使用的 API 是关键。 这是第一步，也是最重要的一步。 我们希望 ImageClassificationDataModule 从以这种方式排列的图像文件夹生成数据集。

例子：

In [None]:
train/dog/xxx.png
train/dog/xxy.png
train/dog/xxz.png
train/cat/123.png
train/cat/nsdf3.png
train/cat/asd932.png

例子：

In [None]:
dm = ImageClassificationDataModule.from_folders(
    train_folder="./data/train",
    val_folder="./data/val",
    test_folder="./data/test",
    predict_folder="./data/predict",
)

model = ImageClassifier(...)
trainer = Trainer(...)

trainer.fit(model, dm)

2. 数据源

我们首先实现 ImageClassificationFoldersDataSource。 load_data 方法将从给定目录生成文件和目标列表。 load_sample 方法会将给定的文件加载为 PIL.Image。 这是完整的 ImageClassificationFoldersDataSource：

In [None]:
from PIL import Image
from torchvision.datasets.folder import make_dataset
from typing import Any, Dict
from flash.core.data.data_source import DataSource, DefaultDataKeys


class ImageClassificationFoldersDataSource(DataSource):
    def load_data(self, folder: str, dataset: Any) -> Iterable:
        # The dataset is optional but can be useful to save some metadata.

        # `metadata` contains the image path and its corresponding label
        # with the following structure:
        # [(image_path_1, label_1), ... (image_path_n, label_n)].
        metadata = make_dataset(folder)

        # for the train `AutoDataset`, we want to store the `num_classes`.
        if self.training:
            dataset.num_classes = len(np.unique([m[1] for m in metadata]))

        return [
            {
                DefaultDataKeys.INPUT: file,
                DefaultDataKeys.TARGET: target,
            }
            for file, target in metadata
        ]

    def predict_load_data(self, predict_folder: str) -> Iterable:
        # This returns [image_path_1, ... image_path_m].
        return [{DefaultDataKeys.INPUT: file} for file in os.listdir(folder)]

    def load_sample(self, sample: Dict[str, Any]) -> Dict[str, Any]:
        sample[DefaultDataKeys.INPUT] = Image.open(sample[DefaultDataKeys.INPUT])
        return sample

3. 预处理

接下来，使用一些默认转换和对数据源的引用来实现您的自定义 ImageClassificationPreprocess：

In [None]:
from typing import Any, Callable, Dict, Optional
from flash.core.data.data_source import DefaultDataKeys, DefaultDataSources
from flash.core.data.process import Preprocess
import torchvision.transforms.functional as T

# Subclass `Preprocess`
class ImageClassificationPreprocess(Preprocess):
    def __init__(
        self,
        train_transform: Optional[Dict[str, Callable]] = None,
        val_transform: Optional[Dict[str, Callable]] = None,
        test_transform: Optional[Dict[str, Callable]] = None,
        predict_transform: Optional[Dict[str, Callable]] = None,
    ):
        super().__init__(
            train_transform=train_transform,
            val_transform=val_transform,
            test_transform=test_transform,
            predict_transform=predict_transform,
            data_sources={
                DefaultDataSources.FOLDERS: ImageClassificationFoldersDataSource(),
            },
            default_data_source=DefaultDataSources.FOLDERS,
        )

    def get_state_dict(self) -> Dict[str, Any]:
        return {**self.transforms}

    @classmethod
    def load_state_dict(cls, state_dict: Dict[str, Any], strict: bool = False):
        return cls(**state_dict)

    def default_transforms(self) -> Dict[str, Callable]:
        return {"to_tensor_transform": ApplyToKeys(DefaultDataKeys.INPUT, T.to_tensor)}

4. 数据模块

最后，让我们实现 ImageClassificationDataModule。 我们免费获得 from_folders 类方法，因为我们在 ImageClassificationPreprocess 中注册了 DefaultDataSources.FOLDERS 数据源。 我们需要做的就是像这样附加我们的 Preprocess 类：

In [None]:
from flash import DataModule


class ImageClassificationDataModule(DataModule):

    # Set `preprocess_cls` with your custom `Preprocess`.
    preprocess_cls = ImageClassificationPreprocess

# 幕后工作原理

## DataSource

这是 AutoDataset 伪代码。

In [None]:
class AutoDataset:
    def __init__(
        self,
        data: List[Any],  # output of `DataSource.load_data`
        data_source: DataSource,
        running_stage: RunningStage,
    ):

        self.data = data
        self.data_source = data_source

    def __getitem__(self, index: int):
        return self.data_source.load_sample(self.data[index])

    def __len__(self):
        return len(self.data)

## Preprocess

这是使用预处理钩子名称的伪代码。 Flash 负责为每个阶段调用正确的钩子。

例子：

In [None]:
# This will be wrapped into a :class:`~flash.core.data.batch._Preprocessor`.
def collate_fn(samples: Sequence[Any]) -> Any:

    # This will be wrapped into a :class:`~flash.core.data.batch._Sequential`
    for sample in samples:
        sample = pre_tensor_transform(sample)
        sample = to_tensor_transform(sample)
        sample = post_tensor_transform(sample)

    samples = type(samples)(samples)

    # if :func:`flash.core.data.process.Preprocess.per_sample_transform_on_device` hook is overridden,
    # those functions below will be no-ops

    samples = collate(samples)
    samples = per_batch_transform(samples)
    return samples

dataloader = DataLoader(dataset, collate_fn=collate_fn)

这是使用预处理钩子名称的伪代码。 Flash 负责为每个阶段调用正确的钩子。

例子：

In [None]:
# This will be wrapped into a :class:`~flash.core.data.batch._Preprocessor`
def collate_fn(samples: Sequence[Any]) -> Any:

    # if ``per_batch_transform`` hook is overridden, those functions below will be no-ops
    samples = [per_sample_transform_on_device(sample) for sample in samples]
    samples = type(samples)(samples)
    samples = collate(samples)

    samples = per_batch_transform_on_device(samples)
    return samples

# move the data to device
data = lightning_module.transfer_data_to_device(data)
data = collate_fn(data)
predictions = lightning_module(data)

## 后处理和序列化程序

一旦 Flash 任务生成预测，Flash DataPipeline 将在幕后执行 Postprocess 钩子和 Serializer。

首先， per_batch_transform() 钩子将应用于批量预测。 然后， uncollate() 会将批次拆分为单独的预测。 接下来， per_sample_transform() 将应用于每个预测。 最后，将调用 serialize() 方法来序列化预测。

这是伪代码：

例子：

In [None]:
# This will be wrapped into a :class:`~flash.core.data.batch._Postprocessor`
def uncollate_fn(batch: Any) -> Any:

    batch = per_batch_transform(batch)

    samples = uncollate(batch)

    samples = [per_sample_transform(sample) for sample in samples]
    # only if serializers are enabled.
    return [serialize(sample) for sample in samples]

predictions = lightning_module(data)
return uncollate_fn(predictions)