### Transforms 的主要作用



1. **数据预处理 (Preprocessing)**
   - **统一数据格式和大小：** 不同的图片可能有不同的尺寸和像素值范围。Transforms 可以将它们统一为模型可以接受的输入格式，例如将所有图片缩放到 224times224 像素，并将像素值归一化到 0 到 1 之间。
   - **准备输入：** 将图片从 PIL 格式或 NumPy 数组转换为 PyTorch Tensor 等模型需要的特定数据类型。
2. **数据增强 (Data Augmentation)**
   - **增加数据量：** 训练深度学习模型需要大量的标注数据，但收集数据往往非常昂贵和耗时。通过对现有数据应用随机变换，我们可以在不收集新数据的情况下，“凭空”创造出更多训练样本。
   - **提高模型泛化能力：** 通过引入数据的多样性，模型在训练时会接触到更多变体的数据。这有助于模型学习到对变换（如旋转、缩放、裁剪等）不敏感的特征，从而提高它在未见过数据上的表现。这可以有效避免模型过拟合训练数据。

### **常见的图像转换（transforms）**

- **`ToTensor()`**: 将图像转换为 PyTorch 张量（tensor），并将像素值从 `[0, 255]` 范围转换到 `[0.0, 1.0]`。

  ```python
  from torchvision import transforms
  transform = transforms.ToTensor()
  ```

- **`Normalize(mean, std)`**: 用于对图像进行标准化，常用于归一化图像的颜色通道，使其具有零均值和单位标准差。

  ```python
  transform = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
  ```

- **`Resize(size)`**: 调整图像的大小，通常用于将输入图像调整为固定的大小，以便输入到模型中。

  ```python
  transform = transforms.Resize((256, 256))
  ```

- **`CenterCrop(size)`**: 从图像的中心裁剪出指定大小的区域。

  ```python
  transform = transforms.CenterCrop(224)
  ```

- **`RandomHorizontalFlip(p=0.5)`**: 随机水平翻转图像，用于数据增强。`p` 是翻转的概率，默认为 0.5。

  ```python
  transform = transforms.RandomHorizontalFlip(p=0.5)
  ```

- **`RandomRotation(degrees)`**: 随机旋转图像，`degrees` 可以指定一个范围（如 30 表示随机旋转 -30° 到 +30°）。

  ```python
  transform = transforms.RandomRotation(30)
  ```



1. **`ToTensor()`**

In [2]:
from torchvision import transforms
from PIL import Image

# 加载图像
image = Image.open('../dataset/train/ants_image/5650366_e22b7e1065.jpg')

# 将图像转换为 tensor
transform = transforms.ToTensor()
tensor_image = transform(image)

print(tensor_image.shape)  # 输出形状，例如 torch.Size([3, H, W])

torch.Size([3, 375, 500])


**拓展一下**

In [3]:
from torchvision import transforms
from PIL import Image
import torch

# 加载图像
image = Image.open('../dataset/train/ants_image/5650366_e22b7e1065.jpg')

# 将图像转换为 tensor
transform = transforms.ToTensor()
tensor_image = transform(image)

print("--- Tensor 信息 ---")
print("Tensor 形状 (Shape):", tensor_image.shape)
print("Tensor 数据类型 (Dtype):", tensor_image.dtype)
print("Tensor 设备 (Device):", tensor_image.device)
print("Tensor 最小值 (Min Value):", tensor_image.min())
print("Tensor 最大值 (Max Value):", tensor_image.max())

# 计算每个通道的均值和标准差
mean_per_channel = tensor_image.mean(dim=[1, 2])
std_per_channel = tensor_image.std(dim=[1, 2])
print("每个通道的均值 (Mean per channel):", mean_per_channel)
print("每个通道的标准差 (Std per channel):", std_per_channel)

print("Tensor 总元素数量 (Numel):", tensor_image.numel())

--- Tensor 信息 ---
Tensor 形状 (Shape): torch.Size([3, 375, 500])
Tensor 数据类型 (Dtype): torch.float32
Tensor 设备 (Device): cpu
Tensor 最小值 (Min Value): tensor(0.)
Tensor 最大值 (Max Value): tensor(0.7529)
每个通道的均值 (Mean per channel): tensor([0.2530, 0.4861, 0.4851])
每个通道的标准差 (Std per channel): tensor([0.1786, 0.1089, 0.1209])
Tensor 总元素数量 (Numel): 562500
