## 常见的Transformers

##### 输入：
PIL → Image.open()<br>
tensor → Totensor()<br>
narrays→ cv.imread()

In [1]:
from PIL import Image
from torchvision import transforms
from torch.utils.tensorboard import SummaryWriter


In [4]:
import os
os.chdir(r"G:\AI learning")

In [2]:

writer = SummaryWriter("logs")
img = Image.open(r"G:\AI learning\learn_torch\images\20250721200401.png")
print(img)

<PIL.PngImagePlugin.PngImageFile image mode=RGBA size=1201x473 at 0x1D3E12940A0>


### Totensor的使用

In [None]:
trans_totensor = transforms.ToTensor()
#这一步的目的：将Totensor步骤转换为一个函数。提高代码的可维护性：
#如果以后需要修改转换操作（例如增加数据增强），只需要修改 trans_totensor 的定义，而不需要在每次调用时都手动修改。
#如果以后需要添加多个转换操作（例如：先 resize，然后 ToTensor），可以将这些操作组合成一个 transforms.Compose。这样，你可以很容易地扩展你的数据处理管道。

img_tensor = trans_totensor(img)
writer.add_image("Totensor", img_tensor)
writer.close()


### Normalize的使用

In [11]:
# 将图片转换为RGB模式
img_rgb = img.convert("RGB")
img_tensor_rgb = trans_totensor(img_rgb)

print(img_tensor_rgb[0][0][0])  # 输出 Tensor 的形状
trans_norm = transforms.Normalize(mean=[ 0.5, 0.5, 0.5],std=[0.5, 0.5, 0.5])
img_norm = trans_norm(img_tensor_rgb)
print(img_norm[0][0][0])  # 输出归一化后的 Tensor 的形状
writer.add_image("Normalize", img_norm)

writer.close()

tensor(0.1333)
tensor(-0.7333)


##### 补充知识

1.为什么图像需要转化为RGB模式？<br>
图像格式通常有很多种，比如 灰度图像、RGB图像、RGBA图像（带透明通道）等。在机器学习和深度学习中，模型一般期待输入是标准化的 RGB图像。确保图像数据有一致的颜色通道（即红、绿、蓝），这符合大多数神经网络的输入要求，并确保模型可以有效地处理颜色信息。<br>
2.为什么图像需要进行标准化？<br>
图像标准化（或归一化）是深度学习中的常见预处理步骤。标准化是指将图像的像素值转化为一个特定的范围，通常是 零均值和单位方差（例如，将像素值标准化到 [-1, 1] 范围内）。<br>
提升模型的训练稳定性和收敛速度，避免因输入数据尺度差异引起的问题，确保模型能够有效地学习到图像的特征。特别是在使用预训练模型时，标准化是必不可少的步骤。<br>
3.每个通道的均值和标准差是根据什么计算出来的？<br>
通常，这些值是通过对整个数据集的所有图像的每个通道（红色、绿色、蓝色）进行逐像素统计计算得出的。将每个通道的均值和标准差分别应用到该通道的像素值上，对图像进行标准化处理

### Resize的用法

In [13]:
#输入必须是PIL图像
print(img.size)  # 输出图像的尺寸
trans_resize = transforms.Resize((512, 512))
#img PIL -> resize ->img_resize PIL 
img_resize = trans_resize(img)
#img_resize PIL -> totensor -> img_resize Tensor
img_resize = trans_totensor(img_resize)
writer.add_image("Resize", img_resize,0)
print(img_resize)  # 输出调整大小后的图像尺寸
writer.close()


(1201, 473)
tensor([[[0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         ...,
         [0.2667, 0.2667, 0.2667,  ..., 0.3412, 0.3412, 0.3412],
         [0.2667, 0.2667, 0.2667,  ..., 0.3412, 0.3412, 0.3412],
         [0.2706, 0.2706, 0.2706,  ..., 0.3412, 0.3412, 0.3412]],

        [[0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         ...,
         [0.1569, 0.1569, 0.1569,  ..., 0.2980, 0.2980, 0.2980],
         [0.1569, 0.1569, 0.1569,  ..., 0.2980, 0.2980, 0.2980],
         [0.1529, 0.1529, 0.1529,  ..., 0.2980, 0.2980, 0.2980]],

        [[0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333, 0.1333, 0.1333],
         [0.1333, 0.1333, 0.1333,  ..., 0.1333

### compose -resize

In [None]:
#函数级联
trans_resize_2 = transforms.Resize(512)
trans_compose = transforms.Compose([trans_resize_2, trans_totensor])#将多个转换操作组合成一个 transforms.Compose
img_resize_2 = trans_compose(img)
writer.add_image("Resize", img_resize_2, 1)
print(img_resize_2)  # 输出调整大小后的图像尺寸
writer.close()


In [None]:
#RandomCrop
trans_random = transforms.RandomCrop(128)#随机裁剪
trans_compose_2 = transforms.Compose([trans_random, trans_totensor])#将多个转换操作组合成一个 transforms.Compose
for i in range(10):
    img_crop = trans_compose_2(img)
    writer.add_image("RandomCrop_1", img_crop, i)

writer.close()