## 什么是ViT
Vision Transformer (ViT) 模型由 Alexey Dosovitskiy等人在 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 中提出。这是第一篇在 ImageNet 上成功训练 Transformer 编码器的论文，与熟悉的卷积架构相比，取得了非常好的结果。论文提出，虽然 Transformer 架构已成为自然语言处理任务事实上的标准，但其在计算机视觉中的应用仍然有限。 在视觉中，attention要么与卷积网络结合应用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。 ViT证明这种对 CNN 的依赖是不必要的，直接应用于图像块序列（patches）的纯 Transformer 可以在图像分类任务上表现良好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准（ImageNet、CIFAR-100、VTAB 等）时，Vision Transformer (ViT) 与SOTA的CNN相比取得了优异的结果，同时需要更少的计算资源来训练，Vision Transformer (ViT) 基本上是 Transformers，但应用于图像。
每个图像被分割成一系列不重叠的块（分辨率如 16x16 或 32x32），并线性embedding，接下来，添加position embedding，并通过编码器层发送。 在开头添加 [CLS] 标记以获得整个图像的表示。 可以在最终隐藏状态之上添加线性分类头以对图像进行分类。
![image.png](attachment:0c980282-7f20-4b16-8c7d-f04d3a2c2a49.png)

## load 模型
从modelscope社区下载模型，然后加载模型到GPU上。

这段输出是关于一个基于Vision Transformer(ViT)的模型结构的详细描述，该模型被设计用于图像分类任务。具体来说，这是Hugging Face Transformers库中`ViTForImageClassification`类的一个实例化对象的结构。下面是对各部分组件的解析：

1. `ViTForImageClassification`: 这是整个模型的顶层容器，包含了一个ViT模型和一个分类器层。

2. `(vit)`: 表示ViT模型的核心部分，它由嵌入层、编码器等组成。

   - `(embeddings)`: ViTEmbeddings模块，负责将输入图像转换为可以输入Transformer的序列形式。
     - `(patch_embeddings)`: ViTPatchEmbeddings模块，通过卷积操作将原始RGB图像分割成固定大小的patches，并将其映射到一个向量空间中，得到patch embeddings。
       - `(projection)`: 使用一个卷积层（Conv2d），将每个16x16像素的patch从3通道特征映射到768维向量。

   - `(dropout)`: 在嵌入层后添加了Dropout层，以防止过拟合。

   - `(encoder)`: ViTEncoder模块，包含了多层Transformer编码器层。
     - `(layer)`: 一个ModuleList，其中包含12个相同的ViTLayer结构（即12层Transformer）。
       - 每个`ViTLayer`包括：
         - `(attention)`: ViTAttention模块，包含自注意力机制。
           - `(attention)`: ViTSelfAttention模块，实现自注意力操作，内部有三个线性层分别计算query、key和value。
           - `(output)`: ViTSelfOutput模块，包含一个线性层和一个Dropout层，用于处理自注意力后的结果。

         - `(intermediate)`: ViTIntermediate模块，包含一个线性层和GELU激活函数，用于进行中间特征变换。

         - `(output)`: ViTOutput模块，与自注意力模块类似，也是一个带有线性层和Dropout层的结构，用于对经过中间层处理的特征进行进一步处理。

         - `(layernorm_before)` 和 `(layernorm_after)`: 分别在每个Transformer层的前后添加LayerNorm层，用于归一化输入和输出特征。

3. `(layernorm)`: 在ViT模型的最后添加了一个LayerNorm层，对整个编码器的输出进行归一化。

4. `(classifier)`: 最后是一个全连接层（Linear层），将ViT模型提取出的768维特征映射到指定数量的类别上（在这个例子中是1000个类别）。这个层用于最终的图像分类任务。

In [None]:
from transformers import ViTForImageClassification
import torch
from modelscope import snapshot_download

model_dir = snapshot_download('AI-ModelScope/vit-base-patch16-224')

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model = ViTForImageClassification.from_pretrained(model_dir)
model.to(device)

加载图片

In [None]:
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
image

常规图像预处理，接受 224x224 的输入分辨率。 使用图像处理器调整大小和标准化。

In [None]:
from transformers import ViTImageProcessor

processor = ViTImageProcessor.from_pretrained(model_dir)
inputs = processor(images=image, return_tensors="pt").to(device)
pixel_values = inputs.pixel_values

In [None]:
print(pixel_values.shape)

通过 ViT 模型发送图像，该模型由一个类似 BERT 的编码器和一个位于 [CLS] 令牌的最后一个隐藏状态之上的线性分类头组成。

In [None]:
import torch

with torch.no_grad():
  outputs = model(pixel_values)
logits = outputs.logits
logits.shape

In [None]:
prediction = logits.argmax(-1)
print("Predicted class:", model.config.id2label[prediction.item()])