# Vision Transformer (ViT) 调用版推理 - CIFAR-10

本 Notebook 使用 timm 中的预训练 ViT 模型，并在 CIFAR-10 测试集上进行推理与分类效果评估。

## 1. 导入依赖库

In [1]:
import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import timm
from inference import create_model, create_dataloader, evaluate

print(f"PyTorch 版本: {torch.__version__}")
print(f"CUDA 可用: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"CUDA 设备: {torch.cuda.get_device_name(0)}")

PyTorch 版本: 2.9.1+cu130
CUDA 可用: True
CUDA 设备: NVIDIA GeForce RTX 5070 Ti Laptop GPU


## 2. 创建预训练 ViT 模型与 CIFAR-10 数据加载器

In [2]:
MODEL_NAME = "vit_base_patch16_224"
DATA_ROOT = "./data"
BATCH_SIZE = 128
IMG_SIZE = 224
NUM_WORKERS = 2

model, device = create_model(
    model_name=MODEL_NAME,
    num_classes=10,
    pretrained=True,
    device=None,
)

test_loader = create_dataloader(
    data_root=DATA_ROOT,
    batch_size=BATCH_SIZE,
    img_size=IMG_SIZE,
    num_workers=NUM_WORKERS,
)

model.safetensors:   0%|          | 0.00/346M [00:00<?, ?B/s]

## 3. 测试预训练 ViT 在 CIFAR-10 上的分类效果

In [3]:
accuracy = evaluate(model, test_loader, device)
print(f"在 CIFAR-10 测试集上的准确率: {accuracy * 100:.2f}%")

在 CIFAR-10 测试集上的准确率: 10.42%
