# 1. 使用transformers的原因

- 来自官方站点描述：
    - `https://github.com/huggingface/transformers`

## 1.1. 易用的顶尖模型

- 在自然语言理解与生成、计算机视觉、音频、视频及多模态任务中实现卓越性能

- 为研究人员、工程师和开发者提供低门槛入门体验

- 仅需掌握三个核心类，用户界面抽象层级极简

- 通过统一API调用所有预训练模型

## 1.2. 降低计算成本，减少碳足迹

- 共享训练模型，无需从零开始训练

- 显著缩短计算时间并降低生产开销

- 涵盖数十种模型架构，提供超100万个跨模态预训练模型检查点

## 1.3. 为模型全周期匹配最佳框架

- 仅用3行代码即可训练顶尖模型

- 可在PyTorch/JAX/TF2.0框架间自由迁移模型

- 为训练、评估和生产环节智能匹配最优框架

## 1.4. 便捷定制模型与示例

- 为每种架构提供复现原作者成果的完整示例

- 模型内部结构保持最大程度的透明一致性

- 支持独立使用模型文件进行快速实验，无需依赖完整库

# 2. 学习资源

- 官方源代码：
    - `https://github.com/huggingface/transformers`

- huggingFace课程：
    - `https://github.com/huggingface/course`
    - `https://huggingface.co/learn/llm-course/zh-CN/chapter1/1`（中文）

- Transformers框架教程：
    - `https://github.com/NielsRogge/Transformers-Tutorials`

- 其他课程资源：
    - `https://github.com/jamescalam/transformers`

- 项目资源：
    - `https://github.com/huggingface/transformers/blob/main/awesome-transformers.md`

# 3. 不使用Transformers的理由

- 本库并非模块化的神经网络构建工具箱。模型文件中的代码特意未进行额外抽象化重构，以便研究人员能够快速迭代每个模型，无需深入理解额外的抽象层或文件结构。

- 训练API专为优化Transformers提供的PyTorch模型而设计。如需通用机器学习训练循环，建议使用其他库（如Accelerate）。

- 示例脚本仅为参考示例。它们可能无法直接适用于您的具体使用场景，您需要根据实际需求调整代码以实现预期功能。

# 4. HuggingFace提供的模型

## 4.1. 音频-Audio

- 音频分类（使用 Whisper 模型）
    - `https://huggingface.co/openai/whisper-large-v3-turbo`
- 自动语音识别（使用 Moonshine 模型）
    - `https://huggingface.co/UsefulSensors/moonshine`
- 关键词识别（使用 Wav2Vec2 模型）
    - `https://huggingface.co/superb/wav2vec2-base-superb-ks`
- 语音到语音生成（使用 Moshi 模型）
    - `https://huggingface.co/kyutai/moshiko-pytorch-bf16`
- 文本到音频生成（使用 MusicGen 模型）
    - `https://huggingface.co/facebook/musicgen-large`
- 文本到语音合成（使用 Bark 模型）
    - `https://huggingface.co/suno/bark`

## 4.2. 计算机视觉-Computer Vision

- 自动掩码生成（使用 SAM 模型）
    - `https://huggingface.co/facebook/sam-vit-base`
- 深度估计（使用 DepthPro 模型）
    - `https://huggingface.co/apple/DepthPro-hf`
- 图像分类（使用 DINO v2 模型）
    - `https://huggingface.co/facebook/dinov2-base`
- 关键点检测（使用 SuperPoint 模型）
    - `https://huggingface.co/magic-leap-community/superpoint`
- 关键点匹配（使用 SuperGlue 模型）
    - `https://huggingface.co/magic-leap-community/superglue_outdoor`
- 目标检测（使用 RT-DETRv2 模型）
    - `https://huggingface.co/PekingU/rtdetr_v2_r50vd`
- 姿态估计（使用 VitPose 模型）
    - `https://huggingface.co/usyd-community/vitpose-base-simple`
- 通用分割（使用 OneFormer 模型）
    - `https://huggingface.co/shi-labs/oneformer_ade20k_swin_large`
- 视频分类（使用 VideoMAE 模型）
    - `https://huggingface.co/MCG-NJU/videomae-large`

## 4.3. 多模态-Multimodal

- 音频或文本到文本转换（使用 Qwen2-Audio 模型）
    - `https://huggingface.co/Qwen/Qwen2-Audio-7B`
- 文档问答（使用 LayoutLMv3 模型）
    - `https://huggingface.co/microsoft/layoutlmv3-base`
- 图像或文本到文本转换（使用 Qwen-VL 模型）
    - `https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct`
- 图像描述生成（使用 BLIP-2 模型）
    - `https://huggingface.co/Salesforce/blip2-opt-2.7b`
- 基于OCR的文档理解（使用 GOT-OCR2 模型）
    - `https://huggingface.co/stepfun-ai/GOT-OCR-2.0-hf`
- 表格问答（使用 TAPAS 模型）
    - `https://huggingface.co/google/tapas-base`
- 统一多模态理解与生成（使用 Emu3 模型）
    - `https://huggingface.co/BAAI/Emu3-Gen`
- 视觉到文本转换（使用 Llava-OneVision 模型）
    - `https://huggingface.co/llava-hf/llava-onevision-qwen2-0.5b-ov-hf`
- 视觉问答（使用 Llava 模型）
    - `https://huggingface.co/llava-hf/llava-1.5-7b-hf`
- 视觉参照表达分割（使用 Kosmos-2 模型）
    - `https://huggingface.co/microsoft/kosmos-2-patch14-224`

## 4.4. 自然语言-NLP

- 掩码词补全（使用 ModernBERT 模型）
    - `https://huggingface.co/answerdotai/ModernBERT-base`
- 命名实体识别（使用 Gemma 模型）
    - `https://huggingface.co/google/gemma-2-2b`
- 问答任务（使用 Mixtral 模型）
    - `https://huggingface.co/mistralai/Mixtral-8x7B-v0.1`
- 文本摘要（使用 BART 模型）
    - `https://huggingface.co/facebook/bart-large-cnn`
- 翻译任务（使用 T5 模型）
    - `https://huggingface.co/google-t5/t5-base`
- 文本生成（使用 Llama 模型）
    - `https://huggingface.co/meta-llama/Llama-3.2-1B`
- 文本分类（使用 Qwen 模型）
    - `https://huggingface.co/Qwen/Qwen2.5-0.5B` 

# 5. 使用例子

## 5.1. 下载模型到本地

- 确定下载地址：`https://huggingface.co/Qwen/Qwen2.5-0.5B`
    - 模型可以在官网搜索得到。
        - 官网：`https://huggingface.co/`
        - 镜像：`https://hf-mirror.com/`
    - 在模型下载页面有几个功能：
        - **Model card**：这里主要是模型描述页面。
        - **Files and versions**：这里主要是模型列表，也是下载页面。
        - **Community**：这里是社区交流页面。
        - **Use this model**：点击会弹出一个对话面板，选择使用方式后，就会显示对应的内容。我们因为本地使用，所以选择**Transformers**
            - 在**Transfomers**方式中，会有Transformers的调用demo代码，以及模型使用的相关文档。
        - **deploy**：点击会弹出一个对话面板，选择云资源厂商后，就会显示部署页面（一般都是收费的）。
    - 模型下载方式使用git，因为模型的管理使用的git代码服务。当选择**Model card**页面的时候，其地址在浏览器地址栏。
        - `https://hf-mirror.com/Qwen/Qwen2.5-0.5B/`

- 下载模型到本地：
    - `git clone https://hf-mirror.com/Qwen/Qwen2.5-0.5B`
    - 提示：如果下载失败，可以使用国内的大模型站点-魔塔：`https://modelscope.cn/home`
        - `git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git`

- 下载后的文件列表

In [1]:
!dir "F:\03Models\Qwen2.5-0.5B-Instruct"

 驱动器 F 中的卷是 新加卷
 卷的序列号是 A00F-A195

 F:\03Models\Qwen2.5-0.5B-Instruct 的目录

2026/01/31  17:42    <DIR>          .
2026/01/31  17:40    <DIR>          ..
2026/01/31  17:40             1,554 .gitattributes
2026/01/31  17:40               686 config.json
2026/01/31  17:40                 2 configuration.json
2026/01/31  17:40               256 generation_config.json
2026/01/31  17:40            11,544 LICENSE
2026/01/31  17:40         1,823,226 merges.txt
2026/01/31  17:42       988,097,824 model.safetensors
2026/01/31  17:40             5,026 README.md
2026/01/31  17:40         7,334,926 tokenizer.json
2026/01/31  17:40             7,511 tokenizer_config.json
2026/01/31  17:40         2,776,833 vocab.json
              11 个文件  1,000,059,388 字节
               2 个目录 323,048,488,960 可用字节


## 5.2. 使用pipeline调用模型

In [None]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="F:/03Models/Qwen2.5-0.5B-Instruct")
messages = [
    {"role": "user", "content": "我是谁？"},
]
pipe(messages, max_length=1024, truncation="longest_first")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


## 5.3. 直接加载模型

In [None]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("F:/03Models/Qwen2.5-0.5B-Instruct")
model = AutoModelForCausalLM.from_pretrained("F:/03Models/Qwen2.5-0.5B-Instruct")
messages = [
    {"role": "user", "content": "我是谁?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

# 6. Transformers框架的核心类结构

In [None]:
import matplotlib.pyplot as plt
import cv2

img = cv2.imread("transformers.jpg")
plt.figure(figsize=(10, 20))
plt.imshow(img)
plt.axis("off")
plt.show()

## 6.1. 配置类

- PretrainedConfig: 所有模型配置的基类
- AutoConfig: 自动加载配置的工厂类
- 具体模型配置:
    - BertConfig
    - GPT2Config
    - T5Config等

## 6.2. 模型类

- PreTrainedModel: 所有预训练模型的基类
- AutoModel: 自动模型加载的工厂类
- 基础模型:
    - BertModel
    - GPT2Model
    - T5Model
    - ......
- 任务特定模型:
    - XXXForSequenceClassification
    - ......

- 模型与配置的关系：
    - PretrainedConfig → PreTrainedModel(每个模型对应一个配置)

- 模型的继承关系：
    -  PreTrainedModel ← BertModel ← BertForSequenceClassification（(层层继承，任务特定模型继承基础模型)）

- 工厂模式：
    - AutoConfig/AutoModel/AutoTokenizer都是用工厂方法from_pretrained加载对应的类数据。

## 6.3. 分词器类

- PreTrainedTokenizer: 分词器基类
- AutoTokenizer: 自动分词器加载
- TokenizerFast: 基于Rust实现的快速分词器

## 6.4. 训练与推理类

- Trainer: 训练模型的主类
- TrainingArguments: 训练参数配置
- Pipeline: 推理管道
- 数据收集器：DataCollator 
    - DataCollatorWithPadding
    - DataCollatorForLanguageModeling
    - ...
- 回调函数：
    - EarlyStoppingCallback
    - PrinterCallback

- pipeline的封装(PreTrainedModel + PreTrainedTokenizer的组合):
    - Pipeline → (PreTrainedModel + PreTrainedTokenizer)

- 训练组合（PreTrainedModel + TrainingArguments的组合）
    - Trainer → (PreTrainedModel + TrainingArguments)

## 6.5. 模型输出处理类

- 特征提取器（图像/音频）：PrinterCallback：
- 处理器（多模态）：AutoProcessor
- 模型输出类：ModelOutput

## 6.6. 特定任务类

- 文本分类：AutoModelForSequenceClassification
- 文本生成：AutoModelForCausalLM
- 序列到序列任务：AutoModelForSeq2SeqLM
- Token 分类：AutoModelForTokenClassification
- 问答任务：AutoModelForQuestionAnswering

----