# 模型加载与保存

In [2]:
from transformers import AutoConfig, AutoModel, AutoTokenizer

## 在线加载

In [3]:
model = AutoModel.from_pretrained("hfl/rbt3", force_download=True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/828 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/828 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/156M [00:00<?, ?B/s]

## 模型下载（需要科学）

In [6]:
!git clone "https://huggingface.co/hfl/rbt3"

Cloning into 'rbt3'...
remote: Enumerating objects: 48, done.[K
remote: Total 48 (delta 0), reused 0 (delta 0), pack-reused 48 (from 1)[K
Unpacking objects: 100% (48/48), 156.45 KiB | 6.26 MiB/s, done.
Filtering content: 100% (3/3), 442.86 MiB | 71.56 MiB/s, done.


In [7]:
!git lfs clone "https://huggingface.co/hfl/rbt3" --include="*.bin"

          with new flags from 'git clone'

'git clone' has been updated in upstream Git to have comparable
speeds to 'git lfs clone'.
fatal: destination path 'rbt3' already exists and is not an empty directory.
Error(s) during clone:
git clone failed: exit status 128


## 离线加载

In [8]:
model = AutoModel.from_pretrained("rbt3")

## 模型加载参数

In [9]:
model = AutoModel.from_pretrained("rbt3")

In [10]:
model.config

BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "dtype": "float32",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 3,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "transformers_version": "4.56.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 21128
}

In [11]:
config = AutoConfig.from_pretrained("./rbt3/")
config

BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 3,
  "output_past": true,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "transformers_version": "4.56.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 21128
}

In [12]:
config.output_attentions

False

In [13]:
from transformers import BertConfig

# 模型调用

In [15]:
sen = "弱小的我也有大梦想！"
tokenizer = AutoTokenizer.from_pretrained("rbt3")
inputs = tokenizer(sen, return_tensors="pt")
inputs

{'input_ids': tensor([[ 101, 2483, 2207, 4638, 2769,  738, 3300, 1920, 3457, 2682, 8013,  102]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

## 不带Model Head的模型调用

AutoModel 是一个通用的模型加载器，适用于任何基础模型架构。它加载的是 基础模型（通常是预训练的 Transformer 模型），例如 BERT、RoBERTa、GPT 等，但不包含特定的头（如分类头、生成头等）。

output_attentions=True：指定模型在前向传播时是否返回 注意力权重。如果设置为 True，模型将返回每一层的注意力权重，通常用于分析模型如何关注输入的不同部分。

用途：AutoModel 适用于你只想使用 Transformer 模型的 基础特征表示，而不需要在此之上添加其他任务相关的头（如分类头、生成头等）。例如，如果你希望对输入文本进行嵌入（embedding）或提取特征向量，然后将这些向量传递给其他任务，你会使用 AutoModel。

In [17]:
model = AutoModel.from_pretrained("rbt3", output_attentions=True)

In [18]:
output = model(**inputs)
output

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[ 0.6804,  0.6664,  0.7170,  ..., -0.4102,  0.7839, -0.0262],
         [-0.7378, -0.2748,  0.5034,  ..., -0.1359, -0.4331, -0.5874],
         [-0.0212,  0.5642,  0.1032,  ..., -0.3617,  0.4646, -0.4747],
         ...,
         [ 0.0853,  0.6679, -0.1757,  ..., -0.0942,  0.4664,  0.2925],
         [ 0.3336,  0.3224, -0.3355,  ..., -0.3262,  0.2532, -0.2507],
         [ 0.6761,  0.6688,  0.7154,  ..., -0.4083,  0.7824, -0.0224]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_output=tensor([[-1.2646e-01, -9.8619e-01, -1.0000e+00, -9.8325e-01,  8.0238e-01,
         -6.6269e-02,  6.6918e-02,  1.4784e-01,  9.9451e-01,  9.9995e-01,
         -8.3051e-02, -1.0000e+00, -9.8866e-02,  9.9980e-01, -1.0000e+00,
          9.9993e-01,  9.8291e-01,  9.5363e-01, -9.9948e-01, -1.3219e-01,
         -9.9733e-01, -7.7934e-01,  1.0720e-01,  9.8040e-01,  9.9953e-01,
         -9.9939e-01, -9.9997e-01,  1.4967e-01, -8.7627e-01, -9.999

In [19]:
output.last_hidden_state.size()

torch.Size([1, 12, 768])

In [20]:
len(inputs["input_ids"][0])

12

## 带Model Head的模型调用

AutoModelForSequenceClassification 是一个特定的模型加载器，专门用于加载预训练的 序列分类模型。它不仅加载基础模型，还自动添加了一个 分类头，使模型能够执行文本分类任务。

num_labels=10：指定分类任务的标签数量。此参数表示模型有 10 个分类标签，因此模型会根据输入序列输出一个 10 维的向量，表示每个类别的预测分数。

用途：AutoModelForSequenceClassification 用于 序列分类任务，例如情感分析、主题分类等任务。在这种情况下，模型的输出是一个表示每个类别概率或分数的向量，而不仅仅是输入的表示。

主要区别：

功能不同：

AutoModel 仅加载基础模型（没有头），适用于特征提取或其他任务（如生成任务、嵌入生成等）。

AutoModelForSequenceClassification 加载的是带有 分类头 的模型，适用于文本分类任务。

输出不同：

AutoModel 输出的是输入序列的特征表示（通常是最后一层的隐藏状态），可以用于后续的任务（例如传递给一个单独的分类层）。

AutoModelForSequenceClassification 输出的是分类结果（例如每个标签的概率或分数）。

使用场景不同：

如果你只想使用模型的表示（例如做 embedding 或 特征提取），使用 AutoModel。

如果你的任务是 分类任务，并且需要模型直接输出分类结果，使用 AutoModelForSequenceClassification。

In [21]:
from transformers import AutoModelForSequenceClassification, BertForSequenceClassification

In [22]:
clz_model = AutoModelForSequenceClassification.from_pretrained("rbt3", num_labels=10)  # 指定分类数目，可变成多分类

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at rbt3 and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [23]:
clz_model(**inputs)

SequenceClassifierOutput(loss=None, logits=tensor([[-0.3724, -0.3793,  0.0337, -0.1977,  0.3430, -0.1991, -0.0239,  0.0231,
          0.6685, -0.0996]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)

In [24]:
clz_model.config.num_labels  # 可以调整模型分类的数目，变成多分类

10

`AutoModelForSequenceClassification` 是 Hugging Face `transformers` 库中用于加载预训练模型并进行 **序列分类**（如文本分类、情感分析等）的一个类。除了 `AutoModelForSequenceClassification`，还有许多其他针对不同任务的 `AutoModelForXXX` 类。

以下是 Hugging Face `transformers` 库中一些常见的 `AutoModelForXXX` 类型：

### 1. **AutoModelForSequenceClassification**

* 用于 **序列分类任务**，例如文本分类、情感分析、主题分类等。
* 示例：`AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)`

### 2. **AutoModelForTokenClassification**

* 用于 **标记分类任务**，例如命名实体识别（NER）、词性标注等。
* 示例：`AutoModelForTokenClassification.from_pretrained("bert-base-uncased")`

### 3. **AutoModelForQuestionAnswering**

* 用于 **问答任务**，例如 SQuAD 等问答数据集中的问题回答。
* 示例：`AutoModelForQuestionAnswering.from_pretrained("bert-base-uncased")`

### 4. **AutoModelForSequenceToSequence**

* 用于 **序列到序列任务**，例如文本翻译、文本生成等。
* 示例：`AutoModelForSequenceToSequence.from_pretrained("t5-small")`

### 5. **AutoModelForCausalLM**

* 用于 **因果语言建模任务**，例如 GPT-2、GPT-3 等生成任务。
* 示例：`AutoModelForCausalLM.from_pretrained("gpt2")`

### 6. **AutoModelForMaskedLM**

* 用于 **掩码语言模型任务**，例如 BERT、RoBERTa 等预训练任务。
* 示例：`AutoModelForMaskedLM.from_pretrained("bert-base-uncased")`

### 7. **AutoModelForMultipleChoice**

* 用于 **多项选择任务**，例如 RACE 数据集中的多项选择问题。
* 示例：`AutoModelForMultipleChoice.from_pretrained("bert-base-uncased")`

### 8. **AutoModelForTokenClassification (for NER)**

* 用于 **标记分类任务**，特别是命名实体识别（NER），用于识别文本中的实体（如人名、地名、组织名等）。
* 示例：`AutoModelForTokenClassification.from_pretrained("bert-base-uncased")`

### 9. **AutoModelForImageClassification**

* 用于 **图像分类任务**，例如 Vision Transformer（ViT）等。
* 示例：`AutoModelForImageClassification.from_pretrained("google/vit-base-patch16-224-in21k")`

### 10. **AutoModelForTextClassification**

* 用于 **文本分类任务**，比如情感分析、主题分类等，但比 `AutoModelForSequenceClassification` 更广泛一些。
* 示例：`AutoModelForTextClassification.from_pretrained("bert-base-uncased")`

### 11. **AutoModelForSpeechRecognition**

* 用于 **语音识别任务**，例如 ASR（自动语音识别）模型。
* 示例：`AutoModelForSpeechRecognition.from_pretrained("facebook/wav2vec2-large-xlsr-53")`

### 总结：

这些 `AutoModelForXXX` 类型都基于 Hugging Face 的 `AutoModel` 类，并且针对不同的任务（如文本分类、序列到序列、问答、生成任务等）进行优化和预训练。你可以根据任务需求选择合适的模型类型。
