# 模型 (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

In [1]:
from transformers import BertConfig, BertModel

# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
print(config)

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.28.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}



hidden_size: 模型输出的隐状态<br>
num_hidden_layers: 模型内部的注意力层数量（一般为：LM+Attention+LM+MLP）<br>

### 模型有不同的创建方式

（1）使用随机值和默认配置创建模型。没啥用，一般会使用预训练模型

In [None]:
from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

# Model is randomly initialized!

（2）使用预训练模型

如果指定的模型与架构（此处是bert）不匹配会报错。如果不确定模型架构，可以使用AutoModel。

In [None]:
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased") # 配置文件也一并加载了

### 模型保存
directory_on_my_computer下会出现两个文件：config.json和pytorch_model.bin<br>

（1）config.json文件包含了构建模型需要的属性及其值，同时也包括一些元数据（checkpoint的来源和Transformers库的版本号）。<br>

（2）pytorch_model.bin是个状态字典；它包含模型的权重。该文件和config.json配合使用，从config.json配置文件得到模型的架构，pytorch_model.bin权重文件得到模型的权重。基于这两个文件，就可以完成对预训练模型的加载和实例化。<br>

In [None]:
model.save_pretrained("directory_on_my_computer")

### 使用Transformer模型进行推理

In [None]:
# 给定字符串数组
sequences = ["Hello!", "Cool.", "Nice!"]

In [None]:
# 分词器会将上面的字符串数组转换索引数值数组（称之为输入ID-input IDs）
encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

In [None]:
# 转成张量作为模型的输入
import torch

model_inputs = torch.tensor(encoded_sequences)

In [None]:
output = model(model_inputs)