# 自定义字典

## 导入模型

In [10]:
from transformers import BertTokenizer, BertForSequenceClassification, pipeline

model_dir = "./model/google-bert/bert-base-chinese/models--google-bert--bert-base-chinese/snapshots/c30a6ed22ab4564dc1e3b2ecbf6e766b0611a33f"

# model = BertForSequenceClassification.from_pretrained(model_dir)
token = BertTokenizer.from_pretrained(model_dir)

vocab = token.get_vocab()

# print(vocab)
print(len(vocab))
print('光' in vocab)
print(vocab['光'])
print('阳光' in vocab)


21128
True
1045
False


### 添加新词 阳光,大地进入字典
### 添加特殊字符

In [15]:
token.add_tokens(new_tokens = ['阳光', '大地'])
token.add_special_tokens({'eos_token':'[EOS]'})
vocab = token.get_vocab()
print('阳光' in vocab, '大地' in vocab, '[EOS]' in vocab)
print(len(vocab))
token

True True True
21131


BertTokenizer(name_or_path='./model/google-bert/bert-base-chinese/models--google-bert--bert-base-chinese/snapshots/c30a6ed22ab4564dc1e3b2ecbf6e766b0611a33f', vocab_size=21128, model_max_length=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'eos_token': '[EOS]', 'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2

## 编码新句子 之后解码为原字符窜
✅ 推荐使用方式：tokenizer(text, ...)（更灵活）  
常用参数列表如下：

```
参数名                   类型                        说明
----------------------  --------------------------  ------------------------------------------------------
text                    str or List[str]            要编码的单个文本或文本列表
text_pair               str or List[str], 可选      第二个文本段（如问答任务）
add_special_tokens      bool, 默认 True             是否添加特殊标记，如 [CLS] 和 [SEP]
padding                 bool, 'max_length',        
                         'longest'                  是否进行 padding（填充），用于 batch 中序列对齐
truncation              bool, 'longest_first', 
                        'only_first', 'only_second' 是否截断超长序列
max_length              int, 可选                   最大序列长度（截断或填充目标）
return_tensors          'pt', 'tf', 'np', None      是否返回张量（适用于 PyTorch、TensorFlow）
return_attention_mask   bool，默认 True             是否返回 attention mask
return_token_type_ids   bool，默认 True             是否返回 token 类型 ID（如句子对任务中区分句子）
return_special_tokens_mask bool, 可选              返回特殊标记的掩码（如 [CLS], [SEP]）
return_offsets_mapping  bool, 可选                  返回每个 token 对应的原始字符位置（用于 NER 等）
stride                  int, 可选                   对超长文本进行滑窗截断时使用
is_split_into_words     bool, 可选                  输入是否为已分词的词列表而不是字符串
pad_to_multiple_of      int, 可选                   将序列填充到某个倍数（用于 batch GPU 并行优化）
```


In [21]:
out = token.encode(text = '阳光照在了大地上[EOS]',
            text_pair = None,
            truncation = True,
            padding = 'max_length',
            max_length = 10,
            add_special_tokens = True,
            return_tensors = None)

print(out)
print(token.decode(out))

#or
encoded = token(
    text='阳光照在了大地上',
    add_special_tokens=True,
    padding='max_length',
    truncation=True,
    max_length=10,
    return_tensors='pt'
)
encoded 

[101, 21128, 4212, 1762, 749, 21129, 677, 21130, 102, 0]
[CLS] 阳光 照 在 了 大地 上 [EOS] [SEP] [PAD]
