# Vocabulary

[Blog](https://github.com/huggingface/transformers/issues/1413)

如果从头训练 **tokenizer** 意味着就是从头训练 **model**

tokenizzer.add_tokens(['NEW_TOKEN']) 
> 采用这种方法会在 tokenizer's vocabulary 的最后加入一个新 Tokens, 即扩充了 Vocabulary

> 模型的 Embedding 相应的会增加一行，Embedding 原来的 Vector 值保存不变。 

> 新增加的 Vector 是随机初始化的


# Tokenizer
[源码](https://huggingface.co/transformers/v1.1.0/_modules/pytorch_transformers/tokenization_roberta.html)


[Blog](https://huggingface.co/transformers/main_classes/tokenizer.html#transformers.PreTrainedTokenizer.add_tokens)

[从0开始训练tokenizer](https://huggingface.co/blog/how-to-train#2-train-a-tokenizer)


Hugging Face 里关于 tokenizer 的实现有两种：
- a full python implementation
- a Fast implementation based on the Rust library
  - 当进行 batched tokenization 时候是非常快
  - 使用了附加方法进行映射

常见功能：
1. tokenizing, encoding, decoding
2. 在 vocab 里面增加新 token
3. 管理 special tokens


In [1]:
from transformers import RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained("roberta-base")

In [3]:
tokenizer.vocab_files_names

{'vocab_file': 'vocab.json', 'merges_file': 'merges.txt'}

根据[源码](https://huggingface.co/transformers/_modules/transformers/models/gpt2/tokenization_gpt2.html#GPT2Tokenizer)我们可知：
- vocab_file: Path to vocab.json
> self.encoder (dict)

- merges_file: Path to merges.txt
> self.bpe_ranks (list)

In [4]:
# 因此，当我们访问 vocab 时候可使用
tokenizer.encoder

{'<s>': 0,
 '<pad>': 1,
 '</s>': 2,
 '<unk>': 3,
 '.': 4,
 'Ġthe': 5,
 ',': 6,
 'Ġto': 7,
 'Ġand': 8,
 'Ġof': 9,
 'Ġa': 10,
 'Ġin': 11,
 '-': 12,
 'Ġfor': 13,
 'Ġthat': 14,
 'Ġon': 15,
 'Ġis': 16,
 'âĢ': 17,
 "'s": 18,
 'Ġwith': 19,
 'ĠThe': 20,
 'Ġwas': 21,
 'Ġ"': 22,
 'Ġat': 23,
 'Ġit': 24,
 'Ġas': 25,
 'Ġsaid': 26,
 'Ļ': 27,
 'Ġbe': 28,
 's': 29,
 'Ġby': 30,
 'Ġfrom': 31,
 'Ġare': 32,
 'Ġhave': 33,
 'Ġhas': 34,
 ':': 35,
 'Ġ(': 36,
 'Ġhe': 37,
 'ĠI': 38,
 'Ġhis': 39,
 'Ġwill': 40,
 'Ġan': 41,
 'Ġthis': 42,
 ')': 43,
 'ĠâĢ': 44,
 'Ġnot': 45,
 'Ŀ': 46,
 'Ġyou': 47,
 'ľ': 48,
 'Ġtheir': 49,
 'Ġor': 50,
 'Ġthey': 51,
 'Ġwe': 52,
 'Ġbut': 53,
 'Ġwho': 54,
 'Ġmore': 55,
 'Ġhad': 56,
 'Ġbeen': 57,
 'Ġwere': 58,
 'Ġabout': 59,
 ',"': 60,
 'Ġwhich': 61,
 'Ġup': 62,
 'Ġits': 63,
 'Ġcan': 64,
 'Ġone': 65,
 'Ġout': 66,
 'Ġalso': 67,
 'Ġ$': 68,
 'Ġher': 69,
 'Ġall': 70,
 'Ġafter': 71,
 '."': 72,
 '/': 73,
 'Ġwould': 74,
 "'t": 75,
 'Ġyear': 76,
 'Ġwhen': 77,
 'Ġfirst': 78,
 'Ġshe': 79,
 'Ġtwo': 