In [1]:
from transformers import BertTokenizer, BasicTokenizer, WordpieceTokenizer
import os

### bert的分词是怎样做的呢？
从BertTokenizer中的_tokenize(self, text)方法可以看到主要包含两步，下面进行拆解：
* basic_tokenizer.tokenize
* wordpiece_tokenizer.tokenize

![image.png](attachment:image.png)

In [2]:
#例句由中英文和一些奇奇怪怪的字符组成
example = "BERT stands for Bidirectional Encoder Representations from Transformers. Let's play bert with bert-base-chinese. 为避免雾里看花，我们将深入源码。āóǔèç\r\n"

In [3]:
#实例化相应的分词器
vocab_file = "/home/jjg/Datasets/vocab_file/"  #指定路径或者用from_pretrained载入
bert_tokenizer = BertTokenizer(
    os.path.join(vocab_file, "bert-base-chinese-vocab.txt"))  #指定词表文件路径
basic_tokenizer = BasicTokenizer()  #default
wordpiece_tokenizer = WordpieceTokenizer(
    bert_tokenizer.vocab,
    bert_tokenizer.unk_token)  #指定词表和unk

## BasicTokenizer
BasicTokenizer（以下简称 BT）是一个初步的分词器。对于一个待分词字符串，流程大致就是转成 unicode -> 去除各种奇怪字符 -> 处理中文 -> 空格分词 -> 去除多余字符和标点分词 -> 再次空格分词，结束。![image.png](attachment:image.png)

### 1.转成 unicode
在google原版的实现中有专门的函数convert_to_unicode(text),而在抱抱脸的transformers中bert的pytorch版本中省略掉了  
因为如果你用的 Python 3 而且输入是 str 类型，转换前后是一样的

### 2.去除各种奇怪字符
对应于 BT 类的 _clean_text(text) 方法，通过 Unicode 码位（Unicode code point，以下码位均指 Unicode 码位）来去除各种不合法字符和多余空格，包括：空字符、替换字符、控制字符和空白字符等
![image.png](attachment:image.png)

In [4]:
#经过这步后，example 中的 \r\n 被替换成两个空格：
example = basic_tokenizer._clean_text(example)
example

"BERT stands for Bidirectional Encoder Representations from Transformers. Let's play bert with bert-base-chinese. 为避免雾里看花，我们将深入源码。āóǔèç  "

### 3.处理中文
处理中文对应于 BT 类的 _tokenize_chinese_chars(text) 方法。对于 text 中的字符，首先判断其是不是「中文字符」（关于中文字符的说明见下方引用块说明），是的话在其前后加上一个空格，否则原样输出。那么有一个问题，如何判断一个字符是不是「中文」呢？

_is_chinese_char(cp) 方法，cp 就是刚才说的码位，通过码位来判断，总共有 81520 个字，详细的码位范围如下（都是闭区间）：![image.png](attachment:image.png)

In [5]:
#经过这步后，中文被按字分开，用空格分隔，但英文数字等仍然保持原状：
example = basic_tokenizer._tokenize_chinese_chars(example)
example

"BERT stands for Bidirectional Encoder Representations from Transformers. Let's play bert with bert-base-chinese.  为  避  免  雾  里  看  花 ， 我  们  将  深  入  源  码 。āóǔèç  "

### 4.空格分词
空格分词对应于 whitespace_tokenize(text) 函数,直接使用split分词。

In [6]:
def whitespace_tokenize(text):
    """Runs basic whitespace cleaning and splitting on a piece of text."""
    text = text.strip()
    if not text:
        return []
    tokens = text.split()
    return tokens

In [7]:
#经过这步后，example 变成一个列表：
example = whitespace_tokenize(example)
example

['BERT',
 'stands',
 'for',
 'Bidirectional',
 'Encoder',
 'Representations',
 'from',
 'Transformers.',
 "Let's",
 'play',
 'bert',
 'with',
 'bert-base-chinese.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。āóǔèç']

### 5.小写、变音符号、标点
'Mn' is "Mark, nonspacing",非占位符!!

In [8]:
for i in range(len(example)):
    example[i] = example[i].lower()
example

['bert',
 'stands',
 'for',
 'bidirectional',
 'encoder',
 'representations',
 'from',
 'transformers.',
 "let's",
 'play',
 'bert',
 'with',
 'bert-base-chinese.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。āóǔèç']

#### 去掉变音符号
![image.png](attachment:image.png)

In [9]:
import unicodedata

s = 'āóǔè'
s_norm = unicodedata.normalize('NFD', s)
s_norm, len(s_norm)

('āóǔè', 8)

In [10]:
#返回各个字符的类别,Mn 类别 表示的是 Nonspacing Mark，非间距标记，变音字符就属于这类
' '.join(unicodedata.category(c) for c in s_norm)

'Ll Mn Ll Mn Ll Mn Ll Mn'

In [11]:
''.join(c for c in s_norm if unicodedata.category(c) != 'Mn')

'aoue'

In [12]:
#去掉变音符号
for i in range(len(example)):
    example[i] = basic_tokenizer._run_strip_accents(example[i])  #只能处理单个字符串

example

['bert',
 'stands',
 'for',
 'bidirectional',
 'encoder',
 'representations',
 'from',
 'transformers.',
 "let's",
 'play',
 'bert',
 'with',
 'bert-base-chinese.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。aouec']

#### 按标点拆分

In [13]:
def _is_punctuation(char):
    """Checks whether `chars` is a punctuation character."""
    cp = ord(char)
    # We treat all non-letter/number ASCII as punctuation.
    # Characters such as "^", "$", and "`" are not in the Unicode
    # Punctuation class but we treat them as punctuation anyways, for
    # consistency.
    # ASCII 中除了字母和数字意外的32个字符!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    if (cp >= 33 and cp <= 47) or (cp >= 58 and cp <= 64) or (cp >= 91 and cp <= 96) or (cp >= 123 and cp <= 126):
        return True
    cat = unicodedata.category(char)
    # Unicode中类别以P开头的字符
    if cat.startswith("P"):
        return True
    return False

In [14]:
def run_split_on_punc(text, never_split=None):
    """Splits punctuation on a piece of text. 按标点拆分，比如I'll, I'd
    对应BasicTokenizer中的_run_split_on_punc(self, text, never_split=None)
    text为单个token或whitespace_tokenize后的单个token"""
    if never_split is not None and text in never_split:
        return [text]
    chars = list(text)
    i = 0
    start_new_word = True
    output = []
    while i < len(chars):
        char = chars[i]
        if _is_punctuation(char):
            output.append([char])#标点独占一个子列表
            start_new_word = True
        else:
            if start_new_word:
                output.append([])#存放新词字符的子列表
            start_new_word = False
            output[-1].append(char)
        i += 1
    #output 是一个嵌套列表，其中每个子列表都是单个词中的字符列表或标点，最后把每个子列表 join一下即可
    return ["".join(x) for x in output]

In [15]:
print(run_split_on_punc("I'll"))

['I', "'", 'll']


In [16]:
#经过这步后，标点被拆分出来
split_on_punc=[]
for token in example:
    split_on_punc.extend(run_split_on_punc(token))

split_on_punc 

['bert',
 'stands',
 'for',
 'bidirectional',
 'encoder',
 'representations',
 'from',
 'transformers',
 '.',
 'let',
 "'",
 's',
 'play',
 'bert',
 'with',
 'bert',
 '-',
 'base',
 '-',
 'chinese',
 '.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。',
 'aouec']

In [17]:
basic_output_tokens = whitespace_tokenize(" ".join(split_on_punc))#这就是BasicTokenizer的最终输出，干嘛要先合再拆？
basic_output_tokens

['bert',
 'stands',
 'for',
 'bidirectional',
 'encoder',
 'representations',
 'from',
 'transformers',
 '.',
 'let',
 "'",
 's',
 'play',
 'bert',
 'with',
 'bert',
 '-',
 'base',
 '-',
 'chinese',
 '.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。',
 'aouec']

### WordpieceTokenizer
wordpiece即sub-word units，是为了改善对rare words的表示而提出的,源自2016年的Google's Neural Machine Translantion System。参考https://zhuanlan.zhihu.com/p/132361501

![image.png](attachment:image.png)

In [18]:
def wordpiece_tokenize(text,
                       vocab,
                       unk_token="[UNK]",
                       max_input_chars_per_word=100):
    """Tokenizes a piece of text into its word pieces.
    对应WordpieceTokenizer中的tokenize(self, text)

    This uses a greedy longest-match-first algorithm to perform tokenization
    using the given vocabulary.

    For example:
      input = "unaffable"
      output = ["un", "##aff", "##able"]

    Args:
      text: A single token or whitespace separated tokens. This should have
        already been passed through `BasicTokenizer`.

    Returns:
      A list of wordpiece tokens.
    """

    output_tokens = []
    for token in whitespace_tokenize(text):
        chars = list(token)
        if len(chars) > max_input_chars_per_word:
            output_tokens.append(unk_token)  #超长词直接标记为unk
            continue

        is_bad = False  #标记unknown words
        start = 0
        sub_tokens = []
        while start < len(chars):
            end = len(chars)  #贪婪最长优先匹配算法，从右向左扫描
            cur_substr = None
            while start < end:
                substr = "".join(chars[start:end])
                if start > 0:
                    substr = "##" + substr
                if substr in vocab:
                    cur_substr = substr
                    break
                end -= 1
            #第一轮扫描结束cur_substr is None，说明当前token及其所有的子字符串都不在vocab中，标记为unk
            if cur_substr is None:
                is_bad = True
                break
            sub_tokens.append(cur_substr)
            start = end  #寻找下一个子词

        if is_bad:
            output_tokens.append(unk_token)
        else:
            output_tokens.extend(sub_tokens)
    return output_tokens

In [19]:
#可以看到与前面实例化的wordpiece分词器结果一致
#这里与官方代码里例子的分词结果不同，很正常，词表不同，分词结果自然不同
print(wordpiece_tokenize("unaffable", bert_tokenizer.vocab))
print(wordpiece_tokenizer.tokenize("unaffable"))

print(wordpiece_tokenizer.tokenize("keras"))

['u', '##na', '##ff', '##able']
['u', '##na', '##ff', '##able']
['k', '##era', '##s']


In [20]:
wordpiece_output_tokens=[]
for token in basic_output_tokens:
    for sub_token in wordpiece_tokenizer.tokenize(token):
        wordpiece_output_tokens.append(sub_token)

wordpiece_output_tokens

['be',
 '##rt',
 'st',
 '##and',
 '##s',
 'for',
 'bi',
 '##di',
 '##rect',
 '##ion',
 '##al',
 'en',
 '##code',
 '##r',
 're',
 '##pr',
 '##ese',
 '##nt',
 '##ations',
 'from',
 't',
 '##ran',
 '##s',
 '##form',
 '##ers',
 '.',
 'let',
 "'",
 's',
 'play',
 'be',
 '##rt',
 'with',
 'be',
 '##rt',
 '-',
 'base',
 '-',
 'chinese',
 '.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。',
 'a',
 '##ou',
 '##ec']

In [21]:
example = "BERT stands for Bidirectional Encoder Representations from Transformers. Let's play bert with bert-base-chinese. 为避免雾里看花，我们将深入源码。āóǔèç\r\n"
bert_output_tokens = bert_tokenizer.tokenize(example)
bert_output_tokens

['be',
 '##rt',
 'st',
 '##and',
 '##s',
 'for',
 'bi',
 '##di',
 '##rect',
 '##ion',
 '##al',
 'en',
 '##code',
 '##r',
 're',
 '##pr',
 '##ese',
 '##nt',
 '##ations',
 'from',
 't',
 '##ran',
 '##s',
 '##form',
 '##ers',
 '.',
 'let',
 "'",
 's',
 'play',
 'be',
 '##rt',
 'with',
 'be',
 '##rt',
 '-',
 'base',
 '-',
 'chinese',
 '.',
 '为',
 '避',
 '免',
 '雾',
 '里',
 '看',
 '花',
 '，',
 '我',
 '们',
 '将',
 '深',
 '入',
 '源',
 '码',
 '。',
 'a',
 '##ou',
 '##ec']

In [22]:
#直接使用bert分词器分词的结果与我们一步一步拆解下来的结果一致
bert_output_tokens==wordpiece_output_tokens

True