In [1]:
import re, collections

def get_stats(vocab): # vocab : 存储 word -> freq 的 dict
    ''' 计算词表中，字符的 2-gram 及其出现频次
    '''
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split() # 拆分为字符序列
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq # 计算字符的 2-gram 及其出现频次
    return pairs

def merge_vocab(pair, v_in): # pair 为最高频的 2-gram，v_in 为已有的 vocab
    ''' 利用最高频的 2-gram 来更新已有的词表
    '''
    v_out = {}
    bigram = re.escape(' '.join(pair)) # 对字符串中可能被解释为正则运算符的字符进行转义
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)') # 编译一个正则模式
    # \S 匹配任意非空字符
    # (?<! \S) 前向否定界定符。当 bigram 之前不是任意非空字符之时，匹配成功
    # (?! \S) 后向否定界定符。当 bigram 之后不是任意非空字符之时，匹配成功
    for word in v_in:
      w_out = p.sub(''.join(pair), word) # 将word中已有的pair替换为紧凑版本(移除中间的空格)
      # 注意这里有两个 join(pair), 一个是 ' '.join() 带空格, 另一个是 ''.join() 不带空格
      v_out[w_out] = v_in[word]
    return v_out

In [10]:
vocab = {'l o w' : 5, 'l o w e r' : 2, # initial vocabulary
         'n e w e s t':6, 'w i d e s t':3}
num_merges = 10
for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(vocab)

{'l o w': 5, 'l o w e r': 2, 'n e w es t': 6, 'w i d es t': 3}
{'l o w': 5, 'l o w e r': 2, 'n e w est': 6, 'w i d est': 3}
{'lo w': 5, 'lo w e r': 2, 'n e w est': 6, 'w i d est': 3}
{'low': 5, 'low e r': 2, 'n e w est': 6, 'w i d est': 3}
{'low': 5, 'low e r': 2, 'ne w est': 6, 'w i d est': 3}
{'low': 5, 'low e r': 2, 'new est': 6, 'w i d est': 3}
{'low': 5, 'low e r': 2, 'newest': 6, 'w i d est': 3}
{'low': 5, 'low e r': 2, 'newest': 6, 'wi d est': 3}
{'low': 5, 'low e r': 2, 'newest': 6, 'wid est': 3}
{'low': 5, 'low e r': 2, 'newest': 6, 'widest': 3}
