# バイト対符号化（Byte Pair Encoding）を理解するためのPythonコード

In [9]:
import re, collections

In [10]:
# 空白区切りで単語を分割して出現頻度をカウントして語彙の辞書を作成
def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split(" ")
        for i in range(len(symbols) - 1):
            pairs[(symbols[i], symbols[i + 1])] += freq
    return pairs

In [11]:
# 与えられた単語ペアを結合して新たな語彙の辞書を作成
def merge_vocab(pair, v_in):
    v_out = {}
    bigram = " ".join(pair)
    replacement = "".join(pair)
    for word in v_in:
        w_out = word.replace(bigram, replacement)
        v_out[w_out] = v_in[word]
    return v_out

In [12]:
vocab = {"l o w <w>": 5, "l o w e r <w>": 2, "n e w e s t <w>": 6, "w i d e s t <w>": 3}

In [13]:
# 出現頻度が大きい単語ベアから順に結合
num_merges = 10
for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

('e', 's')
('es', 't')
('est', '<w>')
('l', 'o')
('lo', 'w')
('n', 'e')
('ne', 'w')
('new', 'est<w>')
('low', '<w>')
('w', 'i')
