In [1]:
import re
import collections
import pandas as pd

In [2]:
class BPE:
  def __init__(self):
    self.BPETokens = pd.DataFrame()
    self.pairs = collections.defaultdict(int)

  def generate_split(self,vocab):
    '''
    This function will generate the splits for the vocabulary
    Note we have to check that </w> is considered one token rather than 4 different tokens
    '''
    for word,freq in vocab.items():
      symbol = word.split()
      for i in range(len(symbol[0])-1):
        self.pairs[symbol[0][i],symbol[0][i+1]] += freq

    return self.pairs

  def get_best_pair_for_merge(self,pairs):
    '''
    This function will give the pair that is the best for merging
    '''
    best_pair = max(pairs,key=pairs.get)
    return (best_pair,pairs[best_pair])

  def convert_to_dataframe(self,vocab):
    v_out = {}

    for keys,values in vocab.items():
      for char in keys:
        if char not in v_out:
          v_out[char] = values
        else:
          v_out[char] += values
    return v_out

    # self.BPETokens['keys'] = v_out.keys()
    # self.BPETokens['frequency'] = v_out.values()


  def merge_vocab(self,num_merges:int,vocab):
    # Need to check if one of the tokens after merging is done is zero or not
    v_out = self.convert_to_dataframe(vocab)
    for i in range(num_merges):
      best_pair,best_pair_freq = self.get_best_pair_for_merge(self.pairs)
      print(''.join(best_pair),best_pair_freq)


      if v_out[best_pair[0]] == 0 or v_out[best_pair[1]] == 0:
        self.pairs[best_pair] = -1
        continue
      if v_out[best_pair[0]] < best_pair_freq or v_out[best_pair[1]] < best_pair_freq:
        self.pairs[best_pair] = -1
        continue
      v_out[best_pair[0]] -= best_pair_freq
      v_out[best_pair[1]] -= best_pair_freq
      v_out[''.join(best_pair)] = best_pair_freq

      self.pairs[best_pair] = -1

    return v_out


In [6]:
wo =  {"low>": 4,
      "older>": 5,
      "finest>": 6,
      "lowest>": 7,
      "loneliest>":8}

bpe = BPE()
bpe.generate_split(wo)
v_out = bpe.merge_vocab(100,wo)

es 21
st 21
t> 21
lo 19
ne 14
ow 11
on 8
el 8
li 8
ie 8
we 7
fi 6
in 6
ol 5
ld 5
de 5
er 5
r> 5
w> 4
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1
lo -1


In [7]:
bpe.pairs

defaultdict(int,
            {('l', 'o'): -1,
             ('o', 'w'): -1,
             ('w', '>'): -1,
             ('o', 'l'): -1,
             ('l', 'd'): -1,
             ('d', 'e'): -1,
             ('e', 'r'): -1,
             ('r', '>'): -1,
             ('f', 'i'): -1,
             ('i', 'n'): -1,
             ('n', 'e'): -1,
             ('e', 's'): -1,
             ('s', 't'): -1,
             ('t', '>'): -1,
             ('w', 'e'): -1,
             ('o', 'n'): -1,
             ('e', 'l'): -1,
             ('l', 'i'): -1,
             ('i', 'e'): -1})

In [8]:
v_out

{'l': 0,
 'o': 0,
 'w': 7,
 '>': 0,
 'd': 0,
 'e': 0,
 'r': 0,
 'f': 0,
 'i': 2,
 'n': 8,
 's': 0,
 't': 0,
 'es': 21,
 't>': 21,
 'lo': 19,
 'el': 8,
 'fi': 6,
 'in': 6,
 'ol': 5,
 'de': 5,
 'r>': 5,
 'w>': 4}