### 

In [1]:
import re

from sklearn.base import TransformerMixin

from collections import Counter
from typing import List

In [2]:
with open('data/anek.txt', 'r') as file:
    data = file.read().strip().replace('<|startoftext|>', '').split('\n\n')

In [3]:
def split_punct(text):
    reg = re.compile(r'\w+|[^\w\s]')
    return reg.findall(text.lower())

In [4]:
sentences = [split_punct(sentence) for sentence in data]

In [22]:
class BPE_tokenizer(TransformerMixin):
    def __init__(self, ngram_max=5, count_max=1000):
        self.ngram_max = ngram_max
        self.count_max = count_max
        self.pair_token_count = Counter()
        self.token_set = set()

    def __merge_tokens(sentences: List[List[str]]):
        new_token_lists = []
        for token_list in sentences:
            if len(token_list) == 0:
                new_token_lists.append([])
                continue
            merged_token_list = [sentence[0]]
            for i in range(1, len(token_list)):
                merged_token = merged_token_list[-1] + token_list[i]
                if merged_token in token_set:
                    merged_token_list[-1] = merged_token
                else:
                    merged_token_list.append(merged_token)
            new_token_lists.append(merged_token_list)
        return new_token_lists
            
    def fit(self, tokens: List[str]):
        for cur_token in tokens:
            # add all single tokens
            for letter in cur_token:
                self.token_set.add(letter)
            # add all pairs of tokens
            for i in range(len(cur_token) - 1):
                self.pair_token_count[(cur_token[i], cur_token[i + 1])] += 1
        while True:
            first_token, second_token = self.pair_token_count.most_common[0]
    def transform(self):
        pass

In [23]:
sentences

[['только',
  'заметил',
  ',',
  'что',
  'слово',
  '"',
  'п',
  '@',
  'рно',
  '"',
  'набирается',
  'самими',
  'центральными',
  'клавишами',
  '.',
  'как',
  'все',
  'продумано',
  ',',
  'блин',
  '!'],
 ['друзья',
  'мои',
  ',',
  'чтобы',
  'соответствовать',
  'вам',
  ',',
  'я',
  'готов',
  'сделать',
  'над',
  'собой',
  'усилие',
  'и',
  'стать',
  'лучше',
  '.',
  'но',
  'тогда',
  'и',
  'вы',
  'станьте',
  'немного',
  'хуже',
  '!'],
 ['-',
  'люся',
  ',',
  'ты',
  'все',
  'еще',
  'хранишь',
  'мой',
  'подарок',
  '?',
  '-',
  'да',
  '.',
  '-',
  'я',
  'думал',
  ',',
  'ты',
  'выкинула',
  'все',
  ',',
  'что',
  'со',
  'мной',
  'связано',
  '.',
  '-',
  'плюшевый',
  'мишка',
  'не',
  'виноват',
  ',',
  'что',
  'ты',
  'ебл',
  '@',
  'н',
  '.',
  '.',
  '.'],
 ['-',
  'а',
  'вот',
  'скажи',
  'честно',
  ',',
  'ты',
  'во',
  'сне',
  'храпишь',
  '?',
  '-',
  'понятие',
  'не',
  'имею',
  ',',
  'вроде',
  ',',
  'нет',
  '.',
  

In [24]:
tokenizer = BPE_tokenizer()

In [25]:
all_tokens = [token for sentence in sentences for token in sentence]

In [26]:
tokenizer.fit(all_tokens)

In [27]:
tokenizer.token_set

{'!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 ';',
 '=',
 '>',
 '?',
 '@',
 '^',
 '_',
 '`',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '°',
 '²',
 '»',
 '¿',
 '×',
 'ë',
 'ö',
 'ø',
 '́',
 '̆',
 '̈',
 'ο',
 'π',
 'а',
 'б',
 'в',
 'г',
 'д',
 'е',
 'ж',
 'з',
 'и',
 'й',
 'к',
 'л',
 'м',
 'н',
 'о',
 'п',
 'р',
 'с',
 'т',
 'у',
 'ф',
 'х',
 'ц',
 'ч',
 'ш',
 'щ',
 'ъ',
 'ы',
 'ь',
 'э',
 'ю',
 'я',
 'ё',
 '\u200b',
 '’',
 '“',
 '”',
 '″',
 '€',
 '№',
 '−',
 '▒',
 '☺',
 '☻',
 '。',
 '为',
 '举',
 '事',
 '人',
 '代',
 '任',
 '会',
 '副',
 '名',
 '命',
 '已',
 '并',
 '应',
 '成',
 '手',
 '接',
 '数',
 '新',
 '最',
 '果',
 '然',
 '理',
 '由',
 '的',
 '直',
 '经',
 '结',
 '给',
 '老',
 '虽',
 '表',
 '选',
 '长',
 '\ufeff',
 '，'}

In [30]:
tokenizer.pair_token_count.most_common()

[(('т', 'о'), 163673),
 (('н', 'а'), 142344),
 (('п', 'о'), 117529),
 (('н', 'е'), 117358),
 (('с', 'т'), 115354),
 (('р', 'а'), 109703),
 (('н', 'о'), 107882),
 (('к', 'о'), 106053),
 (('е', 'т'), 102373),
 (('е', 'н'), 98799),
 (('к', 'а'), 96884),
 (('р', 'о'), 96094),
 (('н', 'и'), 83840),
 (('о', 'в'), 83237),
 (('т', 'ь'), 82485),
 (('т', 'е'), 79835),
 (('в', 'а'), 79567),
 (('в', 'о'), 78408),
 (('г', 'о'), 77848),
 (('п', 'р'), 77737),
 (('и', 'т'), 77214),
 (('о', 'т'), 76612),
 (('т', 'а'), 76083),
 (('л', 'и'), 75317),
 (('о', 'р'), 73115),
 (('а', 'л'), 73063),
 (('р', 'е'), 72739),
 (('д', 'е'), 70410),
 (('о', 'л'), 70193),
 (('е', 'р'), 70008),
 (('о', 'с'), 68604),
 (('о', 'д'), 67846),
 (('д', 'а'), 64675),
 (('а', 'т'), 63467),
 (('о', 'м'), 61680),
 (('а', 'к'), 61438),
 (('е', 'л'), 59221),
 (('з', 'а'), 58163),
 (('л', 'а'), 58131),
 (('р', 'и'), 58071),
 (('о', 'г'), 57701),
 (('и', 'н'), 57521),
 (('о', 'н'), 55615),
 (('л', 'о'), 54586),
 (('е', 'с'), 53605),
 