In [1]:
import editdistance
import re

from pathlib import Path
from typing import Dict, List, Set, Tuple

In [2]:
class BKTree:
    def __init__(self, words_list: List[str], distance: callable):
        self.root = {}
        self.root_word = None
        self.__distance = distance
        self.__build_bk(words_list)
        self.__get_stats()
        
    def __build_bk(self, words_list):
        for word in words_list:
            if not self.root:
                self.__add(word, self.root, '')
                self.root_word = next(iter(self.root))
            else:
                self.__add(word, self.root[self.root_word], self.root_word)
                
    def __get_stats(self):
        """
        Эта функция подсчитывает количество узлов в дереве и среднее значение по метрике для вспх узлов
        """
        node_count, total_dist_sum = 0, 0
        stack = [(self.root[self.root_word], self.root_word, 0)]
        while stack:
            node, key, dist = stack.pop()
            
            node_count += 1
            total_dist_sum += dist
            
            for child in node:
                stack.append((node[child], child, self.__distance(key, child)))
        print(f'Total nodes in constructed BK-Tree: {node_count}, average distance: {total_dist_sum / (node_count-1)}.')
        
            
    def __get_element_with_same_distance(self, word: str, node: Dict[str, Dict], dist: int):
        """
        Напишите функцию, которая ищет потомка, чтоюбы расстояние от него до слова было равно dist
        :param word:
        :param node:
        :param dist:
        return (потомок, ключ-родитель)
        """
        for child in node:
            if self.__distance(child, word) == dist:
                return node[child], child
        return None, None
        
    def __add(self, word: str, node: Dict[str, Dict], key: str):
        """
        Напишите функцию, которая добавляет новое слово в BK-дерево
        1. Если текущий узел пустой, то добавляем в него пару (слово, новый потомок)
        2. Измеряем расстояние между добавляемым словом и словом-родителем key
        3. Ищем такого потомка, у которого расстояние со словом совпадает с расстоянием из пункта 2.
        4. Если такой потомок нашёлся, пытаемся добавить в него слово, иначе создаём новый узел на текущем уровне
        :param word:
        :param node:
        :param key:
        """
        
        # YOUR CODE HERE
        
    def search(self, word: str, n: int) -> Set[Tuple[str, int]]:
        """
        Напишите функцию, ищет словарные слова в BK-дереве по битому образцу
        Здесь достаточно легко применить алгоритм поиска в глубину, 
        в том числе и итеративный, как в методе self.__get_stats().
        Отличие состоит в том, что в стек добавляются только те потомки, 
        у которых расстояние со словом текущего узла лежит в диапазоне (d(word, слово_текущего_узла) - N, d(word, слово_текущего_узла) + N).
        Кстати, если d(word, слово_текущего_узла) <= N, то добавляем слово в matches
        :param word:
        :param n:
        return: List[Tuple[str, int]]
        """
        
        # YOUR CODE HERE
        matches = set()        
        return matches

In [3]:
words = ['book', 'books', 'boo', 'boon', 'cook', 'clock', 'cake', 'cape', 'cart']
tree = BKTree(words, editdistance.eval)

Total nodes in constructed BK-Tree: 9, avaredge distance: 1.7777777777777777.


In [4]:
from pprint import pprint

pprint(tree.root)

{'book': {'books': {'boo': {'boon': {}, 'cook': {}}},
          'cake': {'cape': {}, 'cart': {}},
          'clock': {}}}


In [None]:
tree.search('bool', 3)

In [None]:
words_path = Path("/content/words2.txt")
broken_texts_path = Path("/content/broken_texts.csv")
correct_texts_path = Path("/content/derived.csv")

In [None]:
with open(words_path, 'r') as f:
  words_list = sorted(set(word.strip() for word in f.readlines()))

In [None]:
words_list = [word for word in words_list if re.search(r'а-я', word, re.I)]

In [None]:
tree = BKTree(words_list, editdistance.eval)