# Двоичные и суффиксные деревья

### Двоичное дерево
Мы хотим составить собственный словарь произведения "Война и мир" Л.Н. Толстого и потом использовать его в своих исследованиях. Как это можно сделать?
1. Заводим пустой список. Каждое слово, выделенное из текста ищем в этом списке, пробегая его от начала до конца. При длине списка N, на каждое слово мы тратим N/2 операций сравнения (в ходе поиска). Это долго.
2. Строим двоичное дерево. В вершине дерева находится слово. Все слова больше данного отправляются правому потомку. Все слова меньше данного отправляются левому потомку. Если потомок существует, тот рекурсивно применяет тот же самый алгоритм. Если потомок отсутствует, слово занимает соответствующую позицию.

<img src="img/7f3d0251cd5f42e8a0a1f3aec41da199.png" width="300px"> 

Поиск по такому дереву осуществляется по следующему алгоритму.
1. Начиная с корня применяем шаги 2-4.
2. Если искомое значение равно значению в вершине, то значение найдено. Успешно завершаем работу алгоритма.
3. Если искомое значение меньше, чем значение в вершине, переходим к левому потомку. Если левый потомок отсутствует, завершаем алгоритм неуспехом.
4. Если искомое значение больше, чем значение в вершине, переходим к правому потомку. Если правый потомок отсутствует, завершаем алгоритм неуспехом.

Скорость поиска по такому дереву - примерно двоичный логарифм от количества вершин в дереве.

In [1]:
# Набор функций для создания двоичного дерева.

def addValueToNode(node, value):
    """ Функция добавления значения к вершине.
    """
    # Такое значение уже есть в в дереве.
    if node[0] == value:
        return
    # Значение должно пойти налево.
    if value < node[0]:
        # Слева никого нет.
        if node[1] == None:
            node[1] = [value, None, None]
        # Левый потомок имеется, рекурсивно применяем алгоритм.
        else:
            addValueToNode(node[1], value)
    # Аналогично справа.
    else:
        if node[2] == None:
            node[2] = [value, None, None]
        else:
            addValueToNode(node[2], value)
            
    
def addValueToTree(root, value):
    """ Функция добавления значения к дереву.
    """
    # Если корень дерева не создан, то надо его создать.
    if root == None or root == []:
        return [value, None, None]
    # Если корень существует, то просим его добавить начение.
    addValueToNode(root, value)
    return root

def printTreeDepth(node, right, left=0, strings=None, layer=0):
    """ Функция выводит двоичное дерево в консоль путем обхода в глубину.
        Вершина дерева представляет собой тройку - строка, списки левых и правых потомков.
        Функция формирует список строк. Длина списка == глубине дерева.
        Одна строка содержит один уровень дерева. Ширина строки
        В самом конце дерево выводится в консоль.
    """    
    # Если это верхний уровень, то куда мы будем складывать строки?
    if strings == None:
        strings = []
    # Если это первая строка на этом уровне - надо добавить отступ.
    if len(strings) <= layer:
        strings.append(' ' * left)
    # Если почему-то не добавили нужные отступы - добавим их.
    elif len(strings[layer]) < left:
        strings[layer] += ' ' * (left - len(strings[layer]))
    # Количество отступов слева и справа.
    dif1 = int((right - left - len(str(node[0]))) / 2) 
    dif2 = right - left - len(str(node[0])) - dif1
    # Добавляем себя.
    strings[layer] += ' ' * dif1 + str(node[0]) + ' ' * dif2
    # Добавляем потомков справо и слева, разделив строку посредине.
    c = int((right + left) / 2)
    if node[1] != None:
        strings = printTreeDepth(node[1], c, left, strings, layer+1)
    if node[2] != None:
        strings = printTreeDepth(node[2], right, c+1, strings, layer+1)
        
    # Если это был верхний уровень, значит всё сделали, пора выводить дерево.
    if layer == 0:
        for s in strings:
            print('\n', s)        
    return strings

def printTreeWidth2(nodes, width):
    # Пустой список выводить незачем.
    if len(nodes) == 0:
        return
        
    # Количество символов на один элемент.
    woe = int(width / len(nodes))
    s = ''
    # Формуруем список вершин на следующем уровне, добавляя всех потомков.
    nodes2 = []
    for node in nodes:
        # Если вершина пустая, то надо на ее месте просто нарисовать пробелы.
        if node == None:
            s += ' ' * woe
            nodes2.extend([None, None]) # На месте ее потомков тоже.
        else:
            # Длина отступов выравнивания слева и справа.
            dif1 = int((woe - len(node[0])) / 2)
            dif2 = woe - len(node[0]) - dif1
            s += ' ' * dif1 + str(node[0]) + ' ' * dif2
            # Добавляем потомков вершины, чтобы рисовать на следующем уровне.
            nodes2.append(node[1])
            nodes2.append(node[2])
    strings = [s]
    # Проверяем, что в списке есть непустые значения.
    if any([n != None for n in nodes2]):
        # Добавляем к своей строке всё, что сформировано ниже.
        strings.extend(printTreeWidth2(nodes2, width))
        
    return strings
    

def printTreeWidth(tree, width):
    """ Функция печати дерева tree в консоли ширины width путем обхода в ширину.
    """
    # Это был верхний уровень, корень дерева. Превратим его в список из одного элемента.
    strings = printTreeWidth2([tree], width)
    # Печатаем результат.
    for s in strings:
        print('\n'+s)

# По умолчанию используем обход в глубину.
printTree = printTreeDepth

# Пример использования.
# tree = ['asdfgh', ['qwer', ['qwwwer', ['q1', None, None], ['q2', None, None]], None], 
#                   ['qwerrrr', None, ['qqqqwer', ['q3', None, None], ['q4', None, None]]]]
# strings = printTree(tree, 80)




Посмотрим как рабоатет.

In [2]:
tree = None

In [3]:
tree = addValueToTree(tree, 5)
printTree(tree, 80);


                                        5                                        


In [4]:
tree = addValueToTree(tree, 5)
tree = addValueToTree(tree, 4)
tree = addValueToTree(tree, 3)
printTree(tree, 80);


                                        5                                        

                    4                    

          3          


In [5]:
tree = addValueToTree(tree, 9)
tree = addValueToTree(tree, 12)
tree = addValueToTree(tree, 7)
printTree(tree, 80);


                                        5                                        

                    4                                        9                   

          3                                        7                  12         


А теперь сделаем следующий хитрый финт.

In [6]:
tree = []
for i in range(10):
    tree = addValueToTree(tree, i)
printTree(tree, 80);


                                        0                                        

                                                             1                   

                                                                       2         

                                                                            3    

                                                                              4  

                                                                                5

                                                                                 6

                                                                                  7

                                                                                  8

                                                                                  9


Очевидно, что скорость поиска по такому дереву мало будет отличаться от поиска по неотсортированному массиву. 

Необходимо поддерживать *сбалансированность* дерева. Для каждой вершины сбалансированного дерева высота её двух поддеревьев различается не более чем на 1. Здесь мы рассмотрим [АВЛ-деревья](https://ru.wikipedia.org/wiki/%D0%90%D0%92%D0%9B-%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE).

Балансировка АВЛ дерева заключается в следующем. Балансировкой вершины называется операция, которая в случае разницы высот левого и правого поддеревьев = 2, изменяет связи предок-потомок в поддереве данной вершины так, что разница становится <= 1, иначе ничего не меняет. Указанный результат получается вращениями поддерева данной вершины. Используются 4 типа вращений:

- Малое левое вращение  

<img src="https://upload.wikimedia.org/wikipedia/commons/9/96/AVL_LR.gif">  

Данное вращение используется тогда, когда (высота b-поддерева — высота L) = 2 и высота c-поддерева <= высота R.
- Большое левое вращение  

<img src="https://upload.wikimedia.org/wikipedia/ru/1/16/AVL_BR.GIF">  

Данное вращение используется тогда, когда (высота b-поддерева — высота L) = 2 и высота c-поддерева > высота R.
- Малое правое вращение  

<img src="https://upload.wikimedia.org/wikipedia/ru/e/e8/AVL_LL.GIF">  

Данное вращение используется тогда, когда (высота b-поддерева — высота R) = 2 и высота С <= высота L.
- Большое правое вращение  

<img src="https://upload.wikimedia.org/wikipedia/ru/7/74/AVL_BL.GIF">  

Данное вращение используется тогда, когда (высота b-поддерева — высота R) = 2 и высота c-поддерева > высота L.



Аналогичный результат можно достигнуть при помощи [красно-черных деревьев](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE-%D1%87%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE), которые мы не будем рассматривать в рамках данного курса. Их общая идея балансировки также основывается на поворотах, но когда применять повороты определяется посредством окраски вершин дерева в красные и черные цвета. За счет этого достигается некоторая экономия на подсчетах глубины дерева.

### Суффиксные деревья
Надо извлечь и посчитать все n-граммы из слов из текта на русском языке.

In [7]:
import re
from tqdm import tqdm
import random

In [8]:
with open("data/war_and_peace.txt") as file:
    text = file.read()

words = re.findall("[А-ЯЁа-яё]+", text)

In [9]:
def getNgramms(words):
    res = {}
    for word in words:
        for n in range(1, len(word)+1):
            for i in range(len(word)-n+1):
                res[word[i:i+n]] = res.get(word[i:i+n], 0) + 1
    return res

In [10]:
%%time
len(getNgramms(words))

CPU times: user 2.84 s, sys: 22.6 ms, total: 2.87 s
Wall time: 2.87 s


363596

In [12]:
%%timeit
allNgramms = {}

res = []
for i in range(1000):
    l = random.randint(1, 10)
    ngr = ''
    for j in range(l):
        ngr = ngr + chr(ord('а')+random.randint(0, 31))
    res.append(ngr+":"+str(allNgramms.get(ngr, -1)))

4.03 ms ± 182 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


---

Еще раз то же самое, но при помощи CountVectorizer.

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

In [14]:
text2 = " ".join(words)

In [17]:
vctrzr = CountVectorizer(input=text2, ngram_range=(1, 20), analyzer='char_wb')

In [18]:
%%time
cnt_res = vctrzr.fit_transform([text])

CPU times: user 10.3 s, sys: 459 ms, total: 10.8 s
Wall time: 10.8 s


Нет, слишком долго.

Давайте попробуем [префиксное дерево](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B5%D1%84%D0%B8%D0%BA%D1%81%D0%BD%D0%BE%D0%B5_%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE).

Если у нас есть некоторый словарь, который хранит слова упорядоченными по алфавиту, то из всего словаря можно выделить подмножество слов, которые начинаются на одну букву. Если словарь велик, то встает вопрос: зачем хранить эту букву много раз? Мы можем создать словарь, в котором ключём будет перва буква слова, а в качестве значения будет храниться список всех слов на эту букву.

Однако и сам список слов, начинающихся на одну букву, может быть тоже велик. Тогда мы можем повторить эту операцию несколько раз. В итоге мы получим структуру, которая в узле хранит словарь, ключами в котором являются все буквы в заданной позиции, идущие после некоторой подстроки, а значениями - такие же узлы дерева.
 
<img src="img/morfologiya-zadachi-i-podhody-k-ih-resheniyu-4.png">

Алгоритм поиска слова в таком словаре.
1. В качестве текущей вершины берем корень префиксного дерева, а в качестве текущей буквы - первую букву слова. 
2. Если слово закончилось, возвращаем успех. В противном случае для текущей вершины ищем текущую букву в словаре и выполняем шаги 3-4. 
3. Если буква не найдена - алгоритм завершается неуспехом. 
4. Если буква найдена, в качестве текущей вершины назначаем вершину, ассоциированную с текущей буквой. В качестве текущей назначаем следующую букву.

In [19]:
def addPostfix(postfix, curLevel):
    """ Функция добавляет postfix в поддерево с узлом curLevel.
        Узел дерева хранит в нулевом элементе частоту встречаемости пройденного префикса.
        В первом элементе хранится словарь всех элементов, с которых могут 
        начинаться возможные суффиксы, начинающегося с данного префикса.
    """
    # Префикс закончился (его постфикс пуст). Добавлять больше нечего.
    if len(postfix) == 0:
        return
    # Такого начала нет в словаре. Его надо добавить.
    if curLevel.get(postfix[0], None) == None:
        curLevel[postfix[0]] = [0, {}]
    # Пришел еще один такой префикс, увеличиваем частоту.
    curLevel[postfix[0]][0] += 1
    # Добавляем оставшуюся часть в соответствующий узел.
    addPostfix(postfix[1:], curLevel[postfix[0]][1])
    
def findPrefix(prefix, curLevel):
    """ Ищет prefix в суфиксном поддереве curLevel.
    """
    # Префикс пустой. Ошибка.
    if len(prefix) == 0:
        return -2
    # Очередного элемента нет в узле префиксного дерева. Ошибка.
    if curLevel.get(prefix[0], None) == None:
        return -1
    # Элемент есть в узле, но он последний в префиксе. Возвращаем результат.
    if len(prefix) == 1:
        return curLevel[prefix[0]][0]
    # Поиск не закончен, переходим на следующий уровень, убрав очередной символ из начала.
    return findPrefix(prefix[1:], curLevel[prefix[0]][1])

In [20]:
%%time
allNgramms2 = {}
for word in words:
    addPostfix(word, allNgramms2)

CPU times: user 1.23 s, sys: 114 µs, total: 1.23 s
Wall time: 1.23 s


In [21]:
%%timeit

res2 = []
for i in range(1000):
    l = random.randint(1, 10)
    ngr = ''
    for j in range(l):
        ngr = ngr + chr(ord('а')+random.randint(0, 30))
    res2.append(ngr+":"+str(findPrefix(ngr, allNgramms2)))

4.47 ms ± 90.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


---

### Хранение словарей. Реализация Т9 на префиксном дереве.

К сожалению, текущая реализация не подходит для хранения словаря. Помимо слова "кот" в словаре также будут храниться \["кота", "котам", "коту", ..., "котик", "котика", ... "котейка", ... \] . Если мы решим найти слово "кота", то мы дойдем до не листовой вершины и не будем знать - это просто префикс слова, или его форма. Если мы разрешим любой префикс трактовать как слово, то строки "котико" и "котейк" будут успешно найдены, что для нашего словаря неверно.

Для того, чтобы исправить эту ситуацию необходимо добавить какой-то параметр, который будет помогать различать, закончилось слово или еще нет. Например, если это частотный словарь Л. Н. Толстого, то там, где слово заканчивается мы будем хранить сколько раз оно встретилось в тексте, а для промежуточных подстрок - нулевое значение. Тогда при поиске слова в словаре мы пройдем по дереву при помощи уже описанного алгоритма, а на последней букве (на пустом префиксе) проверим, лежит ли в вершине ноль или нет. При нуле мы сообщаем, что такого слова в словаре не найдено, в противном случае возвращаем его частоту.

Теперь представим себе, что нам надо реализовать Т9 (подсказки пользователю, набирающему текст на клавиатуре). Суть Т9 заключается в том, что пользователю выдаются слова, наиболее частные в каком-то тексте (например, во всех текстах, набранных данным пользователем). Тогда с одной стороны, нам нужно хранить частоты слов, а с другой стороны, флаг окончания слова. 

Алгоритм составления дерева для Т9 будет следующим. Добавляем все слова из некотрого текста. Для каждой буквы, которую мы проходим, увеличиваем частоту ее встречаемости. В конце слова устанавливаем флаг окончания слова в истинное значение (по умолчанию - ложное).

Перед началом поиска слова делаем текущей корневую вершину. При вводе очередной буквы переходим в вершину, соответствующей данной буквы. После этого, выбираем ветвь дерева с наибольшей частотой. Повторяем операцию до первой вершины с установленным флагом конца слова. Полученный путь в дереве выдаем в качестве подсказки.


## B-деревья

Бинарные деревья являются частным случаем [В-деревьев](https://habr.com/ru/post/114154/). (Поиграть с ними можно [здесь](https://www.cs.usfca.edu/~galles/visualization/BTree.html))

В В-дереве каждая вершина хранит от N-1 до 2*N-1 элемента данных (ключа) в отсортированном виде. Число потомков - на одного больше. Все листья В-дерева должны быть располоены на одной высоте (на практике подобное требование может быть ослаблено до разницы уровней не больше 1 для любой вершины).

<img src="https://hsto.org/getpro/habr/post_images/1f2/f68/57e/1f2f6857e2fa99d307f1b6b371a7fc0e.png">

Поиск Осуществляется следущим образом.
1. Назначаем корень дерева текущей вершиной. 
2. Идем по ключам текущей вершины до величины, большей искомой. Если такая найдена, переходим к потомку, который находится перед этой вершиной. Если не найдена - переходим к последнему потомку.
3. Повторяем шаг 2 до тех пор, пока не будет найден элемент или пока есть потомки.

##### Добавление элементов 
Если лист был заполнен, то в нем находилось 2N-1 ключей, то есть его можно разбить на 2 по N-1. При этом средний элемент (для которого N-1 первых ключей меньше его, а N-1 последних больше) перемещается в родительский узел. Соответственно, если родительский узел также был заполнен – то нам опять приходится разбивать. Операция может повторяться до корня. Если разбивается корень – то появляется новый корень и глубина дерева увеличивается. Как и в случае обычных бинарных деревьев, вставка осуществляется за один проход от корня к листу. На каждой итерации мы разбиваем все заполненные узлы, через которые проходим. 

Вместо того, чтобы разбивать узел, мы можем попробовать передать один из его элементов одному из потомков (например, самый левый элемент левому потомку). Очевидно, что при этом выбирают того из потомков, который не заполнен до конца.

<img src="https://hsto.org/getpro/habr/post_images/21b/18f/afb/21b18fafb0065fba63b60477c4d820fb.png">

<img src="https://hsto.org/getpro/habr/post_images/00f/28b/100/00f28b100bfb1cefb0f2df9a2208f337.png">

##### Удаление элементов
Если удаление происходит из листа, то необходимо проверить, сколько ключей в нем находится. Если больше N-1, то просто удаляем. Иначе, если существует соседний лист, который содержит больше N-1 ключа, то выберем ключ из этого соседа, который является разделителем между оставшимися ключами узла-соседа и исходного узла, и перенем в текущую вершину, а выбранное значение из узла-соседа перенесем в родительский узел. Если все узлы имеют по N-1 ключу, то можно объединить двух потомков, удалив из них нужный ключ.

<img src="https://hsto.org/getpro/habr/post_images/a50/1c9/f67/a501c9f67b746de70ca2ad11b5b0a085.png">

Если удаление производится из внутренней вершины, то можно взять себе ключ из одного из потомков. Если дочерний узел, предшествующий удаляемому ключу k содержит больше N-1 ключа, то находим k1 – предшественника k в поддереве этого узла. Удаляем его (возможно, рекурсивно запуская удаление дальше) и заменяем k в исходном узле на k1. 

<img src="https://hsto.org/getpro/habr/post_images/3de/f86/2c4/3def862c44eb090f9684a8fdbcf1f516.png">

##### Зачем они нужны
В-деревья хорошо показывют себя в системах, в которых переход с уровня на уровень стоит дорого. Например, при хранении информации на диске или в базе данных. Применение В-деревьев позволяет сократить количество обращений к носителю, то есть ускорить поиск данных.