# Бинарные деревья поиска

Дерево поиска - это структура данных, которая позволяет эффективным образом хранить некоторое множество элементов. 

Само по себе дерево - это граф, который выглядит следующим образом: если корень - это начальная вершина дерева, и оно соединено ребрами с другими вершинами (потомками). Каждый такой потомок в свою очередь также является корнем уже более маленького дерева. 

<img src="https://upload.wikimedia.org/wikipedia/commons/f/f7/Binary_tree.svg">

Дерево 1. <small> Автор: Сведения об авторе отсутствуют или не читаются программно. Предположительно <a href="//commons.wikimedia.org/wiki/User:Dcoetzee" title="User:Dcoetzee">Dcoetzee</a> (основываясь на заявлении об авторском праве). - No machine-readable source provided. Own work assumed (based on copyright claims)., Общественное достояние, <a href="https://commons.wikimedia.org/w/index.php?curid=488330">Ссылка</a> </small>

У данного дерева корнем является самая верхняя вершина с 2. Ее потомками являются узлы 7 и 5 и можно заметить, что сами 7 и 5 - также корни деревьев (обычно они называются поддеревьями). Узел без потомков (например 11 на этом рисунке) - тоже является деревом.

Однако дерево 1 еще не является бинарным деревом поиска. Для этого, оно должно обладать <b>основным свойством дерева поиска</b>:
* В любом узле А, значения ключей в левом поддереве меньше, чем в А
* В любом узле А, значения ключей в правом поддереве больше или равно, чем в А
* Оба поддерева - также бинарные деревья поиска

<img src="https://upload.wikimedia.org/wikipedia/commons/d/da/Binary_search_tree.svg">

Дерево 2. <small>Автор: Сведения об авторе отсутствуют или не читаются программно. Предположительно <a href="//commons.wikimedia.org/wiki/User:Dcoetzee" title="User:Dcoetzee">Dcoetzee</a> (основываясь на заявлении об авторском праве). - No machine-readable source provided. Own work assumed (based on copyright claims)., Общественное достояние, <a href="https://commons.wikimedia.org/w/index.php?curid=488330">Ссылка</a></small>

Дерево 2 уже является полноценным деревом поиска. Все вершины, которые находятся в левом поддереве имеют значения, меньше 8, а все вершины правого поддерева - больше 8. И так выполнено для любого узла этого дерева.

В дереве 1 слева находится число 7, в то время, как в вершине 2, что нарушает основное свойства дерева поиска.

Возникает логичный вопрос - почему данные деревья являются деревьями поиска? Ответ на этот вопрос заключается в том, что поиск любого узла в дереве можно проводить очень быстро.

Алгоритм поиска в бинарном дереве поиска:
* Если значение в корне совпадает с тем, которое мы ищем, то значит мы уже нашли нужную вершину - корень.
* Если же нет, то есть два варианта:
 * Значение, которое мы ищем, меньше, чем в корне. Из-за основного свойства, это означает, что искомая вершина может быть только в левом поддереве - запускаем этот же алгоритм для левого потока корня.
 * Значение больше, чем в корне. Тогда аналогично, оно может быть только в правом поддереве - запускаем от правого потока.
* Если мы пришли в вершину, у которой нет потомков, но при этом не нашли узел с таким же значением, то это будет означать, что в дереве нет такого элемента.

Таким образом, если мы хотим проверить, если в дереве 2 элемент 6, то мы сделаем следующие шаги:
* 6 < 8 -> идем в левое поддерево
* 6 > 3 -> идем в правое поддерево
* 6 == 6 -> нашли элемент

Как можно заметить, для того, чтобы найти элемент в множестве из 9 элементов, нам потребовалось сделать всего 2 сравнения.

В общем случае, можно сделать вывод, что поиск элемента в бинарном дереве поиска потребует действий не больше, чем расстояние от корня до самой удаленной вершины (это расстояние также называется <b> высотой </b> дерева).

Дерево 2 имеет высоту 3 -> поиск любого элемента будет занимать не более чем 3 сравнения.

Вставка в бинарное дерево поиска происходит практически также, как и поиск - вначале этим же алгоритмом ищем место для нового элемента (вершина, у которого нет соответсвенного потомка) и далее вставляем в это место новую вершину.

In [1]:
#include <iostream>
#include <vector>



In [2]:
class Node {
public:
    Node(){}
    Node(int v) : value(v), height(0), left(nullptr), right(nullptr) {}
    ~Node(){
        if(left) delete left;
        if(right) delete right;
    }

    Node *right;
    Node *left;
    int height;
    int value;
};



In [3]:
class BinTree {
public:
    BinTree() : root(nullptr) {}
    ~BinTree() { if(root) delete root; }
    
    void insert(int value) {
        root = insert(root, value);
    }
    
    bool contains(int value) {
        return contains(root, value);
    }
    
    int height() {
        return height(root);
    }
private:
    int height(Node * n) { // возвращаем высоту вершины
        if(n) return n->height;
        return 0;
    }

    Node * insert(Node * n, int value){ 
        if(!n) return new Node(value); // если нашли пустое место - создаем новый элемент и вставляем
        if(value < n->value) n->left = insert(n->left, value); // если меньше, вставляем в левое
        else n->right = insert(n->right, value); // если больше - в правое
        restore_height(n); // восстанавливаем новую высоту дерева
        return n;
    }

    bool contains(Node * n, int value) {
        if(!n) return false; // если долшли до пустой вершины, значит элемента нет в дереве
        if(n->value == value) return true; // если сопал с вершиной, то значит нашли
        if(value < n->value) {
            std::cout << value << " < " << n->value << std::endl;
            return contains(n->left, value); // если меньше - ищем в левом
        }
        else {
            std::cout << value << " > " << n->value << std::endl;
            return contains(n->right, value); // если больше -  в правом
        }
    }

    void restore_height(Node * n) {
        n->height = std::max(height(n->left), height(n->right)) + 1; // высота вершины - максимум из вершин поддеревьев + 1
    }
    
    Node * root; // корневая вершина дерева
};



In [4]:
BinTree tree2;
for(auto v : std::vector<int>({8, 3, 10, 1, 6, 14, 4, 7, 13})) {
    tree2.insert(v);
}



Данное дерево - в точности дерево 2. 

In [5]:
std::cout << tree2.contains(6) << std::endl; // попробуем найти шестерку в нашем дереве и сравним результат с теоретическим

6 < 8
6 > 3
1


(std::basic_ostream<char, std::char_traits<char> >::__ostream_type &) @0x7f5906da86e0


In [6]:
std::cout << tree2.height() << std::endl; // высота нашего дерева - 3

3


(std::basic_ostream<char, std::char_traits<char> >::__ostream_type &) @0x7f5906da86e0


Однако, как можно заметить, чтобы получить именно это дерево мы добавляли вершины в специально порядке - вначале значения, которые ближе к корню, а потом двигаемя все дальше и дальше. Если же вставлять такие вершины в другом порядке, то может получится совсем другое дерево.
Проведем эксперимент - попробуем найти 14 в нашем дереве и в дереве, в которое мы будем добавлять вершины в отсортированном порядке

In [7]:
BinTree sort_tree;
for(auto v : std::vector<int>{1, 3, 4, 6, 7, 8, 10, 13, 14}) {
    sort_tree.insert(v);
}



In [8]:
tree2.contains(14);
std::cout << "---------" << std::endl;
sort_tree.contains(14);

14 > 8
14 > 10
---------
14 > 1
14 > 3
14 > 4
14 > 6
14 > 7
14 > 8
14 > 10
14 > 13


(bool) true


Нам пришлось сделать все 8 сравнений (то есть сравнения с каждым элементом множества) для того, чтобы найти нужный элемент. И это не удивительно, ведь из-за сортировки мы каждый раз вставляли элемент в правое поддерево, из-за чего у нас получился просто связанный список из элементов и высота дерева стала равна 8.

<img src="http://aonijospot11.appspot.com/habrastorage.org/files/5b4/657/b80/5b4657b80fbc4794a582bdb25a4873b9.png">

In [9]:
std::cout << tree2.height() << std::endl;
std::cout << sort_tree.height() << std::endl;

3
8


(std::basic_ostream<char, std::char_traits<char> >::__ostream_type &) @0x7f5906da86e0


Из этого следует следующий вывод:

Если стросить дерево в лоб, то в среднем будет получатся дерево с маленькой высотой, в котором операции будут проходить эффективно. Однако на это нет никаких гарантий и деревья могут получатся крайне несбалансированными, из-за чего может сильно проседать производительность.

# AVL - деревья

Для решения этого недостатка были придуманы самобалансирующиеся деревья, которые гарантируют то, что дерево всегда будет оставаться в сбалансированном состоянии (то есть обладать не очень большой высотой).

Одним из первых, подобную модификацию предложили  Адельсон-Вельский Георгий Максимович и Ландис Евгений Михайлович. Их идея заключается в следующем

Дерево является AVL - деревом, если выполняются следующие свойства:

* Выполняется основное свойство деревьев поиска - то есть AVL - это все еще деревья поиска
* В любой вершине дерева, разница высоты правого поддерева и левого поддерева не превышает 2

Второе свойство на интуитивном уровне означает то, что дерево должно расти примерно одинаково в обе стороны - и в право и в лево (с максимально возможной разницей = 1 )

Несмотря на то, что дерево 2 является достаточно сбалансированным, оно все же не является AVL - деревом: 
вершина 10 имеет справа поддерево высоты 2, при этом слева у него вообще нет дерева (то есть высота 0). Получается, что разница высот равна 2, а это означает, что нарушается 2 свойство AVL - деревьев.

Как бы мы могли решить эту проблему в данном дереве, чтобы оно стало официально AVL - деревом?

Для начала рассмотрим более простой случай:

<img src="img/AVL1.png">

В данном случае в вершине 10 все еще нарушается свойство AVL. В данном случае мы можем сделать "повотор дерева", то есть перестроить некоторую часть - 13 вставить на место 10, а 10 добавить в качестве левого поддерева 13. 

<img src="img/AVL2.png">

Как видно, такая операция сохранила свойства бинарного дерева поиска, и более того, она привела дерево в состояние, когда выполняется свойство AVL дерева! 

Теперь вернемя к нашему случаю и посмотрим, что еще нам непобходимо сделать, чтобы также вернуть свойство AVL.

<img src="img/AVL3.png">

В данной ситуации, можно вначале сделать описанный поворот относительно вершины 14, чтобы получить ситуацию, с которой мы уже умеем справляться. То есть теперь заместо 14 мы ставим 13 вершину, а 14 вершину положим, как правое поддерево 13.

<img src="img/AVL1.png">

Отлично! С этим деревом мы уже работали. Сделаем еще один поворот уже вокруг 10.

<img src="img/AVL2.png">

У нас вновь получилось сбалансированное AVL - дерево!

Примерно на этих идеях и построена балансировка AVL-дерева. Более формально, у нас есть 4 поворота:

<img src="https://upload.wikimedia.org/wikipedia/ru/b/bc/AVL_LR.GIF">
Левое малое вращение

<img src="https://upload.wikimedia.org/wikipedia/ru/1/16/AVL_BR.GIF">
Левое большое вращение

И симметричные им

<img src="https://upload.wikimedia.org/wikipedia/ru/e/e8/AVL_LL.GIF">
Правое малое вращение

<img src="https://upload.wikimedia.org/wikipedia/ru/7/74/AVL_BL.GIF">
Правое большое вращение

Малые вращения - это то, как мы перестроили дерево в первом простом случае.

Большие вращение - это то, как мы перестроили дерево во втором более сложном случае. И как можно заметить, большие вращения - это комбинация двух малых.

Итого, алгоритм вставки в AVL дерева очень просто
* Вставляем вершину как в обычное дерево поиска
* После этого возращаемся вверх по дереву и восстанавливаем высоты, которые получились
* Если в какой-то момент дерево разбалансировалось (разница высот стала равной 2), то балансируем эту вершину
 * Если правое дерево выше левого, то необходимо делать левый поворот
 * Однако если у правого поддерева перевешивало левое поддерево, то необходимо сначала сделать правый поворот правого поддерева
 * Симметричная ситуация с перевесом левого поддерева

Адельсон-Вельский и Ландис доказали, что этих поворотов достаточно, чтобы поддерживать свойство AVL дерева

In [10]:
class AVLTree {
public:
    AVLTree() : root(nullptr) {}
    ~AVLTree(){
        if(root) delete root;
    }

    void insert(int value) {
        root = insert(root, value);
    }

    bool contains(int value) {
        return contains(root, value);
    }

    int height() {
        return height(root);
    }

private:

    int height(Node * n) {
        if(n) return n->height;
        return 0;
    }

    Node * insert(Node * n, int value){
        if(!n) return new Node(value);
        if(value < n->value) n->left = insert(n->left, value);
        else n->right = insert(n->right, value);
        return balance(n); // после вставки балансируем вершины
    }

    bool contains(Node * n, int value) {
        if(!n) return false; // если долшли до пустой вершины, значит элемента нет в дереве
        if(n->value == value) return true; // если сопал с вершиной, то значит нашли
        if(value < n->value) {
            std::cout << value << " < " << n->value << std::endl;
            return contains(n->left, value); // если меньше - ищем в левом
        }
        else {
            std::cout << value << " > " << n->value << std::endl;
            return contains(n->right, value); // если больше -  в правом
        }
    }

    int delta(Node * n) {
        return height(n->right) - height(n->left); // считаем разницу в высотах
    }

    void restore_height(Node * n) {
        n->height = std::max(height(n->left), height(n->right)) + 1; 
    }

    Node * right_rotate(Node * a) { // малое правое вращение
        Node* b = a->left;
        a->left = b->right;
        b->right = a;
        restore_height(a);
        restore_height(b);
        return b;
    }

    Node * left_rotate(Node * b) { // малое левое вращение
        Node* a = b->right;
        b->right = a->left;
        a->left = b;
        restore_height(b);
        restore_height(a);
        return a;
    }

    Node * balance(Node * p) { // балансировка
        restore_height(p); // восстановим высоту
        if(delta(p) == 2) { // если перевесило правое
            if(delta(p->right) < 0) p->right = right_rotate(p->right); // если у правого перевешивает левое - вращаем
            return left_rotate(p); // вращаем
        } else if(delta(p) == -2) { // симметричные операции
            if(delta(p->left)>0) p->left = left_rotate(p->left);
            return right_rotate(p);
        }
        return p; // если не потребовалась балансировка, то возвращаем эту же вершину
    }

    Node *root;
};




In [11]:
AVLTree tree;
for(auto v : std::vector<int>{1, 3, 4, 6, 7, 8, 10, 13, 14}) {
    tree.insert(v);
}



In [12]:
sort_tree.contains(14);
std::cout << "=========" << std::endl;
tree.contains(14);

14 > 1
14 > 3
14 > 4
14 > 6
14 > 7
14 > 8
14 > 10
14 > 13
14 > 6
14 > 8
14 > 10
14 > 13


(bool) true


In [13]:
std::cout << tree.height() << std::endl;

4


(std::basic_ostream<char, std::char_traits<char> >::__ostream_type &) @0x7f5906da86e0


Видно, что получающееся дерево получается с гораздо меньшей высотой и потому гораздо быстрее ищет.

In [14]:
for(int i = 0; i < 65000; i++) {
    tree.insert(i);
}
std::cout << tree.height() << std::endl; // вставка 65000 элементов привела к дерево с высотой всего 16

16


(std::basic_ostream<char, std::char_traits<char> >::__ostream_type &) @0x7f5906da86e0


In [15]:
tree.contains(60000);

60000 > 32765
60000 > 49149
60000 > 57341
60000 < 61437
60000 > 59389
60000 < 60413
60000 > 59901
60000 < 60157
60000 < 60029
60000 > 59965
60000 > 59997
60000 < 60013
60000 < 60005
60000 < 60001
60000 > 59999


(bool) true


В итоге, немного модернизировав алгоритм вставки элементов в дерево, мы получаем гарантированно сбалансированное дерево, работа с которым осуществляется очень быстро.