### Введение

**Двоичное дерево поиска (`binary search tree`, `BST`)** - двоичное дерево, для каждого узла которого выполнено условие: значение ключа в родительском узле не меньше, чем значение ключа левого потомка, и не больше, чем значение ключа правого потомка.

![binary search tree](support/bst "BST")

Реализация таблицы символов (ассоциативного массива) на `BST` позволяет *в среднем* поиск элемента по ключу, добавление элемента, все порядковые операции (максимум/минимум/ближайший снизу/ближайший сверху) за $O(log N)$, вывод элементов в ранжированном порядке за $O(N)$. Открытой проблемой является операция удаления, которая (в подходе `Hibbard`) после большого числа операций начинает стоить $O(\sqrt{N}$) из-за разбалансировки дерева.

Рассмотрим реализацию `BST` на основе односвязного списка. Каждый узел (`Node`) хранит в себе ссылку на левого и правого потомков, размер поддерева с корнем в этом узле, и саму пару `key : value`.

In [1]:
class Node():
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.left = None
        self.right = None
        self.count = 1

Рекурсивный подход к операциям над деревом:

+ Если дано двоичное дерево поиска высоты `h` с корнем `ROOT`, имеющим потомков `L` и `R`, то `L` и `R` - корни двоичных деревьев высоты не больше `h - 1`.
+ Удобно реализовывать операции над деревом с помощью рекурсивных функций; при этом функции для операций, изменяющих структуру дерева, возвращают ссылку на узел, в котором производился вызов. В этом случае не нужно хранить в каждом узле ссылку на родителя, т.к. обновление дерева по ссылкам производится "снизу вверх".

### API

+ **`get(key)`, или поиск**: возвращает значение по ключу `key` либо `None` при отсутствии ключа в дереве.

  Начиная с корня дерева, последовательно сравниваем значение переданного ключа со значением ключа в узле, переходим в левое или правое поддерево в зависимости от результата сравнения. Останавливаемся, либо когда нашли совпадающий ключ, либо когда попали в терминальный узел (лист)


+ **`put(key, value)`, или вставка**: добавляет новый узел с `key:value` либо обновляет `value` для имеющегося узла с `key`.

  Начиная с корня дерева, последовательно сравниваем значение переданного ключа со значением ключа в узле, переходим в левое или правое поддерево в зависимости от результата сравнения. Останавливаемся и создаем новый узел (с возвращением "наверх" ссылки на него), когда попали в пустой лист, либо когда попали в узел с совпадающим ключом. 


+ **`keys()`, или список ключей**: выводит все ключи в ранжированном виде.

  Обходим дерево слева направо, в каждом узле вызывая рекурсивно метод `_walk(root, queue)` сначала для левого поддерева, добавляя ключ узла в очередь вывода `queue`, затем вызывая метод обхода для правого поддерева.
  

+ **`size()`, или размер**: возвращает число узлов в дереве.

  Используется рекурсивный вызов приватного метода `_size(x)` для левого и правого поддерева `x`, возвращающего 0 в пустом узле и `1 + _size(sub_left) + _size(sub_right)` иначе.


+ **`deleteMin()`, или удаление минимума**: удаляет узел с минимальным ключом.

  Спускаемся по левым ветвям до листа, заменяем ссылку на себя у родителя в на ссылку на правого потомка (или `null`).


+ **`delete(key)`, или удаление**: удаляет узел по ключу `key`.

  Реализован метод `Hibbard`. Во-первых, выполняется рекурсивный поиск узла с переданным ключом (`x`). Возможны четыре случая:
  
  0. Ключ не найден.
  1. Узел `x` является листом. Возвращаем родителю ссылку на `null` (т.е. обнуляем ссылку на себя у родительского узла).
  2. Узел `x` имеет одного потомка. Возвращаем ссылку на единственного потомка (т.е. переключаем ссылку с себя на потомка у родительского узла)
  3. Узел `x` имеет двух потомков. В правом поддереве найдем узел с минимальным ключом `t` (т.е. следующий после `x` в ранжированном ряду ключей), заменим старые значения узла `x` значениями `(key, value)` узла `t`, удалим из правого поддерева узел `t`.
  
  ![bst-hibbard-deletion](support/bstdel "BST deletion")

Дополнительные методы:
+ **`min()`, или минимум**: возвращает минимальное значение ключа из дерева.


+ **`max()`, или максимум**: возвращает максимальное значение ключа из дерева.


+ **`floor(key)`, или ближайший снизу**: возвращает самое близкое значение ключа из дерева $\leq$ `key`.


+ **`ceiling(key)`, или ближайший сверху**: возвращает самое близкое значение ключа из дерева $\geq$ `key`.

### Реализация

In [58]:
class BST():
    
    def __init__(self):
        self.root = None
        
    def get(self, key):
        x = self.root
        while (x is not None):
            if key < x.key:
                x = x.left
            elif key > x.key:
                x = x.right
            else: #key == x.key
                return x.value
        return None
    
    def _put(self, x, key, value):
        if x is None:
            return Node(key, value)
        if key < x.key:
            x.left = self._put(x.left, key, value)
        elif key > x.key:
            x.right = self._put(x.right, key, value)
        else:
            x.value = value
        x.count = 1 + self._size(x.left) + self._size(x.right)
        return x
        
    def put(self, key, value):
        self.root = self._put(self.root, key, value)
        
    def keys(self):
        import Queue
        q = Queue.Queue()
        self._walk(self.root, q)
        return list(q.queue)
    
    def _walk(self, x, q):
        if x is None:
            return
        self._walk(x.left, q)
        q.put(x.key)
        self._walk(x.right, q)
        
    def _size(self, x):
        if x is None:
            return 0
        else:
            return x.count
    
    def size(self):
        return self._size(self.root)
        
    def max(self):
        x = self.root
        while (x.right is not None):
            x = x.right
        return x.key
    
    def min(self):
        x = self.root
        while (x.left is not None):
            x = x.left
        return x.key
    
    def _floor(self, x, key):
        if x is None:
            return None
        if key == x.key:
            return x
        elif key < x.key:
            return self._floor(x.left, key)
        else:
            t = self._floor(x.right, key)
            if t is not None:
                return t
            else:
                return x
    
    def floor(self, key):
        x = self._floor(self.root, key)
        if x is None:
            return None
        return x.key
    
    def _ceiling(self, x, key):
        if x is None:
            return None
        if key == x.key:
            return x
        if key > x.key:
            return self._ceiling(x.right, key)
        else:
            t = self._ceiling(x.left, key)
            if t is not None:
                return t
            else:
                return x
    
    def ceiling(self, key):
        x = self._ceiling(self.root, key)
        if x is None:
            return None
        return x.key
    
    
    def _deleteMin(self, x):
        if x.left is None:
            return x.right
        x.left = self._deleteMin(x.left)
        x.count = 1 + self._size(x.left) + self._size(x.right)
        return x
    
    def deleteMin(self):
        self.root = self._deleteMin(self.root)
    
    def _delete(self, x, key):
        if x is None:
            return None
        if key < x.key:
            x.left = self._delete(x.left, key)
        elif key > x.key:
            x.right = self._delete(x.right, key)
        else:
            if x.left is None:
                return x.right
            if x.right is None:
                return x.left
            
            t = x
            x = self.min(x.right)
            x.right = self._deleteMin(t.right)
            x.left = t.left
            
        x.count = 1 + self._size(x.left) + self._size(x.right)   
        return x
        
    def delete(self, key):
        self.root = self._delete(self.root, key)

In [80]:
bst = BST()

In [81]:
bst.put("A", 1)
bst.put("B", 3)
bst.put("C", 8)
bst.put("D", 5)
bst.put("E", 1)
bst.put("G", 1)

In [82]:
print bst.keys()

['A', 'B', 'C', 'D', 'E', 'G']


In [83]:
print bst.size()
print bst.min()
print bst.max()

6
A
G


In [84]:
print bst.floor("B")
print bst.ceiling("Z")
print bst.ceiling("F")

B
None
G


In [85]:
bst.delete("B")

In [86]:
print bst.keys()

['A', 'C', 'D', 'E', 'G']


Изображения взяты из презентаций к курсу `"Algorithms. Part I"` (R.Sedgewick, K.Wayne) на `Coursera.org`.