# Деревья

Дерево - связный ациклический граф.

Представление деревьев: а – иерархическая структура, б – множества, в – линейное представление

![](tree_1.png)

Граф (или сеть) состоит из: вершин или узлов (vertice, node) и ребер или дуг или связей (edge, arc, link).

Путь - упорядоченный список узлов, связанных друг с другом.

Дочерние узлы (children) - все узлы имеющие входящие связи от некоторого узла, называются дочерними узлами данного узла.

Родитель (parent) - узел, исходящая связь которого соединена с данным узлом.

Сиблинги (sibling) - узлы, являющиеся дочерними узлами родителя данного узла.

Корень (root) — узел дерева, не имеющий родитетеля.

Лист (leaf node) (или терминальный узел) — узел, не имеющий дочерних узлов.

Внутренний узел — любой узел дерева, имеющий дочерние узлы, и таким образом, не являющийся листовым узлом.

Уровень (level) узла - длина пути от корня до данного узла. Уровень корня по определению равен 0.

Высота дерева (height) - максимальный уровень среди узлов дерева.

Поддерво (subtree) - множество узлов и связей включающее родителя и всех его потомков.

## Знакомство с бинарными деревьями

Двоичное (бинарное) дерево (binary tree) — иерархическая структура данных, в которой каждый узел имеет не более двух потомков (детей). Обычно, первый называется родительским узлом, а дети называются левым и правым наследниками.

Пример небольшого бинарного дерева.

![](tree_2.png)

Среди бинарных деревьев отдельно выделяют полные бинарные деревья, все вершины которых имеют по две дочерних, кроме листьев, которые расположены на одинаковой глубине:

![](tree_4.png)

Также полными часто называют бинарные деревья, у которых полностью заполнены все уровни, кроме последнего:

![](tree_5.png)

In [3]:
# Представление бинарного дерева в виде списка списков:
my_tree = \
['a', #root
    ['b', #left subtree
        ['d', [], []],
        ['e', [], []] ],
    ['c', #right subtree
        ['f', [], []],
        [] ]
]

Пример API (application programming interface) для работы с двоичными деревьями:
* BinaryTree() - создание нового экземпляра бинарного дерева.
* get_left_child() - возвращает бинарное дерево связанное с левым дочерним узлом рассматриваемого узла.
* get_right_child() - возвращает бинарное дерево связанное с правым дочерним узлом рассматриваемого узла. 
* get_root_val() - возвращает объект, хранящийся в данном узле.
* set_root_val(val) - сохраняет объект, хранящийся в данном узле.
* insert_left(val) - создает новое бинарное дерево связанное с левым дочерним узлом рассматриваемого узла.
* insert_right(val) - создает новое бинарное дерево связанное с левым дочерним узлом рассматриваемого узла.

In [4]:
print(my_tree)
print('left subtree = ', my_tree[1])
print('root = ', my_tree[0])
print('right subtree = ', my_tree[2])

['a', ['b', ['d', [], []], ['e', [], []]], ['c', ['f', [], []], []]]
left subtree =  ['b', ['d', [], []], ['e', [], []]]
root =  a
right subtree =  ['c', ['f', [], []], []]


In [5]:
# Пример реализации функции insert_left для представления бинарного дерева в виде списка списков:
def insert_left(root, new_branch):
    t = root.pop(1)
    if len(t) > 1:
        root.insert(1, [new_branch, t, []])
    else:
        root.insert(1, [new_branch, [], []])
    return root

In [6]:
insert_left(my_tree[2], 'H')

['c', ['H', ['f', [], []], []], []]

Пример представления бинарного дерева в виде узлов и ссылок:

![](tree_3.png)

In [17]:
# Фрагмент реализации бинарного дерева с помощью представления в виде узлов и ссылок:
class BinaryTree:
    def __init__(self, root):
        self.key = root
        self.left_child = None
        self.right_child = None
        
    def insert_left(self,new_node):
        if self.left_child == None:
            self.left_child = BinaryTree(new_node)
        else:
            t = BinaryTree(new_node)
            t.left_child = self.left_child
            self.left_child = t
            
    def insert_right(self,new_node):
        if self.right_child == None:
            self.right_child = BinaryTree(new_node)
        else:
            t = BinaryTree(new_node)
            t.right_child = self.right_child
            self.right_child = t
    
    def get_right_child(self):
        return self.right_child

    def get_left_child(self):
        return self.left_child

    def set_root_val(self,obj):
        self.key = obj

    def get_root_val(self):
        return self.key
    
    def __str__(self):
        return '{} ({}, {})'.format(self.get_root_val(), str(self.get_left_child()), str(self.get_right_child()))

In [22]:
r = BinaryTree('a')
print(r)

a (None, None)


In [23]:
r.insert_left('b')
print(r)
print(r.get_left_child())
print(r.get_left_child().get_root_val())

a (b (None, None), None)
b (None, None)
b


In [24]:
r.insert_right('c')
print(r)
print(r.get_right_child())
print(r.get_right_child().get_root_val())

a (b (None, None), c (None, None))
c (None, None)
c


In [25]:
r.get_right_child().set_root_val('hello')
print(r.get_right_child().get_root_val())

hello


## Использование бинарных деревьев в прикладных задачах

Двоичные деревья можно использовать для разбора (parsing) различных выражений. Рассмотрим, например, представления математического выражения ((7 + 3) * (5 − 2)) в виде двоичного дерева.

Представление математического выражения ((7 + 3) * (5 − 2)) в виде двоичного дерева:

![](m_tree_1.png)

Представление выражения (предложения) в виде дерева позволяет удобно работать с частями выражения как с поддервеьями или родительским и дочерним узлов (пример на рис.):

![](m_tree_2.png)

Для испльзования древовидного представления выражения необходимо решить следующие задачи:

* Как построить древововидное представление выражения в результате разбора математического выражения.
* Как вычислить математиченское выражение представленное в виде двоичного дерева.
* Как восстановить исходное математическое выражение из дрвеовидного представления.

Алгоритм разбора математического выражения для получения его древовидного представления:
1. Если текущий токен ‘(’, то добавляем новый узел в качестве левого дочернего узла текущего узла и спускаемся в новый узел.
2. Если текущий токен содержится в списке [‘+’,‘−’,‘/’,‘*’], то устанавливаем значение в текущем узле, соответствующее оператору, представленному в токене. Добавляем новый узел в качестве правого дочернего узла текущего узла и спускаемся в него.
3. Если текущий токен является числом, то устанавливаем значение в текущем узле соответствующее числу в токене и переходим к родительскому узлу. 
4. Если текущий токен ‘)’, то переходим к родителю текущего узла. 

Разбор математического выражения (3 + (4 \* 5)) или [‘(’, ‘3’, ‘+’, ‘(’, ‘4’, ‘*’, ‘5’ ,‘)’, ‘)’] и построение на его основе двоичного дерева:

<img src="m_tree_3.png" alt="Drawing" style="width: 300px;"/>

Для вычисления значения выражения имеющего древовидное представление достаточно реализовать простую рекурсивную функцию.

Представление документа (книги) как дерева:

![](m_tree_4.png)

## Обход (traversing/walk)  бинарных деревьев 

Прямой порядок: preorder In a preorder traversal, we visit the root node ﬁrst, then recursively do a preorder
traversal of the left subtree, followed by a recursive preorder traversal of the right subtree.

Обратный порядок: postorder In a postorder traversal, we recursively do a postorder traversal of the left subtree
and the right subtree followed by a visit to the root node.

Симметричный обход: inorder In an inorder traversal, we recursively do an inorder traversal on the left subtree, visit
the root node, and ﬁnally do a recursive inorder traversal of the right subtree.

Прямой порядок обхода дерева:

![](t_tree_1.png)

Обратный порядок обхода дерева:

![](t_tree_2.png)

Симметричный порядок обхода дерева:

![](t_tree_3.png)

## Двоичное дерево поиска

Двоичное дерево поиска (binary search tree, BST) — это двоичное дерево, для которого выполняются следующие дополнительные условия (свойства дерева поиска):

1. Оба поддерева — левое и правое — являются двоичными деревьями поиска.
2. У всех узлов левого поддерева произвольного узла X значения ключей данных меньше, нежели значение ключа данных самого узла X.
3. У всех узлов правого поддерева произвольного узла X значения ключей данных больше либо равно, нежели значение ключа данных самого узла X.

Очевидно, данные в каждом узле должны обладать ключами, на которых определена операция сравнения (например, операция меньше).

Пример двоичного дерва поиска:

![](bst_tree_1.png)

Основные операции в бинарном дереве поиска выполняются за время, пропорциональное его высоте. Для полного бинарного дерева с n узлами эти операции выполняются за время O(lg n) в наихудшем 
случае. Математическое ожидание высоты построенного случайным образом бинарного дерева равно О (lg n), так что все основные операции динамическим множеством в таком дереве выполняются в среднем за 
время Θ(lg n).

На практике мы не всегда можем гарантировать случайность построения бинарного дерева поиска, однако имеются версии деревьев, в 
которых гарантируется хорошее время работы в наихудшем случае. 
Речь идет о деревьях сбалансированных по высоте по определенным 
критериям, это АВЛ –деревья, 2-3, 3-4 деревья, красно-черные деревья, 
высота которых определяется как О (lg n). 

Алгоритм вставки узла в двоичное дерево поиска:

* Starting at the root of the tree, search the binary tree comparing the new key to the key in the current node. If the new key is less than the current node, search the left subtree. If the new key is greater than the current node, search the right subtree.
* When there is no left (or right) child to search, we have found the position in the tree where the new node should be installed.
* To add a node to the tree, create a new TreeNode object and insert the object at the point discovered in the previous step.

Пример вставки узла в двоичное дерево поиска:

![](bst_tree_2.png)

In [28]:
# Приер реализации поика элемента в двоичном дереве поиска:
def get(self,key):
    if self.root:
        res = self._get(key, self.root)
        if res:
            return res.payload
        else:
            return None
    else:
        return None

def _get(self, key, current_node):
    if not current_node:
        return None
    elif current_node.key == key:
        return current_node    
    elif key < current_node.key:
        return self._get(key, current_node.left_child)
    else:
        return self._get(key, current_node.right_child)  

In [29]:
def __getitem__(self, key):
    return self.get(key)  

def __contains__(self, key):
    if self._get(key, self.root):
        return True
    else:
        return False

In [None]:
if 'Northfield' in my_zip_tree:
    print('Found!')

Наиболее сложной операцией является удаление узла из дерева:

Шаг 1. При помощи поиска по дереву найти узел который нужно удалить.

Шаг 2. После обнаружения узла существует три случая, которые требуют специфической реализации операции удаления узла.

Случай 1. Удаляемый узел не имеет потомков:

![](bst_tree_3.png)

Случай 2. Удаляемый узел имеет только одного потомка:

![](bst_tree_4.png)

1. If the current node is a left child then we only need to update the parent reference of
the left child to point to the parent of the current node, and then update the left child
reference of the parent to point to the current node’s left child.

2. If the current node is a right child then we only need to update the parent reference of
the right child to point to the parent of the current node, and then update the right child
reference of the parent to point to the current node’s right child.

3. If the current node has no parent, it must be the root. 

Случай 3. Удаляемый узел имеет двух потомков:

![](bst_tree_5.png)

Если у удаляемого узла Z два дочерних узла, то мы находим следующий за ним по величине узел Y, у которого не более одного дочернего узла и убираем его из позиции, где он находился ранее, путем создания новой связи между его родителем и потомком, и заменяем им узел Z.

Поиск наследника выполняется по следующему алгоритму:

1. If the node has a right child, then the successor is the smallest key in the right subtree.
2. If the node has no right child and is the left child of its parent, then the parent is the
successor.
3. If the node is the right child of its parent, and itself has no right child, then the successor
to this node is the successor of its parent, excluding this node.
4. The ﬁrst condition is the only one that matters for us when deleting a node from a binary
search tree. However, the ﬁnd_successor method has other uses that we will explore in
the exercises at the end of this chapter.

Пример неэффективного двоичного дерева поиска:

![](bst_tree_6.png)

Алгоритм вставки в бинарное дерево, который мы только что 
рассмотрели, дает хорошие результаты при использовании случайных 
входных данных, но все же существует неприятная возможность того, 
что при этом будет построено вырожденное дерево. Можно было бы 
разработать алгоритм, поддерживающий дерево в оптимальном состоянии все время, где под оптимальностью мы в данном случае понимаем сбалансированность дерева. 

Идеально сбалансированным 
называется дерево, у которого для каждой вершины выполняется тре-
бование: число вершин в левом и правом поддеревьях различается не 
более чем на 1. 

Поддержка идеальной сбалансированности, к сожалению, очень сложная задача. Другая идея заключается в том, чтобы 
ввести менее жесткие критерии сбалансированности и на их основе 
предложить достаточно простые алгоритмы обеспечения этих критериев. 

## Двоичные кучи и очереди с приоритетом

Двоичная куча (пирамида) (binary heap) — такое двоичное дерево, для которого выполнены три условия:

1. Значение в любой вершине не больше, чем значения её потомков.
2. Уровень всех листьев (расстояние до корня) отличается не более чем на 1.
3. Последний уровень заполняется слева направо без «дырок».

Пример двоичной кучи:

![](bh_tree_1.png)

Для гарантированной логарифмической производительности мы дложны поддержвать двоичную кучу в виде сбалансированного дерева. Для этого мы будем строить двоичную кучу в виде полного бинарного дерева - дерева в котором каждый уровень кроме последнего содержит все возможные узлы, а последний уровень заполняется с лева на право без пропусков. 

Пример двоичной кучи и ее представления в виде списка:

![](bh_tree_2.png)

Важным свойством полного бинарного дерева является то, что такое дерево может быть представленно в виде одного списка. Левый потомок родителя (имеющего индекс p) является элеменотом списка с индексом 2p. Аналогично, правый потомок является элеменотом списка с индексом 2p + 1. Для того, чтобы найти индекс родительского узла нужно взять целую часть от индекса элемента, разделенного на 2.

Базовые операции для двоичной кучи:

* BinaryHeap() creates a new, empty, binary heap.
* insert(k) adds a new item to the heap.
* find_min() returns the item with the minimum key value, leaving item in the heap.
* del_min() returns the item with the minimum key value, removing the item from the
heap.
* is_empty() returns true if the heap is empty, false otherwise.
* size() returns the number of items in the heap.
* build_heap(list) builds a new heap from a list of keys.

In [None]:
class BinHeap:
    def __init__(self):
        self.heap_list = [0]
        self.current_size = 0

Вставка нового узла и просачивание его наверх:

![](bh_tree_3.png)

In [35]:
class BinHeap:
    def __init__(self):
        self.heap_list = [0]
        self.current_size = 0
        
    def insert(self, k):
        self.heap_list.append(k)
        self.current_size = self.current_size + 1
        perc_up(self, self.current_size)

In [36]:
def perc_up(self, i):
    while i // 2 > 0:
        if self.heap_list[i] < self.heap_list[i // 2]:
            tmp = self.heap_list[i // 2]
            self.heap_list[i // 2] = self.heap_list[i]
            self.heap_list[i] = tmp
        i = i // 2

Реализация метода del_min:

The heap property requires that the root of the tree be the smallest item in the tree, ﬁnding the
minimum item is easy.  

The hard part of del_min is restoring full compliance with the heap
structure and heap order properties after the root has been removed. We can restore our heap in two steps:

1. we will restore the root item by taking the last item in the list and moving it
to the root position. Moving the last item maintains our heap structure property. However, we
have probably destroyed the heap order property of our binary heap. 
2. we will restore the heap order property by pushing the new root node down the tree to its proper position.
Figure shows the series of swaps needed to move the new root node to its proper position
in the heap.

Удаление корневого элемента и просачивание нового значения вниз:

![](bh_tree_4.png)

In [33]:
def perc_down(self, i):
    while (i * 2) <= self.current_size:
        mc = min_child(self, i)
        if self.heap_list[i] > self.heap_list[mc]:
            tmp = self.heap_list[i]
            self.heap_list[i] = self.heap_list[mc]
            self.heap_list[mc] = tmp
        i = mc

In [34]:
def min_child(self, i):
    if i * 2 + 1 > self.current_size:
        return i * 2
    else:
        if self.heap_list[i * 2] < self.heap_list[i * 2 + 1]:
            return i * 2
        else:
            return i * 2 + 1

In [38]:
class BinHeap:
    def __init__(self):
        self.heap_list = [0]
        self.current_size = 0
        
    def insert(self, k):
        self.heap_list.append(k)
        self.current_size = self.current_size + 1
        perc_up(self, self.current_size)
        
    def del_min(self):
        ret_val = self.heap_list[1]
        self.heap_list[1] = self.heap_list[self.current_size]
        self.current_size = self.current_size - 1
        self.heap_list.pop()
        perc_down(self, 1)
        return ret_val        
    
    def build_heap(self, a_list):
        i = len(a_list) // 2
        self.current_size = len(a_list)
        self.heap_list = [0] + a_list[:]
        while (i > 0):
            self.perc_down(i)
            i = i - 1

Using the fact that you can build a heap from a list in 𝑂(𝑛) time, you will construct a sorting
algorithm that uses a heap and sorts a list in 𝑂(𝑛 log 𝑛) as an exercise at the end of this chapter.