07.11.23, © Hryshchenko Illya, 2023

# Лабораторна робота №6. Структури даних дерево і купа

__Мета:__ _Засвоїти основні функції та алгоритми роботи з деревами та купою засобами Python._ 

### Дерева
[Дерево](https://uk.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_(%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D0%B4%D0%B0%D0%BD%D0%B8%D1%85)) - це базова структура даних, визначається як скінченна множина $Т$ з однією або більше вершинами (вузлами, nodes), яка задовольняє наступним вимогам:
* існує один відокремлений вузол — корінь (root) дерева
* інші вузли (за винятком кореня) розподілені серед $m ≥ 0$ непересічних множин $T_1 … T_m$ і кожна з цих множин, в свою чергу, є деревом. Дерева $T_1 … T_m$ мають назву піддерев (subtrees) даного кореня.

Дерево без вузлів називається _нульовим_ або _порожнім деревом_. Дерево, яке не є порожнім, складається з _кореневого вузла_ і багатьох рівнів додаткових вузлів, які утворюють _ієрархію_.


### Реалізація за допомогою списків
У дереві, представленому як список списків, на першій позиції ми будемо зберігати значення кореневого вузла. Другий елемент сам по собі буде списком і представлятиме ліве піддерево. Третій елемент стане правим піддеревом. Щоб проілюструвати таку техніку зберігання, розглянемо приклад двійкового дерева.
На Python це буде виглядати так:

In [None]:
myTree = ['a',   #root
      ['b',  #left subtree
       ['d', [], []],
       ['e', [], []] ],
      ['c',  #right subtree
       ['f', [], []],
       [] ]
     ]

Зверніть увагу, що у нас є доступ до кожного з піддерев з використанням стандартної спискової індексації. Корінь дерева - `myTree [0]`, ліве піддерево - `myTree [1]`, праве - `myTree [2]`.

In [None]:
myTree = ['a', ['b', ['d',[],[]], ['e',[],[]] ], ['c', ['f',[],[]], []] ]
print(myTree)
print('left subtree = ', myTree[1])
print('root = ', myTree[0])
print('right subtree = ', myTree[2])
print(myTree[1][2][0])

['a', ['b', ['d', [], []], ['e', [], []]], ['c', ['f', [], []], []]]
left subtree =  ['b', ['d', [], []], ['e', [], []]]
root =  a
right subtree =  ['c', ['f', [], []], []]
e


### Функції для роботи з деревами
Дане визначення можна формалізувати за допомогою деяких функцій, які зроблять простіше використання списків як дерев. Слід звернути увагу на те, що при цьому не визначається новий клас для двійкового дерева. Функції, які будуть написані, всього лише допоможуть маніпулювати стандартні списком, з яким ми працюємо, як з деревом.
### [Реалізація дерев за допомогою списків на Python](https://github.com/yorko/python_intro)

In [None]:
# Задання вузла бінарного дерева
def BinaryTree(r):
    return [r, [], []]

# Додавання елемента у ліве піддерево
def insertLeft(root, newBranch):
    t = root.pop(1)
    if len(t) > 1:
        root.insert(1,[newBranch,t,[]])
    else:
        root.insert(1,[newBranch, [], []])
    return root

# Додавання елемента у праве піддерево
def insertRight(root, newBranch):
    t = root.pop(2)
    if len(t) > 1:
        root.insert(2,[newBranch,[],t])
    else:
        root.insert(2,[newBranch,[],[]])
    return root

# Повернути значення кореневого елемента
def getRootVal(root):
    return root[0]

# Присвоєння нового значення кореневому елементу
def setRootVal(root,newVal):
    root[0] = newVal

# Повернути ліве піддерево  
def getLeftChild(root):
    return root[1]

# Повернути праве піддерево
def getRightChild(root):
    return root[2]

Нижче показано приклад роботи з вищеописаними функціями.

In [None]:
# Приклад
r = BinaryTree(3)
insertLeft(r,4)
insertLeft(r,5)
insertRight(r,6)
insertRight(r,7)
l = getLeftChild(r)
print(l)

setRootVal(l,9)
print(r)
insertLeft(l,11)
print(r)
print(getRightChild(getRightChild(r)))

[5, [4, [], []], []]
[3, [9, [4, [], []], []], [7, [], [6, [], []]]]
[3, [9, [11, [4, [], []], []], []], [7, [], [6, [], []]]]
[6, [], []]


__Завдання на самостійну роботу:__

* Створити бінарне дерево згідно з варіантом, виданим викладачем.
* Написати процедуру видалення заданої гілки дерева.
* Оцінити асисптотичну складність (в середньому і в найгіршому випадку) процедур `search`, `insert` і `delete` роботи з деревом.

In [None]:
class Node:
    def __init__(self, value=None):
        self.value = value
        self.left_child = None
        self.right_child = None
    
class BinaryTree:
    def __init__(self):
        self.root = None
    
    def insert(self, value):
        if self.root is None:
            self.root = Node(value)
        else:
            self._insert(value, self.root)
    
    def _insert(self, value, current_node):
        if value < current_node.value:
            if current_node.left_child is None:
                current_node.left_child = Node(value)
            else:
                self._insert(value, current_node.left_child)
        elif value > current_node.value:
            if current_node.right_child is None:
                current_node.right_child = Node(value)
            else:
                self._insert(value, current_node.right_child)
        else:
            print("Value already exists in tree.")
    
    def search(self, value):
        if self.root is None:
            return False
        else:
            return self._search(value, self.root)
    
    def _search(self, value, current_node):
        if value == current_node.value:
            return True
        elif value < current_node.value and current_node.left_child is not None:
            return self._search(value, current_node.left_child)
        elif value > current_node.value and current_node.right_child is not None:
            return self._search(value, current_node.right_child)
        else:
            return False
    
    def delete(self, value):
        if self.root is None:
            print("Tree is empty.")
        else:
            self.root = self._delete(value, self.root)
    
    def _delete(self, value, current_node):
        if value < current_node.value:
            current_node.left_child = self._delete(value, current_node.left_child)
        elif value > current_node.value:
            current_node.right_child = self._delete(value, current_node.right_child)
        else:
            if current_node.left_child is None and current_node.right_child is None:
                del current_node
                return None
            elif current_node.left_child is None:
                temp_node = current_node.right_child
                del current_node
                return temp_node
            elif current_node.right_child is None:
                temp_node = current_node.left_child
                del current_node
                return temp_node
            else:
                temp_node = self._get_min_value_node(current_node.right_child)
                current_node.value = temp_node.value
                current_node.right_child = self._delete(temp_node.value, current_node.right_child)
        
        return current_node
    
    def _get_min_value_node(self, current_node):
        if current_node.left_child is None:
            return current_node
        else:
            return self._get_min_value_node(current_node.left_child)


Процедура видалення заданої гілки дерева може бути реалізована наступним чином:

Перевірка чи вузол, який потрібно видалити є кореневим вузлом. Якщо так, то весь дерево потрібно видалити.

Перевірка чи вузол, який потрібно видалити має жодних нащадків (лівих або правих). Якщо так, то просто видалити цей вузол.

Якщо вузол має одного нащадка, то вузол потрібно замінити на його нащадка.

Якщо вузол має двох нащадків, то потрібно замінити його на найбільший вузол у його лівому піддереві або на найменший вузол у його правому піддереві. Для знаходження найбільшого або найменшого вузла можна використати наступні правила:

Найбільший вузол у лівому піддереві буде останнім вузлом у найправішій гілці цього піддерева.

Найменший вузол у правому піддереві буде першим вузлом у найлівішій гілці цього піддерева.

Отже, процедура видалення гілки дерева може бути реалізована за допомогою рекурсії. Ось код на Python:

python
Copy code
def deleteNode(root, val):
    if root is None:
        return root

    if val < root[0]:
        root[1] = deleteNode(root[1], val)
    elif val > root[0]:
        root[2] = deleteNode(root[2], val)
    else:
        if root[1] is None:
            temp = root[2]
            root = None
            return temp
        elif root[2] is None:
            temp = root[1]
            root = None
            return temp

        temp = minValueNode(root[2])
        root[0] = temp[0]
        root[2] = deleteNode(root[2], temp[0])

    return root

def minValueNode(node):
    current = node

    while current[1] is not None:
        current = current[1]

    return current


Асимптотична складність операцій в дереві залежить від балансу дерева та від того, наскільки операції виконуються ефективно. Для спрощення розглянемо ситуацію, коли бінарне дерево є повним, тобто кожен вузол має двох нащадків, і вузол з ключем меншим за батьківський ключ знаходиться в лівому піддереві, а вузол з ключем більшим за батьківський ключ - у правому піддереві.

Search:

Середня складність - O(log n)
Найгірша складність - O(n)
Insert:

Середня складність - O(log n)
Найгірша складність - O(n)
Delete:

Середня складність - O(log n)
Найгірша складність - O(n)
У випадку, коли баланс дерева порушується, наприклад, дерево є лівостороннім або правостороннім, складність операцій може стати квадратичною - O(n^2). Однак, застосування більш складних структур даних, таких як AVL-дерева чи червоно-чорні дерева, може допомогти уникнути цього проблеми і зменшити асимптотичну складність операцій до O(log n).

### Купа
[**Купа**](https://docs.python.org/2/library/heapq.html) -- бінарне дерево. А це означає, що кожен батьківський елемент має два дочірніх. І хоча ми називаємо цю структуру даних купою, виражається вона через звичайний масив.
Висота купи -- приблизно ціла частина $log(n)$, де $n$ -- кількість елементів. 

***
Операція| В середньому | Найгірший випадок
 --------|-------|-----------
 Search min| $\Theta (1)$| $O(1)$
 Search max| $\Theta (logn)$| $O(logn)$
 Insert| $\Theta (logn)$| $O(logn)$
 Delete| $\Theta (logn)$| $O(logn)$

### __Особливість представлення купи в Python__
Купа задається у вигляді масиву. В Python нумерація елементів масиву починається з нуля.
### __Декілька простих функцій Python для роботи з купами__


In [None]:
global heap
global currSize

def parent(i): #Отримати індекс батьківського вузла для i-го елемента
    return i // 2

def left(i): #Отримати лівий дочірній елемент от i-го
    return 2*i

def right(i): #Отримати правий дочірній елемент от i-го
    return (2*i + 1)

#### Додавання елемента до існуючої купи
Для початку ми додаємо елемент в самий низ купи, тобто в кінець масиву. Потім ми міняємо його місцями з батьківським елементом до тих пір, поки він не стане на своє місце.

**Алгоритм**:

1. Додаємо елемент на самий низ купи.
2. Порівнюємо доданий елемент з батьківським; якщо порядок вірний - зупиняємося.
3. Якщо немає - міняємо елементи місцями, і повертаємося до попереднього пункту.

In [None]:
def swap(a, b): # міняемо елемент з індексом a на елемент з індексом b
    temp = heap[a]
    heap[a] = heap[b]
    heap[b] = temp

def insert(elem):
    global currSize
    
    index = len(heap)
    heap.append(elem)
    currSize += 1
    par = parent(index)
    flag = 0
    while flag != 1:
        if index == 1: #Дійшли до кореневого елемента
            flag = 1
        elif heap[par] > elem: #Якщо індекс кореневого елемента більше індекса
#             нашего елемента - наш елемент на своєму місці
            flag = 1
        else: #Міняємо місцями батьківський елемент з нашим
            swap(par, index)
            index = par
            par = parent(index)
            
    print(heap)

Максимальна кількість проходів циклу `while` дорівнює висоті дерева, або $log(n)$, отже, трудомісткість алгоритму - $O(log (n))$.
_Вилучення максимального елемента купи__


Перший елемент у купі - завжди максимальний, так що ми просто видалимо його (попередньо запам'ятавши), і замінимо самим нижнім. Потім ми приведемо купу до правильного порядку, використовуючи функцію: `maxHeapify()`

**Алгоритм**:
1. Замінити кореневий елемент самим нижнім.
2. Порівняти новий кореневий елемент з дочірніми. Якщо вони в правильному порядку - зупинитися.
3. Якщо немає - замінити кореневий елемент на одного з дочірніх (менший для min-heap, більший для max-heap), і повторити крок 2.

In [None]:
def extractMax():
    global currSize
    if currSize != 0:
        maxElem = heap[1]
        heap[1] = heap[currSize] # Заменяем корневой элемент - последним
        heap.pop(currSize) # Удаляем последний элемент
        currSize -= 1 # Уменьшаем размер кучи
        maxHeapify(1)
        return maxElem

def maxHeapify(index):
    global currSize
    
    lar = index
    l = left(index)
    r = right(index)

    # Вычисляем, какой из дочерних элементов больше; если он больше родительского - меняем местами
    if l <= currSize and heap[l] > heap[lar]:
        lar = l
    if r <= currSize and heap[r] > heap[lar]:
        lar = r
    if lar != index:
        swap(index, lar)
        maxHeapify(lar)

І знову максимальна кількість викликів функції `maxHeapify` дорівнює висоті дерева, або $log(n)$, а значить, трудомісткість алгоритму - $O(logn)$.

__Завдання на самостійну роботу__:

* Написати процедуру генерації купи з будь-якого рандомного масива
* Додати до нього елемент, який дорівнює вашому порядковому номеру у списку групи
* Вилучити максимальний елемент з купи
* Оцінити асимптотичну складність (в середньому і в найгіршому випадку) процедур `search`, `insert` і `delete` роботи з з купою.

In [None]:
import random

# Генерація рандомного масиву
arr = [random.randint(0, 100) for i in range(10)]
print("Початковий масив:", arr)

# Додавання елементу, що дорівнює порядковому номеру у списку групи
arr.append(18)

# Функція для створення купи
def heapify(arr, n, i):
    # Ініціалізація батьківського елемента як найбільшого
    largest = i  
    l = 2 * i + 1     # Лівий дочірній елемент
    r = 2 * i + 2     # Правий дочірній елемент
  
    # Перевірка, чи лівий дочірній елемент більший за батьківський
    if l < n and arr[i] < arr[l]:
        largest = l
  
    # Перевірка, чи правий дочірній елемент більший за батьківський
    if r < n and arr[largest] < arr[r]:
        largest = r
  
    # Заміна батьківського елемента з найбільшим дочірнім, якщо потрібно
    if largest != i:
        arr[i],arr[largest] = arr[largest],arr[i]  # Обмін значень
  
        # Рекурсивне створення купи для піддерева
        heapify(arr, n, largest)
  
# Функція для сортування купи
def heapSort(arr):
    n = len(arr)
  
    # Створення купи з рандомного масиву
    for i in range(n // 2 - 1, -1, -1):
        heapify(arr, n, i)
  
    # Вилучення максимального елементу та сортування купи
    for i in range(n-1, 0, -1):
        arr[i], arr[0] = arr[0], arr[i]  # Обмін значень
        heapify(arr, i, 0)

# Виведення відсортованого масиву
heapSort(arr)
print("Відсортований масив:", arr)


Початковий масив: [72, 44, 81, 100, 52, 80, 32, 78, 57, 62]
Відсортований масив: [18, 32, 44, 52, 57, 62, 72, 78, 80, 81, 100]


Асимптотична складність процедур з купою залежить від глибини купи, яка може бути оцінена за допомогою логарифма за основою 2. Оскільки купа має форму повного бінарного дерева, глибина купи дорівнює log₂(n), де n - кількість елементів у купі.

Отже, оцінки складності для процедур з купою залежать від глибини купи, і можуть бути визначені як:

search: O(log n)
insert: O(log n)
delete: O(log n)
Отже, у середньому і в найгіршому випадках, часова складність для пошуку, вставки та вилучення елемента з купи - O(log n).

### Контрольні запитання.
1. Чим відрізняється структура _бінарне дерево_ він _бінарного дерева пошуку_?

Бінарне дерево і бінарне дерево пошуку - це дві різні структури даних.

Бінарне дерево - це структура даних, де кожен вузол має не більше двох дітей (лівого та правого). Вузли зазвичай містять деяку інформацію та вказівники на своїх дітей.

Бінарне дерево пошуку (Binary Search Tree, BST) - це також бінарне дерево, де кожен вузол має не більше двох дітей, але вузли містять ключі та відношення між ключами визначає їхню позицію у дереві. Ключі зазвичай зберігаються таким чином, щоб ключ у лівому піддереві був менший, ніж ключ в поточному вузлі, а ключ у правому піддереві - більший, ніж ключ поточного вузла. Ця структура даних надає швидкий доступ до даних з використанням алгоритмів пошуку, таких як пошук мінімального/максимального елементу або пошук елементу за ключем.

Отже, основна відмінність між бінарним деревом та бінарним деревом пошуку полягає в тому, що в бінарному дереві пошуку вузли містять ключі, які впорядковані залежно від їхнього відношення, що дозволяє швидко виконувати пошук та інші операції, пов'язані з порівнянням ключів.

1. Чим відрізняється структура _бінарне дерево_ від _бінарної купи_?

Бінарне дерево та бінарна купа є двома різними структурами даних.

Бінарне дерево - це структура даних, яка складається з вузлів, де кожен вузол містить по два дочірніх вузли. Кожен дочірній вузол може також мати свої дочірні вузли і так далі. Зазвичай, вузли бінарного дерева містять якусь інформацію, а структура використовується для реалізації різних алгоритмів, таких як обхід дерева або пошук вузлів за заданим ключем.

Бінарна купа - це деревоподібна структура даних, де кожен вузол має значення не менше (або не більше, якщо купа мінімальна) за значенням його дочірніх вузлів. Купа може бути реалізована як масив, де кожен елемент масиву відповідає вузлу купи, а його позиція в масиві відповідає позиції вузла в дереві. Купи використовуються, зокрема, для ефективної реалізації алгоритмів сортування, таких як heapsort.

Отже, хоча бінарні дерева і бінарні купи мають певну схожість у структурі, вони мають різні властивості та використовуються для різних цілей.