# Лабораторная работа: Деревья и двоичная куча

В этой расширенной лабораторной работе вы изучите различные виды деревьев, реализуете двоичную **max-кучу** и решите практические задачи с её использованием.

## Цели
- Изучить различные виды древовидных структур данных
- Реализовать N-арные деревья, BST и Trie
- Освоить двоичную кучу и её основные операции
- Применить кучи для решения практических алгоритмических задач
- Сравнить производительность различных структур данных

In [None]:
import random
import time
import heapq
from typing import List, Optional

# Для визуализации
try:
    from graphviz import Digraph
except ImportError:
    !pip install graphviz --quiet
    from graphviz import Digraph

## Часть 1: Виды деревьев

Изучим различные виды древовидных структур данных и их применения.

### Задание 1.1: N-арное дерево
Реализуйте N-арное дерево, где каждый узел может иметь произвольное количество потомков.

In [None]:
class NaryNode:
    def __init__(self, value):
        self.value = value
        self.children = []

    def add_child(self, child):
        """Добавить потомка"""
        # TODO: Добавьте ребенка в список children
        pass

    def find_child(self, value):
        """Найти потомка по значению"""
        # TODO: Найти и вернуть потомка с заданным значением
        pass

    def print_tree(self, level=0):
        """Печать дерева с отступами"""
        # TODO: Рекурсивная печать дерева с отступами
        pass

# Тест N-арного дерева
root = NaryNode('A')
root.add_child(NaryNode('B'))
root.add_child(NaryNode('C'))
root.add_child(NaryNode('D'))
root.children[0].add_child(NaryNode('E'))
root.children[0].add_child(NaryNode('F'))

print("N-арное дерево:")
root.print_tree()

### Задание 1.2: Префиксное дерево (Trie)
Реализуйте Trie для эффективного поиска строк.

In [None]:
class TrieNode:
    def __init__(self):
        self.children = {}
        self.is_end_of_word = False

class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, word):
        """Вставить слово в Trie"""
        # TODO: Добавьте слово в дерево
        pass

    def search(self, word):
        """Найти слово в Trie"""
        # TODO: Проверьте наличие полного слова
        pass

    def starts_with(self, prefix):
        """Проверить, есть ли слова с данным префиксом"""
        # TODO: Проверьте наличие префикса
        pass

# Тест Trie
trie = Trie()
words = ["hello", "world", "word", "hi", "hey"]
for word in words:
    trie.insert(word)

print("Поиск 'hello':", trie.search("hello"))
print("Поиск 'hel':", trie.search("hel"))
print("Префикс 'he':", trie.starts_with("he"))
print("Префикс 'wor':", trie.starts_with("wor"))

## Часть 2: Двоичная куча

### Теория
Двоичная куча — это почти полное бинарное дерево, удовлетворяющее свойству кучи: ключ каждого узла \(\ge\) ключей потомков (для max-кучи). Основные операции выполняются за \(O(\log n)\) благодаря ограниченной высоте дерева.

In [None]:
class MaxHeap:
    def __init__(self):
        self.heap: List[int] = []

    def _sift_up(self, idx: int) -> None:
        # TODO: Реализуйте просеивание вверх
        pass

    def _sift_down(self, idx: int) -> None:
        # TODO: Реализуйте просеивание вниз
        pass

    def insert(self, value: int) -> None:
        """Добавить элемент в кучу"""
        # TODO: Добавить значение и вызвать _sift_up
        pass

    def extract_max(self):
        """Извлечь максимальный элемент из кучи"""
        # TODO: Реализовать удаление корня и восстановление кучи
        pass

    def heapify(self, arr: List[int]):
        """Построить кучу из массива за O(n)"""
        self.heap = arr[:]
        # TODO: Реализуйте построчный вызов _sift_down начиная с последнего внутреннего узла
        pass

    def __len__(self):
        return len(self.heap)

    def __repr__(self):
        return str(self.heap)

In [None]:
# Тесты базовой кучи
heap = MaxHeap()
for x in [50, 20, 70, 80, 60, 25, 90]:
    heap.insert(x)
print('Куча:', heap)
print('Максимум:', heap.extract_max())
print('После извлечения:', heap)

In [None]:
def heapsort(arr: List[int]) -> List[int]:
    """Сортировка кучей (max-heap). Верните новый отсортированный список."""
    # TODO: Реализуйте heapsort, используя методы вашего класса
    pass

# Проверьте на случайном массиве
arr = random.sample(range(1000), 20)
print('Исходный:', arr)
print('Отсортированный:', heapsort(arr))

## Часть 3: Практические задачи с использованием кучи

Теперь применим кучу для решения реальных алгоритмических задач.

### Задание 3.1: K наибольших элементов
Найдите K наибольших элементов в массиве за O(n log k).

In [None]:
def find_k_largest_heap(arr, k):
    """Найти k наибольших элементов используя min-heap размера k"""
    # TODO: Используйте min-heap для поддержания k наибольших элементов
    # Подсказка: используйте heapq (min-heap) и поддерживайте размер k
    pass

def find_k_largest_manual(arr, k):
    """Найти k наибольших элементов используя вашу реализацию MaxHeap"""
    # TODO: Используйте вашу MaxHeap для решения задачи
    pass

# Тест
test_array = [3, 7, 1, 9, 4, 6, 8, 2, 5]
k = 3

print("Исходный массив:", test_array)
print("3 наибольших (heapq):", find_k_largest_heap(test_array, k))
print("3 наибольших (MaxHeap):", find_k_largest_manual(test_array, k))

### Задание 3.2: Медиана в потоке данных
Реализуйте структуру данных для нахождения медианы в потоке чисел.

In [None]:
class MedianFinder:
    """Найти медиану в потоке данных используя две кучи"""

    def __init__(self):
        # TODO: Инициализируйте две кучи:
        # max_heap - для меньшей половины (используйте отрицательные числа)
        # min_heap - для большей половины
        pass

    def add_number(self, num):
        """Добавить число в поток"""
        # TODO: Добавьте число в соответствующую кучу
        # и балансируйте размеры куч
        pass

    def find_median(self):
        """Найти медиану текущего потока"""
        # TODO: Вычислите медиану на основе размеров и вершин куч
        pass

# Тест MedianFinder
mf = MedianFinder()
numbers = [1, 5, 2, 6, 3, 4]
for num in numbers:
    mf.add_number(num)
    print(f"Добавлено {num}, медиана: {mf.find_median()}")

### Задание 3.3: Слияние K отсортированных массивов
Объедините K отсортированных массивов в один отсортированный массив.

In [None]:
def merge_k_sorted_arrays(arrays):
    """Слить K отсортированных массивов используя min-heap"""
    # TODO: Используйте кучу для эффективного слияния
    # Подсказка: храните в куче кортежи (значение, индекс_массива, индекс_элемента)
    pass

# Тест
arrays = [
    [1, 4, 7],
    [2, 5, 8],
    [3, 6, 9]
]

result = merge_k_sorted_arrays(arrays)
print("Исходные массивы:", arrays)
print("Объединенный массив:", result)

### Задание 3.4: Планировщик задач с приоритетами
Реализуйте планировщик задач, где каждая задача имеет приоритет.

In [None]:
class Task:
    def __init__(self, name, priority, duration):
        self.name = name
        self.priority = priority  # Чем больше число, тем выше приоритет
        self.duration = duration

    def __lt__(self, other):
        # Для правильной работы с heapq
        return self.priority > other.priority  # Инвертируем для max-heap поведения

    def __repr__(self):
        return f"Task({self.name}, p={self.priority}, d={self.duration})"

class TaskScheduler:
    def __init__(self):
        # TODO: Инициализируйте кучу для задач
        pass

    def add_task(self, task):
        """Добавить задачу в планировщик"""
        # TODO: Добавьте задачу в кучу
        pass

    def get_next_task(self):
        """Получить задачу с наивысшим приоритетом"""
        # TODO: Извлеките задачу с максимальным приоритетом
        pass

    def has_tasks(self):
        """Проверить наличие задач"""
        # TODO: Проверьте, есть ли задачи в планировщике
        pass

# Тест планировщика
scheduler = TaskScheduler()
tasks = [
    Task("Email", 2, 5),
    Task("Bug Fix", 5, 20),
    Task("Meeting", 3, 30),
    Task("Code Review", 4, 15),
    Task("Documentation", 1, 10)
]

for task in tasks:
    scheduler.add_task(task)

print("Выполнение задач по приоритету:")
while scheduler.has_tasks():
    task = scheduler.get_next_task()
    print(f"Выполняется: {task}")

## Часть 4: Сравнение производительности

In [None]:
def benchmark_structures(n=10000):
    """Сравнить производительность различных структур для поиска максимума"""

    # Генерация случайных данных
    data = [random.randint(1, n*10) for _ in range(n)]

    # 1. Обычный список (поиск максимума за O(n))
    start = time.perf_counter()
    for _ in range(100):
        max(data)
    list_time = time.perf_counter() - start

    # 2. Отсортированный список (вставка O(n), максимум O(1))
    sorted_list = []
    start = time.perf_counter()
    for val in data[:100]:  # Меньше операций из-за медленности
        sorted_list.append(val)
        sorted_list.sort()
        max_val = sorted_list[-1]
    sorted_time = time.perf_counter() - start

    # 3. Heap (вставка O(log n), максимум O(log n))
    heap = []
    start = time.perf_counter()
    for val in data[:1000]:  # Больше операций
        heapq.heappush(heap, -val)  # Отрицательные для max-heap
        max_val = -heap[0]
    heap_time = time.perf_counter() - start

    print(f"Результаты для {n} элементов:")
    print(f"Список (поиск max): {list_time:.4f}s")
    print(f"Отсортированный список: {sorted_time:.4f}s (100 операций)")
    print(f"Heap: {heap_time:.4f}s (1000 операций)")

benchmark_structures()

In [None]:
def visualize_heap(heap: List[int]):
    dot = Digraph()
    for i, val in enumerate(heap):
        dot.node(str(i), str(val))
        parent_idx = (i - 1) // 2
        if i > 0:
            dot.edge(str(parent_idx), str(i))
    return dot

# Пример визуализации
heap = MaxHeap()
for x in [90, 70, 80, 20, 60, 25, 50]:
    heap.insert(x)
print("Визуализация кучи:")
# visualize_heap(heap.heap)  # Раскомментируйте после реализации

## Вопросы для отчёта

### По видам деревьев:
1. В чём основное различие между N-арным деревом и бинарным деревом?
2. Почему BST обеспечивает поиск за O(log n) в среднем случае?
3. Какие преимущества даёт Trie при работе со строками?
4. Когда стоит использовать каждый тип дерева?

### По двоичной куче:
5. Какая временная сложность операций `insert` и `extract_max`? Обоснуйте.
6. Почему алгоритм `heapify` работает за O(n), а не за O(n log n)?
7. В чём отличие двоичной кучи от бинарного дерева поиска?

### По применению куч:
8. Почему для задачи "K наибольших элементов" используется min-heap размера K?
9. Как две кучи помогают находить медиану за O(log n)?
10. В чём преимущество использования кучи при слиянии K массивов?
11. Приведите примеры реальных систем, где используются очереди с приоритетом.
12. Сравните эффективность heapsort с быстрой сортировкой на случайных данных.

## Заключение

В этой лабораторной работе вы изучили:
- Различные типы древовидных структур данных
- Реализацию и применение двоичной кучи
- Практические алгоритмы, использующие кучи
- Анализ производительности различных структур данных

Эти знания помогут вам в решении широкого спектра алгоритмических задач и оптимизации производительности программ.