# Тестирование двоичных деревьев поиска и АВЛ-деревьев

In [1]:
import random
import sys

from algorithms_py.trees import TreeBinary, TreeAVL

sys.setrecursionlimit(20000)

### Вспомогательные функции

In [387]:
def get_test_arrays(N, perc=0.1):
    array = [i for i in range(N)]
    random.shuffle(array)
    array_missing = [random.randint(N+1, N*2) for i in range(int(N*perc))]
    array_part = array[:int(N*perc)]
    random.shuffle(array_part)
    return array, array_missing, array_part

def print_tree_info(tree):
    numbers = list(tree)
    print('Количество узлов:', len(numbers))
    print('Обход дерева:', numbers[:15], '...')

# для сбора замеров времени в один массив
from IPython import get_ipython
from IPython.core.magics.execution import TimeitResult

RESULTS = []

def collect_results():
    for k, v in get_ipython().__dict__['user_ns']['Out'].items():
        if v.__class__ == TimeitResult:
            RESULTS.append(round(v.worst, 3))

## Тест №1

- Двоичное дерево
- Отсортированный массив

In [358]:
array_rand, array_miss, array_part = get_test_arrays(10000, perc=0.2)

In [359]:
tree_binary_sorted = TreeBinary()

#### Добавление отсортированных чисел

In [7]:
%%timeit -r 1 -n 1 -o -q

for i in sorted(array_rand):
    tree_binary_sorted.insert(i)

<TimeitResult : 23.4 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [8]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_sorted)

Количество узлов: 10000
Обход дерева: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14] ...


<TimeitResult : 3.18 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [9]:
%%timeit -r 1 -n 1 -o -q

for i in array_miss:
    if tree_binary_sorted.has_value(i):
        print(f'{i} is in the tree')
        break

<TimeitResult : 8.7 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [10]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    if not tree_binary_sorted.has_value(i):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 3.68 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [11]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    tree_binary_sorted.remove(i)

<TimeitResult : 3.22 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [12]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_sorted)

Количество узлов: 8000
Обход дерева: [0, 1, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 17] ...


<TimeitResult : 1.52 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №2

- Двоичное дерево
- Массив перемешан

In [13]:
array_rand, array_miss, array_part = get_test_arrays(40000, perc=0.2)

In [14]:
tree_binary_random = TreeBinary()

#### Добавление чисел в случайном порядке

In [15]:
%%timeit -r 1 -n 1 -o -q

for i in array_rand:
    tree_binary_random.insert(i)

<TimeitResult : 293 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [16]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_random)

Количество узлов: 40000
Обход дерева: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14] ...


<TimeitResult : 57.8 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [17]:
%%timeit -r 1 -n 1 -o -q

for i in array_miss:
    if tree_binary_random.has_value(i):
        print(f'{i} is in the tree')
        break

<TimeitResult : 25 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [18]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    if not tree_binary_random.has_value(i):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 43.6 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [19]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    tree_binary_random.remove(i)

<TimeitResult : 4.92 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [20]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_random)

Количество узлов: 32000
Обход дерева: [1, 2, 3, 4, 5, 6, 7, 8, 10, 13, 14, 15, 16, 18, 19] ...


<TimeitResult : 19 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №3

- АВЛ-дерево
- Отсортированный массив

In [390]:
array_rand, array_miss, array_part = get_test_arrays(40000, perc=0.2)

In [391]:
tree_avl_sorted = TreeAVL()

#### Добавление отсортированных чисел

In [364]:
%%timeit -r 1 -n 1 -o -q

for i in sorted(array_rand):
    tree_avl_sorted.insert(i)

<TimeitResult : 999 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [365]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_sorted)

Количество узлов: 40000
Обход дерева: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14] ...


<TimeitResult : 45.4 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [366]:
%%timeit -r 1 -n 1 -o -q

for i in array_miss:
    if tree_avl_sorted.has_value(i):
        print(f'{i} is in the tree')
        break

<TimeitResult : 35.2 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [367]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    if not tree_avl_sorted.has_value(i):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 44.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [368]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    tree_avl_sorted.remove(i)

<TimeitResult : 202 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [369]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_sorted)

Количество узлов: 32000
Обход дерева: [0, 1, 2, 4, 5, 6, 7, 8, 9, 10, 12, 13, 15, 17, 18] ...


<TimeitResult : 36 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №4

- АВЛ-дерево
- Массив перемешан

In [426]:
array_rand, array_miss, array_part = get_test_arrays(100000, perc=0.2)

In [427]:
tree_avl_random = TreeAVL()

#### Добавление чисел

In [428]:
%%timeit -r 1 -n 1 -o -q

for i in array_rand:
    tree_avl_random.insert(i)

<TimeitResult : 2.61 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [429]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_random)

Количество узлов: 100000
Обход дерева: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14] ...


<TimeitResult : 131 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [430]:
%%timeit -r 1 -n 1 -o -q

for i in array_miss:
    if tree_avl_random.has_value(i):
        print(f'{i} is in the tree')
        break

<TimeitResult : 92 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [431]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    if not tree_avl_random.has_value(i):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 108 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [432]:
%%timeit -r 1 -n 1 -o -q

for i in array_part:
    tree_avl_random.remove(i)

<TimeitResult : 750 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

In [434]:
%%timeit -r 1 -n 1 -o -q

for i in array_miss:
    if tree_avl_random.has_value(i):
        print(f'{i} is in the tree')
        break

<TimeitResult : 116 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [407]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_random)

Количество узлов: 32000
Обход дерева: [0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 17] ...


<TimeitResult : 43.5 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Выводы

#### Таблица производительности при добавлении и поиске элементов

|Тип дерева|Тип массива|Количество элементов|Добавление|Поиск отсутствующих|Поиск присутствующих|
|:--------:|---------|--------------|--------------------|------------------|---|
|Бинарное|Отсортированный|10000|23.389|8.7|3.675|
|Бинарное|Случайный|40000|0.293|0.025|0.044|
|АВЛ|Отсортированный|40000|0.849|0.043|0.048|
|АВЛ|Случайный|40000|0.855|0.031|0.046|

#### Таблица производительности при удалении элементов и обходе дерева

|Тип дерева|Тип массива|Количество элементов|Удаление|Обход до удаления|Обход после удаления|
|:--------:|---------|--------------|--------------------|------------------|------|
|Бинарное|Отсортированный|10000|3.217|3.18|1.523|
|Бинарное|Случайный|40000|4.92|0.058|19.044|
|АВЛ|Отсортированный|40000|0.17|0.038|0.042|
|АВЛ|Случайный|40000|0.233|0.049|0.04|

* Добавление элементов в дерево занимает наибольшее время в случае бинарного дерева и сортированного входного массива: дерево вырождается в связанный список с длиной равной длине входного массива. По этой же причине поиск и удаление элементов максимально по сравнению с другими случаями.
* Случайно перемешанный входной массив позволяет быстро добавлять и искать элементы в обычном бинарное дерево. Удаление элементов и операции, производимые после этого, уже занимают больше времени по сравнению с АВЛ-деревом. Из-за того, что при удалении не происходит балансировки, структура дерева препятствует эффективному выполнению операций.
* В случае АВЛ-дерева наличие или отсутствие сортировки входного массива не влияет на совершаемые операции - балансировка позволяет выстроить эффективную структуру дерева.

In [None]:
collect_results()

In [43]:
for i in range(4):
    print(RESULTS[i*6:6*(i+1)])

[23.389, 3.18, 8.7, 3.675, 3.217, 1.523]
[0.293, 0.058, 0.025, 0.044, 4.92, 19.044]
[0.849, 0.038, 0.043, 0.048, 0.17, 0.042]
[0.855, 0.049, 0.031, 0.046, 0.233, 0.04]
