# Тестирование двоичных деревьев поиска и АВЛ-деревьев

In [1]:
import random
import sys

from algorithms_py.trees import TreeBinary, TreeAVL

sys.setrecursionlimit(30000)

### Вспомогательные функции

In [2]:
def get_test_arrays(N, perc=0.1):
    array = [(i, random.randint(0, 999)) for i in range(N)]
    random.shuffle(array)
    array_missing = [random.randint(N+1, N*2) for i in range(int(N*perc))]
    array_part = [k for k, v in array[:int(N*perc)]]
    random.shuffle(array_part)
    return array, array_missing, array_part

def print_tree_info(tree):
    numbers = list(tree)
    print('Количество узлов:', len(numbers))
    print('Обход дерева:', numbers[:10], '...')    
    
def compare_with_dict(tree, py_dict):
    for k, v in tree:
        if not v == py_dict[k]:
            raise StopIteration
    print(len(py_dict) == len(list(tree)))

# для сбора замеров времени в один массив
from IPython import get_ipython
from IPython.core.magics.execution import TimeitResult

RESULTS = []

def collect_results():
    for k, v in get_ipython().__dict__['user_ns']['Out'].items():
        if v.__class__ == TimeitResult:
            RESULTS.append(round(v.worst, 3))

## Тест №1

- Двоичное дерево
- Отсортированный массив

In [3]:
array_rand, array_miss, array_part = get_test_arrays(10000, perc=0.2)

TEST_DICT = {}
for k, v in array_rand:
    TEST_DICT[k] = v
for k in array_part:
    del TEST_DICT[k]

In [4]:
tree_binary_sorted = TreeBinary()

#### Добавление отсортированных чисел

In [5]:
%%timeit -r 1 -n 1 -o -q

for k, v in sorted(array_rand):
    tree_binary_sorted.insert(k, v)

<TimeitResult : 23.2 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [6]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_sorted)

Количество узлов: 10000
Обход дерева: [(0, 806), (1, 254), (2, 462), (3, 41), (4, 37), (5, 809), (6, 85), (7, 34), (8, 895), (9, 72)] ...


<TimeitResult : 4.83 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [7]:
%%timeit -r 1 -n 1 -o -q

for k in array_miss:
    if tree_binary_sorted.has_key(k):
        print(f'{i} is in the tree')
        break

<TimeitResult : 8.65 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [8]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    if not tree_binary_sorted.has_key(k):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 3.77 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [9]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    tree_binary_sorted.remove(k)

<TimeitResult : 3.29 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева с проверкой

In [10]:
%%timeit -r 1 -n 1 -o -q

compare_with_dict(tree_binary_sorted, TEST_DICT)

True


<TimeitResult : 5 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №2

- Двоичное дерево
- Массив перемешан

In [11]:
array_rand, array_miss, array_part = get_test_arrays(40000, perc=0.2)

TEST_DICT = {}
for k, v in array_rand:
    TEST_DICT[k] = v
for k in array_part:
    del TEST_DICT[k]

In [12]:
tree_binary_random = TreeBinary()

#### Добавление чисел в случайном порядке

In [13]:
%%timeit -r 1 -n 1 -o -q

for k, v in array_rand:
    tree_binary_random.insert(k, v)

<TimeitResult : 331 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [14]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_binary_random)

Количество узлов: 40000
Обход дерева: [(0, 340), (1, 808), (2, 608), (3, 814), (4, 430), (5, 139), (6, 830), (7, 775), (8, 53), (9, 961)] ...


<TimeitResult : 73.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [15]:
%%timeit -r 1 -n 1 -o -q

for k in array_miss:
    if tree_binary_random.has_key(k):
        print(f'{i} is in the tree')
        break

<TimeitResult : 24.4 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [16]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    if not tree_binary_random.has_key(k):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 42.5 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [17]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    tree_binary_random.remove(k)

<TimeitResult : 4.4 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева с проверкой

In [18]:
%%timeit -r 1 -n 1 -o -q

compare_with_dict(tree_binary_random, TEST_DICT)

True


<TimeitResult : 53.7 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №3

- АВЛ-дерево
- Отсортированный массив

In [19]:
array_rand, array_miss, array_part = get_test_arrays(40000, perc=0.2)

TEST_DICT = {}
for k, v in array_rand:
    TEST_DICT[k] = v
for k in array_part:
    del TEST_DICT[k]

In [20]:
tree_avl_sorted = TreeAVL()

#### Добавление отсортированных чисел

In [21]:
%%timeit -r 1 -n 1 -o -q

for k, v in sorted(array_rand):
    tree_avl_sorted.insert(k, v)

<TimeitResult : 1.01 s ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [22]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_sorted)

Количество узлов: 40000
Обход дерева: [(0, 759), (1, 519), (2, 639), (3, 875), (4, 552), (5, 565), (6, 718), (7, 34), (8, 940), (9, 628)] ...


<TimeitResult : 55.6 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [23]:
%%timeit -r 1 -n 1 -o -q

for k in array_miss:
    if tree_avl_sorted.has_key(k):
        print(f'{i} is in the tree')
        break

<TimeitResult : 38.3 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [24]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    if not tree_avl_sorted.has_key(k):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 41.6 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [25]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    tree_avl_sorted.remove(k)

<TimeitResult : 181 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева с проверкой

In [26]:
%%timeit -r 1 -n 1 -o -q

compare_with_dict(tree_avl_sorted, TEST_DICT)

True


<TimeitResult : 88.4 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Тест №4

- АВЛ-дерево
- Массив перемешан

In [27]:
array_rand, array_miss, array_part = get_test_arrays(40000, perc=0.2)

TEST_DICT = {}
for k, v in array_rand:
    TEST_DICT[k] = v
for k in array_part:
    del TEST_DICT[k]

In [28]:
tree_avl_random = TreeAVL()

#### Добавление чисел

In [29]:
%%timeit -r 1 -n 1 -o -q

for k, v in array_rand:
    tree_avl_random.insert(k, v)

<TimeitResult : 960 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева

In [30]:
%%timeit -r 1 -n 1 -o -q

print_tree_info(tree_avl_random)

Количество узлов: 40000
Обход дерева: [(0, 787), (1, 142), (2, 476), (3, 262), (4, 115), (5, 691), (6, 710), (7, 630), (8, 426), (9, 170)] ...


<TimeitResult : 66.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск отсутствующих чисел

In [31]:
%%timeit -r 1 -n 1 -o -q

for k in array_miss:
    if tree_avl_random.has_key(k):
        print(f'{i} is in the tree')
        break

<TimeitResult : 40.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Поиск присутствующих чисел

In [32]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    if not tree_avl_random.has_key(k):
        print(f'{i} is not in the tree')
        break

<TimeitResult : 42.9 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Удаление части имеющихся чисел

In [33]:
%%timeit -r 1 -n 1 -o -q

for k in array_part:
    tree_avl_random.remove(k)

<TimeitResult : 277 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

#### Обход дерева с проверкой

In [34]:
%%timeit -r 1 -n 1 -o -q

compare_with_dict(tree_avl_random, TEST_DICT)

True


<TimeitResult : 108 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 1 loop each)>

## Выводы

#### Таблица производительности

|Тип дерева|Тип массива|Количество элементов|Добавление|Обход|Поиск отсутствующих|Поиск присутствующих|Удаление|Обход с проверкой|
|:--------:|---------|--------------|--------------------|------------------|---|---|---|---|
|Бинарное|Отсортированный|10000|23.151|4.826|8.648|3.768|3.292|5.0|
|Бинарное|Случайный|40000|0.331|0.074|0.024|0.042|4.4|53.687|
|АВЛ|Отсортированный|40000|1.012|0.056|0.038|0.042|0.181|0.088|
|АВЛ|Случайный|40000|0.96|0.067|0.041|0.043|0.277|0.108|

* Добавление элементов в дерево занимает наибольшее время в случае бинарного дерева и сортированного входного массива: дерево вырождается в связанный список с длиной равной длине входного массива. По этой же причине поиск и удаление элементов максимально по сравнению с другими случаями.
* Случайно перемешанный входной массив позволяет быстро добавлять и искать элементы в обычном бинарное дерево. Удаление элементов и операции, производимые после этого, уже занимают больше времени по сравнению с АВЛ-деревом. Из-за того, что при удалении не происходит балансировки, структура дерева препятствует эффективному выполнению операций.
* В случае АВЛ-дерева наличие или отсутствие сортировки входного массива не влияет на совершаемые операции - балансировка позволяет выстроить эффективную структуру дерева.

In [35]:
collect_results()

In [36]:
for i in range(4):
    print('|' + '|'.join(str(v) for v in RESULTS[i*6:6*(i+1)]) + '|')

|23.151|4.826|8.648|3.768|3.292|5.0|
|0.331|0.074|0.024|0.042|4.4|53.687|
|1.012|0.056|0.038|0.042|0.181|0.088|
|0.96|0.067|0.041|0.043|0.277|0.108|
