## Tier 1. Module 3: Basic Algorithms and Data Structures

## Topic 4 - Sorting algorithms

## Homework


### Task 1


Python має дві вбудовані функції сортування: sorted і sort. Функції сортування Python використовують Timsort — гібридний алгоритм сортування, що поєднує в собі сортування злиттям і сортування вставками.

Порівняйте три алгоритми сортування: злиттям, вставками та Timsort за часом виконання. Аналіз повинен бути підтверджений емпіричними даними, отриманими шляхом тестування алгоритмів на різних наборах даних. Емпірично перевірте теоретичні оцінки складності алгоритмів, наприклад, сортуванням на великих масивах. Для заміру часу виконання алгоритмів використовуйте модуль timeit.

Покажіть, що поєднання сортування злиттям і сортування вставками робить алгоритм Timsort набагато ефективнішим, і саме з цієї причини програмісти, в більшості випадків, використовують вбудовані в Python алгоритми, а не кодують самі. Зробіть висновки.


1.1 - Алгоритм сортування злиттям


In [40]:
def merge_sort(arr: list) -> list:
    """
    A recursive function that splits an array (list or tuple) into
    two halves and then joins them sorted with an outer function

    :param arr: an array to be sorted
    :return: merged and sorted list
    """
    if len(arr) <= 1:
        return arr

    mid = len(arr) // 2
    left_half = merge_sort(arr[:mid])
    right_half = merge_sort(arr[mid:])

    return merge(left_half, right_half)


def merge(left: list, right: list) -> list:
    """
    A function to merge two separate lists into one sorted list

    :params left & right: two lists to be merged
    :return: merged and sorted list
    """
    merged = []
    left_idx, right_idx = 0, 0

    while left_idx < len(left) and right_idx < len(right):
        if left[left_idx] < right[right_idx]:
            merged.append(left[left_idx])
            left_idx += 1
        else:
            merged.append(right[right_idx])
            right_idx += 1

    merged.extend(left[left_idx:])
    merged.extend(right[right_idx:])

    return merged

1.2 - Алгоритм сортування вставками


In [41]:
def insertion_sort(arr: list) -> list:
    """
    A function to sort an array (list or tuple) using the insertion
    sort method

    :param arr: an array to be sorted
    :return: sorted array
    """
    for i in range(1, len(arr)):
        key = arr[i]
        j = i - 1
        while j >= 0 and key < arr[j]:
            arr[j + 1] = arr[j]
            j -= 1
        arr[j + 1] = key

    return arr

1.3 - Функція генерації випадкового тестового масиву


In [42]:
import random


def generate_data(size: int) -> list:
    return [random.randint(0, 1000) for _ in range(size)]

1.4 - Функція тестування алгоритмів


In [43]:
import timeit


def test_algorithms(algorithms: dict, data_sizes: list) -> dict:
    """
    Function for testing sorting algorithms on randomly generated lists of
    numbers

    :param algorithms: a dictionary, where the keys are algorithm names, and
    the values are functions or methods with an implemented sorting algorithm
    :param data_sizes: a list of integer values representing the length of
    random arrays to be generated for testing algorithms
    :return: a dictionary with algorithm names as keys and times spent sorting
    random arrays as values
    """
    results = {}
    for algo_name, algo_func in algorithms.items():
        results[algo_name] = {}
        for size in data_sizes:
            data = generate_data(size)
            time_taken = timeit.timeit(lambda: algo_func(data.copy()), number=10)
            results[algo_name][size] = time_taken
    return results

1.5 - Тестування алгоритмів


In [44]:
algorithms = {
    "Merge Sort": merge_sort,
    "Insertion Sort": insertion_sort,
    "Timsort (Python built-in)": sorted,
}
data_sizes = [100, 1000, 10000]

results = test_algorithms(algorithms, data_sizes)
for algo, timings in results.items():
    print(f"Algorithm: {algo}")
    for size, time_taken in timings.items():
        print(f"Data size: {size:<7} Time taken: {time_taken:.6f} seconds")
    print()

Algorithm: Merge Sort
Data size: 100     Time taken: 0.001393 seconds
Data size: 1000    Time taken: 0.018338 seconds
Data size: 10000   Time taken: 0.237893 seconds

Algorithm: Insertion Sort
Data size: 100     Time taken: 0.001766 seconds
Data size: 1000    Time taken: 0.241139 seconds
Data size: 10000   Time taken: 22.663815 seconds

Algorithm: Timsort (Python built-in)
Data size: 100     Time taken: 0.000036 seconds
Data size: 1000    Time taken: 0.000431 seconds
Data size: 10000   Time taken: 0.011314 seconds



### Висновки:


1. Ініціалізація

Як видно з результатів тесту, сортування злиттям виявилося значно швидшим, ніж вставками, а TimSort — швидше, ніж сортування злиттям. Але варто звернути увагу на той самий результат сортування невеликого масиву за допомогою злиття і вставок. Хоча перший алгоритм має лінійно-логарифмічну часову складність $O(n \cdot log(n))$, а другий — квадратичну $O(x^2)$, і час виконання повинен відрізнятися на порядок $\left( \frac{100^ 2}{100 \cdot log100} = 50 \right)$, але постійні фактори, такі як ініціалізація рекурсивних функцій, з’їдають усі переваги сортування злиттям на малих наборах даних.

TimSort значно перевершив перші два алгоритми навіть на невеликому масиві, це пояснюється тим, що він реалізований на Python на мові C, тоді як функції сортування злиттям і вставками написані безпосередньо на Python.

2. Масштабованість

Як і очікувалося, час сортування збільшується зі збільшенням набору даних, для сортування злиттям зростання відбувається відповідно до лінійно-логарифмічної прогресії $\left( \frac{10.000 \cdot log10.000}{100 \cdot log100} = 200 \approx \frac{0.237893}{ 0,001393 } \right)$, а для сортування вставкою за квадратичною $\left( \frac{10.000^2}{100^2} = 10.000 \approx \frac{22.663815}{0.001766} \right)$.

У свою чергу TimSort має гібридну природу і поєднує в собі сортування вставкою та злиттям, тому при переході від малого до середнього масиву часова складність зростає відповідно до лінійно-логарифмічної прогресії, а перед переходом до великого масиву залежність більше нагадує квадратичну, однак ядро алгоритму усе ще в 22 рази швидше, ніж сортування злиттям, не в останню чергу через реалізацію на мові C.


### Task 2


Дано `k` відсортованих списків цілих чисел. Ваше завдання — об'єднати їх у один відсортований список. При виконанні завдання можете опиратися на алгоритм сортування злиттям з конспекту. Реалізуйте функцію `merge_k_lists`, яка приймає на вхід список відсортованих списків та повертає відсортований список.


2.1 - Функції злиття відсортованих списків


In [54]:
#%%timeit
def merge_k_lists(lists: list[list, list]) -> list:
    """
    Function to merge sorted arrays (lists or tuples)

    :param lists: a list that includes other lists (or tuples) to
    be merged using an outer function
    :return: merged and sorted list
    """
    if not lists:
        return []

    while len(lists) > 1:
        merged = []
        for i in range(0, len(lists), 2):
            if i + 1 < len(lists):
                merged.append(merge(lists[i], lists[i + 1]))
            else:
                merged.append(lists[i])
        lists = merged

    return lists[0]

2.2 - Тестування


In [55]:
lists = [[1, 4, 5], [1, 3, 4], [2, 6]]
merged_list = merge_k_lists(lists)
print("Sorted list:", merged_list)

Sorted list: [1, 1, 2, 3, 4, 4, 5, 6]
