# Сортировки

[Основные виды сортировок и примеры их реализации](https://education.yandex.ru/journal/osnovnye-vidy-sortirovok-i-primery-ikh-realizatsii)

<img src="pictures/sort_table.png" width=500 height=500 />

[mage source: bigocheatsheet.com](https://www.bigocheatsheet.com/)

In [1]:
import numpy as np

In [2]:
small_array = np.random.randint(10, size=20)
small_array

array([9, 2, 5, 5, 4, 8, 2, 1, 0, 8, 7, 9, 5, 1, 2, 3, 5, 1, 3, 0])

In [3]:
huge_array = np.random.randint(1000, size=30000)

### [Быстрая сортировка (quicksort)](https://ru.wikipedia.org/wiki/%D0%91%D1%8B%D1%81%D1%82%D1%80%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0)

* Худшее время: $О(n^2)$
* Лучшее время: $О(n log(n))$
* Среднее время: $О(n log(n))$
* Затраты памяти: $O(log(n))$

Шаги алгоритма:
1. Выбрать из массива элемент, называемый опорным. Это может быть любой из элементов массива. От выбора опорного элемента не зависит корректность алгоритма, но в отдельных случаях может сильно зависеть его эффективность.
2. Сравнить все остальные элементы с опорным и переставить их в массиве так, чтобы разбить массив на три непрерывных отрезка, следующих друг за другом: «элементы меньшие опорного», «равные» и «большие».
3. Для отрезков «меньших» и «больших» значений выполнить рекурсивно ту же последовательность операций, если длина отрезка больше единицы.

In [4]:
def quicksort(array):
    if len(array) <= 1:
        return array
    else:
        pivot = array[0]
        left = [x for x in array[1:] if x < pivot]
        right = [x for x in array[1:] if x >= pivot]
        return quicksort(left) + [pivot] + quicksort(right)

In [5]:
quicksort(small_array.copy())

[0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9]

In [6]:
%%time
quicksort(huge_array.copy())
print('done')

done
CPU times: user 207 ms, sys: 8.2 ms, total: 215 ms
Wall time: 214 ms


### [Сортировка слиянием (mergesort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D1%81%D0%BB%D0%B8%D1%8F%D0%BD%D0%B8%D0%B5%D0%BC)

* Худшее время: $О(n log(n))$
* Лучшее время: $О(n log(n))$
* Среднее время: $О(n log(n))$
* Затраты памяти: $O(n)$

Шаги алгоритма:
1. Сортируемый массив разбивается на две части примерно одинакового размера;
2. Каждая из получившихся частей сортируется отдельно, например — тем же самым алгоритмом;
3. Два упорядоченных массива половинного размера соединяются в один.

In [7]:
def merge_sort(arr):
    if len(arr) <= 1:
        return arr
    mid = len(arr) // 2
    left = merge_sort(arr[:mid])
    right = merge_sort(arr[mid:])
    return merge(left, right)

def merge(left, right):
    result = []
    i = j = 0
    while i < len(left) and j < len(right):
        if left[i] < right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
    result.extend(left[i:])
    result.extend(right[j:])
    return result

In [8]:
merge_sort(small_array.copy())

[0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9]

In [9]:
%%time
quicksort(huge_array.copy())
print('done')

done
CPU times: user 316 ms, sys: 2.15 ms, total: 318 ms
Wall time: 320 ms


### [Сортировка вставками (insertion sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%B2%D1%81%D1%82%D0%B0%D0%B2%D0%BA%D0%B0%D0%BC%D0%B8)

* Худшее время: $O(n^2)$
* Лучшее время: $O(n)$
* Среднее время: $O(n^2)$
* Затраты памяти: $O(1)$

Шаги алгоритма:
1. Массив из одного элемента считается отсортированным.
2. Начиная со второго элемента идем по всем отсортированным элементам к началу списка и вставляем элемент так, чтобы левая часть списка была отсортирована.

Алгоритм может быть ускорен, если для поиска места вставки элемента использовать бинарный поиск.

In [10]:
def insertion_sort(array):
    n = len(array)
    for i in range(1, n):
        x = array[i]
        j = i
        while j > 0 and array[j - 1] > x:
            array[j] = array[j - 1]
            j -= 1
        array[j] = x
    return array

In [11]:
insertion_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [12]:
%%time
insertion_sort(huge_array.copy())
print('done')

done
CPU times: user 2min 31s, sys: 31.5 ms, total: 2min 31s
Wall time: 2min 32s


### [Сортировка Шелла (Shell sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%A8%D0%B5%D0%BB%D0%BB%D0%B0)

* Худшее время: $O(n log(n)^2)$
* Лучшее время: $O(n log(n))$
* Среднее время: $O(n log(n)^2)$
* Затраты памяти: $O(1)$

Усовершенствованный алгоритм сортировки вставками, в котором сравниваются не только стоящие рядом элементы, но и на определённом расстоянии друг от друга (interval). Иными словами — это сортировка вставками с предварительными «грубыми» проходами.

In [13]:
def shell_sort(array):
    n = len(array)
    interval = n // 2
    while interval > 0:
        for i in range(interval, n):
            temp = array[i]
            j = i
            while j >= interval and array[j - interval] > temp:
                array[j] = array[j - interval]
                j -= interval
            array[j] = temp
        interval //= 2
    return array

In [14]:
shell_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [15]:
%%time
shell_sort(huge_array.copy())
print('done')

done
CPU times: user 428 ms, sys: 0 ns, total: 428 ms
Wall time: 427 ms


### [Timesort (сортировка вставками + сортировка слиянием)](https://ru.wikipedia.org/wiki/Timsort)

* Худшее время: $O(n log(n))$
* Лучшее время: $O(n)$
* Среднее время: $O(n log(n))$
* Затраты памяти: $O(n)$

[Code source](https://www.geeksforgeeks.org/timsort/)

Шаги алгоритма:
1. По специальному алгоритму разделяем входной массив на подмассивы
2. Сортируем каждый подмассив при помощи сортировки вставками
3. Собираем отсортированные подмассивы в единый массив с помощью модифицированной сортировки слиянием

In [16]:
def calc_min_run(n, min_merge=32): 
    """
    Returns the minimum length of a run from 23 - 64 so that 
    the len(array)/min_run is less than or equal to a power of 2.
    1=>1, ..., 63=>63, 64=>32, 65=>33, ..., 127=>64, 128=>32, ... 
    """
    r = 0
    while n >= min_merge: 
        r |= n & 1
        n >>= 1
    return n + r 


def insertion_sort_right_left(arr, left, right):
    """ Insertion sort with left and right index """
    for i in range(left + 1, right + 1): 
        j = i 
        while j > left and arr[j] < arr[j - 1]: 
            arr[j], arr[j - 1] = arr[j - 1], arr[j]
            j -= 1


def merge(arr, l, m, r):
    """ Merge left and right parts """

    len1 = m - l + 1
    len2 = r - m
    left, right = [], []

    for i in range(0, len1):
        left.append(arr[l + i])

    for i in range(0, len2):
        right.append(arr[m + 1 + i])

    i, j, k = 0, 0, l

    while i < len1 and j < len2:
        if left[i] <= right[j]:
            arr[k] = left[i]
            i += 1
        else:
            arr[k] = right[j]
            j += 1
        k += 1

    while i < len1:
        arr[k] = left[i]
        k += 1
        i += 1

    while j < len2:
        arr[k] = right[j]
        k += 1
        j += 1


def time_sort(arr):
    n = len(arr)
    min_run = calc_min_run(n)

    for start in range(0, n, min_run):
        end = min(start + min_run - 1, n - 1)
        insertion_sort_right_left(arr, start, end)

    size = min_run

    while size < n:
        for left in range(0, n, 2 * size):
            mid = min(n - 1, left + size - 1)
            right = min((left + 2 * size - 1), (n - 1))
            if mid < right:
                merge(arr, left, mid, right)

        size = 2 * size
    
    return arr

In [17]:
time_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [18]:
%%time
time_sort(huge_array.copy())
print('done')

done
CPU times: user 446 ms, sys: 9 µs, total: 446 ms
Wall time: 447 ms


### [Пирамидальная сортировка или сортировка кучей (heapsort)](https://ru.wikipedia.org/wiki/%D0%9F%D0%B8%D1%80%D0%B0%D0%BC%D0%B8%D0%B4%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0)

* Худшее время: $O(n log(n))$
* Лучшее время: $O(n log(n))$
* Среднее время: $O(n log(n))$
* Затраты памяти: $O(1)$

Пирамидой (кучей) называется двоичное дерево, у которого минимальный элемент находится в корне. 

Шаги алгоритма:
1. Превращаем массив в кучу при помощи метода heapify ($O(n)$)
2. Меняем местами первый элемент массива (самый большой элемент в куче) с последним элементом кучи. 
3. Уменьшаем рассматриваемый диапазон кучи на единицу, перемещаем новый первый элемент в правильное место в куче.
4. Повторяем шаги 2-3

> Может быть рассмотрена как усовершенствованная сортировка пузырьком

In [19]:
def heapify(array, n, i):
    largest = i
    l = 2 * i + 1
    r = 2 * i + 2

    if l < n and array[i] < array[l]:
        largest = l

    if r < n and array[largest] < array[r]:
        largest = r

    if largest != i:
        (array[i], array[largest]) = (array[largest], array[i])
        heapify(array, n, largest)


def heapsort(array):
    n = len(array)

    for i in range(n // 2, -1, -1):
        heapify(array, n, i)
 
    for i in range(n - 1, 0, -1):
        (array[i], array[0]) = (array[0], array[i])
        heapify(array, i, 0)
    
    return array

In [20]:
heapsort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [21]:
%%time
heapsort(huge_array.copy())
print('done')

done
CPU times: user 756 ms, sys: 12 ms, total: 768 ms
Wall time: 767 ms


### [Сортировка с помощью двоичного дерева (tree sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D1%81_%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D1%8C%D1%8E_%D0%B4%D0%B2%D0%BE%D0%B8%D1%87%D0%BD%D0%BE%D0%B3%D0%BE_%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%B0)

* Худшее время: $O(n^2)$
* Лучшее время: $O(n log(n))$
* Среднее время: $O(n log(n))$
* Затраты памяти: $O(n)$

Шаги алгоритма:
1. Построение двоичного дерева.
2. Сборка результирующего массива путём обхода узлов в необходимом порядке следования ключей.

In [22]:
class Node():
    def __init__(self, value):
        self.value = value
        self.left = None
        self.right = None
        self.count = 1
    
    def insert(self, value):
        if self.value:
            if value < self.value:
                if self.left is None:
                    self.left = Node(value)
                else:
                    self.left.insert(value)
            elif value > self.value:
                if self.right is None:
                    self.right = Node(value)
                else:
                    self.right.insert(value)
            else:
                self.count += 1
        else:
            self.value = value


def inorder(root, res): 
    if root:
        inorder(root.left, res)
        res += [root.value] * root.count
        inorder(root.right, res)


def tree_sort(array):
    root = Node(array[0])

    for i in range(1, len(array)):
        root.insert(array[i])

    array_sorted = []
    inorder(root, array_sorted)
    return array_sorted

In [23]:
tree_sort(small_array.copy())

[0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9]

In [24]:
%%time
tree_sort(huge_array.copy())
print('done')

done
CPU times: user 203 ms, sys: 3.99 ms, total: 207 ms
Wall time: 207 ms


### [Блочная сортировка (bucket sort)](https://ru.wikipedia.org/wiki/%D0%91%D0%BB%D0%BE%D1%87%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0)

* Худшее время: $O(n^2)$
* Лучшее время: $O(n + k)$
* Среднее время: $O(n + k)$
* Затраты памяти: $O(n)$

Шаги алгоритма:
1. Инициализируем пустой массив (bucket) с некоторым количествоя ячеек
2. Распределяем элементы входного массива так, чтобы каждый элемент был помещен в свой бакет (соседи приблизительно одного порядка)
3. Каждый бакет сортируется внутри себя
4. Отсортированные бакеты склеиваются в отсортированный массив

In [25]:
def bucket_sort(array):
    bucket = []

    for i in range(len(array)):
        bucket.append([])

    for j in array:
        index_b = int(j)
        bucket[index_b].append(j)

    for i in range(len(array)):
        bucket[i] = sorted(bucket[i])

    k = 0
    for i in range(len(array)):
        for j in range(len(bucket[i])):
            array[k] = bucket[i][j]
            k += 1

    return array

In [26]:
bucket_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [27]:
%%time
bucket_sort(huge_array.copy())
print('done')

done
CPU times: user 49.2 ms, sys: 6 µs, total: 49.2 ms
Wall time: 48 ms


### [Поразрядная сортировка (radix sort)](https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%80%D0%B0%D0%B7%D1%80%D1%8F%D0%B4%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0)

* Худшее время: $O(nk)$
* Лучшее время: $O(nk)$
* Среднее время: $O(nk)$
* Затраты памяти: $O(n + k)$

[Code source: Radix Sort — самая быстрая сортировка для чисел и строк](https://thecode.media/radix/)

Шаги алгоритма:
1. Вычисляем размер массива и разрядность самого большого числа
2. Создаем пустой массив с 10 пустыми ячейками (по количеству разрядов текущей системы счисления)
3. В цикле по разрядам от 0 до значения максимального разряда: складываем в соответсвующую ячейку созданного на шаге 2 массива число по значению текущего разряда, обновляем отсортированный список.

In [28]:
def radix_sort(array, base=10):
    max_digits = max([len(str(x)) for x in array])
    bins = [[] for _ in range(base)]

    for i in range(0, max_digits):
        for x in array:
            digit = (x // base ** i) % base
            bins[digit].append(x)

        array = [x for queue in bins for x in queue]
        bins = [[] for _ in range(base)]

    return array

In [29]:
radix_sort(small_array.copy())

[0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9]

In [30]:
%%time
radix_sort(huge_array.copy())
print('done')

done
CPU times: user 90.8 ms, sys: 0 ns, total: 90.8 ms
Wall time: 89.5 ms


### [Сортировка выбором (selection sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D0%BC#:~:text=%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BE%D0%BC%20(Selection%20sort)%20%E2%80%94,%D1%81%D1%80%D0%B0%D0%B2%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F%20%D0%B4%D0%B5%D0%BB%D0%B0%D1%8E%D1%82%D1%81%D1%8F%20%D0%B7%D0%B0%20%D0%BF%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%B2%D1%80%D0%B5%D0%BC%D1%8F.)

* Худшее время: $О(n^2)$
* Лучшее время: $О(n^2)$
* Среднее время: $О(n^2)$
* Затраты памяти: $O(1)$ - без дополнительного выделения памяти

Шаги алгоритма:
1. Идем по массиву и находим номер минимального значения в текущем списке.
2. Меняем номера первого значения в списке и минимального значения в списке.
3. Сортируем хвост списка, исключив из рассмотрения уже отсортированные элементы (квадратичная сложность).

In [31]:
def selection_sort(array):
    for i in range(len(array) - 1):
        min_ind = i
        for j in range(i + 1, len(array)):
            if array[j] < array[min_ind]:
                min_ind = j
        array[i], array[min_ind] = array[min_ind], array[i]
    return array

In [32]:
selection_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [33]:
%%time
selection_sort(huge_array.copy())
print('done')

done
CPU times: user 2min 41s, sys: 56.2 ms, total: 2min 41s
Wall time: 2min 41s


### [Сортировка подсчетом (counting sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BF%D0%BE%D0%B4%D1%81%D1%87%D1%91%D1%82%D0%BE%D0%BC)

* Худшее время: $О(n+m)$
* Лучшее время: $О(n+m)$
* Среднее время: $О(n+m)$
* Затраты памяти: $O(m)$

Шаги алгоритма:
1. Проходимся по массиву A и находим значение максимума массива.
2. Выделяем вспомогательный массив C размера len(max(array)), заполняем его нулями.
3. Идем по неотсортированному массиву, обновляя на один по индексу значения во вспомогательном массиве.
4. Восстанавливаем отсортированный массив из вспомогательного массива.

In [34]:
def counting_sort(array):
    # O(m)
    elem_count = max(array) + 1
    count_array = [0] * elem_count

    # O(n)
    for a in array:
        count_array[a] += 1

    # O(n)
    elem_ind = 0
    for a in range(elem_count):
        for cnt in range(count_array[a]):
            array[elem_ind] = a
            elem_ind += 1
    
    return array

In [35]:
counting_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [36]:
%%time
counting_sort(huge_array.copy())
print('done')

done
CPU times: user 24 ms, sys: 0 ns, total: 24 ms
Wall time: 23.1 ms


### [Сортировка пузырьком (bubble sort)](https://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BF%D1%83%D0%B7%D1%8B%D1%80%D1%8C%D0%BA%D0%BE%D0%BC)

* Худшее время: $О(n)$
* Лучшее время: $О(n^2)$
* Среднее время: $О(n^2)$
* Затраты памяти: $O(1)$

Шаги алгоритма (сортировка простыми обменами):
1. Выполняется некоторое количество проходов по массиву — начиная от начала массива, перебираются пары соседних элементов массива. Если 1-й элемент пары больше 2-го, элементы переставляются (выполняется обмен).
2. Пары элементов массива перебираются (проходы по массиву повторяются) либо (n-1) раз, либо до тех пор, пока на очередном проходе не обнаружится, что более не требуется выполнять перестановки (обмены) (массив отсортирован).
3. При каждом проходе алгоритма по внутреннему циклу очередной наибольший элемент массива ставится на своё место в конце массива рядом с предыдущим «наибольшим элементом», а наименьший элемент перемещается на одну позицию к началу массива (как бы «всплывает» до нужной позиции, как пузырёк в воде — откуда и название алгоритма).

In [37]:
def bubble_sort(array):
    for i in range(len(array)):
        for j in range(0, len(array) - i - 1):
            if array[j] > array[j + 1]:
                temp = array[j]
                array[j] = array[j+1]
                array[j+1] = temp
    return array

In [38]:
bubble_sort(small_array.copy())

array([0, 0, 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 5, 7, 8, 8, 9, 9])

In [39]:
%%time
bubble_sort(huge_array.copy())
print('done')

done
CPU times: user 5min 2s, sys: 80 ms, total: 5min 2s
Wall time: 5min 3s
