# Сортировка данных. Оценка вычислительной сложности алгоритма

#### Математика для лингвистов
#### Клышинский Э.С., 18.09.2020

### Поиск в отсотрированном списке

Для начала поймем зачем вообще сортировать массивы данных и что такое вычислительная сложность алгоритма.

Вычислительная сложность показывает сколько необходимо совершить операций для завершения работы алгоритма. Например. Если у нас имеется неотсортированный список, хранящий числа, то для того, чтобы найти есть ли в нем некоторое число требуется пройти по всему списку до первого совпадения. В лучше случае, элемент найдется на первой позиции, в худшем - на последней. При наличии N элементов в списке в среднем мы сделаем N/2 операций сравнения. Получается, что такой алгоритм поиска _линейно_ зависит от числа элементов в списке.

Теперь представим себе, что этот список отсортирован. Тогда мы можем взять элемент, который находится в середине списка, и сравнить с ним искомое значение. Если элемент будет больше искомого значения, то нам нужна левая половина списка, так как в ней находятся все элементы меньше взятого. Если элемент будет меньше - правая. Дальше алгоритм повторяется для выбранной половины списка, пока в нем есть не меньше одного элемента, или пока мы не найдем искомое значение.

При выполнении этого алгоритма мы не сможем делить список пополам больше, чем $\log_2 N$ раз. Таким образом, при росте N скорость работы алгоритма будет расти по логарифму, то есть алгоритм будет иметь _логарифмическую_ сложность. 

На самом деле, при линейном поиске мы совершаем только одну операцию сравнения на каждой итерации алгоритма, а при поиске делением пополам - операцию сравнения и операцию изменения границ поиска. Но в данном случае это не играет большой роли, так как при больших N выигрыш всё равно будет большим. Так, если у нас есть массив из 128 элементов, то при линейном поиске мы потратим в среднем 64 операции сравнения, а в логарифмическом - 7 операций сравнения + 7 операций по изменению границ поиска. Но логарифмический алгоритм всё еще примерно в 4 раза быстрее. При миллионе элементов соотношение будет 500 000 против 20 (хотя бы и умноженных на два) - десятки тысяч раз. Мы всегда можем подобрать такие значения N, при которых выигры будет достаточно велик.

Может выясниться, что операции в линейном алгоритме более просты, чем в логарифмическом, а длины списков не очень большие. Тогда можно говорить о том, что на практике линейный алгоритм может оказаться более быстрым, чем логарифмический. Но если мы будем искать замены для больших длин списков, мы конечно же возьмем алгоритм логарифмической сложности.

Итак, в отсортированном массиве достаточно большой длины поиск проводится значительно быстрее, чем не в отсортированном. То есть если вы осознаете, что будете хранить массивы больше нескольких десятков элементов, надо пользоваться сортировками.

Рассмотрим алгоритм поиска в отсортированном списке методом деления пополам.


Немного про переменные

In [163]:
a = [1,2,3,4,5]
b = []
b = a
b[0] = 10
a

[10, 2, 3, 4, 5]

In [165]:
a = [1,2,3,4,5]
b = []
b = a[:]
b[0] = 10
a

[1, 2, 3, 4, 5]

In [166]:
a = [[1],[2],3,4,5]
b = []
b = a
b[0][0] = 10
a

[[10], [2], 3, 4, 5]

In [1]:
import random
from copy import copy

In [25]:
# Алгоритм бинарного поиска. 
# li - список с данными, x - искомое значение.
def BinSearchVirt(li, x):
    # В качестве границ назначаем крайние элементы списка.
    i = 0
    j = len(li)-1
    while i < j:
        # Берем элемент, находящийся в середине.
        m = int((i+j)/2)
        # Искомое значение больше - сдвигаем левую границу.
        if x > li[m]:
            i = m+1
        # в противном случае - правую.
        else:
            j = m
    #тут не важно j или i, они доолжны быть равны.
    if li[j] == x:
        return True, j
    else:
        return False, j

In [167]:
data = sorted([random.randint(0, 100) for i in range(100)])

In [169]:
3 in data

False

In [172]:
BinSearchVirt(data, 3)

(False, 3)

Рассмотрим теперь
### Алгоритмы сортировки квадратичной сложности

Все алгоритмы здесь можно легко представить при помощи "камушков и перышек". И даже [станцевать](https://www.youtube.com/watch?v=WuGvUFvG7yo).

#### Сортировка пузырьком

**Шаг 1.** Для $i\in[1, N]$ повторить Шаг 2 для элементов в интервале [0, N-i].

**Шаг 2.** Возьмем очередной элемент и его соседа справа. Если они находятся не в нужном порядке, переставим их местами. Перейдем к следующему по счету элементу.

В результате выполнения Шага 2 самый большой (или самый маленький) элемент будет вытолкнут на самую правую позицию. Сам шаг имеет линейную сложность. Теперь нам необходимо повторить Шаг 2 столько раз, сколько в списке есть элементов.


In [6]:
def bubbleSort(a, N):
    for i in range(N-1):
        for j in range(N-i-1):
            if a[j] > a[j+1]:
                a[j], a[j+1] = a[j+1], a[j]
    return a

In [173]:
data_len = 10000
data = list([random.randint(0, 100) for i in range(data_len)])

In [174]:
data4 = copy(data)

In [175]:
%%timeit
_ = bubbleSort(data4, data_len)

6.43 s ± 154 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


#### Гномья сортировка

В качестве забавного варианта формулирования алгоритма приведем [гномью сортировку](https://ru.wikipedia.org/wiki/%D0%93%D0%BD%D0%BE%D0%BC%D1%8C%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0).

_Гномья сортировка основана на технике, используемой обычным голландским садовым гномом (нидерл. tuinkabouter). Это метод, которым садовый гном сортирует линию цветочных горшков. По существу он смотрит на текущий и предыдущий садовые горшки: если они в правильном порядке, он шагает на один горшок вперёд, иначе он меняет их местами и шагает на один горшок назад. Граничные условия: если нет предыдущего горшка, он шагает вперёд; если нет следующего горшка, он закончил._

**Дик Грун**

#### Сортировка вставкой

Теперь представим себе, что к нам последовательно приходят значения и нам надо добавлять их в список, поддерживая его отсортированность. Тогда мы можем применить алгоритм бинарного поиска, который подскажет нам на какую позицию надо вставлять значение, и формировать новый массив, со вставленным элементом.

In [96]:
def insertSort(data, x):
    _, pos = BinSearchVirt(data, x)
    return data[:pos]+[x]+data[pos:]
    

In [97]:
%%timeit
data2 = [data[0]]
for d in data[1:]:
    data2 = insertSort(data2, d)

413 ms ± 7.49 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


С одной стороны, для каждого из N элементов мы проводим операцию поиска, сложностью $\log N$, то есть сложность алгоритма должна быть $N * \log N$ (N раз по $\log N$). Но на самом деле, мы тратим время на вставку. В худшем случае это N операций копирования. Но Питон чудо как хорошо умеет работать со списками, поэтому тратит значительно меньше времени. Получается примерно в 20 быстрее, чем мы видели для $N^2$ (сортировка пузырьком), но логарифмическая сортировка должна была давать выигрыш в 500 раз.

Опишем теперь
### Алгоритмы логарифмической сложности



#### Сортировка слиянием

Этот алгоритм относится к алгоритмам «разделяй и властвуй». Он разбивает список на две части, каждую из них он разбивает ещё на две и т. д. Список разбивается пополам, пока не останутся единичные элементы. Количество разбиений не превышает $\log_2 N$.

Соседние элементы становятся отсортированными парами. Затем эти пары объединяются и сортируются с другими парами. Этот процесс продолжается до тех пор, пока не отсортируются все элементы.

Минусом алгоритма является тот факт, что каждый раз надо снимать копию с данных. На каждом шаге требуется N элементов памяти, всех шагов $\log_2 N$, итого требуется $N * \log_2 N$ элементов памяти. Это может быть достаточно много. Этот недостаток исправляется алгоритмом

#### Быстрая сортировка

Этот алгоритм также относится к алгоритмам «разделяй и властвуй». При правильной реализации он чрезвычайно эффективен и не требует дополнительной памяти, в отличие от сортировки слиянием. Массив разделяется на две части по разные стороны от опорного элемента. В процессе сортировки элементы меньше опорного помещаются перед ним, а равные или большие — позади. Следует иметь в виду, что если нам не повезет с выбором опорного элемента, скорость сортировки будет равна $N^2$.

Рассмотрим этот алгоритм подробнее.

In [99]:
# Эта функция частично упорядочивает данные.
# Все меньше определенного элемента будут слева, остальные - справа от него.
def partition(nums, low, high):  
    # Выбираем средний элемент в качестве опорного
    # Также возможен выбор первого, последнего
    # или произвольного элементов в качестве опорного
    pivot = nums[(low + high) // 2]
    i = low - 1
    j = high + 1
    while True:
        # Если элемент находится на своем месте надо просто сдвинуться.
        i += 1
        while nums[i] < pivot:
            i += 1

        # Если элемент находится на своем месте надо просто сдвинуться.
        j -= 1
        while nums[j] > pivot:
            j -= 1

        # Закончили перебор, встретились где-то посредине.
        if i >= j:
            return j

        # Теперь точно известно, что слева и справа находятся элементы,
        # которые находятся не на своих местах. Поменяем их местами.
        nums[i], nums[j] = nums[j], nums[i]

def quick_sort(nums):  
    # Создадим вспомогательную функцию, которая вызывается рекурсивно
    def _quick_sort(items, low, high):
        if low < high:
            split_index = partition(items, low, high)
            _quick_sort(items, low, split_index)
            _quick_sort(items, split_index + 1, high)

    _quick_sort(nums, 0, len(nums) - 1)

In [100]:
random_list_of_nums = [22, 5, 1, 18, 99]  
quick_sort(random_list_of_nums)  
print(random_list_of_nums) 

[1, 5, 18, 22, 99]


In [101]:
data4 = copy(data)

In [102]:
%%timeit
quick_sort(data4)  

14.8 ms ± 204 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


В 50 раз быстрее, чем сортировка пузырьком. Отчего-то не в 500, как должно было быть в теории, но это пока самое быстрое решение. Попробуем теперь встроенное решение.

In [104]:
%%timeit
sorted(data)

1.63 ms ± 20.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Выигрыш в 2500 раз!

Правда, встроенное решение написано на С++, так что сравнивать результаты напрямую не получится.

Заметим, что можно отсортировать массив и за линейное время. Достаточно посчитать частоты всех значений в списке с данными, а потом вывести все ненулевыые значения соответствующее числов раз.

In [106]:
%%timeit

freqs = [0 for i in range(101)]
for d in data:
    freqs[d] += 1
    
data3 = []
for i in range(100):
    data3.extend([i for j in range(freqs[i])])


781 µs ± 8.68 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Быстрее, чем даже встроенное решение! Но теперь представим себе, что мы сотрируем список всех жителей Европейского Союза или номера паспортов жителей Индии. Будет очень затруднительно завести список для всех возможных значений имен или номеров. В связи с этим метод очень редко применяется на практике.

А теперь давайте сравним результаты со скоростью работы двоичных деревьев.

In [45]:
def addValueToNode(node, value):
    """ Функция добавления значения к вершине.
    """
    # Такое значение уже есть в в дереве.
    if node[0] == value:
        return
    # Значение должно пойти налево.
    if value < node[0]:
        # Слева никого нет.
        if node[1] == None:
            node[1] = [value, None, None]
        # Левый потомок имеется, рекурсивно применяем алгоритм.
        else:
            addValueToNode(node[1], value)
    # Аналогично справа.
    else:
        if node[2] == None:
            node[2] = [value, None, None]
        else:
            addValueToNode(node[2], value)
            
    
def addValueToTree(root, value):
    """ Функция добавления значения к дереву.
    """
    # Если корень дерева не создан, то надо его создать.
    if root == None or root == []:
        return [value, None, None]
    # Если корень существует, то просим его добавить начение.
    addValueToNode(root, value)
    return root


In [119]:
%%timeit

tree = None
for d in data:
    #print(d)
    tree = addValueToTree(tree, d)

12.4 ms ± 233 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Не так быстро как встроенное решение, но сопоставимо по скорости с быстрой сортировкой (хотя мы не сохраняем в дереве повторяющиеся значения).

### Алгоритмы с большей сложностью

Просто чтобы посмотреть откуда может появиться большая сложность давайте посмотрим на алгоритм перемножения матриц. Напомню, что при перемножении двух матриц для получения элемента ij итоговой матрицы надо посчитать сумму поэлементного умножения строки i первой матрицы со столбцом j второй матрицы.
То есть надо перебрать все строки первой, все столбцы второй и провести поэлементное умножение. Сложность алгоритма равна числе строк в первой матрице, умноженному на число столбцов во второй и число строк во второй.

In [127]:
def multMatrices(a, b):
    c = [[0 for j in range(len(b[0]))] for i in range(len(a))]
    for i in range(len(a)):
        for j in range(len(b[0])):
            c[i][j] = sum([a[i][k]*b[k][j] for k in range(len(b))])
    return c

In [128]:
m1 = [[random.randint(0, 100) for j in range(10)] for i in range(10)]
m2 = [[random.randint(0, 100) for j in range(10)] for i in range(10)]

In [130]:
%%timeit
multMatrices(m1, m2)

148 µs ± 1.54 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [131]:
m1 = [[random.randint(0, 100) for j in range(20)] for i in range(20)]
m2 = [[random.randint(0, 100) for j in range(20)] for i in range(20)]

In [132]:
%%timeit
multMatrices(m1, m2)

953 µs ± 14.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [134]:
m1 = [[random.randint(0, 100) for j in range(100)] for i in range(100)]
m2 = [[random.randint(0, 100) for j in range(100)] for i in range(100)]

In [135]:
%%timeit
multMatrices(m1, m2)

98.4 ms ± 855 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Да, зависимость примерно по кубу. Получается, что матрицы 1000 х 1000 будут перемножаться примерно 100 секунд (1,5 минуты). А вот матрицы 10 000 х 10 000 - уже чуть больше суток.

Но все эти алгоритмы имеют полиномиальную сложность, то есть выполняются за некоторую степень от размеров данных. А теперь представим себе, что у нас есть вычислительная сеть, в которой хакеры пытаются подбирать пароли. Если пароль состоит только из цифр, то для поддбора пароля длиной 3 символа надо провести 1000 операций, для пароля длины 6 - 1000000 операций и так далее. Если мы узнали, что хакеры в два раза увеличили можность своих компьютеров, нам достаточно добавить еще один символ к паролям, и хакерам придется провести такое удвоение мощностей еще три раза, чтобы полностью компенсировать выросшую сложность.

В данном случае вычислительная сложность является _экспоненциальной_ - время работы алгоритма растет как некоторая константа, возведенная в степень, равную размеру данных. Для таких алгоритмов стараются либо избегать роста объемов данных, либо просто применения таких алгоритмов.

Еще одним классом алгоритмов являются алгоритмы соо сложностью, пропорциональной факториалу. Такие алгоритмы несколько проще экспоненциальных, но их всё еще сложно применять на практике в связи с быстрой скоростью роста времени с увеличением размера данных. В качестве примера такого алгоритма можно привести синтаксический анализ при помощи перебора. Для каждого слова мы должны попробовать построить его связь со всеми идущими после него, то есть количество перебираемых вариантов можно оценить как (N-1)\*(N-2)\*...\*2\*1 = (N-1)!

Но невыразимый ужас вызывают задачи, в которых, например, есть несколько параметров, каждый из которых участвуетв возведении в степень предыдущих результатов. Сложность их растет еще быстрее. Например, $2^{2^2}$ = 16, $3^{3^3}$ = 19 683, $ 4^{4^4}$ = 4 294 967 296 и так далее.

### Индексирование

Иногда сортировка непосредственно данных может быть затруднена или невозможна. Например, если мы храним большой объем данных по каждому жителю Китая, Индии и США, то получается, что мы могли бы отсортировать такой объем чисел, но нам затруднительно отсортировать сами данные, так как манипуляции с такими объемами займут много времени. В таком случае можно построить _индекс_. Давайте создадим список, который будет хранить порядковые номера хранимых объектов. Дальше вместо того, чтобы обращаться к элементу с номером i, мы будем брать i-й элемент индекса и обращаться к элементу с полученным номером. Если считать, что данные хранятся в списке data, а индекс в списке index, то вместо обращения data[i] мы будем использовать data[index[i]].

Теперь вместо того, чтобы перемещать элемент в самом списке данных, мы будем изменять его номер в индексе. При сортировке это означает, что вместо перемещения элементов мы будем менять местами их индексы.

Пусть есть массив с числами [10, 15, 3, 5, 24, 6]. Построим индекс [0, 1, 2, 3, 4, 5]. Тогда после сортировки массив с данными не изменится, а индекс превратится в [2, 3, 5, 0, 1, 4]. Индекс будет показывать, в каком порядке следует взять элементы данных, для того, чтобы они шли в отсортированном виде.

Такой подход особенно удобен, когда нам надо иметь несколько сортировок. Например, у нас есть список собак нашего клуба. В зависимости от задачи, нам надо искать собак по числу медалей, кличке, адресу хозяина и т.д. Вместо того, чтобы сортировать каждый раз перед поиском, мы стрим несколько индексов, которые используем в зависимости от поставленной задачи.

In [140]:
def bubbleSortIndex(a, N):
    index = list(range(N))
    for i in range(N-1):
        for j in range(N-i-1):
            if a[index[j]] > a[index[j+1]]:
                index[j], index[j+1] = index[j+1], index[j]
    return index

In [141]:
data4 = copy(data)

In [142]:
index = bubbleSortIndex(data4, len(data4))

In [143]:
print(index[:20])

[35, 99, 157, 392, 471, 769, 840, 894, 960, 1260, 1310, 1519, 1520, 1610, 1696, 1798, 1947, 1967, 2050, 2229]


Правда, в Питоне мы не ощутим всей мощи этого подхода в смысле скорости, так как Питон перемещает не сами переменные, а ссылки на них. Но удобство использования нескольких списков сотается. Более того, эта идея подводит нас к следующему интересному решению.

Пусть у нас имеется длинный список больших текстов, в котором нам необходимо искать другие приходящие тексты. (В качестве альтернативы можно считать, что мы обрабатываем ДНК). Пусть нас интересет только полное совпадение текстов. 

Хеш-функция, или функция свёртки — функция, осуществляющая преобразование массива входных данных произвольной длины в (выходную) битовую строку установленной длины, выполняемое определённым алгоритмом.

Для нас сейчас важно следующее. Вместо длинного текста мы можем взять его короткого представителя, который будет гораздо проще сравнивать с другими такими представителями. Для расчета хеш-значений в Питоне имеется библиотека `hashlib`. Используем ее.

In [144]:
import hashlib

In [160]:
texts = ["Правда, в Питоне мы не ощутим всей мощи этого подхода в смысле скорости, так как Питон перемещает не сами переменные, а ссылки на них. Но удобство использования нескольких списков сотается. Более того, эта идея подводит нас к следующему интересному решению.",
 "Пусть у нас имеется длинный список больших текстов, в котором нам необходимо искать другие приходящие тексты. (В качестве альтернативы можно считать, что мы обрабатываем ДНК). Пусть нас интересет только полное совпадение текстов.",
 "Хеш-функция, или функция свёртки — функция, осуществляющая преобразование массива входных данных произвольной длины в (выходную) битовую строку установленной длины, выполняемое определённым алгоритмом.",
 "Для нас сейчас важно следующее. Вместо длинного текста мы можем взять его короткого представителя, который будет гораздо проще сравнивать с другими такими представителями. Для расчета хеш-значений в Питоне имеется библиотека hashlib. Используем ее."
]

# Хеш и в какой позиции хранится соответствующий ему текст.
hashs = [(hashlib.md5(t.encode()).hexdigest(), i) for i, t in enumerate(texts)]
hashs = sorted(hashs, key=lambda x: x[0])

In [180]:
print(id(a))
a = 'sdfsdvsdfs'
print(id(a))


140272454775944
140272454739760


In [153]:
hashs

[('42d6964546cbee31aa96b9adc86545c8', 1),
 ('66ac294d0ab4568dd2b0b4e49511b76f', 3),
 ('6c4f1f50509c683ee6376e7353b485c3', 0),
 ('ae02bb40472369d133c371ed56a4e90b', 2)]

Теперь для того. чтобы найти текст, мы должны рассчитать его хеш и искать его в массиве хешей.

In [159]:
sc = hashlib.md5(texts[0].encode()).hexdigest()
fl = hashlib.md5("Catch Me If You Can".encode()).hexdigest()

pos = BinSearchVirt([h[0] for h in hashs], sc)
texts[hashs[pos[1]][1]]

BinSearchVirt([h[0] for h in hashs], fl)

(False, 0)

### Дополнительные материалы

[Объяснение алгоритмов сортировки с примерами на Python](https://tproger.ru/translations/sorting-algorithms-in-python/)