*Ян Пиле, Татьяна Рогович, НИУ ВШЭ*  

# Эффективность работы кода на примере алгоритмов сортировки

### Оценка сложности
В программировании нотация большого «О» (О-нотация) используется в качестве меры измерения, помогающей программистам оценивать или предполагать эффективность написанного блока кода, скрипта или алгоритма. «Сколько времени потребуется на работу этого кода? Какова его сложность в привязке к тем данным, которые он обрабатывает?»

Точное время работы скрипта или алгоритма определить сложно. Оно зависит от многих факторов, например, от скорости процессора и прочих характеристик компьютера, на котором запускается этот скрипт или алгоритм. Поэтому нотация большого «О» используется не для оценки конкретного времени работы кода. Ее используют для оценки того, как быстро возрастает время обработки данных алгоритмом в привязке к объему этих данных.

### Смешная история

В 2009 году у одной компании в Южной Африке была проблема со скоростью интернета. У этой компании было два офиса в 50 милях друг от друга. Сотрудники решили провести занимательный эксперимент и посмотреть, не будет ли быстрее пересылать данные при помощи голубиной почты.

Они поместили 4GB данных на флешку, прикрепили ее к голубю и выпустили его из офиса, чтобы он полетел в другой офис. И…

Почтовый голубь оказался быстрее интернет-связи. Он победил с большим отрывом (иначе история не была бы такой забавной). Больше того, когда голубь долетел до второго офиса, а случилось это через два часа, через интернет загрузилось только 4% данных.

### Виды сложности

* Временная сложность алгоритма определяет число шагов, которые должен предпринять алгоритм, в зависимости от объема входящих данных (n).
* Пространственная сложность алгоритма определяет количество памяти, которое потребуется занять для работы алгоритма, в зависимости от объема входящих данных (n).

### Постоянное время: O(1)

Обратите внимание, что в истории с голубем, рассказанной выше, голубь доставил бы и 5KB, и 10MB, и 2TB данных, хранящихся на флешке, за совершенно одинаковое количество времени. Время, необходимое голубю для переноса данных из одного офиса в другой, это просто время, необходимое, чтобы пролететь 50 миль.

Если использовать О-нотацию, время, за которое голубь может доставить данные из офиса А в офис Б, называется постоянным временем и записывается как O(1). Оно не зависит от объема входящих данных.

### Пример алгоритма со сложностью О(1)

In [15]:
import random
lst1 = [1,2,3,4,5,3,4,5,6,6]
print(len(lst1))

10


Почему так происходит? (структура данных "Список" такова, что длина любого массива может быть получена за О(1), как и любой элемент списка)

# График роста O()
![](https://habrastorage.org/getpro/habr/post_images/195/e1f/6a1/195e1f6a1379554ca9025338301a78ed.png)

Представим, что нам нужно выполнить операции с 50 элементами. Посчитаем, верхнюю границу количества операций.

In [26]:
import math
n = [50, 100, 1000]
print(f'O(1): постоянное время') # например, определение длины списка
print(f'O(log(n)): {list(map(math.log, n))}') # например, двоичный поиск
print(f'O(n): {n}') # например, линейный поиск
print(f'O(n*log(n)): {list(map(lambda x: x*math.log2(x), n))}') # сортировка слиянием
print(f'O(n**2): {list(map(lambda x: x**2, n))}') # сортировка вставками
print(f'O(2**n): {list(map(lambda x: 2**x, n))}') # рекурсивный подсчет чисел Фибоначчи
print(f'O(n!): {list(map(lambda x:math.factorial(x), n))}')

O(1): постоянное время
O(log(n)): [3.912023005428146, 4.605170185988092, 6.907755278982137]
O(n): [50, 100, 1000]
O(n*log(n)): [282.1928094887362, 664.3856189774724, 9965.784284662088]
O(n**2): [2500, 10000, 1000000]
O(2**n): [1125899906842624, 1267650600228229401496703205376, 10715086071862673209484250490600018105614048117055336074437503883703510511249361224931983788156958581275946729175531468251871452856923140435984577574698574803934567774824230985421074605062371141877954182153046474983581941267398767559165543946077062914571196477686542167660429831652624386837205668069376]
O(n!): [30414093201713378043612608166064768844377641568960512000000000000, 93326215443944152681699238856266700490715968264381621468592963895217599993229915608941463976156518286253697920827223758251185210916864000000000000000000000000, 402387260077093773543702433923003985719374864210714632543799910429938512398629020592044208486969404800479988610197196058631666872994808558901323829669944590997424504087073759918823627

### Линейное время: O(n)

#### Линейный поиск

В отличие от пересылки голубем, передача данных через интернет будет занимать все больше и больше времени по мере увеличения объема передаваемых данных.

Если использовать О-нотацию, мы можем сказать, что время, нужное для передачи данных из офиса А в офис Б через интернет, возрастает линейно и прямо пропорционально количеству передаваемых данных. Это время записывается как O(n), где n — количество данных, которое нужно передать.

Следует учитывать, что в программировании «О» большое описывает наихудший сценарий. Допустим, у нас есть массив чисел, где мы должны найти какое-то определенное число при помощи цикла for. Оно может быть найдено при любой итерации, и чем раньше, тем быстрее функция завершит работу. О-нотация всегда указывает на верхнюю границу, т. е., описывает случай, когда алгоритму придется осуществить максимальное количество итераций, чтобы найти искомое число. Как, например, в том случае, если это число окажется последним в перебираемом массиве.

In [31]:
# список из 50 элементов
lst1 = [350, 959, 532, 974, 324, 284, 614, 408, 394, 20, 261, 508, 486, 62, 916, 951, 830, 
       960, 655, 329, 502, 138, 327, 289, 616, 836, 415, 767, 200, 252, 77, 443, 793, 988, 
       395, 81, 185, 572, 169, 312, 548, 117, 563, 334, 477, 540, 548, 407, 173, 426]
lst2 = [350, 959, 532, 974, 324, 284, 614, 408, 394, 20, 261, 508, 486, 62, 916, 951, 830, 
       960, 655, 329, 502, 138, 327, 289, 616, 836, 415, 767, 200, 252, 77, 443, 793, 988, 
       395, 81, 185, 572, 169, 312, 548, 117, 563, 334, 477, 540, 548, 407, 173, 
       350, 959, 532, 974, 324, 284, 614, 408, 394, 20, 261, 508, 486, 62, 916, 951, 830, 
       960, 655, 329, 502, 138, 327, 289, 616, 836, 415, 767, 200, 252, 77, 443, 793, 988, 
       395, 81, 185, 572, 169, 312, 548, 117, 563, 334, 477, 540, 548, 407, 173, 426] 

# сохраним крайнее число списка, чтобы проверять худший случай работы алгоритма
lst_last = lst[-1]

In [33]:
def linear_search(n, lst):
    cnt = 0 # счетчик количества операций
    for i in lst:
        cnt += 1
        if n == i:
            return True, cnt
    return False, cnt


%timeit linear_search(lst_last,lst)
%timeit linear_search(lst_last,lst2)

2.25 µs ± 17.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
4.28 µs ± 36.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Почему линейное? Представим, что искомый элемент - последний в массиве (случай, который мы сымитировали). Тогда в худшем случае нам придется пройти все элементы нашего массива.

### Логарифмическое время: O(log n)

#### Бинарная сортировка

Логарифмическое время поначалу понять сложнее. Поэтому для объяснения я воспользуюсь распространенным примером: концепцией бинарного поиска.

Бинарный поиск это алгоритм поиска в отсортированных массивах. Работает он следующим образом. В отсортированном наборе данных выбирается серединный элемент и сравнивается с искомым значением. Если значение совпадает, поиск завершен.

Если искомое значение больше, чем значение серединного элемента, нижняя половина набора данных (все элементы с меньшими значениями, чем у нашего серединного элемента) отбрасывается и дальнейший поиск ведется тем же способом в верхней половине.

Если искомое значение меньше, чем значение серединного элемента, дальнейший поиск ведется в нижней половине набора данных.

Эти шаги повторяются, при каждой итерации отбрасывая половину элементов, пока не будет найдено искомое значение или пока оставшийся набор данных станет невозможно разделить напополам:

In [51]:
lst1_sort = sorted(lst1)
lst2_sort = sorted(lst2)

In [55]:
def binary_search(value, a):
    cnt = 0
    mid = len(a) // 2
    low = 0
    high = len(a) - 1
    while a[mid] != value and low <= high:
        if value > a[mid]:
            low = mid + 1
        else:
            high = mid - 1
        mid = (low + high) // 2
        cnt += 1

    if low > high:
        return False, cnt
    else:
        return True, mid, cnt

%timeit binary_search(lst_last, lst1_sort)
%timeit binary_search(lst_last, lst2_sort)

239 ns ± 0.928 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
1.01 µs ± 5.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [56]:
print(binary_search(lst_last, lst1_sort))
print(binary_search(lst_last, lst2_sort))

(True, 25, 0)
(True, 50, 5)


# Задача
Дан массив, состоящий из нулей и единиц. Нужно вывести индекс K любого перехода от нуля к единицы (такой, где K - индекс единицы, а K-1 - индекс нуля). Массив всегда начинается с нуля, а заканчивается единицей.

1. Решите задачу за линейное время.
2. Решите задачу за логарифмическое время.

In [58]:
array = '0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1'
print(array)

0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1


### Квадратичное время: O(n ^ 2)
За это время будут выполняться абсолютно все алгоритмы с вложенными циклами. Например, давайте реализуем операцию поиска дубликатов в списке.


In [40]:
def check_duplicates(lst):
    for i in range(len(lst)):
        if i != len(lst) - 1:
            for j in range(i+1, len(lst)):
                if lst[i] == lst[j]:
                    return True
    return False

%timeit check_duplicates(lst1)
%timeit check_duplicates(lst2)

77 µs ± 319 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
3.23 µs ± 9.15 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


#### Пузырьковая сортировка 

Этот простой алгоритм выполняет итерации по списку, сравнивая элементы попарно и меняя их местами, пока более крупные элементы не «всплывут» в начало списка, а более мелкие не останутся на «дне».

**Алгоритм**  
Сначала сравниваются первые два элемента списка. Если первый элемент больше, они меняются местами. Если они уже в нужном порядке, оставляем их как есть. Затем переходим к следующей паре элементов, сравниваем их значения и меняем местами при необходимости. Этот процесс продолжается до последней пары элементов в списке.

При достижении конца списка процесс повторяется заново для каждого элемента. Это крайне неэффективно, если в массиве нужно сделать, например, только один обмен. Алгоритм повторяется n² раз, даже если список уже отсортирован.

In [45]:
def bubble_sort(nums):  
    # Устанавливаем swapped в True, чтобы цикл запустился хотя бы один раз
    swapped = True
    while swapped:
        swapped = False
        for i in range(len(nums) - 1):
            if nums[i] > nums[i + 1]:
                # Меняем элементы
                nums[i], nums[i + 1] = nums[i + 1], nums[i]
                # Устанавливаем swapped в True для следующей итерации
                swapped = True

# Проверяем, что оно работает
random_list_of_nums = [5, 2, 1, 8, 4]  
bubble_sort(random_list_of_nums)  
print(random_list_of_nums)

[1, 2, 4, 5, 8]


#### Время сортировки
Если взять самый худший случай (изначально список отсортирован по убыванию), затраты времени будут равны O(n²), где n — количество элементов списка.

#### Сортировка выбором

Этот алгоритм сегментирует список на две части: отсортированную и неотсортированную. Наименьший элемент удаляется из второго списка и добавляется в первый.

**Алгоритм**  
На практике не нужно создавать новый список для отсортированных элементов. В качестве него используется крайняя левая часть списка. Находится наименьший элемент и меняется с первым местами.

Теперь, когда нам известно, что первый элемент списка отсортирован, находим наименьший элемент из оставшихся и меняем местами со вторым. Повторяем это до тех пор, пока не останется последний элемент в списке.

In [49]:
def selection_sort(nums):  
    # Значение i соответствует кол-ву отсортированных значений
    for i in range(len(nums)):
        # Исходно считаем наименьшим первый элемент
        lowest_value_index = i
        # Этот цикл перебирает несортированные элементы
        for j in range(i + 1, len(nums)):
            if nums[j] < nums[lowest_value_index]:
                lowest_value_index = j
        # Самый маленький элемент меняем с первым в списке
        nums[i], nums[lowest_value_index] = nums[lowest_value_index], nums[i]

# Проверяем, что оно работает
random_list_of_nums = [12, 8, 3, 20, 11]  
selection_sort(random_list_of_nums)  
print(random_list_of_nums) 

[3, 8, 11, 12, 20]


#### Время сортировки
Затраты времени на сортировку выборкой в среднем составляют O(n²), где n — количество элементов списка.

### Линейно-логарифмическое время: O(n*log(n))

Вернемся к задачке проверки массива на дубли. Мы перебирали все элементы массива и для каждого элемента еще раз делали перебор. Делали O(n) внутри O(n), т.е. O(n*n) или O(n^2).

Мы можем заменить вложенный цикл на бинарный поиск. Т.е. у нас остается перебор всех элементов O(n), внутри делаем O(log n). Получается O(n * log n).

In [58]:
def check_duplicates(lst):
    for i in range(len(lst)):
        if i != len(lst) - 1:
            if binary_search(lst[i], lst)[0]:
                return True
    
    return False

%timeit check_duplicates(lst1_sort)
%timeit check_duplicates(lst2_sort)

1.16 µs ± 6.32 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
1.33 µs ± 4.26 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Дисклеймер: использовать бинарный поиск для находжения дублей не лучшая идея, но здесь это хорошо помогает проиллюстрировать идею.

#### Сортировка слиянием
Этот алгоритм относится к алгоритмам «разделяй и властвуй». Он разбивает список на две части, каждую из них он разбивает ещё на две и т. д. Список разбивается пополам, пока не останутся единичные элементы.

Соседние элементы становятся отсортированными парами. Затем эти пары объединяются и сортируются с другими парами. Этот процесс продолжается до тех пор, пока не отсортируются все элементы.

**Алгоритм**  
Список рекурсивно разделяется пополам, пока в итоге не получатся списки размером в один элемент. Массив из одного элемента считается упорядоченным. Соседние элементы сравниваются и соединяются вместе. Это происходит до тех пор, пока не получится полный отсортированный список.

Сортировка осуществляется путём сравнения наименьших элементов каждого подмассива. Первые элементы каждого подмассива сравниваются первыми. Наименьший элемент перемещается в результирующий массив. Счётчики результирующего массива и подмассива, откуда был взят элемент, увеличиваются на 1.

![](https://upload.wikimedia.org/wikipedia/commons/c/cc/Merge-sort-example-300px.gif)

In [51]:
def merge(left_list, right_list):  
    sorted_list = []
    left_list_index = right_list_index = 0

    # Длина списков часто используется, поэтому создадим переменные для удобства
    left_list_length, right_list_length = len(left_list), len(right_list)

    for _ in range(left_list_length + right_list_length):
        if left_list_index < left_list_length and right_list_index < right_list_length:
            # Сравниваем первые элементы в начале каждого списка
            # Если первый элемент левого подсписка меньше, добавляем его
            # в отсортированный массив
            if left_list[left_list_index] <= right_list[right_list_index]:
                sorted_list.append(left_list[left_list_index])
                left_list_index += 1
            # Если первый элемент правого подсписка меньше, добавляем его
            # в отсортированный массив
            else:
                sorted_list.append(right_list[right_list_index])
                right_list_index += 1

        # Если достигнут конец левого списка, элементы правого списка
        # добавляем в конец результирующего списка
        elif left_list_index == left_list_length:
            sorted_list.append(right_list[right_list_index])
            right_list_index += 1
        # Если достигнут конец правого списка, элементы левого списка
        # добавляем в отсортированный массив
        elif right_list_index == right_list_length:
            sorted_list.append(left_list[left_list_index])
            left_list_index += 1

    return sorted_list

def merge_sort(nums):  
    # Возвращаем список, если он состоит из одного элемента
    if len(nums) <= 1:
        return nums

    # Для того чтобы найти середину списка, используем деление без остатка
    # Индексы должны быть integer
    mid = len(nums) // 2

    # Сортируем и объединяем подсписки
    left_list = merge_sort(nums[:mid])
    right_list = merge_sort(nums[mid:])

    # Объединяем отсортированные списки в результирующий
    return merge(left_list, right_list)

# Проверяем, что оно работает
random_list_of_nums = [120, 45, 68, 250, 176]  
random_list_of_nums = merge_sort(random_list_of_nums)  
print(random_list_of_nums)

[45, 68, 120, 176, 250]


### Экспоненциальное время: O(2^n)

#### Рекурсивное вычисление чисел Фибоначчи

Если сложность алгоритма описывается формулой O(2^n), значит, время его работы удваивается с каждым дополнением к набору данных. Кривая роста функции O(2^n) экспоненциальная: сначала она очень пологая, а затем стремительно поднимается вверх. Примером алгоритма с экспоненциальной сложностью может послужить рекурсивный расчет чисел Фибоначчи:

In [None]:
def fibonacci(n):
    if n in (1, 2):
        return 1
    return fibonacci(n - 1) + fibonacci(n - 2)


%timeit fibonacci(10)
%timeit fibonacci(20)
%timeit fibonacci(30)

9.52 µs ± 33.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### Задача
Адаптируйте рекурсивный алгоритм расчета числа Фибоначчи, чтобы он считал количество операций, которые требуются для его вычисления.

In [None]:
def operations_fibonacci(n):
    if n in (1, 2):
        return 0
    return 1 + operations_fibonacci(n - 1) + operations_fibonacci(n - 2)

print(operations_fibonacci(10))
print(operations_fibonacci(20))
print(operations_fibonacci(30))

Предвосхищая вопросы. Функцию расчета числа Фибоначчи можно записать не рекурсивно. За какое время будет выполняться такая функция?

In [None]:
def smart_fibonacci(n):
    a, b = 0, 1
    for i in range(1,n):
        a, b = b, a+b
    return b

%timeit smart_fibonacci(10)
%timeit smart_fibonacci(20)

## Мышление в терминах Big O

* Получение элемента коллекции это O(1). Будь то получение по индексу в массиве, или по ключу в словаре в нотации Big O это будет O(1)
* Перебор коллекции это O(n)
* Вложенные циклы по той же коллекции это O(n^2)
* Разделяй и властвуй (Divide and Conquer) всегда O(log n)
* Итерации которые используют Divide and Conquer это O(n log n)