# 1.Сортировка вставкой

Этот алгоритм эффективно работает при сортировке небольшого количества элементов. Сортировка вставкой напоминает способ, к которому прибегают игроки для сортировки имеющихся на руках карт. Пусть в начале в левой руке нет ни одной карты и все они лежат на столе рубашкой вверх. Далее со стола берется по одной карте, каждая из которых помещается в нужное место среди карт, которые находятся в левой руке. Чтобы определить, куда нужно поместить очередную карту, ее масть и достоинство сравниваются с мастью и достоинством карт в руке. Таким образом в любой момент времени карты в левой руке будут отсортированы.

In [1]:
data: list[int] = [5, 2, 4, 6, 1, 3]
def sort_insertion(data: list[int]) -> list[int]:
    for i in range(1, len(data)):
        key = data[i]
        j = i
        while j > 0 and data[j - 1] >= key:
            j -= 1
            data[j + 1] = data[j]
        data[j] = key
    return data
sort_insertion(data)

[1, 2, 3, 4, 5, 6]

При разработке алгоритма требуется понять, правильно ли он работает. Для этого используется такое понятие, как инвариант цикла. Инвариант цикла - это логическое выражение, обладающее следующими свойствами:

1. Оно истинно перед первой итерацией цикла.  
2. Если оно истинно перед очередной итерацией, то остается истинным и после нее.  
3. По завершении цикла оно позволяет убедиться в правильности алгоритма. 

Теперь проведем анализ зависимости времени выполнения алгоритма сортировки вставкой $O$ от объема входных данных $n$. В нашем случае объем входных данных - это размер массива к сортировке.

1. Корневой оператор `for` будет выполняться $n$ раз. Не $n-1$, а именно $n$, т.к. на самой последней итерации окажется, что счетчик `i` превышает значение `len(data)` на единицу. Пусть стоимость каждого шага равняется $c_1$. Тогда общая стоимость выполнения корневого оператора равняется $c_1n$

```python
for i in range(1, len(data)):
    key = data[i]
    j = i
    while j > 0 and data[j - 1] >= key:
        j -= 1
        data[j + 1] = data[j]
    data[j] = key
```

2. Первые 2 конструкции тела цикла будут выполнены `n-1` раз каждая. То есть, стоимость их выполнения равна $c_2(n-1) + c_3(n-1)$.

```python
key = data[i]
j = i
```

3. Время выполнения оператора `while` зависит от длины левой части сортируемого массива (той, что всегда отсортирована). Понятно, что для каждого шага `i` она будет разной, поэтому обозначим ее длину как $m_i$. При этом внутренний цикл будет запускаться для $i \in (2..n)$. Исходя из этого оператор `while` отработает $\sum_{i=2}^n m_i$ раз, а общее время его работы составит $c_4\sum_{i=2}^n m_i$.

```python
while j > 0 and data[j - 1] >= key:
    j -= 1
    data[j + 1] = data[j]
```

4. Время выполнения каждого из 2 внутренних операторов цикла `while` будет на одну итерацию `while` меньше, чем время выполнения цикла `while` и будет равняться $c_5\sum_{i=2}^n (m_i-1)$ + $c_6\sum_{i=2}^n (m_i-1)$.

```python
j -= 1
data[j + 1] = data[j]
```

5. Время выполнения последнего оператора тела цикла `for` будет равняться $c_7(n-1)$.

Итого, общее время выполнения алгоритма сортировки вставкой будет $T(n)$ равняться: 
$$T(n) = c_1n + c_2(n-1) + c_3(n-1) + c_4\sum_{i=2}^n m_i + c_5\sum_{i=2}^n (m_i-1) + c_6\sum_{i=2}^n (m_i-1) + c_7(n-1)$$

Важно также понимать, что время работы алгоритма зависит не только от объема входных данных, но и от их расположения. Очевидно, что для алгоритма сортировки по возрастанию наихудшей является ситуация, когда входные данные отсортированы по убыванию. В данном случае внутренний цикл будет каждый элемент справа от себя сравнивать со всеми элементами левой части и сохранять его на самую первую позицию отсортированного массива. Говоря иными словами, количество шагов внутреннего цикла `while` будет для каждого последующего шага внешнего цикла на единицу больше, чем для предыдущего шага. То есть количество шагов внутреннего цикла возрастает в виде арифметической прогрессии для каждого шага внешнего цикла. Суммарное же число шагов внутреннего цикла будет равняться сумме этой арифметической прогрессии и рассчитываться по формуле $$\sum_{i=2}^{n} {i} = 1 + 2 + ... + n = \frac{n(n+1)}{2}$$. В приложении к нашим реалиям это означает, что $$\sum_{i=2}^{n} i =\frac{n(n+1)}{2} - 1$$ и что 
$$\sum_{i=2}^{n} (i - 1) =\frac{n(n-1)}{2}$$
Таким образом при наихудшем раскладе суммарное время выполнения $T(n)$ будет равняться:

$$T(n) = c_1n + c_2(n-1) + c_3(n-1) + c_4(\frac{n(n+1)}{2} - 1) + c_5(\frac{n(n-1)}{2}) + c_6(\frac{n(n-1)}{2}) + c_7(n-1)$$

$$T(n) = c_1n + c_2n - c_2 + c_3n - c_3 + c_4(\frac{n^2 + n}{2}) - c_4 + c_5(\frac{n^2 - n}{2}) + c_6(\frac{n^2 - n}{2}) + c_7n - c_7$$

$$T(n) = c_1n + c_2n - c_2 + c_3n - c_3 + \frac{c_4n^2}{2} + \frac{c_4n}{2} - c_4 + \frac{c_5n^2}{2} - \frac{c_5n}{2} + \frac{c_6n^2}{2} - \frac{c_6n}{2} + c_7n - c_7$$

$$T(n) = (\frac{c_4}{2} + \frac{c_5}{2} + \frac{c_6}{2})n^2 + (c_1 + c_2 + c_3 + c_7 + \frac{c_4}{2} - \frac{c_5}{2} - \frac{c_6}{2})n - (c_2 + c_3 + c_4 + c_7)$$

$$T(n) = an^2 + bn + c$$

Таким образом общее время выполнения квадратично зависит от объема входных данных.

# 2.Сортировка слиянием

1. Делим сортируемую последовательность из $n$ элементов на 2 последовательности, в каждой из которых будет $\frac{n}{2}$ элементов.  
2. Рекурсивно сортируем 2 получившихся последовательности посредством сортировки слиянием.  
3. Соединяем 2 отсортированных последовательности для получения окончательного отсортированного ответа.

In [2]:
import operator
from typing import Any, Callable

def split(data: list[int]) -> (list[int], list[int]):
    return (data[:len(data) // 2], data[len(data) // 2:])

def merge(data1: list[int], data2: list[int], comparator: Callable = operator.lt) -> list[int]:
    result: list[int] = []
    i1, i2 = 0, 0
    while (i1 < len(data1) or i2 < len(data2)):
        if i1 < len(data1) and i2 < len(data2):
            if comparator(data1[i1], data2[i2]):
                result += [data1[i1]]
                i1 += 1
            else:
                result += [data2[i2]]
                i2 += 1
        elif i1 < len(data1) and i2 >= len(data2):
            result += [data1[i1]]
            i1 += 1
        elif i1 >= len(data1) and i2 < len(data2):
            result += [data2[i2]]
            i2 += 1
        else:
            pass
    return result

def sort_merge(data: list[int], comparator: Callable = operator.lt) -> list[int]:
    if len(data) <= 2:
        return merge(*split(data), comparator)
    else:
        data1, data2 = split(data)
        data1 = sort_merge(data1, comparator)
        data2 = sort_merge(data2, comparator)
        return merge(data1, data2, comparator)

data: list[int] = [2, 4, 5, 7, 1, 2, 3, 6, 0]
sorted_data = sort_merge(data, operator.lt)
sorted_data

[0, 1, 2, 2, 3, 4, 5, 6, 7]

А коли мы теперь можем сортировать массивы, то можно реализовать и бинарный поиск. Сделаем это.

In [3]:
def bin_search(data: list[int], element: int) -> int:
    start_pos, end_pos = 0, len(data) - 1
    while (start_pos != end_pos) and (data[start_pos] <= element <= data[end_pos]):
        section = start_pos + (end_pos - start_pos) // 2
        if (data[start_pos] < element) and (data[section] > element):
            end_pos = section
        elif (data[section] < element) and (data[end_pos] > element):
            start_pos = section
        else:
            if data[start_pos] == element:
                return start_pos
            if data[end_pos] == element:
                return end_pos
            if data[section] == element:
                return section
    return None

In [4]:
print(bin_search(sorted_data, 3))
print(bin_search(sorted_data, 0))
print(bin_search(sorted_data, 2))
print(bin_search(sorted_data, 7))

4
0
2
8


В сортировке слиянием сложность считается проще, чем в сортировке вставкой. По сути вся сортировка состоит из попеременно применяемых 2 шагов - разбиение массива пополам и соединение массивов с сортировкой. Число операций разбиения массива пополам зависит $log_2(n)$, а после каждого разбиения они соединяются, что в свою очередь линейно зависит от $n$. Таким образом $$T(n) = nlog_2(n)$$

Теперь попробуем написать алгоритм, который получает на вход несортированный массив и какое-то число, после чего ищет 2 элемента этого массива, сумма которых равна поданному на вход числу. Требуемая сложность - $nlog_2(n)$. 

Можно конечно дважды попробовать перебрать все элементы массива и сравнить с искомым числом, но тогда сложность будет $n^2$. Если действовать более оптимально, то алгоритм следующий:

1. Сортируем массив слиянием. 
2. Берем первый и последний элементы массива.
3. Если их сумма равна искомому элементу, то вот и ответ.
4. Если их сумма меньше искомого элемента, то ее надо увеличить, т.е. перешагнуть с первого элемента массива на следующий.
5. Если их сумма больше искомого элемента, то ее надо уменьшить, т.е. перешагнуть с последнего элемента массива на предыдущий.

In [10]:
def find_sum_components(data: list[int], sum_val: int) -> (int, int):
    sorted_data = sort_merge(data)
    i, j = 0, len(data) - 1
    while i != j:
        if (sorted_data[i] + sorted_data[j]) == sum_val:
            return (sorted_data[i], sorted_data[j])
        elif (sorted_data[i] + sorted_data[j]) < sum_val:
            i += 1
        else:
            j -= 1
    return None
data: list[int] = [2, 4, 5, 7, 1, 2, 3, 6, 0]
find_sum_components(data, 7)

(0, 7)

# 3.Сортировка пузырьком

In [17]:
def sort_bubble(data: list[int]) -> list[int]:
    for i in range(len(data) - 1):
        for j in range(i + 1, len(data)):
            if data[i] >= data[j]:
                data[i], data[j] = data[j], data[i]
    return data

In [18]:
data: list[int] = [2, 4, 5, 7, 1, 2, 3, 6, 0]
sort_bubble(data)

[0, 1, 2, 2, 3, 4, 5, 6, 7]