# Сортировки

На прошлом занятии мы разобрали алгоритм бинарного поиска, который работает только на отсортированных списках. Тот факт, что поиск работает только на отсортированном множестве значений, заставляет задуматься, что нужно продумать алгоритмы сортировки, если вдруг на вход придет неотсортированный список. На самом деле задач, где может понадобится сортировка элементов, огромное множество: отсортировать транзакции по убыванию стоимости, отсортировать людей по возрасту, имена по алфавиту и так далее. 


Алгоритмов сортировок придумано достаточно много. В этом уроке мы разберем алгоритм сортировки пузырьком, а также слияние двух отсортированных списков в один. Есть еще сортировки вставкой, перемешиванием, быстрая сортировка и много других. В этом и следующем модулях в рамках теоретических уроков и практических задач разберем самые базовые из них.



Представим что у нас есть всё тот же список договоров на конец дня. В ПО что-то изменилось, и теперь нам приходит неотсортированный список, который нужно обработать самим, чтобы применить бинарный поиск. Отсортируем этот список от  меньшего к большему.
 


### Сортировка пузырьком

Основная идея сортировки пузырьком заключается в следующем: нам нужно попарно сравнивать элементы друг с другом, и если элемент, который находится правее, оказался меньше левого элемента – поменять их местами. Таким образом большие элементы постепенно передвинутся в конец списка, прямо как пузырьки воздуха в воде, которые стремятся выплыть наружу.

Поэтапно разберем этот алгоритм на примере списка id-шников документов `input_data`. Возьмем новый неотсортированный список [58, 111, 93, 72, 100]

In [1]:
input_data = [58, 111, 93, 72, 100]





**Первая итерация**: 

Берем первую пару: это 58 и 111. Нам нужно отсортировать по возрастанию, значит элемент справа должен быть больше элемента слева. 111 больше 58? Да, все верно, берем следующую пару. 

93 больше 111? Нет, меняем местами: [58, 93, 111, 72, 100]

72 больше 111? Нет, снова меняем местами: [58, 93, 72, 111, 100]

100 больше 111? Нет, снова меняем местами: [58, 93, 72, 100, 111]

Пар не осталось, самый большой элемент за первую итерацию “всплыл” наверх.

**Вторая итерация**: 

Теперь мы будем сравнивать все пары, не трогая последний элемент, так как он уже стоит на своем месте. 
Аналогично предыдущей итерации сравниваем пары. 

93 больше 58? Да, всё верно, местами не меняем [58, 93, 72, 100, 111]

72 больше 93? Нет, меняем местами: [58, 72, 93, 100, 111] 

100 больше 93? Да, следующий максимальный элемент всплыл наверх

**Третья итерация:** 

Сравниваем все пары, кроме верхних двух. 

72 больше 58? Да, всё верно, местами не меняем [58, 72, 93, 100, 111] 

93 больше 72? Да, всё верно, местами не меняем [58, 72, 93, 100, 111] 

**Четвертая итерация:**

Осталась всего одна пара. 

72 больше 58? Да, всё верно, местами не меняем. Список отсортирован [58, 72, 93, 100, 111] 





Основные моменты алгоритма:
- на каждой итерации цикла один из элементов, самый “тяжелый/большой”, поднимается наверх
- после каждой итерации длина неотсортированного списка уменьшается на 1

Попробуем самостоятельно запрограммировать этот алгоритм. Самое сложное в этом алгоритме это – продумать логику попарного сравнения элементов в списке. Поэтому сначала напишем программу, которая будет выводить на экран все пары каждой итерации в виде:

0 1 ; 1 2 ; 2 3 ; 3 4 ; 

0 1 ; 1 2 ; 2 3 ; 

0 1 ; 1 2 ; 

0 1 ;

1. Нам нужен будет цикл, который будет отвечать за каждую итерацию, которую мы описали выше. В списке – 5 элементов, проходов по списку – 4. Соответственно, если у нас будет N элементов в списке, то количество проходов по списку будет N-1. Заведем переменную для количества элементов в списке `n` и цикл `for` по всем индексам от 1 до n-1 включительно.

2. Внутри каждой итерации у нас также работает вложенный цикл. Его задача – перебрать все пары чисел. Посмотрим на индексы левых элементов в парах, какие они принимают значения?
- i=1 – от 0 до 3
- i=2 – от 0 до 2
- i=3 – от 0 до 1
- i=4 – только нулевую пару

Как эти числа между собой связаны? 
Заметим, что в каждой итерации значение `i` и максимальное значение левого элемента в парах в сумме всегда дают 4 (1+3, 2+3, 3+1, 4+0). Значит, чтобы второй цикл мог итерироваться сначала от 0 до 3, потом от 0 до 2, потом от 0 до 1 и потом от 0 до 0, на втором месте в `range()` должно быть выражение, зависящее от `i`. Нужно перебирать все индексы от 0 до 4-i включительно. 

В функции `range()` это выглядит так: `range(0, 5-i)`. 5 – это длина списка,  вместо неё напишем используем функцию `len()`

3. Добавляем красивый вывод для каждой иитерации и получаем вот такой код:


In [2]:
input_data = [58, 111, 93, 72, 100]

n = len(input_data)

for i in range(1, n):
  for j in range(n-i):
    print(j, j+1, end=" ; ")
  print()

0 1 ; 1 2 ; 2 3 ; 3 4 ; 
0 1 ; 1 2 ; 2 3 ; 
0 1 ; 1 2 ; 
0 1 ; 


Теперь, когда мы написали перебор всех пар, заменим `print()` на сравнение пары чисел. Если число справа меньше, чем число слева, мы должны менять их местами. Для обмена значениями нам понадобится третья переменная-буфер `tmp`, чтобы не потерять значения элементов списка при перезаписи:


In [3]:
for i in range(1, n):
  for j in range(n-i):
    if input_data[j+1] < input_data[j]:
      tmp = input_data[j]
      input_data[j] = input_data[j+1]
      input_data[j+1] = tmp

print(input_data)

[58, 72, 93, 100, 111]


Сортировка пузырьком готова. Но хочется его еще немного довести его до красоты. Python был заранее задуман как язык, максимально удобный для разработчика. И чтобы не писать целых три строчки для обмена значениями переменных, предусмотрена вот такая опция: 

`input_data[j], input_data[j+1] = input_data[j+1], input_data[j]`

Поменять значения двух переменных можно одной командой в одну строчку! На место значения в ячейку с индексом j встанет значение из ячейки с индексом j+1 и наоборот.




In [4]:
for i in range(1, n):
  for j in range(n-i):
    if input_data[j+1] < input_data[j]:
      input_data[j], input_data[j+1] = input_data[j+1], input_data[j]

print(input_data)

[58, 72, 93, 100, 111]


Теперь можно не переживать, что к нам поступают данные за один день в неотсортированном виде, ведь мы их можем отсортировать с помощью пузырька. Но вдруг наш коллега, который никак не найдет времени обучиться Python, попросил вас из его старых сохраненных отсортированных данных за два дня сделать один отсортированный список, чтобы он мог применить к ним бинарный поиск.

На ум сразу приходит сконкатенировать два списка и потом применить к ним сортировку пузырьком. Но задумаемся: у нас на списке из 5 элементов было 10 переборов для сортировки пузырьком, сколько же будет переборов, если у нас будет, скажем 10 элементов? Достаточно много. Поэтому этот вариант не самый оптимальный. Можно, конечно, научиться еще какому-нибудь алгоритму сортировки, но у нас же уже списки отсортированы, наверняка для этого случая есть специальный алгоритм! Эта задача называется “слиянием отсортированных списков”.

### Слияние двух отсортированных списков

Инициализируем два списка:


In [5]:
input1 = [58, 72, 100, 111]
input2 = [97, 99, 100]

Основная идея алгоритма заключается в следующем: будем сравнивать элементы из каждого списка друг за другом, наименьший класть в новый список и далее сравнивать следующую пару элементов, пока один из списков не закончится. Как только один из списков закончится, остаток второго списка добавим в результат.
 
Поэтапно разберем этот алгоритм на примере двух списков:
<br>
`input1 = [58, 72, 100, 111]`
<br>
`input2 = [97, 99, 100]`

1. Зафиксируем две метки для списка `input1` и `input2`. Назовем их `i1` и `i2` соответственно. Они будут указывать на элементы, которые будут сравниваться. Также заведем некий результирующий список `result`.

2. Изначально метки указывают на начало списков, то есть на нулевые элементы. 
`i1 = 58, i2 = 97`. Сравним их, меньший положим в `result`. 58 меньше 97, значит 58 отправляется в `result`, а `i1` перемещается на 1 элемент.

`i1 = 72, i2 = 97, result = [58]`

3. 72 сравнивается с 97. 72 меньше, добавляем его в `result` и опять смещаем `i1` на 1. 

`i1 = 100, i2 = 97, result = [58, 72]`

4. 100 сравнивается с 97. 97 меньше, добавляем его в `result` и наконец-то смещаем `i2` на 1. 

`i1 = 100, i2 = 99, result = [58, 72, 97]`

5. 99 сравниваем со 100. Аналогично 99, кладем его в `result`, `i2` смещаем на 1

`i1 = 100, i2 = 100, result = [58, 72, 97, 99]`

6. Сравниваем 100 и 100. Они равны, оба кладем в `result` и смещаем метки на 1

`i1 = 111, result = [58, 72, 97, 99, 100, 100]`

7. Второй список закончился, остаток первого списка докладываем в `result`.

`result = [58, 72, 97, 99, 100, 100, 111]`



Основные моменты алгоритма:
- необходимо инициализировать переменную для хранения объединенного списка
- для каждого списка нужно создать переменные – метки, которые будут хранить индексы элементов для сравнения
- как только один из списков заканчивается, продолжать сравнение не имеет смысла, оставшуюся часть одного из списков добавляем в результирующий.


Теперь можно самостоятельно запрограммировать алгоритм слияния с помощью переменных, которые мы зафиксировали выше. Попробуйте подавать на вход различные списки и  проверьте, что алгоритм отрабатывает верно. 



### Решение задачи 

1. Заведем три переменные: 
`result` – пустой, и метки `i1` и `i2` = 0
2. Cравнивать элементы мы будем в цикле, пока один из списков не закончится. Поскольку мы не знаем, сколько точно итераций должен отработать наш цикл, то будем использовать `while`. 
3. Что значит список закончился? Это значит, что значение метки `i1` или `i2` вышло за пределы соответствующего ему цикла. Запишем эти условия: `i1 < len(input1)` и `i2 < len(input2)`. Оба условия должны всегда выполняться. Если одно не выполняется, то мы должны выйти из цикла. Следовательно, логическая связка между ними `and`
4. Что будет внутри цикла? Внутри цикла мы должны сравнивать элементы из списков `input1` и `input2`, находящиеся под индексами `i1` и `i2`. Если элемент `input1[i1]` меньше, то записываем его в `result`, а метку `i1` увеличиваем на 1. Аналогично с `input2[i2]`. Условие с равенством отдельно прописывать необязательно. Подумайте, почему)
5. Наш цикл закончит свою работу, как только `i1` или `i2` выйдет за пределы списков. На выходе из цикла нам нужно дописать в `result` остатки одного из списков `input1` или `input2`. Можем сделать это, проверив, какой из индексов вышел за пределы списка с помощью `if`. Но можно сделать и проще. Воспользуемся слайсингом и выделим из наших списков всё, что находится после `i1` и `i2` и сконкатенируем с `result`. 

Отвечая на вопрос, не получим ли мы ошибку, если обратимся к индексу которого нет? в слайсинге это допустимо, если такого индекса еще нет, нам вернется пустой список:

In [6]:
input2[10:]

[]

Итоговый для алгоритма будет выглядеть так: 

In [7]:
result = []
i1 = 0
i2 = 0

while (i1 < len(input1)) & (i2 < len(input2)):
    if input1[i1] < input2[i2]:
        result.append(input1[i1])
        i1+=1
    else:
        result.append(input2[i2])
        i2+=1

result += input1[i1:]
result += input2[i2:]

print(result)

[58, 72, 97, 99, 100, 100, 111]


Вот и всё, мы реализовали ещё один алгоритм слияния двух отсортированных списков. Теперь к итоговому списку можно без проблем применить бинарный поиск.