# Содержание
<a name="index"></a>
1. [Оценка скорости алгоритмов](#measure)
  1. [Как оценить скорость работы алгоритма](#how_to_measure)
  2. [Какие есть интрументы для измерения](#measurement_frameworks)
2. [Разделяй и властвуй](#divide_and_conquer)
  1. [Идея](#dnq_idea)
3. [Mergesort](#mergesort)
  1. [Краткое описание](#mergesort_description)
  2. [Merge](#merge)
  3. [Сложность, плюсы, минусы, стабильность](#mergesort_properties)
  4. [Варианты](#mergesort_variants)
4. [Quicksort](#quicksort)
  1. [Идея](#quciksort_idea)
  2. [Особенности алгоритма](#quicksort_features)
  3. [Псевдокод](#quicksort_code)
  4. [Errata](#errata)
5. [Timsort](#timsort)
  1. [История](#history)
  2. [Алгоритм](#timsort_algorithm)
6. [Домашняя работа](#homework)


# Оценка скорости алгоритмов
<a name="measure"></a>

## Как оценить скорость работы алгоритма
<a name="how_to_measure"></a>

- Если необходимо сделать оценку скорости, то нужно делать замеры для большого количества значений (размера входных данных). Чем больше точек - тем точнее данные
  - можно брать значения по линейно
  - можно брать по логарифмической шкале
  - иногда итмеет смысл брать значения чуть ли не непрерывно, потому что в таком случае можно посмотреть на динамику, когда происходит выделение памяти etc
- Также стоит делать $ n $ замеров, чтобы получать усреденные значения
- Просто замерять время между выполнением команд может быть недостаточно точно - т.к. в процесс мог влезть другой процесс и так далее. Нужно мерять cpu time


## Какие есть интрументы для измерения
<a name="measurement_frameworks"></a>

- Python
  - если вы используете ipython, есть magic %%time и %%timeit
  - есть библиотека [profile](https://docs.python.org/3/library/profile.html)

- C++
  - функции из chrono :)
  - vallgrind's [callgrind](http://valgrind.org/docs/manual/cl-manual.html)
  - [gperftools](https://github.com/gperftools/gperftools) 

- Java
  - [ссылка](http://java-source.net/open-source/profilers) - список профайлеров
  
[в начало](#index)

# Разделяй и властвуй
<a name="divide_and_conquer"></a>

## Идея
<a name="dnq_idea"></a>

<font size="4">
    
- Разбить большую задачу на такие же, но меньшие по размеру, и так далее
- Решить задачу, когда размер станет мал
- Объединить результаты
</font>

<font size="5"><b>Работа mergesort</b></font>
<img src="files/divide_and_conquer.png" width="400" height="400">

[в начало](#index)

# Mergesort
<a name="mergesort"></a>


## Краткое описание
<a name="mergesort_description"></a>
- Нужен механизм разделения
- Алгоритм для сортировки минимальной подзадачи
- Алгоритм объединения (merge)

<font size="4">
Будем делить массивы ~пополам, учитывая, что один их размер может быть нечетным

> Сколько всего будет разбиений?

Сам алгоритм:

<pre>
1  MergeSort(Array, end):
2      Copy = CopyArray(Array)
3      SplitMerge(Copy, 0, n, Array)
4  
5 
6  SplitMerge(Copy, begin, end, Array):
7      <b>if</b> end - begin < 2
8         <b>return</b>
9      middle = (end + begin) // 2
10     SplitMerge(Array, begin, middle, Copy)
11     SplitMerge(Array, middle, end, Copy)
12     Merge(Copy, begin, middle, end, Array)
</pre>

\- постоянно меняются местами `Array` и `Copy` - данные копируются из одного в другой

Функция `Merge` - время работы $  O(n) $ 

</font>

[в начало](#index)

### Достаем двойные листочки!
<font size="4">Давайте напишем `Merge` (и весь алгоритм), определение `MergeSort` выглядит довольно простым.

- Идея: есть два массива одинакового рамера, второй разбит на две части
- Переносим элементы в первый массив из второго либо из первой, либо из второй части
<font>
<img src="files/merge.png">

<img src="https://imgs.xkcd.com/comics/ineffective_sorts_2x.png" height="400" width="700">

[в начало](#index)

In [None]:
[[1, 1, 1, 1], [2, 3, 4, 5]]
[1, 1, 1, 1, 2, 3, 4, 5]

In [None]:
[["2",3,4,5], [1,1,1,"1"]]
[1,1,1,1,2,3,4,5]

## Merge
<a name="merge"></a>

<pre>
1  Merge(Array, begin, middle, end, Copy):
2      fst, snd = begin, middle
3      <b>for</b> ptr in range(begin, end)
4          <b>if</b> fst < middle <b>and</b> (snd >= end <b>or</b> Array[fst] <= Array[snd])
5              Copy[ptr] = Array[fst]
6              fst += 1
7          <b>else</b>
8              Copy[ptr] = Array[snd]
9              snd += 1

</pre>

## Сложность, плюсы, минусы, стабильность
<a name="mergesort_properties"></a>
<font size="4">
Если посмотреть еще раз на это изображение:
<br>
<img src="files/divide_and_conquer.png" width="500">
    
\- становится интуитивно понятно, какая у алгоритма сложноcть.   
- $ O(n) $ - на `Merge` на каждом "уровне"
- $ O(log(n)) $ уровней  

\- получается $ O(n \cdot log(n)) $ сортировка
</font>

### Плюсы сортировки
<font size="4">

- Гарантированная скорость  $ O(n \cdot log(n)) $ 
- Стабильность
- Возможность параллелизации
- Модификации используются для внешней сортировки
- Подходит хорошо для списков (см. далее)
</font>
  
### Минусы

<font size="4">

- $ O(n) $ памяти - без оптимизаций
- Немного медленнее Quicksort
</font>

<img src="files/is_ms_stable.png" width="500">

</font>

[в начало](#index)

## Варианты
<a name="mergesort_variants"></a>
<font size="4">

Как можно усовершенствовать Mergesort (много как, на самом деле)

#### Сделать параллельным

<pre>
1  SplitMerge(Copy, begin, end, Array):
2      <b>if</b> end - begin < 2
3         <b>return</b>
4      middle = (end + begin) // 2
5      <b>fork</b> SplitMerge(Array, begin, middle, Copy)
6      <b>join</b>
7      SplitMerge(Array, middle, end, Copy)
8      Merge(Copy, begin, middle, end, Array)
</pre>

#### Fork-join model

Это [стандартный подход](https://en.wikipedia.org/wiki/Fork%E2%80%93join_model), исользующийся для алгоритмов "Divide-and-Conquer". На этот каркас можно "натянуть" и другие алгоритмы

<pre>
1  Solve(problem):
2      <b>if</b> problem is small enough:
3          solve problem directly (sequential algorithm)
4      <b>else</b>:
5          <b>for</b> part in Subdivide(problem)
6              <b>fork</b> subtask to Solve(part)
7          <b>join</b> all subtasks spawned in previous loop
8          <b>return</b> combined results
</pre>
</font>

### Другие идеи
<font size="4">
    <br>

- Использовать имеющиеся в данных убывающие / возрастающие посоледовательности (и не сортировать их)
- Можно превратить в блочную сортировку
- В модификации хорошо работает со списками - когда доступ по индексу закрыт. При этом можно обойтись без доп. памяти/
</font>

[в начало](#index)



# Quicksort 
<a name="quicksort"></a>


## Идея
<a name="quicksort_idea"></a>
<font size="4">

- Выбрать стержневой элемент
- Разбить массивы так, чтобы "слева" от стержневого были элементы $ \leq $, "справа" - большие
- Повторять для "правой" и "левой" половин, пока длина массива > 1
</font>

## Особенности алгоритма
<a name="quicksort_features"></a>
<font size="4">


### Фичи и плюсы
- Алгоритм придумал [Хоар](https://ru.wikipedia.org/wiki/%D0%A5%D0%BE%D0%B0%D1%80,_%D0%A7%D0%B0%D1%80%D0%BB%D1%8C%D0%B7_%D0%AD%D0%BD%D1%82%D0%BE%D0%BD%D0%B8_%D0%A0%D0%B8%D1%87%D0%B0%D1%80%D0%B4) для быстрой сортировки словарей (1959)
- Алгоритм обладает средним временем работы $ O(n \cdot log(n)) $, но _наихудшим_ $ O(n^2) $  
- При этом у него хорошие константы
- Не нужно дополнительно выделять память
- Можно распараллелить

### Недостатки
- нестабилен
- не гарантированно быстр (может "тормозить")
- нестабилен
</font>

## Псевдокод
<a name="quicksort_code"></a>

<font size="4">
<pre>
1  Quicksort(Array, begin, end):
2      <b>if</b> begin < end:
3          pivot = Partition(Array, begin, end)
4          Quicksort(Array, begin, pivot)
5          Quicksort(Array, pivot+1, end)

</pre>
</font>

[в начало](#index)

### Процедура Partition
<font size="4">
    
Итак, есть сигнатура: `Partition(Array, begin, end) -> pivot`
    
> Что эта функция должна делать?   
> И как ее реализовать (как минимум один способ)?

<font color="red"><b>На семинаре демонстрировалось неправильное изображение! Здесь приведен исправленный вариант.</b><br><br></font>
<a name="errata"></a>
    
- Использовалось 1-индексирование, сказано про это не было - теперь псевдокод исправлен на 0-индексирование
- Была показана работа `Partition` для создания убывающих массивов (вместо возрастающих, как в коде)
- Если $j$-й элемент меньше либо равен стержневого, то меняются местами $i$+1 и $j$-й элементы, а $ i += 1 $
- Менябщиеся элементы выделены градиентом
- Теперь изображение соответствует коду, приведенному ниже
    
<font>
<img src="files/partition_correct.png" width="800">

### Псевдокод Partition
<font size="4"><br>
Это один из вариантов. Мы можем реализовать рандомизированный вариант или схему Хоара.

- Процесс происходит _inplace_
- Процесс _не_ гарантирует стабильности

<font size="4">
Код:
<pre>
1  Partition(Array, begin, end):
2      pivot = Array[end-1]  // например, мы можем взять элемент из конца
3      i = begin - 1  // да, он может быть < 0, это ОК
4      <b>for</b> j = begin <b>to</b> end-2  // имеется в виду "по элемент end-2 включительно"
5          <b>if</b> Array[j] ≤ pivot
6              i += 1
7              swap(Array, j, i)
8      swap(Array, i+1, end-1)  // ставим стержневой элемент на место
9      <b>return</b> i + 1
</pre>
</font>

<font size="4">
    <b>Список исправлений в псевдокоде:</b>

- Используется `Array[end-1]` вместо `Array[end]`
- Используется `swap(Array, i+1, end-1)` вместо `swap(Array, i+1, end)`
- Используется `for j = begin to end-2` вместо `for j = begin to end-1`
- Используется `Quicksort(Array, begin, pivot)` вместо `Quicksort(Array, begin, pivot-1)`
- Последнее верно для `Quicksort` и `TailQuicksort` (см. ниже)

</font>

[В начало](#index)

<font color="red" size="4"><b>Здесь приведен код, который соответсвует иллюстрации с вебинара, и сама иллюстрация.</b><br><br></font>

<font size="4">
Оператор `≤` заменен на `≥`, располагающий меньший и больший массивы соответсвенно справа и слева и "сортирующий" в обратном порядке. 
</font>

<font size="4">
<pre>
1  Partition(Array, begin, end):
2      pivot = Array[end-1]  // например, мы можем взять элемент из конца
3      i = begin - 1  // да, он может быть < 0, это ОК
4      <b>for</b> j = begin <b>to</b> end-2  // имеется в виду "по элемент end-2 включительно"
5          <b>if</b> Array[j] ≥ pivot
6              i += 1 
7              swap(Array, j, i)
8      swap(Array, i+1, end-1)  // ставим стержневой элемент на место
9      <b>return</b> i + 1
 </pre>
</font>

<img src="files/quicksort.png" width="800">

[в начало](#index)

### Код на python (с минимальными отличиями от псевдокода)

<font size="4">Код показывет разницу между decreasing и increasing partition<font>

In [241]:
def quicksrot(array, begin, end, partition):
    if begin < end:
        pivot = partition(array, begin, end)
        quicksrot(array, begin, pivot, partition)
        quicksrot(array, pivot+1, end, partition)
        

def partition_increasing(array, begin, end):
    pivot = array[end-1]
    i = begin - 1
    for j in range(begin, end-1):
        if array[j] <= pivot:
            i += 1
            swap(array, i, j)
    swap(array, i+1, end-1)
    return i + 1


def partition_decreasing(array, begin, end):
    pivot = array[end-1]
    i = begin - 1
    for j in range(begin, end-1):
        if array[j] >= pivot:
            i += 1
            swap(array, i, j)
    swap(array, i+1, end-1)
    return i + 1


def swap(array, i, j):
    buff = array[i]
    array[i] = array[j]
    array[j] = buff

In [227]:
arr = list(range(10))
partition_increasing(arr, 0, 10)
arr

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### Сортировка в убывающем порядке

In [228]:
quicksrot(arr, 0, 10, partition_decreasing)
arr

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### Сортировка в возрастающем порядке

In [229]:
quicksrot(arr, 0, 10, partition_increasing)
arr

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

### Несколько примеров

In [230]:
def test(array, partition):
    quicksrot(array, 0, len(arr), partition)
    assert len(array) > 2
    for i, j in zip(array[:-1], array[1:]):
        assert i <= j if partition is partition_increasing else i >= j

        
for i in range(10):
    arr = list(range(20))
    np.random.shuffle(arr)
    cpy = [i for i in arr]
    print("unsorted: {}".format(arr))
    test(arr, partition_decreasing)
    test(cpy, partition_increasing)
    print("decreasing: {}".format(arr))
    print("increasing: {}".format(cpy))
    print("--------------------------")

unsorted: [10, 18, 2, 17, 0, 1, 19, 13, 15, 5, 12, 16, 14, 3, 9, 7, 11, 6, 4, 8]
decreasing: [19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
increasing: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
--------------------------
unsorted: [12, 2, 17, 8, 19, 10, 0, 1, 6, 9, 3, 4, 16, 13, 11, 14, 5, 15, 7, 18]
decreasing: [19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
increasing: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
--------------------------
unsorted: [19, 7, 13, 8, 12, 0, 14, 1, 10, 16, 11, 4, 3, 6, 2, 17, 15, 18, 5, 9]
decreasing: [19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
increasing: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
--------------------------
unsorted: [4, 8, 0, 12, 1, 10, 7, 2, 11, 17, 3, 5, 19, 9, 14, 13, 16, 6, 15, 18]
decreasing: [19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
increasing: [0

In [231]:
arr = [1, 1, 1, 1, -4, 5, 5, 5, 5, 56, 5, 5, 5, 5]
cpy = [i for i in arr]
quicksrot(arr, 0, 14, partition_increasing)
arr

[-4, 1, 1, 1, 1, 5, 5, 5, 5, 5, 5, 5, 5, 56]

In [232]:
quicksrot(cpy, 0, 14, partition_decreasing)
cpy

[56, 5, 5, 5, 5, 5, 5, 5, 5, 1, 1, 1, 1, -4]

In [246]:
arr = [0,9,9,8,8,8,7,7,7,7,6,6,6,6,6,55,5,5,4,4,4,4,3,3,3,3,3,2,2,2,11,1,1,1,1,1,1,1]
cpy = [i for i in arr]
quicksrot(arr, 0, len(arr), partition_increasing)

In [247]:
arr

[0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 2,
 2,
 3,
 3,
 3,
 3,
 3,
 4,
 4,
 4,
 4,
 5,
 5,
 6,
 6,
 6,
 6,
 6,
 7,
 7,
 7,
 7,
 8,
 8,
 8,
 9,
 9,
 11,
 55]

In [239]:
arr

[0,
 6,
 6,
 6,
 6,
 7,
 7,
 7,
 7,
 8,
 8,
 8,
 9,
 9,
 6,
 5,
 5,
 5,
 5,
 5,
 4,
 4,
 4,
 4,
 4,
 4,
 3,
 3,
 3,
 3,
 3,
 3,
 3,
 2,
 2,
 2,
 2,
 2,
 11,
 1,
 1,
 1,
 1,
 1,
 1,
 1]

[в начало](#index)

## Варианты
<a name="quicksort_variants"></a>

### Randomized
<font size="4"><br>
Если массив организован так, что pivot всегда неудачный - можно обойтись при помощи внесеня рандомизации

Немного вопросов:

> Как сделать рандомизацию?  
> Сколько раз будет генерироваться случайное число?  
> Какова примерная оценка вероятности того, что _всегда_ будет выбираться наихудший случай?
</font>


### Hoare Partition
<font size="4"><br>
Оригинальная схема упорядочения значений, предложенная Хоаром.  
Без псевдокода - но его легко найти <br>
<img src="files/hoare_partition.png" width="750">

wiki/Quicksort - Hoare partition scheme
</font>


### Хвостовая рекурсия
<font size="4"><br>
 
<pre>
1  TailQuicksort(Array, begin, end):
2      <b>while</b> begin < end:
3          pivot = Partition(Array, begin, end)
4          TailQuicksort(Array, begin, pivot)
5          begin = pivot + 1

</pre>

> Какова будет глубина стека при использовании такого алгоритма?

</font>

[В начало](#index)

# Timsort

## История
<a name="himsort"></a>

<font size="4"><br>

- Алгоритм изобрел Тим Питерс в 2002 г. для использования в языке Python
- Алгоритм является улучшением merge sort
- [ссылка](https://hg.python.org/cpython/file/f2353e74b335/Objects/listobject.c#l980)

<pre>
/* Lots of code for an adaptive, stable, natural mergesort.  There are many
 * pieces to this algorithm; read listsort.txt for overviews and details.
 */
</pre>
\- здесь его даже Timsort не зовут
</font>


## Особенности алгоритма
<a name="timsort_algorithm"></a>
<font size="4"><br>

- Это merge sort на стероидах
- Алгоритм использует неубывающие и невозрастающие последовательности в данных (последние он разворачивает), которые называются run. Ссылки на run'ы отправляются в стек
- Для сортировки маленьких подпоследовательностей < _minrun_ используется insertion sort
- _minrun_ выбирается от 32 до 64 - из соображений, что лучше всего разбивать на части, близкие к степеням двойки 
- алгоритм адаптивный, стабильный
- _run'ы_ сливаются по очереди и по ссылкам, что позволяет не выделять большое количество памяти - 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/e1/Representation_of_stack_for_merge_memory_in_Timsort.svg/2880px-Representation_of_stack_for_merge_memory_in_Timsort.svg.png" width="600">


$$
|Z| > |Y| + |X|
$$
$$
|Y| > |X|
$$
$$
\rightarrow X, Y \  merged
$$
$$
else\ 
Y,\  smallest(Z, X)  merged
$$
</font>

### Ссылки

<font size="4">Ссылки на статьи про Timsort на [hackernoon](https://hackernoon.com/timsort-the-fastest-sorting-algorithm-youve-never-heard-of-36b28417f399) и [dev.to](https://dev.to/s_awdesh/timsort-fastest-sorting-algorithm-for-real-world-problems--2jhd) </font>


[в начало](#index)

# Домашняя работа
<a name="homework"></a>
 
<font size="4">
    
Реализовать:

MergeSort или QuickSort (рандомизированный и обычный)
- алгоритм работает корректно, используется insertion sort: 3 балла
- алгоритм работает корректно, но выполняет много лишних действий / отклоняется от реализации не в лучшую сторону - 2 балл

Дополнительно:
- quicksort - сравнить рандомизированный и обычный варианты - 1 балл
- mergsesort - добавить обработку run'ов - 1 балл

- распараллелить алгоритм - 1 балл (если считаете, что этот материал надо разобрать отдельно - напишите в слак) - 1 балл

- делать оба алгоритма не обязательно, но при желании можно, баллы ставятся за лучший :
    
</font>

[в начало](#index)