<a href="https://colab.research.google.com/github/graviada/colabRepo/blob/master/Data%20management%20systems%20(6%2C%202022)/Sorting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Самый главный вопрос - зачем они нужны в современном программировании, когда есть готовая реализация?**

Если у вас небольшой и понятный массив, то ничто не мешает взять встроенную функцию языка программирования типа sort () в JavaScript. Она пошуршит каким-то своим алгоритмом и вернёт отсортированный массив.

Сложности с сортировкой начинаются, когда:

❌ *массивы данных большие — на тысячи, десятки и сотни тысяч элементов;*

❌ *может быть затруднён доступ к данным (например, они идут потоком);*

❌ *возможностей железа не хватает и нужны более экономные алгоритмы, чем те, которые встроены в язык программирования.*

Тогда нужно выбирать специализированные алгоритмы сортировки, а то и оптимизировать их под свои задачи.

### Подготовительный этап
Формирование основных функций, подключение необходимых библиотек.

In [None]:
import time
from random import randint

Формирование массивов для проверки скорости

In [None]:
def creation():

  N1 = 1000
  array_2 = []
  for i in range(N1):
    array_2.append(randint(1, 799))

  N2 = 10000
  array_3 = []
  for i in range(N2):
    array_3.append(randint(1, 6000))
  
  return array_2, array_3

array_2, array_3 = creation()[0], creation()[1]

In [None]:
array_1 = [3, 1, 9, 8, 11, 6]
array_1 = tuple(array_1)

N1 = 1000
array_2 = []
for i in range(N1):
    array_2.append(randint(1, 799))
array_2 = tuple(array_2)

N2 = 10000
array_3 = []
for i in range(N2):
    array_3.append(randint(1, 6000))

In [None]:
print(array_1)

(3, 1, 9, 8, 11, 6)


Функция проверки

In [None]:
def timeCheck(name, array):
  n = len(array)
  start_time = time.time()
  name(array, n)
  print("--- %s seconds ---" % (time.time() - start_time))

## **Пузырьковая сортировка**
На каждом шаге мы находим наибольший элемент из двух соседних и ставим этот элемент в конец пары. Получается, что при каждом прогоне цикла большие элементы будут всплывать к концу массива, как пузырьки воздуха — отсюда и название.


---
### **Алгоритм**
> 1. Берём самый первый элемент массива и сравниваем его со вторым. Если первый больше второго — меняем их местами с первым, если нет — ничего не делаем.
2. Затем берём второй элемент массива и сравниваем его со следующим — третьим. Если второй больше третьего — меняем их местами, если нет — ничего не делаем.
3. Проходим так до предпоследнего элемента, сравниваем его с последним и ставим наибольший из них в конец массива. Всё, мы нашли самое большое число в массиве и поставили его на своё место.
4. Возвращаемся в начало алгоритма и делаем всё снова точно так же, начиная с первого и второго элемента. Только теперь даём себе задание не проверять последний элемент — мы знаем, что теперь в конце массива самый большой элемент. 
5. Когда закончим очередной проход — уменьшаем значение финальной позиции, до которой проверяем, и снова начинаем сначала.
Так делаем до тех пор, пока у нас не останется один элемент.


In [None]:
def bubble_sort_my(array, n):
  while n > 1:
    for i in range(n-1):
      if array[i] > array[i+1]:
        temp = array[i]
        array[i] = array[i+1]
        array[i+1] = temp
    n -= 1

Проверки

In [None]:
name = bubble_sort_my
# type(name)

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
timeCheck(name, a1)

# Проверка скорости выполнения 2
timeCheck(name, a2)

# Проверка скорости выполнения 3
timeCheck(name, a3)

--- 1.3828277587890625e-05 seconds ---
--- 0.1175992488861084 seconds ---
--- 11.987413167953491 seconds ---


Не моя реализация:

1

In [None]:
def bubble_sort_1(array, N):
  for i in range(N-1):
    for j in range(N-i-1):
      if array[j] > array[j+1]:
        buff = array[j]
        array[j] = array[j+1]
        array[j+1] = buff

In [None]:
name = bubble_sort_1
# type(name)

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
timeCheck(name, a1)

# # Проверка скорости выполнения 2
timeCheck(name, a2)

# Проверка скорости выполнения 3
timeCheck(name, a3)

--- 7.867813110351562e-06 seconds ---
--- 0.11453533172607422 seconds ---
--- 11.867377519607544 seconds ---


2

In [None]:
def bubble_sort_2(array, N):
  i = 0
  while i < N - 1:
    j = 0
    while j < N - 1 - i:
      if array[j] > array[j+1]:
        array[j], array[j+1] = array[j+1], array[j]
      j += 1
    i += 1

In [None]:
name = bubble_sort_2
# type(name)

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
timeCheck(name, a1)

# # Проверка скорости выполнения 2
timeCheck(name, a2)

# Проверка скорости выполнения 3
timeCheck(name, a3)

--- 1.1682510375976562e-05 seconds ---
--- 0.16760015487670898 seconds ---
--- 17.19641923904419 seconds ---


3

In [None]:
def bubble_sort_3(array, N):
  for i in range(N-1):
    for j in range(N-i-1):
      if array[j] > array[j+1]:
        array[j], array[j+1] = array[j+1], array[j]

In [None]:
name = bubble_sort_3
# type(name)

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
timeCheck(name, a1)

# # Проверка скорости выполнения 2
timeCheck(name, a2)

# Проверка скорости выполнения 3
timeCheck(name, a3)

--- 8.58306884765625e-06 seconds ---
--- 0.11735343933105469 seconds ---
--- 11.895326852798462 seconds ---


## **Сортировка расческой**
---
### **Алгоритм**
> 1. На первом шаге мы находим длину массива (например, 10 элементов) и делим её на 1,247. Допустим, после округления у нас получилось число 8. Теперь мы проходим первый цикл пузырьковой сортировки, только сравнивая не 1 и 2, 2 и 3, а сразу 1 и 8, 2 и 9, 3 и 10. Это отправит самые большие числа, если они есть в начале, в самый конец. Всего на первом шаге будет три сравнения.
2. На втором шаге мы берём число 8 из предыдущего этапа и снова делим его на 1,247, получая число 6. Теперь мы снова проходим весь массив и сравниваем так: 1 и 6, 2 и 7, 3 и 8, 4 и 9, 5 и 10.
Уже получилось 5 перестановок и снова крупные числа улетели поближе к концу массива.
3. Так мы уменьшаем размер шага до тех пор, пока он не станет меньше единицы — к этому моменту массив будет полностью отсортирован.

In [None]:
def hairbrush_my(array, N):
  const = 1.247
  i = 0
  num = int(N//const)
  while num > 0:
    while i+num < N:
      if array[i] > array[i+num]:
        array[i], array[i+num] = array[i+num], array[i]
      i += 1
    num = int(num//const)
    i = 0

Проверки

In [None]:
# n = 10
# proba = []
# for i in range(n):
#   proba.append(randint(1, 99))

# print(proba, '\n')
# timeCheck(name, proba)
# print(proba)

In [None]:
name = hairbrush_my

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 1.7404556274414062e-05 seconds ---
--- 0.009002923965454102 seconds ---
--- 0.08684325218200684 seconds ---


Не моя реализация:

1

In [None]:
def comb(massiv, n):
  step = int(n/1.247)
  swap = 1
  while step > 1 or swap > 0:
    swap = 0
    i = 0
    while i + step < n:
      if massiv[i] > massiv[i+step]:
        massiv[i], massiv[i+step] = massiv[i+step], massiv[i]
        swap += 1
      i = i + 1
    if step > 1:
      step = int(step / 1.247)

In [None]:
name = comb

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 1.0013580322265625e-05 seconds ---
--- 0.006802558898925781 seconds ---
[2, 2, 3, 3, 5, 6, 6, 7, 7, 8, 8, 9, 10, 12, 15, 15, 15, 16, 18, 18, 19, 19, 21, 21, 22, 23, 23, 24, 24, 25, 26, 28, 29, 30, 30, 32, 32, 32, 33, 34, 35, 35, 35, 37, 38, 39, 41, 42, 43, 44, 45, 49, 49, 50, 50, 53, 56, 56, 59, 59, 61, 62, 63, 63, 64, 66, 68, 68, 69, 69, 70, 71, 71, 73, 76, 76, 76, 77, 77, 78, 78, 79, 80, 80, 81, 83, 84, 85, 85, 86, 86, 88, 88, 88, 89, 89, 89, 90, 92, 92, 95, 96, 96, 97, 98, 98, 98, 99, 99, 100, 100, 103, 104, 104, 105, 105, 105, 106, 108, 108, 109, 109, 110, 111, 111, 112, 113, 113, 113, 114, 114, 115, 115, 116, 116, 116, 117, 118, 119, 119, 120, 121, 122, 123, 124, 125, 125, 126, 126, 126, 127, 127, 127, 129, 130, 133, 134, 134, 135, 135, 135, 135, 136, 137, 138, 139, 139, 139, 141, 141, 142, 143, 148, 151, 155, 156, 158, 158, 158, 160, 161, 161, 162, 162, 163, 163, 163, 165, 165, 165, 166, 168, 168, 168, 169, 170, 170, 170, 171, 172, 173, 177, 177, 178, 179, 180, 181, 182, 182,

## **Сортировка перемешиванием (шейкерная сортировка)**

---

### **Алгоритм**

> Проанализировав алгоритм пузырьковой сортировки, можно заметить:

* если при обходе части массива не было обменов элементов, то эту часть можно исключить, так как она уже отсортирована;
* при проходе от конца массива к началу минимальное значение сдвигается на первую позицию, при этом максимальный элемент перемещается только на один индекс вправо.

> Исходя из приведенных идей, модифицируем сортировку пузырьком следующим образом:

* на каждой итерации, фиксируем границы части массива в которой происходит обмен;
* массив обходиться поочередно от начала массива к концу и от конца к началу;

> При этом минимальный элемент перемещается в начало массива, а максимальный - в конец, после этого уменьшается рабочая область массива.

In [None]:
def shaker_sort(array, N): 
  swapped = True
  start_index = 0
  end_index = N - 1
    
  while (swapped == True): 
        
    swapped = False
          
    # проход слева направо
    for i in range(start_index, end_index): 
      if (array[i] > array[i + 1]) : 
        # обмен элементов
        array[i], array[i + 1] = array[i + 1], array[i] 
        swapped = True
  
    # если не было обменов прерываем цикл
    if (not(swapped)): 
      break

    swapped = False

    end_index = end_index - 1
  
    # проход справа налево
    for i in range(end_index - 1, start_index - 1, -1): 
      if (array[i] > array[i + 1]): 
        # обмен элементов
        array[i], array[i + 1] = array[i + 1], array[i] 
        swapped = True
 
    start_index = start_index + 1

In [None]:
name = shaker_sort

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 1.3113021850585938e-05 seconds ---
--- 0.09710502624511719 seconds ---
--- 10.210460901260376 seconds ---


## **Сортировка вставками**
---

### **Алгоритм**

>Предполагается, что изначально есть готовая последовательность. На каждой итерации ее необходимо дополнить путем вставки нового числа в последовательность. Вставка производится таким образом, чтобы не нарушать упорядоченность готовой последовательности.

In [None]:
def insertionSert(array, n):
  for i in range(n):
    j = i - 1
    while j >= 0 and array[j] > array[j+1]:
      temp = array[j]
      array[j] = array[j+1]
      array[j+1] = temp
      j -= 1

In [None]:
name = insertionSert

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 6.4373016357421875e-06 seconds ---
--- 0.0979304313659668 seconds ---
--- 10.05223560333252 seconds ---


## **Сортировка выбором**
---

### **Алгоритм**

> 1. В неотсортированном подмассиве ищется локальный максимум (минимум).
> 2. Найденный максимум (минимум) меняется местами с последним (первым) элементом в подмассиве.
> 3. Если в массиве остались неотсортированные подмассивы — смотри пункт 1.


In [None]:
def swap(array, i, j):
    array[i], array[j] = array[j], array[i]
  
def select_sort(array, n):
    i = n
    while i > 1:
        max = 0
        for j in range(i):
            if array[j] > array[max]:
                max = j
        swap(array, i - 1, max)
        i -= 1
    return array

In [None]:
name = select_sort

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 1.1205673217773438e-05 seconds ---
--- 0.05360007286071777 seconds ---
--- 4.921923875808716 seconds ---


In [None]:
def select_sort_stable(arr, n):
    for j in range(n):
        min = j

        for i in range(j+1, n):
            if(arr[i] < arr[min]):
              min = i
            
              if(min != j):
                value = arr[min]
                for l in range(min, j-1,-1):
                  arr[l] = arr[l-1]
                  arr[j] = value

## **Быстрая сортировка**

## **Сортировка слиянием**

## **Пирамидальная сортировка**

In [None]:
def swap(array, i, j):                    
    array[i], array[j] = array[j], array[i] 

def Heapify(array, end, i):   
    left = 2 * i + 1  
    right = 2 * (i + 1)   
    max = i   
    if left < end and array[i] < array[left]:   
        max = left   
    if right < end and array[max] < array[right]:   
        max = right  
    if max != i:   
        swap(array, i, max)   
        Heapify(array, end, max)   

def HeapSort(array, n):     
    end = n   
    start = end // 2 - 1
    for i in range(start, -1, -1):   
        Heapify(array, end, i)   
    for i in range(end-1, 0, -1):   
        swap(array, i, 0)   
        Heapify(array, i, 0) 
    return array

In [None]:
a = [71, 5, 8, 89, 13, 57]
print(HeapSort(a, len(a)))

[5, 8, 13, 57, 71, 89]


In [None]:
name = HeapSort

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 2.8848648071289062e-05 seconds ---
--- 0.008138656616210938 seconds ---
--- 0.09914612770080566 seconds ---


## **Сортировка Шелла**

In [None]:
def shell_sort(array, n):
  gap = n // 2

  while gap > 0:
    for value in range(gap, n):

      current_value = array[value]
      position = value

      while position >= gap and array[position - gap] > current_value:
        array[position] = array[position - gap]
        position -= gap
        array[position] = current_value

    gap //= 2
  return array

In [None]:
a = [71, 5, 8, 89, 13, 57]
print(shell_sort(a, len(a)))

[5, 8, 13, 57, 71, 89]


In [None]:
name = shell_sort

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 1.2636184692382812e-05 seconds ---
--- 0.004012107849121094 seconds ---
--- 0.0859682559967041 seconds ---


In [None]:
def avr(check):
  count = 0
  for i in range (10000):
    count += check
  return count / 10000

In [None]:
def timeCheck_1(name, array):
  n = len(array)
  start_time = time.time()
  name(array, n)
  return time.time() - start_time

In [None]:
a3 = list(array_3)
print (avr(timeCheck_1(shell_sort, a3)))
print (avr(timeCheck_1(smoothsort, a3)))
print (avr(timeCheck_1(HeapSort, a3)))

0.07856988906860352
0.03847455978393555
0.10027956962585449


## **Плавная сортировка**

In [None]:
_leonardo_nums = [1, 1]

# returns the k-th Leonardo number
def L(k):
    try:
        return _leonardo_nums[k]
    except IndexError:
        while len(_leonardo_nums) <= k:
            _leonardo_nums.append(_leonardo_nums[-2] + _leonardo_nums[-1] + 1)
        return _leonardo_nums[k]


# sorts into ascending order
def smoothsort(arr, n):
    size_list = _create_heap(arr, n)
    _sort_heap(arr, size_list)
    return arr


# sorts the max heap in-place. requires the list of sizes of leonardo trees in
# the forest
def _sort_heap(heap, size_list):
    for heap_size in reversed(range(len(heap))):
        _dequeue_max(heap, size_list, heap_size)


# removes the max value from the graph
def _dequeue_max(heap, size_list, heap_size):
    removed_size = size_list.pop()
    # case 1: rightmost tree has a single node
    if removed_size == 0 or removed_size == 1:
        pass  # already removed
    # case 2: rightmost tree has two children
    else:
        # add sizes back
        size_list.append(removed_size - 1)
        size_list.append(removed_size - 2)
        # calculate indices of left and right children
        left_idx = heap_size - L(size_list[-1]) - 1
        right_idx = heap_size - 1
        left_size_idx = len(size_list) - 2
        right_size_idx = len(size_list) - 1
        # fix left child
        idx, size_idx = _fix_roots(heap, size_list, left_idx, left_size_idx)
        _sift_down(heap, idx, size_list[size_idx])
        # fix right child
        idx, size_idx = _fix_roots(heap, size_list, right_idx, right_size_idx)
        _sift_down(heap, idx, size_list[size_idx])


# modifies array in-place to make a heap. returns list of sizes of leonardo
# trees in the forest
def _create_heap(arr, n):
    size_list = []
    for heap_end in range(n):
        # Update the sizes of the trees in the forest
        _add_new_root(size_list)

        # Swap the root nodes of the trees. Return [heap index, size index]
        idx, size_idx = _fix_roots(arr, size_list, heap_end, len(size_list) - 1)

        # Fix the tree that now has the new node
        _sift_down(arr, idx, size_list[size_idx])

    return size_list


# updates the list of sizes of leonardo trees in a forest after a new node is
# added
def _add_new_root(size_list):
    # case 1: Empty forest. Add L_1 tree.
    if len(size_list) == 0:
        size_list.append(1)
    # case 2: Forest with two rightmost trees differing in size by 1.
    #         Replace the last two trees of size L_k-1 and L_k-2 by a single
    #         tree of size L_k.
    elif len(size_list) > 1 and size_list[-2] == size_list[-1] + 1:
        size_list[-2] = size_list[-2] + 1
        del size_list[-1]
    # case 3: Add a new tree, either L_1 or L_0
    else:
        # case 1: Rightmost tree is an L_1 tree. Add L_0 tree.
        if size_list[-1] == 1:
            size_list.append(0)
        # case 2: Rightmost tree is not an L_1 tree. Add L_1 tree.
        else:
            size_list.append(1)


# modifies 'heap' in place, assuming an implicit Leonardo heap structure exists
# with trees having sizes in the order given by 'sizes'
def _fix_roots(heap, sizes, start_heap_idx, start_size_idx):
    # variables in this function are referring to indexes
    cur = start_heap_idx
    size_cur = start_size_idx
    # keep fixing roots until we're at the leftmost root
    while size_cur > 0:
        next = cur - L(sizes[size_cur])
        # stop if the next root is not strictly greater than the current root
        if heap[next] <= heap[cur]:
            break
        # stop if the next root is not greater than both children of the
        # current root, if those children exist, i.e. the size of the current
        # tree is not 0 or 1.
        if sizes[size_cur] > 1:
            right = cur - 1
            left = right - L(sizes[size_cur]-2)
            if heap[next] <= heap[right] or heap[next] <= heap[left]:
                break

        # swap the current root with the next root
        temp = heap[cur]
        heap[cur] = heap[next]
        heap[next] = temp
        # continue, starting with the next root as the current root
        size_cur = size_cur - 1
        cur = next
    return (cur, size_cur)


# Fixes the tree of size tree_size rooted at root_idx in heap, where heap is otherwise a valid heap
def _sift_down(heap, root_idx, tree_size):
    cur = root_idx
    # continue iterating until there are no child nodes
    while tree_size > 1:
        right = cur - 1
        left = cur - 1 - L(tree_size - 2)
        # the root is at least as large as both children
        if heap[cur] >= heap[left] and heap[cur] >= heap[right]:
            break
        # the right child is at least as large as the left child
        elif heap[right] >= heap[left]:
            heap[cur], heap[right] = heap[right], heap[cur]
            cur = right
            tree_size = tree_size - 2
        # the left child is the greatest of the three
        else:
            heap[cur], heap[left] = heap[left], heap[cur]
            cur = left
            tree_size = tree_size - 1

In [None]:
a = [71, 5, 8, 89, 13, 57]
print(smoothsort(a))

[5, 8, 13, 57, 71, 89]


In [None]:
name = smoothsort

a1 = list(array_1)
a2 = list(array_2)
a3 = list(array_3)

# Проверка скорости выполнения 1
# print(a1)
timeCheck(name, a1)
# print(a1)

# Проверка скорости выполнения 2
# print(a2)
timeCheck(name, a2)
# print(a2)

# Проверка скорости выполнения 3
# print(a3)
timeCheck(name, a3)
# print(a3)

--- 6.437301635742188e-05 seconds ---
--- 0.01448369026184082 seconds ---
--- 0.16311430931091309 seconds ---
