<a href="https://colab.research.google.com/github/Kapek432/DSA/blob/main/SortingAlgorithms.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Insertion Sort (Sortowanie przez wstawianie)**


# **Helper functions**

**Function to test sorting algorithms**

In [1]:
import time
import random

def test_sorting_algorithm(sorting_function, size=1000, min_val=0, max_val=10000, seed=None, in_place=False):
    """
    Tests a sorting algorithm.

    :param sorting_function: The sorting function to be tested.
    :param size: Number of elements in the test list.
    :param min_val: Minimum value of elements.
    :param max_val: Maximum value of elements.
    :param seed: Random seed for reproducibility.
    :param in_place: Set to True for in-place sorting algorithms.
    """
    if seed is not None:
        random.seed(seed)

    test_data = [random.randint(min_val, max_val) for _ in range(size)]
    expected_result = sorted(test_data)

    start_time = time.time()

    if in_place:
        arr_copy = test_data[:]
        sorting_function(arr_copy)
        sorted_result = arr_copy
    else:
        sorted_result = sorting_function(test_data[:])

    end_time = time.time()

    assert sorted_result == expected_result, f"Error: {sorting_function.__name__} produced incorrect results!"

    print(f"{sorting_function.__name__} correctly sorted {size} elements in {end_time - start_time:.6f} seconds.")


# **Algorithms with $ O(n^2) $ complexity**

## **Bubble Sort (Sortowanie bąbelkowe)**



### Stable? - Yes

### Impelmentation

In [None]:
def bubble_sort(arr):
  arr = arr[:]
  for i in range(len(arr) - 1):
    for j in range(len(arr) - 1 - i):
      if arr[j] > arr[j + 1]:
        arr[j], arr[j+1] = arr[j+1], arr[j]
  return arr

In [None]:
test_sorting_algorithm(bubble_sort)

bubble_sort correctly sorted 1000 elements in 0.051612 seconds.


### Optimalization - early stopping


In [None]:
def bubble_sort_optimized(arr):
  arr = arr[:]
  for i in range(len(arr)-1):
    swapped = False
    for j in range(len(arr)-1-i):
      if arr[j] > arr[j+1]:
        arr[j], arr[j+1] = arr[j+1], arr[j]
        swapped = True
    if not swapped:
      return arr
  return arr

In [None]:
test_sorting_algorithm(bubble_sort_optimized)

bubble_sort_optimized correctly sorted 1000 elements in 0.051404 seconds.


## **Selection Sort (Sortowanie przez wybór)**


### Stable? - No

### Implementation

In [None]:
def selection_sort(arr):
    arr = arr[:]
    for i in range(len(arr) - 1):
        min_index = i
        for j in range(i + 1, len(arr)):
            if arr[j] < arr[min_index]:
                min_index = j
        arr[i], arr[min_index] = arr[min_index], arr[i]
    return arr

In [None]:
test_sorting_algorithm(selection_sort)

selection_sort correctly sorted 1000 elements in 0.023890 seconds.


## **Insertion Sort (Sortowanie przez wstawianie)**


### Stable? - Yes

### Implementation

In [None]:
def InsertionSort(arr):
  arr = arr[:]
  for i in range(1, len(arr)):
    key = arr[i]
    prev = i-1
    while prev >= 0 and arr[prev] > key:
      arr[prev+1] =arr[prev]
      prev -= 1
    arr[prev+1] = key
  return arr

In [None]:
test_sorting_algorithm(InsertionSort)

[15, 15, 78, 78, 41, 6, 94, 22, 29, 28]
[6, 15, 15, 22, 28, 29, 41, 78, 78, 94]


## **Cycle Sort (Sortowanie cykliczne)**

### Stable? - No

### Implementation

In [5]:
def CycleSort(arr):
  arr = arr[:]
  writes = 0 # przechowuje liczbe zamian

  # iterujemy przez tablice aby znalezc cykle
  for cycleStart in range(0,len(arr)-1):
    item = arr[cycleStart]
    pos = cycleStart

    #szukamy gdzie nalezy wstawic item
    for i in range(cycleStart + 1, len(arr)):
      if arr[i] < item:
        pos += 1

    #jesli pozycja == cycleStart to nie ma cyklu
    if pos == cycleStart:
      continue;

    # jesli nie to wstaw item na pos lub dalej jesli sa duplikaty
    while item == arr[pos]:
      pos += 1
    arr[pos], item = item, arr[pos]
    writes += 1

    #Teraz rotation dla pozostalej czeci cyklu
    while pos != cycleStart:

      pos = cycleStart
      for i in range(cycleStart + 1, len(arr)):
        if arr[i] < item:
          pos += 1
      #wstaw item na pos lub dalej jesli sa duplikaty
      while item == arr[pos]:
        pos += 1
      arr[pos], item = item, arr[pos]
      writes += 1

  return arr

In [6]:
test_sorting_algorithm(CycleSort)

CycleSort correctly sorted 1000 elements in 0.067511 seconds.


## **Comb Sort (Sortowanie grzebieniowe)**

### Stable? - No

### Implementation

In [9]:
def getNextGap(gap):
  gap = (gap*10) // 13
  if gap < 1:
    return 1
  return gap

def combSort(arr):
  arr = arr[:]
  n = len(arr)

  gap = n
  swapped = True

  while gap != 1 or swapped == True:
    gap = getNextGap(gap)
    swapped = False
    for i in range(0, n-gap):
      if arr[i]>arr[i+gap]:
        arr[i],arr[i+gap] = arr[i+gap],arr[i]
        swapped = True
  return arr

In [10]:
test_sorting_algorithm(combSort)

combSort correctly sorted 1000 elements in 0.002820 seconds.


# **Algorithms with $ O(n * log(n)) $ complexity**

## **Merge Sort (Sortowanie przez scalanie)**

### Space complexity - $ O(n) $


### Stable? Yes

### Implementation (Python approach)


In [12]:
def mergeSort(arr):
  if len(arr) <= 1:
    return arr

  mid = len(arr) // 2
  left = arr[:mid]
  right = arr[mid:]

  sortedLeft = mergeSort(left)
  sortedRight = mergeSort(right)

  return merge(sortedLeft,sortedRight)

def merge(left,right):
  result = []
  left_idx = right_idx = 0
  while left_idx < len(left) and right_idx < len(right):
    if left[left_idx] < right[right_idx]:
      result.append(left[left_idx])
      left_idx+=1
    else:
      result.append(right[right_idx])
      right_idx+=1


  result.extend(left[left_idx:])
  result.extend(right[right_idx:])

  return result

In [14]:
test_sorting_algorithm(mergeSort)

mergeSort correctly sorted 1000 elements in 0.001823 seconds.


### Impelmentation (Best)

In [15]:
def mergeSortBest(arr):
  temp_arr = [None] * len(arr) # tablica pomocnicza do przehowywania wyników scalania
  step = 1 # zaczynamy scalanie od najmnijeszej podtablicy

  while step < len(arr):
    for left_idx in range(0,len(arr)-step, 2*step): # tak musi byc zeby kilka razy tego samego nie brac
      mid_idx = left_idx + step
      right_idx = mid_idx + step

      if right_idx > len(arr): right_idx = len(arr)

      # Merging
      l = left_idx #do iterowania po lewej podtablicy (od left_idx do mid_idx).
      m = mid_idx  #do iterowania po prawej podtablicy (od mid_idx do right_idx).
      k = left_idx # do przypisywania wartości do temp_arr (od left_idx).

      while l < mid_idx and m < right_idx:
        if arr[l] <= arr[m]:
          temp_arr[k] = arr[l]
          l += 1
        else:
          temp_arr[k] = arr[m]
          m += 1
        k += 1

      #Dopisujemy pozostale
      while l < mid_idx:
        temp_arr[k] = arr[l]
        l += 1
        k += 1
      while m < right_idx:
        temp_arr[k] = arr[m]
        m += 1
        k += 1

    #jesli dalej jakis waartosci nie ma to dopisujemy
    while k < len(arr):
      temp_arr[k] = arr[k]
      k += 1

    #Zamieniamy tablice
    arr, temp_arr = temp_arr, arr
    step *= 2 # Aby scalac wieksze tablice

  return arr


In [16]:
test_sorting_algorithm(mergeSortBest)

mergeSortBest correctly sorted 1000 elements in 0.001259 seconds.


## **Heap Sort (Sortowanie przez kopcowanie)**


### Stable? No

### Implementation (using class Max Heap)

In [19]:
class MaxHeap:
  def __init__ (self,values=None):
    self.heap = values
    self.build_heap()

  @property
  def heap_size(self):
    return len(self.heap)

  @staticmethod
  def left_child_idx(curr_idx):
    return 2*curr_idx + 1


  @staticmethod
  def right_child_idx(curr_idx):
    return 2*curr_idx + 2

  def swap(self,i,j):
    self.heap[i], self.heap[j] = self.heap[j], self.heap[i]

  def max_heapify(self,curr_idx,end_idx):
    while True:
      left_idx = self.left_child_idx(curr_idx)
      right_idx = self.right_child_idx(curr_idx)
      largest_idx = curr_idx
      if left_idx < end_idx:
            if self.heap[left_idx] > self.heap[curr_idx]:
              largest_idx = left_idx
            if right_idx < end_idx and self.heap[right_idx] > self.heap[largest_idx]:
              largest_idx = right_idx
      if largest_idx != curr_idx:
        self.swap(curr_idx,largest_idx)
        curr_idx = largest_idx
      else:
        break


  def build_heap(self):
    for i in range((len(self.heap)-1) // 2,-1,-1):
      self.max_heapify(i,self.heap_size)

def heapSort(arr):
  max_heap = MaxHeap(arr)
  for i in range(len(arr) - 1,0,-1):
    arr[i], arr[0] = arr[0], arr[i]
    max_heap.max_heapify(0,i)
  return arr


In [20]:
test_sorting_algorithm(heapSort)

heapSort correctly sorted 1000 elements in 0.005013 seconds.


### Implementation (without class)

In [23]:
left_idx = lambda i: 2*i+1
right_idx = lambda i: 2*i+2

def max_heapify(arr, curr_idx, end_idx):
  while True:
    left = left_idx(curr_idx)
    right = right_idx(curr_idx)
    largest_idx = curr_idx

    if left < end_idx:
      if arr[left] > arr[curr_idx]:
        largest_idx = left
      if right < end_idx and arr[right] > arr[largest_idx]:
        largest_idx = right

    if largest_idx != curr_idx:
      arr[curr_idx], arr[largest_idx] = arr[largest_idx], arr[curr_idx]
      curr_idx = largest_idx
    else:
      return

def build_heap(arr):
  for i in range((len(arr)-1) // 2,-1,-1):
    max_heapify(arr,i,len(arr))

def heapSort(arr):
  build_heap(arr)
  for i in range(len(arr)-1,0,-1):
    arr[i], arr[0] = arr[0], arr[i]
    max_heapify(arr,0,i)
  return arr

In [24]:
test_sorting_algorithm(heapSort)

heapSort correctly sorted 1000 elements in 0.002732 seconds.


## **Quick Sort (Sortowanie szybkie)**

### Time complexity

#### Best case

$ O(log(n)) $


####  Worst case
$ O(n) $ - pivot wrongly selected

# Stable? No

### Implementation (Last element as pivot, Lomuto)


In [25]:
def quickSort(arr):
  _quickSort(arr,0,len(arr)-1)

def _quickSort(arr, left_idx, right_idx):
  while left_idx<right_idx:
    pivot_position = partition(arr,left_idx,right_idx)
    _quickSort(arr,left_idx,pivot_position-1)
    left_idx = pivot_position + 1 # usunięta rekursja ogonowa
    '''Bez usuwania rekursji ogonowej'''
#     if left_idx < right_idx:
#         pivot_position = partition(arr, left_idx, right_idx)
#         _quick_sort(arr, left_idx, pivot_position - 1)
#         _quick_sort(arr, pivot_position + 1, right_idx)

'''Lomuto'''
def partition(arr,left_idx,right_idx):
  pivot = arr[right_idx]

  i = left_idx - 1
  for j in range(left_idx, right_idx):
    if arr[j] < pivot:
      i += 1
      swap(arr,i,j)


  swap(arr,i+1,right_idx)

  return i+1

def swap(arr,i,j):
  arr[i], arr[j] = arr[j], arr[i]

In [27]:
test_sorting_algorithm(quickSort,in_place=True)

quickSort correctly sorted 1000 elements in 0.001502 seconds.


### Implementation (Last element as pivot, Hoare)

In [29]:
def quickSort(arr):
  _quickSort(arr,0,len(arr)-1)

def _quickSort(arr, left_idx, right_idx):
  while left_idx<right_idx:
    pivot_position = partition(arr,left_idx,right_idx)
    _quickSort(arr,left_idx,pivot_position), '<- zamiast pivot_position-1 samo pivot_position'
    left_idx = pivot_position + 1 # usunięta rekursja ogonowa

'''Wersja Hoare'a'''
def partition(arr,left_idx,right_idx):
  pivot = arr[left_idx]

  i = left_idx - 1
  j = right_idx + 1
  while True:
    i += 1
    while arr[i] < pivot: i += 1

    j -= 1
    while arr[j] > pivot: j -= 1

    if i<j:
      swap(arr, i, j)
    else:
      return j

def swap(arr,i,j):
  arr[i], arr[j] = arr[j], arr[i]

In [30]:
test_sorting_algorithm(quickSort,in_place=True)

quickSort correctly sorted 1000 elements in 0.001156 seconds.


# **Algorithms with $ O(n) $ complexity**

## **Counting Sort (Sortowanie przez zliczanie)**

### Time complexity $ O(n + k) $


### Space complexity $ O(n + k) $



### Stable?

### Implementacja 1 ( Nieujemne wartości i po prostu funkcja max, bez użycia po i append, z robieniem sumy prefiksowej)

In [31]:
def countingSort(arr):
  max_value = max(arr)
  # Tablica do zliczania
  counts = [0] * (max_value + 1)
  #Zliczamy wystąpienia
  for val in arr:
    counts[val]+=1
  # Mofyfikacja tablicy aby wskazywala ile wrtosci jest nie wiekszych niz dana
  for i in range(1,len(counts)):
    counts[i] += counts[i-1]
  # Tablica pomocnicza
  temp = [None] * len(arr)
  # Przepisujemy wartosci do temporary
  for i in range(len(arr)-1,-1,-1):
    counts[arr[i]] -= 1 # zaznazamy w counts ze spotkana juz raz
    temp[counts[arr[i]]] = arr[i] # przypisujemy odpowiedia wartosc
    # dzieki uzyciu tablicy prefiksowej bedziemy za kazdym razem wiedizc gdzie wpisac wartosc
  #Przepisujemy posortowane wartosci
  for i in range(len(temp)):
    arr[i] = temp[i]
  return arr

In [None]:
arr = generate_data(data_type='random',max_value=10,size =20)
print(arr)
countingSort(arr)
print(arr)

[2, 3, 5, 3, 7, 0, 2, 0, 4, 7, 4, 9, 7, 6, 2, 0, 7, 9, 6, 2]
[0, 0, 0, 2, 2, 2, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 7, 7, 9, 9]


### Implementacja 2 (  Nieujemne wartości i po prostu funkcja max, używamy pop i append(mniej efektywne))

In [None]:
def countingSort(arr):
  max_value = max(arr)
  count = [0] * (max_value + 1)

  while len(arr) > 0:
    num = arr.pop(0)
    count[num] += 1

  for i in range(len(count)):
    while count[i] > 0:
      arr.append(i)
      count[i] -= 1
  return arr


In [None]:
arr = generate_data(data_type='random',max_value=10,size =20)
print(arr)
countingSort(arr)
print(arr)

[5, 6, 1, 10, 8, 8, 3, 6, 2, 7, 7, 9, 9, 4, 1, 8, 4, 8, 5, 5]
[1, 1, 2, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 8, 8, 8, 9, 9, 10]


### Implementacja 3 ( ujemne wartości, liniowe wyszukiwanie wartości najmniejszej i największej )

In [None]:
def countingSort(arr):
  min_,max_ = minmax(arr)
  _countingSort(arr,min_,max_)

def minmax(arr):
  global_min = global_max = arr[-1]

  for i in range(0,len(arr)-1,2):
    if arr[i] > arr[i+1]:
      if arr[i] > global_max: global_max = arr[i]
      if arr[i+1] < global_min: global_min = arr[i+1]
    else:
      if arr[i+1] > global_max: global_max = arr[i+1]
      if arr[i] < global_min: global_min = arr[i]
  return global_min, global_max

def _countingSort(arr,min_,max_):
  arr = arr[:]
  counts = [0] * (max_ - min_ + 1)
  temp = [None] * len(arr)
  for val in arr:
    counts[val - min_] += 1
  #metoda z suma prefiksowa
  for i in range(1, len(counts)):
    counts[i] += counts[i-1]
  for i in range(len(arr)-1, -1, -1):
    counts[arr[i] - min_] -= 1
    temp[counts[arr[i] - min_]] = arr[i]
  for i in range(len(arr)):
    arr[i] = temp [i]
  return arr

In [None]:
test_sorting_algorithms(countingSort)

[-10, 6, 1, -9, 6, -9, -11, -7, 3, 4, -16, -4, -12, -8, -5, 8, -10, -5, -19, -8]
[-19, -16, -12, -11, -10, -10, -9, -9, -8, -8, -7, -5, -5, -4, 1, 3, 4, 6, 6, 8]


## **Radix Sort (Sortowanie pozycyjne)**

### Działanie

1. Zacznij od najmniej znaczącej cyfry (najbardziej prawej cyfry).  
2. Posortuj wartości na podstawie aktualnie analizowanej cyfry – umieszczając je najpierw w odpowiednich "kubełkach" według tej cyfry, a następnie przepisując je z powrotem do tablicy w odpowiedniej kolejności.  
3. Przejdź do kolejnej cyfry i ponownie posortuj dane według tej cyfry, tak jak w poprzednim kroku. Powtarzaj, aż wszystkie cyfry zostaną przetworzone.

### Ograniczenia i założenia

- Dane wejściowe musi się dać podzielić na poszczególne fragmenty, odpowiadające pojednyczej cyfrze (lub pojedynczemu znakowi w przypadku sortowania tekstu),(tylko liczby całkowite)

- Algorytm pomocniczy, przy pomocy którego będziemy sortować wartości według znaków (poszczególnych cyfr), musi mieć niską złożoność i, przede wszystkim, być stabilny (tylko wtedy Radix Sort działa prawidłowo).

### Złożoność czasowa


Każdy przypadek: $ O(d * ( n + b)) $

$ d $ - $ log_b(k)$, gdzie $ k $ - maksymalna wartość w sortowanej tablicy,

$ n $ - liczba elementów w sortowanej tablicy,

$ b $ - podstawa systemu liczbowego, w jakim odbywa się sortowanie (bo tyle elementów będzie miała tablica, służąca do zliczania powrótek wartości (Radix Sort zazwyczaj korzysta z Counting Sorta) (W przypadku sortowania tekstu, jako podstawę przyjmujemy różnicę między największym kodem ASCII liter a najmniejszym (plus **1**
), zwykle będzie to liczba **26**
, ponieważ tyle jest małych liter alfabetu łacińskiego. Samo sortowanie wygląda jednak nieco inaczej niż w przypadku sortowania liczb))

### Złożoność pamięciowa


Każdy przypadek: $ O(n + b) $

$ n $ -  liczba sortowanych elementów (tyle elementów będzie miała tablica temp),

$ b $ - podstawa systemu liczbowego (tyle elementów będzie miała tablica count). Podstawa ta może być dowolna (nie musimy koniecznie sortować liczb dziesiętnych, biorąc za podstawę systemu liczbowego wartość $ b $ = 10)

### Sortowanie w miejscu? - Nie

Zawsze musimy użyć dodatkowej pamięci, która jest zależna od danych wejściowych (tu od liczby elementów do posortowania oraz liczby unikatowych wartości z tego przedziału, do którego należą sortowane wartości).

### Implementacja 1 (dla podstawy 10, pomocniczy - Counting sort, nieujemne całkwoite)

In [None]:
def helperCountingSort(arr, digit_place):
  counts = [0] * 10
  temp = [None] * len(arr)
  for value in arr:
    digit = (value // digit_place) % 10
    counts[digit] += 1
  for i in range(1,10):
    counts[i] += counts[i-1]
  for i in range(len(arr) - 1, -1, -1):
    digit = (arr[i] // digit_place) % 10
    counts[digit] -= 1
    temp[counts[digit]] = arr[i]
  for i in range(len(arr)):
    arr[i]=temp[i]

def radixSort(arr):
  max_value = _max(arr)
  digit_place = 1
  while max_value >= digit_place:
    helperCountingSort(arr, digit_place)
    digit_place *= 10


def _max(arr):
  max_value = arr[0]
  for i in range(1,len(arr)):
    if arr[i] > max_value: max_value = arr[i]
  return max_value

In [None]:
arr = generate_data(data_type='random',max_value=10,size =20)
print(arr)
radixSort(arr)
print(arr)

[3, 1, 10, 10, 3, 8, 6, 9, 6, 6, 2, 9, 6, 4, 5, 9, 5, 8, 6, 8]
[1, 2, 3, 3, 4, 5, 5, 6, 6, 6, 6, 6, 8, 8, 8, 9, 9, 9, 10, 10]


### Implementacja 2 (dowolna podstawa ( w której sortujemy), pomocniczy - Counting sort, nieujemne całkwoite)

In [None]:
def helperCountingSort(arr, base, digit_place):
  counts = [0] * base
  temp = [None] * len(arr)
  for value in arr:
    digit = (value // digit_place) % base
    counts[digit] += 1
  for i in range(1,10):
    counts[i] += counts[i-1]
  for i in range(len(arr) - 1, -1, -1):
    digit = (arr[i] // digit_place) % base
    counts[digit] -= 1
    temp[counts[digit]] = arr[i]
  for i in range(len(arr)):
    arr[i]=temp[i]

def radixSort(arr, base=10): # domyslnie w 10 , mozna zmienic
  max_value = _max(arr)
  digit_place = 1
  while max_value >= digit_place:
    helperCountingSort(arr, base, digit_place)
    digit_place *= base


def _max(arr):
  max_value = arr[0]
  for i in range(1,len(arr)):
    if arr[i] > max_value: max_value = arr[i]
  return max_value

In [None]:
arr = generate_data(data_type='random',max_value=10,size =20)
print(arr)
radixSort(arr)
print(arr)

[0, 10, 7, 9, 10, 7, 3, 7, 7, 4, 0, 2, 0, 5, 8, 3, 1, 4, 0, 6]
[0, 0, 0, 0, 1, 2, 3, 3, 4, 4, 5, 6, 7, 7, 7, 7, 8, 9, 10, 10]


## **Bucket Sort (Sortowanie kubełkowe)**

### Ograniczenia i założenia


- MAMY PEWNOŚĆ, że otrzymujemy dane wejściowe o ROZKŁADZIE JEDNOSTAJNYM. Oznacza to, że każde z wiaderek, na które podzielimy dane wejściowe (w czasie liniowym), będzie zawierało zbliżoną liczbę elementów do pozostałych wiaderek,
- Tak naprawdę algorytm sortowania Bucket Sort sam w sobie nie jest algorytmem sortowania, a jedynie algorytmem, który dzieli dane wejściowe na mniejsze, szybsze i łatwiejsze w sortowaniu zbiory danych,
- Podzielone na wiaderka dane musimy posortować jakimś wydajnym (w zależności od liczby elementów w wiaderku) algorytmem. Jeżeli liczba elementów jest niewielka, najlepiej się sprawdzi uniwersalny algorytm sortowania, jakim jest Insertion Sort (dla małych danych algorytm ten jest szybki, poza tym, jest to stabilny algorytm sortowania, więc możemy otrzymać stabilną wersję Bucket Sorta i jeszcze jedno, dla prawie posortowanych danych, złożoność Insertion Sorta jest liniowa, a więc istnieje największa szansa, że użycie tego prostego algorytmu o średniej złożoności obliczeniowej $ O(n^2) $
, spowoduje posortowanie niektórych wiaderek w czasie liniowym), natomiast dla większych wiaderek, lepiej wykorzystać jakiś algorytm o złożoności $ O(n * log(n)) $
,
- Warto dodać, że jeżeli pojemniki (wiaderka) zawierają liczby całkowite lub ciągi tekstowe, można wykorzystać np. Radix Sorta do posortowania każdego z pojemników lub Counting Sorta, jeżeli zakres liczb jest niewielki, a liczb o powtarzającej się wartości jest dużo,
- Ponieważ nie mamy pewności, ile dokładnie elementów trafi do danego pojemnika, nie opłaca się alokować pamięci "na sztywno" dla każdego z pojemników.

### Działanie

1. Podziel zadany przedział liczb na k podprzedziałów (kubełków) o równej długości.

2. Przypisz liczby z sortowanej tablicy do odpowiednich kubełków.

3. Sortuj liczby w niepustych kubełkach.

4. Wypisz po kolei zawartość niepustych kubełków.

### Złożoność czasowa


#### Najlepszy przypadek

$ O(n + k) $

$ O(n) $ - czas utworzenia kubełków (jest on tyle równy
, ponieważ zawsze liczba kubełków powinna zależeć od wielkości danych wejściowych oraz konieczne jest liniowe przejście po tablicy i umieszczenie wartości w odpowiednich wiaderkach)

 $ O(k) $- czas sortowania wszystkich kubełków (zależny od liczby kubełków) (przyjmujemy, że czas sortowania pojedynczego kubełka jest w przybliżeniu stały, ponieważ zawiera on niewielką liczbę elementów; dokładniej, to skoro $ kn $
, to iloraz $ n/k $

, który wynosi tyle, ile przybliżona liczba elementów, które przypadają na jeden kubełek, jest stały (zwykle ustalamy tę liczbę odgórnie, zamiast liczby kubełków))

UWAGA:
Aby osiągnąć złożoność liniową, musimy ustalić tak wartość $ k $
, aby zależała ona od $ n $
.

#### Najgorszy przypadek

$ O(n^2) $

W praktyce, przy dobrym doborze wiaderek, istnieje niewielka szansa na osiągnięcie złożoności $ O(n^2) $
. Złożoność będzie tym bliższa złożoności pesymistycznej ( $ O(n^2) $
), im więcej wartości trafi do pojedynczego wiaderka (w szczególności, gdy wszystkie wartości znajdą się w jednym wiaderku, a wiaderka sortujemy algorytmem o złożoności $ O(n^2) $
)

### Złożoność pamięciowa


Każdy przypadek: $ O(n + k) $

Zależy od liczby elementów, jakie otrzymujemy w tablicy do posortowania oraz od liczby kubełków, jakie tworzymy. Ponieważ powinniśmy dobrać tak liczbę kubełków  $ k $
, aby $ k = θ(n)$
 (asymptotycznie $ k $
 musi być liniowe względem rozmiaru tablicy do posortowania), otrzymamy złożoność pamięciową $ O(n+n) = O(n) $

### Sortowanie w miejscu? - Nie

Zawsze musimy użyć dodatkowej pamięci, która jest zależna od danych wejściowych (tu od liczby elementów do posortowania oraz liczby wiaderek, która również zależy od wielkości danych wejściowych).

### Implementacja 1 (z góry podana liczba kubełków, przy pomocy Insertion Sort)

In [None]:
def insertionSort(arr):
  for i in range(1,len(arr)):
    key = arr[i]
    j = i - 1
    while j >= 0 and arr[j] > key:
      arr[j+1] = arr[j]
      j -= 1
    arr[j+1] = key
  return arr

def minmax(arr):
  global_min = global_max = arr[-1]

  for i in range(0,len(arr)-1,2):
    if arr[i] > arr[i+1]:
      if arr[i] > global_max: global_max = arr[i]
      if arr[i+1] < global_min: global_min = arr[i+1]
    else:
      if arr[i+1] > global_max: global_max = arr[i+1]
      if arr[i] < global_min: global_min = arr[i]
  return global_min, global_max

def get_bucket_index(num, min_val, bucket_range, k):
  return min(k-1,int((num - min_val) / bucket_range))

def bucketSort(arr,k):
  _min,_max = minmax(arr)
  bucket_range = (_max - _min) / k
  buckets = [[] for _ in range(k)]
  for num in arr:
    idx = get_bucket_index(num, _min, bucket_range, k)
    buckets[idx].append(num)

  sorted_arr = []
  for bucket in buckets:
    #print(bucket)
    sorted_arr.extend(insertionSort(bucket))

  for i in range(len(arr)):
    arr[i]=sorted_arr[i]

In [None]:
arr = generate_data(data_type='random_float',max_value=10,size =20)
print(arr)
bucketSort(arr,10)
print(arr)

[3.65, 9.19, 1.3, 7.39, 7.72, 0.97, 2.3, 6.32, 0.99, 8.5, 3.74, 7.74, 8.22, 8.65, 6.95, 5.58, 6.33, 7.33, 3.5, 1.79]
[0.97, 0.99, 1.3, 1.79, 2.3, 3.5, 3.65, 3.74, 5.58, 6.32, 6.33, 6.95, 7.33, 7.39, 7.72, 7.74, 8.22, 8.5, 8.65, 9.19]
