## Bucket sort

Plaats elke waarde van de een-dimensionale array in een rij van de bucket array,
gebaseerd op het meest rechtse cijfer in het getal (de "een"-waarde). 
Bijvoorbeeld, 97 wordt geplaatst in rij 7, 3 wordt geplaatst in rij 3 en 100 wordt geplaatst in rij 0. 
Deze stap heet de distribution pass.


Loop door de bucket array rij voor rij, en kopieer de waardes terug in de originele array. 
Deze stap heet de gathering pass. De volgorde van de hierboven genoemde getallen is dus nu 100, 3, 97.

Herhaal dit proces voor elke volgende digit-positie (dus voor de tientallen, honderdtallen, etc.). 
Na de laatste gathering pass is de array gesorteerd.

---  
        # Pseudocode #
       
        function bucketSort(Array)
            n = Array.lenght
            let B[0,...,n-1] be a new array
            for i in 0 to n - 1 
                B[i] <-- 0
            for i = 1 to n
                B[[nArray[i]]] <-- Array[i]
            for i = 0 to n - 1 
                sort list B[i] using insertion sort
            concatenate the lists B[0],B[1],...,B[n-1]
            return B 
            


- array index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
- element     | n | . | . | . | . | . | . | . | . | . |
---
- (123/1) % 10 = 3
- (123/10) % 10 = 2
- (123/100) % 10 = 1

---
Literatuurlijst: 
- https://www.growingwiththeweb.com/2015/06/bucket-sort.html
- https://www.cs.umd.edu/class/fall2019/cmsc351-0101/files/bucketSort.pdf

In [1]:
from numpy import random
import math
import timeit

In [2]:
def generate_random_list(num_steps):
    """Generate list with random numbers with 1 to n digits"""
    lijst = [random.randint(1,1000) for x in range(num_steps)]
    print("List with all the random numbers: {}".format(lijst))
    return lijst

# def index(number, n):
#         return (number // 10**n) % 10

def generate_buckets(n):
    """Generate x buckets"""
    buckets_list = []
    i = 0
    while(i<n):
        buckets_list.append([])
        i+=1
    return buckets_list

def bucket_sort(lijst):
    """Distribution step"""
    n = len(lijst)
    
    if n == 0:
        return lijst
    
    index = 10
    for i in range(len(str(max(lijst)))):
        generated_buckets = generate_buckets(n)
        for j in lijst:
            generated_buckets[(j % index) // (index // 10)].append(j)
        index = index * 10
        
        """Gathering step"""
        lijst = []
        for i in generated_buckets:
            for j in i:
                lijst.append(j)
        
        
    print("List with sorted random numbers: {}".format(lijst))
    
#     return lijst

In [3]:
bucket_sort(generate_random_list(10))

List with all the random numbers: [581, 577, 975, 749, 558, 220, 970, 814, 46, 756]
List with sorted random numbers: [46, 220, 558, 577, 581, 749, 756, 814, 970, 975]


## Theorie

- Best case: O(n+k)
- Average case: O(n+k)
---
Als de getallen in de lijst zo zijn gegenereerd dat er per bucket maar 1 getal voorkomt waardoor het eigenlijk al is gesorteerd en je per bucket niet meer hoeft te sorteren. 


---- 
- Worst case: O(n^2)

De worst case is wanneer de meeste getallen in de lijst bij elkaar in de zelfde bucket komen. Stel je hebt de getallen 12,22,32,42,52,62, dan komen ze allemaal in dezelfde bucket (2) en duurt het langer om te sorteren.

---- 

In [4]:
def timer(function):
    start_time = timeit.default_timer()
    function
    print('This algorithm took {:.10f} seconds'.format((timeit.default_timer() - start_time)))

In [5]:
timer(bucket_sort(generate_random_list(10)))

List with all the random numbers: [380, 119, 370, 988, 606, 544, 884, 896, 768, 711]
List with sorted random numbers: [119, 370, 380, 544, 606, 711, 768, 884, 896, 988]
This algorithm took 0.0000007520 seconds
