## Bucket sort

Plaats elke waarde van de een-dimensionale array in een rij van de bucket array,
gebaseerd op het meest rechtse cijfer in het getal (de "een"-waarde). 
Bijvoorbeeld, 97 wordt geplaatst in rij 7, 3 wordt geplaatst in rij 3 en 100 wordt geplaatst in rij 0. 
Deze stap heet de distribution pass.
        
        rechter getal wordt genomen door: 
                            (element % 10 ** digits)

Loop door de bucket array rij voor rij, en kopieer de waardes terug in de originele array. 
Deze stap heet de gathering pass. De volgorde van de hierboven genoemde getallen is dus nu 100, 3, 97.

Herhaal dit proces voor elke volgende digit-positie (dus voor de tientallen, honderdtallen, etc.). 
Na de laatste gathering pass is de array gesorteerd.

- array index | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
- element     | n | . | . | . | . | . | . | . | . | . |

floor ( ( max ( lijst ) + 1 ) / bucket )

Bron: https://www.growingwiththeweb.com/2015/06/bucket-sort.html

In [41]:
from numpy import random
import math
import timeit

In [5]:
def generate_random_list(num_steps):
    lijst = [random.randint(1,100) for x in range(num_steps)]
    return lijst

lijst = generate_random_list(10)

In [43]:
def bucket_sort(lijst,num_steps):
    """make 10 buckets in which the integers will be sorted, from 0 to 9"""
    buckets_list = []
    i = 0
    while(i<num_steps):
        buckets_list.append([])
        i+=1
#     print(buckets_list)

    max_value = max(lijst)
    
    """sort each item in list to bucket"""
    for i in lijst:
        num = (int(math.ceil((i/max_value)*len(buckets_list))))
        buckets_list[num-1].append(i)
#     print(buckets_list)
    
    out_bucket = [num for bucket in buckets_list for num in sorted(bucket)]
#     print(out_bucket)
    
    return out_bucket

In [44]:
bucket_sort(lijst,10)

[11, 14, 15, 28, 40, 46, 47, 55, 61, 62]

## Theorie

- Best case: O(n+k)
- Average case: O(n+k)
---
Als de getallen in de lijst zo zijn gegenereerd dat er per bucket maar 1 getal voorkomt waardoor het eigenlijk al is gesorteerd en je per bucket niet meer hoeft te sorteren. 


---- 
- Worst case: O(n^2)

De worst case is wanneer de meeste getallen in de lijst bij elkaar in de zelfde bucket komen. Stel je hebt de getallen 12,22,32,42,52,62, dan komen ze allemaal in dezelfde bucket (2) en duurt het langer om te sorteren.

---- 

In [45]:
def timer(function):
    start_time = timeit.default_timer()
    function
    print('This algorithm took {:.10f} seconds'.format((timeit.default_timer() - start_time)))

In [46]:
timer(bucket_sort(lijst,10))

This algorithm took 0.0000007050 seconds
