# Opdracht 1.5: Bucket Sort

Hieronder is een implementatie geschreven van het Bucket Sort algoritme voor het sorteren van gehele getallen.  
  
Wat betreft complexiteit heeft dit algoritme een Big O complexiteit van $\mathcal{O}(n)$. Dit komt mede tot stand omdat er constant maar één keer over een gehele array wordt gegaan. Wel moet worden meegenomen dat de buckets die gebouwd worden een niet uniforme lengte kunnen hebben waardoor de complexiteit eventueel als een vorm van $\mathcal{O}(n + k)$ geschreven zou kunnen worden. Echter zal dan het element die het hevigst meeweegt gekozen worden waardoor de complexiteit uiteindelijk geschreven kan worden als $\mathcal{O}(n)$.  
  
Voor dit algoritme maakt het ook niet uit of de array die gesorteerd moet worden al gesorteerd is of omgedraaid is. Het algoritme zal constant de array opdelen in buckets volgens de grootte van de veelvoud van 10 en hem opnieuw in elkaar zetten.


In [1]:
from typing import List
import numpy as np
import time

In [2]:
def distribution_pass(data, j):
    """Place every value in a bucket"""
    # build the buckets
    buckets = {x:[] for x in range(10)}

    # put array elements in different buckets
    for x in data:
        index_b = int((x / j)) % 10
        buckets[index_b].append(x)
    
    # return the buckets
    return buckets

        
def gathering_pass(buckets):
    """Gathers all buckets and copies them into the original array"""
    # empty the array
    result_data = []

    # gather and append all buckets
    for key in buckets:
        result_data += buckets[key]
    
    return result_data

            
def bucket_sort(data: List[int]) -> List[int]:
    """Sorts the given array via bucket_sort"""

    if len(data) == 0:
        # the given array is empty
        return []
    
    # get the length of the max digit
    max_length = len(str(max(map(abs, data))))

    # filter the positive and negative data
    pos_array = list(filter(lambda x: x >= 0, data))
    neg_array = list(filter(lambda x: x < 0, data))
    
    # turn the negative data into positives
    neg_array = list(map(abs, neg_array))

    # loop over the length of the max digit and repeat the steps of bucket sort
    for j in [10**x for x in range(0, max_length)]:
        
        # steps for positive array
        pos_array = gathering_pass(distribution_pass(pos_array, j))
        
        # steps for negative array
        neg_array = gathering_pass(distribution_pass(neg_array, j))
    
    # turn the negative array back to negatives and reverse it
    neg_array = list(map(lambda x: x * -1, neg_array))[::-1]
    
    # return the concatenated sorted lists
    return neg_array + pos_array

Hieronder worden de tijden geplot van bucket sort bij een variabele hoeveelheid meetwaarden met random en gesorteerde lijsten.

In [3]:
n = [1000, 10000, 30000]

for x in n:
    time1 = time.time()
    bucket_sort(np.random.randint(low=0, high=x+1, size=x))
    time2 = time.time()
    print('{:s} function with {} took {:.3f} sec'.format('bucket sort', x, (time2-time1)))

bucket sort function with 1000 took 0.010 sec
bucket sort function with 10000 took 0.089 sec
bucket sort function with 30000 took 0.338 sec


In [4]:
algorithm = 'bucket sort'
n = 30000

time1 = time.time()
bucket_sort(np.arange(0, n+1, 1)).sort()
time2 = time.time()
print('{:s} function with {} (sorted) took {:.3f} sec'.format(algorithm, n, (time2-time1)))

time1 = time.time()
bucket_sort(np.arange(n, -1, -1)).sort()
time2 = time.time()
print('{:s} function with {} (reversed) took {:.3f} sec'.format(algorithm, n, (time2-time1)))

bucket sort function with 30000 (sorted) took 0.290 sec
bucket sort function with 30000 (reversed) took 0.272 sec
