# Bucket Sort

### Imports

In [1]:
import numpy as np
import sys

## De split
Hier worden de positieve en negatieve getallen van elkaar gescheiden, daarna worden de negatieve getallen postieve gemaakt. Nadat de positieve en negatieve (tijdelijk positief) getallen gesorteerd zijn, worden de negatieve getallen weer negatief gemaakt en daarna worden ze omgedraaid. Dat allemaal om daarna weer samen gevoegd te worden met de andere lijst. Als dat allemaal gebuirt is is de lijst gesorteerd.

In [2]:
def bucket_sort_split(data):
    
    negatieve = []
    positieve = []
    for i in data: 
        if i < 0: 
            negatieve.append(i) 
        else:
            positieve.append(i)
            
    positieve_negatieve = [ -1 * x for x in negatieve]
    
    sorteer_negatieve = bucket_sort(positieve_negatieve)
    sorteer_positieve = bucket_sort(positieve)
    
    sorteer_negatieve = [ -x for x in sorteer_negatieve]
    
    sorteer_negatieve = sorteer_negatieve[::-1]
    
    return sorteer_negatieve + sorteer_positieve

## Het sorteren
Hier worden de lijsten gesorteerd, eerst word er gekeken wat het langste getal is en de buckets worden aangemaakt. Daarna komt er een for-loop, in die for-loop word eerst gekeken of de lengte van getal 'i' kleiner is dan de teller. Als dat het geval is, word er gekekeken naar het laatste nummer van het getal, gebasseerd op het laastste getal wordt het in een bucket gedaan. Nadat alle getallen in de lijst geweest zijn gaat de teller één omhoog (de teller is dan 1, dan wordt de volgende loop gekeken naar het één-na-laatste getal) en wordt de bucket toegevoegd aan een nieuwe array. Als de max_lengte (lengte van langste getal) nog niet behaald is door de teller gaat de functie nog een keer runnen met de nieuwe data. Als een van de getallen niet kleiner is dan de teller wordt het getal automatisch in de meest linker bucket gedaan (0 dus). Dit allemaal om de getallen in de goede volgorde te krijgen. Hieronder een voorbeeld met de getallen: 324, 1 en 35. ![alt text](bucketsort.png "Title")

In [3]:
def bucket_sort(data, teller=0):
 
    #teller = 0 dit werkt niet, wordt elke keer weer naarr 0 gezet, daarom in parameter van func
    max_lengte = len(str(max(data)))

    if len(data) == 0:
        print('Er is geen data ingevoerd')

    maak_buckets = [[], [], [], [], [], [], [], [], [], []]

    for i in data:

        if (teller >= len(str(i))):
            maak_buckets[0].append(i)
        else:
            laatste_nummer = str(i)[-1 - teller]
            bucket_nummer = int(laatste_nummer)
            maak_buckets[bucket_nummer].append(i)
            
    teller += 1

    data2 = []
    for i in maak_buckets:
        data2 += i

    if teller >= max_lengte:
        return data2
    else: 
        return bucket_sort(data2, teller=teller)

In [4]:
bucket_sort_split([12, 4, -324, -1, 85, 64, -35, 6451512, 122])

[-324, -35, -1, 4, 12, 64, 85, 122, 6451512]

## Lijsten maken
Hier maak ik de arrays aan om de Bucket Sort te testen op grote arrays.

In [5]:
duizend = np.random.randint(-1000000, 1000000, size=1000)
tien_duizend = np.random.randint(-1000000, 1000000, size=10000)
dertig_duizend = np.random.randint(-1000000, 1000000, size=100000)
miljoen = np.random.randint(-1000000, 1000000, size=1000000)
# miljard = np.random.randint(-1000000, 1000000, size=1000000000) doe maar niet...

## Testing
Hier test ik of de Bucket List sort het goed gesorteerd heeft, dat doe ik door het te vergelijken met de ingebouwde sorteer functie van Python.

In [6]:
bucket_sort_split(duizend) == sorted(duizend)

True

In [7]:
bucket_sort_split(tien_duizend) == sorted(tien_duizend)

True

In [8]:
bucket_sort_split(dertig_duizend) == sorted(dertig_duizend)

True

In [9]:
bucket_sort_split(miljoen) == sorted(miljoen)

True

### Conclusie
De conclusie van dit mini-onderzoek is dat de Bucket Sort alle drie de arrays goed gesorteerd heeft.

## Hoelang duurt het?
In de volgende paar blokjes gaan we kijken hoelang de functie er over doet om alles goed te sorteren.

In [10]:
%timeit bucket_sort_split(duizend)

8.16 ms ± 347 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [11]:
%timeit bucket_sort_split(tien_duizend)

82.3 ms ± 1.77 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [12]:
%timeit bucket_sort_split(dertig_duizend)

799 ms ± 15.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [13]:
%timeit bucket_sort_split(miljoen)

8.89 s ± 181 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## Hoeveel ruimte neemt het in?
Hier gaan we kijken hoeveel ruimte de functie inneemt met verschillende lengte arrays. We kijken naar het aantal Bytes dat het geheugen gebruikt.

In [14]:
sys.getsizeof(bucket_sort_split(duizend))

8056

In [15]:
sys.getsizeof(bucket_sort_split(tien_duizend))

80056

In [16]:
sys.getsizeof(bucket_sort_split(dertig_duizend))

800056

In [17]:
sys.getsizeof(bucket_sort_split(miljoen))

8000056

# Big O
Hier zou ik graag nog wat feedback/uitleg over krijgen.