In [2]:
from modules.sorting import selection_sort, insertion_sort, merge_sort
from modules.timing import get_timing
from modules.helpers import generate_random_int_list
import matplotlib.pyplot as plt

In [None]:
print("Three random lists with different sizes:\n")
onethousand = generate_random_int_list(1000)
tenthousand = generate_random_int_list(10000)
thirtythousand = generate_random_int_list(30000)

print(get_timing(selection_sort, [onethousand, tenthousand, thirtythousand])[0])
print(get_timing(insertion_sort, [onethousand, tenthousand, thirtythousand])[0])
print(get_timing(merge_sort, [onethousand, tenthousand, thirtythousand])[0])

Three random lists with different sizes:



In [None]:
print("Sorted list:\n")
thirtythousand = list(range(1, 30001))

print(get_timing(selection_sort, [thirtythousand])[0])
print(get_timing(insertion_sort, [thirtythousand])[0])
print(get_timing(merge_sort, [thirtythousand])[0])

In [None]:
print("Reversed sorted list:\n")
thirtythousand_reversed = list(range(1, 30001))[::-1]

print(get_timing(selection_sort, [thirtythousand_reversed])[0])
print(get_timing(insertion_sort, [thirtythousand_reversed])[0])
print(get_timing(merge_sort, [thirtythousand_reversed])[0])

### Worst-, Average- and Best-Case Scenarios

##### Selection sort

Selection sort heeft een tijds complexiteit van O(n^2) voor zowel best, average en worst case scenario's. In dit algoritme wordt een nested for loop gebruikt. De upper loop gaat door de gehele lijst heen, en de loop daaronder doet dit ook, maar hoeft een steeds kortere lijst te doorlopen omdat de elementen voor het huidige element van de upper loop al gesorteerd zijn. Omdat dit algoritme ervoor zorgt dat er veel acties en een nested loop vereist zijn en is het een erg langzaam sorteer algoritme. De grootte van de lijst heeft impact op het runtime van het algoritme omdat deze een exponentieel verloop heeft. 

Hieronder is te zien in een test hoe de runtime kwadratisch i.p.v. linear oploopt:

In [None]:
# print and plot timings
tests = [generate_random_int_list(i) for i in range(1, 1000, 10)]
timings = get_timing(function=selection_sort, parameters=tests, repeat=10)
plt.plot(list(timings[1].keys()), list(timings[1].values()))
plt.xlabel("List size")
plt.ylabel("Time in sec")
plt.show()

##### Insertion sort

Insertion sort heeft een average en worst tijds complexiteit van O(n^2). Dit algoritme lijkt erg veel op het selection sort algoritme. Ook dit algoritme heeft een nested loop waar de efficientie/snelheid erg laag van wordt. Het algoritme gaat voor elk element in de lijst kijken of deze op de goede plek staat. Is dit niet het geval, plaatst deze dit element net zo lang naar links tot het element groter is dan de linker buurman. Dit betekent dat er een while loop in een for loop zit. Ook bij dit algoritme heeft de grootte van de lijst impact op het runtime van het algoritme omdat deze een exponentieel verloop heeft. 

In het geval dat een lijst al gesorteerd is, is dit algoritme juist zeer snel. Het algoritme loopt de lijst door en hoeft steeds maar 1 keer te vergelijken met de linkerbuurman, en hoeft geen acties te ondernemen. Daardoor heeft insertion sort een best-case tijdscomplexiteit van O(n).

Hieronder is te zien in een test hoe de runtime kwadratisch i.p.v. linear oploopt:

In [None]:
# print and plot timings
tests = [generate_random_int_list(i) for i in range(1, 1000, 10)]
timings = get_timing(function=insertion_sort, parameters=tests, repeat=10)
plt.plot(list(timings[1].keys()), list(timings[1].values()))
plt.xlabel("List size")
plt.ylabel("Time in sec")
plt.show()

##### Merge sort

Merge sort begint niet met een for loop door alle elementen te lopen zoals selection en insertion sort. Dit algoritme is compleet anders. Merge sort splitst als eerst de lijst in tweeen, en splitst deze 2 delen net zolang tot elk element in een eigen lijst zit. Vanaf onderaf worden alle lijsten weer gesorteerd samengevoegd volgens dezelfde tak als waar ze vandaan kwamen. Als eerst worden deze lijsten met 1 element gesorteerd samengevoegd tot paren. Er worden tijdens het naar boven lijsten vergelijken, steeds 2 lijsten met elkaar vergeleken, waarbij het linkerelement van beide lijsten vergeleken wordt, en deze elementen gesorteerd in de lijst erboven worden samengevoegd. Omdat de paren aan het begin al waren gesorteerd, hoeft het rechterelement van de rechter lijst nooit vergeleken te worden. Dit algoritme is linear en veel efficienter dan bovenstaande algoritmes. Het gebruikt wel meer geheugen omdat er met veel lijsten gewerkt wordt. Het algoritme is niet afhankelijk van (de grootte van) de input en heeft daardoor altijd een tijdscomplexiteit van O(n log(n))

Hieronder is te zien in een test hoe de runtime linear i.p.v. kwadratisch oploopt:

In [None]:
# print and plot timings
tests = [generate_random_int_list(i) for i in range(1, 500, 10)]
timings = get_timing(function=merge_sort, parameters=tests, repeat=100)
plt.plot(list(timings[1].keys()), list(timings[1].values()))
plt.xlabel("List size")
plt.ylabel("Time in sec")
plt.show()

### Time difference between recursion and iteration

There is no notable difference between recursion and iteration run times. Sometimes recursive methods can be a bit slower due to a lot of function calls, but this depends on the programming language (how code is compiled and run). On the other hand, recursive methods are easier to read and express. Recursive functions generally do use more memory, so recursion depth errors may occur, which makes it unusable for some scenarios.