# Datenstrukturen - Motivationsbeispiel

In diesem Notebook zeigen wir, dass die Wahl der richtigen Datenstruktur die Laufzeit unserer Programme massgeblich beeinflussen kann. Die Details der verwendeten Datenstrukturen, und weshalb das Resultat zustande kommt, ist an dieser Stelle noch unwesentlich. Wir werden das später in der Vorlesung detailliert untersuchen. 

### Beispiel: Implementation einer WorkQueue

Ein typisches Muster in vielen Anwendungen ist, dass zwei oder mehrere Prozesse parallel arbeiten. Dabei erzeugt der eine Prozess Resultate, die dann von einem weiteren Prozess weiterverarbeitet werden. Die Arbeit zwischen den Prozessen wird dann mithilfe eines Zwischenspeichers, einer sogenannten *WorkQueue* synchronisiert. Wenn immer ein Resultat bereit ist, wird dies in die *WorkQueue* geschrieben. Der Prozess, der die Resultate verarbeitet, arbeitet dann einfach alle in dieser Queue vorhandenen Resultate ab. 

Wir zeigen zwei einfache Implementationen einer solchen WorkQueue. In der ersten verwenden wir Listen, in der zweiten eine spezielle Datenstruktur in Python, nämlich eine *DoubleEndedQueue (Deque)*.

In [58]:
class WorkQueueWithList:
    
    def __init__(self):
        self.items = []
        
    def add_work(self, work):
        self.items.insert(0, work)
        
    def get_work(self):
        return self.pop()
    
    def is_empty(self):
        return 

In [60]:
from collections import deque  
class WorkQueueWithDeque:
    
    def __init__(self):
        self.items = deque()
        
    def add_work(self, work):
        self.items.appendleft(work)
        
    def get_work(self):
        return self.popRight()
    
    def is_empty(self):
        return len(self.items) == 0

Wir sehen, dass die Implementation mit beiden Datenstrukturen gleich einfach ist. In der Tat ist die Implementation mit der Liste sogar etwas einfacher, da wir auf den Import verzichten können. 
Gibt es also einen Grund eine der Implementationen zu bevorzugen?

Um diese Frage zu beantworten, schreiben wir ein Testprogramm, welche Resultate in diese Queue schreibt und dann wieder  konsumiert. 

In [61]:
def work(work_queue): 
    for i in range(0, 200000):
        work_queue.add_work(i)
    
    while not work_queue.is_empty:
        work_queue.get_work()
        # do something


Wir können dieses Programm nun mit jeder der WorkQueues laufen lassen und die Zeit messen, die wir für die Ausführung brauchen. 

In [62]:
import timeit

start = timeit.default_timer()
work(WorkQueueWithDeque())
stop = timeit.default_timer()

print("Time using WorkQueueWithDeque: ", stop - start)  

Time using WorkQueueWithDeque:  0.027806300000065676


In [63]:
import timeit

start = timeit.default_timer()
work(WorkQueueWithList())
stop = timeit.default_timer()

print("Time using WorkQueueWithList: ", stop - start)  

Time using WorkQueueWithList:  9.55412780000006


Wie wir sehen, macht es einen gewaltigen Unterschied, welche Datenstruktur wir nutzen. Wenn wir uns einfach auf die in Python mitgelieferte Listen Datenstruktur verlassen, dann wird unser Programm sehr ineffizient. Wenn wir aber eine, für diese Aufgabe, geeignete Datensturkur, wie die *deque* verwenden, können wir diese Aufgabe sehr effizient lösen. 