## Speedtest

In diesem Notebook soll anhand der Summenberechnung dargestellt werden, warum es manchmal sinnvoll ist auf bestimmte Module/Packete zurückzugreifen. Packete stellen Funktionalität bereit, die meist für eine spezielle Anwendung optimiert. In unserem Fall, in dem es um die Verarbeitung von größeren Datenmengen und die Durchführung von einer vielzahl an Berechnungen geht, ist auch die Verarbeitungsgeschwindigkeit von Bedeutung.

Wir wollen zunächst die Module/Packete *numpy* und *pandas* für die Organisation der Daten nutzen.

Am Beispiel dieses 'Speedtests' soll gezeigt werden, dass es nicht unerhebliche Unterschiede in der Berechnungsgeschwindigkeit zwischen unterschiedlichen Lösungen gibt. Es soll anhand der einfachen Berechnung einer Summe gezeigt werden.

Es wird verglichen:
- die manuelle Berechnung der Summe mittels einer 'for loop'
- die Berechnung der Summe mittels der Python Funktion 'sum()'
- die Berechnung der Summe innerhalb eines 'numpy arrays' und der numpy array Funktion sum()
- die Berechnung der Summe innerhalb eines 'pandas dataframes' und der dataframe object Funktion sum()

Wir führen jede Messung 'num_experiements' mal durch, um stabilere Ergebnisse zu bekommen.

In [None]:
import time # für die Zeitmessung
import numpy as np
import pandas as pd

In [None]:
n = 5000000
num_expiriments = 10

### Der manuelle Versuch der Summenbildung:
(ohne auf die Summenfunktion von Python zurückzugreifen)

In [None]:
python_array = [1] * n # array mit n Einträgen

In [None]:
len(python_array)

In [None]:
time_loop = 0

for exp in range(0, num_expiriments):
    start = time.time() # startzeit

    summe = 0
    for x in range(0, n):
        summe += python_array[x] 

    end = time.time() # endzeit

    # Berechnung der Dauer für diesen durchlauf
    time_loop += end - start

# Berechne die durchschnittliche Dauer pro Experiment
avg_time_loop = time_loop / float(num_expiriments)
    
print("Durchschnittliche Dauer: " + str(avg_time_loop) + " s") # str() convertiert die Zahlen in einen String 

In [None]:
summe

---

### Die Umsetzung mit Hilfer der Summenfunktion von Python

In [None]:
time_pySum = 0

for exp in range(0, num_expiriments):
    start = time.time() # startzeit

    summe_py = sum(python_array)
    end = time.time() # endzeit

    # Berechnung der Dauer und formatierte Ausgabe
    time_pySum += end - start
        
# Berechne die durchschnittliche Dauer pro Experiment
avg_time_pySum = time_pySum / float(num_expiriments)
    
print("Durchschnittliche Dauer: " + str(avg_time_pySum) + " s")

In [None]:
summe_py

---

### Die Umsetzung mit numpy

In [None]:
numpy_array = np.ones(n)

In [None]:
numpy_array.size

In [None]:
time_np = 0

for exp in range(0, num_expiriments):
    start = time.time() # startzeit

    summe_np = numpy_array.sum()

    end = time.time() # endzeit

    # Berechnung der Dauer für diese Iteration
    time_np += end - start
  
# Berechne die durchschnittliche Dauer pro Experiment
avg_time_np = time_np / float(num_expiriments)
    
print("Durchschnittliche Dauer: " + str(avg_time_np) + " s")

In [None]:
summe_np

---

### Die Umsetzung mit Pandas

In [None]:
pandas_df = pd.DataFrame(np.ones(n)) 

In [None]:
time_pd = 0
for exp in range(0, num_expiriments):
    start = time.time() # startzeit

    summe_pd = pandas_df.sum()

    end = time.time() # endzeit

    # Berechnung der Dauer für diese Iteration
    time_pd += end - start

# Berechne die durchschnittliche Dauer pro Experiment
avg_time_pd = time_pd / float(num_expiriments)
    
print(str(avg_time_pd) + " s")

---

### Results

In [None]:
print("Speedup Python-Summe vs. Summenbildung mittels for-Schleife: ")
print(avg_time_loop / avg_time_pySum)

In [None]:
print("Speedup Pandas vs. Python-Summe: ")
print(avg_time_pySum / avg_time_pd)

In [None]:
print("Speedup Numpy vs. Pandas-Summe: ")
print(avg_time_pd / avg_time_np)

In [None]:
print("Speedup Numpy vs. Python-Summe: ")
print(avg_time_pySum / avg_time_np)

In [None]:
print("Speedup Numpy vs. Loop-Summe: ")
print(avg_time_loop / avg_time_np)

Die Berechnung auf den numpy arrays ist mit Abstand am schnellsten. Die manuelle Berechnung mittels der for-Schleife dauert mit Abstand am längsten. Der Unterschied zwischen Pandas und der Python Summe ist relativ zu den anderen Ergebnissen gering.
Für die Berechnung eignen sich also numpy arrays am besten, allerding bieten Pandas Dataframes andere Vorteile in der Verwaltung und Organistation der Daten. 