In [1]:
import numpy as np

# Einführung

Das Modul [**Numpy**](https://numpy.org/doc/stable/index.html) bildet, so kann man sagen, die Grundlage des gesamten *Python Science Stack*. NumPy ist eine *numerische* Programmbibliothek für das Rechnen mit Vektoren und Matrizen. Darüber hinaus bietet NumPy effektive Array Datenstrukturen, sowie Funktionen für numerische Berechnungen.

Auch wenn Sie im täglichen Umgang mit NumPy eher weniger direkt in Berührung kommen, sondern mehr mit Pandas arbeiten werden (siehe Kapitel 4), so nutzt doch letzteres "unter der Haube" jenes NumPy. Mit NumPy ist es sehr leicht Rechenoperationen auf ganze Daten-Arrays anzuwenden, ohne *for-Schleifen* zu benutzen. Es lohnt sich also - in Vorbereitung auf den Umgang mit Pandas ein Grundverständnis von NumPy zu erwerben. Wenn Sie natürlich in ihrer wissenschaftlichen Praxis stärker auf numerische Berechnungen oder lineare Algebra setzen, dann sollten sie sich NumPy noch genauer ansehen.

## Warum NumPy?

Es gibt vor allem zwei Gründe für die Entwicklung von NumPy, die übrigens schon im Jahre 1995 unter dem Acronym *Numeric* begann: einerseits eine effiziente Datenstruktur mit hoher Zugriffszeit, sowie die Möglichkeit des Rechnens mit diesen Datenstrukturen.

Werfen wir zuerst einen Blick auf das Thema Geschwindigkeit. Schreiben wir ein kleine Funktion, die einfach die ganzen Zahlen von 1 bis n summiert.

In [18]:
import time

def sum_integers(n: int) -> tuple:
    start = time.time()
    s = 0
    i = 1
    while i < n:
        s += i
        i += 1
    end = time.time()
    return s, round(end - start, 4)

print(f"while-schleife: {sum_integers(1_000_000)}")

while-schleife: (499999500000, 0.1252)


Anstatt einer "billigen" while-schleife sollten wir vielleicht besser integrierte Python Funktionen wie die `sum()` Funktion oder *List-Comprehensions* verwenden, da diese auf angepassten C-Code basieren?

In [14]:
def sum_integers_py(n: int) -> tuple:
    start = time.time()
    l = sum(range(n))
    end = time.time()
    return l, round(end - start, 4)

print(f"Python Funktion: {sum_integers_py(1_000_000)}")

Python Funktion: (499999500000, 0.0276)


Das sieht. Probieren wir das ganze noch mit NumPy aus.

In [15]:
def sum_integers_numpy(n: int) -> tuple:
    start = time.time()
    l = np.array(np.arange(n)).sum()
    end = time.time()
    return l, round(end - start, 4)

print(f"NumPy Funktion: {sum_integers_numpy(1_000_000)}")

NumPy Funktion: (499999500000, 0.0091)


Wir sehen, dass NumPy die Ausführung von Code verzehn- bis verhundertfachen kann.

Ein weiterer Punkt ist die Einfache Anwendung von Rechenoperationen auf ganze Arrays, auch mehrdimensionale.