In [2]:
import numpy as np

# Einführung

Das Modul [**Numpy**](https://numpy.org/doc/stable/index.html) bildet, so kann man sagen, die Grundlage des gesamten *Python Science Stack*. NumPy ist eine *numerische* Programmbibliothek für das Rechnen mit Vektoren und Matrizen. Darüber hinaus bietet NumPy effektive Array Datenstrukturen, sowie Funktionen für numerische Berechnungen.

Auch wenn Sie im täglichen Umgang mit NumPy eher weniger direkt in Berührung kommen, sondern mehr mit Pandas arbeiten werden (siehe Kapitel 4), so nutzt doch letzteres "unter der Haube" jenes NumPy. Mit NumPy ist es sehr leicht Rechenoperationen auf ganze Daten-Arrays anzuwenden, ohne *for-Schleifen* zu benutzen. Es lohnt sich also - in Vorbereitung auf den Umgang mit Pandas ein Grundverständnis von NumPy zu erwerben. Wenn Sie natürlich in ihrer wissenschaftlichen Praxis stärker auf numerische Berechnungen oder lineare Algebra setzen, dann sollten sie sich NumPy noch genauer ansehen.

## Warum NumPy?

Es gibt vor allem zwei Gründe für die Entwicklung von NumPy, die übrigens schon im Jahre 1995 unter dem Acronym *Numeric* begann: einerseits eine effiziente Datenstruktur mit hoher Zugriffszeit, sowie die Möglichkeit des Rechnens mit diesen Datenstrukturen.

Werfen wir zuerst einen Blick auf das Thema Geschwindigkeit. Schreiben wir ein kleine Funktion, die einfach die ganzen Zahlen von 1 bis n summiert.

In [4]:
import time

def sum_integers(n: int) -> tuple:
    start = time.perf_counter()
    s = 0
    i = 1
    while i < n:
        s += i
        i += 1
    end = time.perf_counter()
    return s, round(end - start, 4)

print(f"while-schleife: {sum_integers(1_000_000)}")

while-schleife: (499999500000, 0.1241)


Anstatt einer "billigen" while-schleife sollten wir vielleicht besser integrierte Python Funktionen wie die `sum()` Funktion oder *List-Comprehensions* verwenden, da diese auf angepassten C-Code basieren?

In [5]:
def sum_integers_py(n: int) -> tuple:
    start = time.perf_counter()
    l = sum(range(n))
    end = time.perf_counter()
    return l, round(end - start, 4)

print(f"Python Funktion: {sum_integers_py(1_000_000)}")

Python Funktion: (499999500000, 0.0274)


Das sieht. Probieren wir das ganze noch mit NumPy aus.

In [8]:
def sum_integers_numpy(n: int) -> tuple:
    start = time.perf_counter()
    l = np.array(np.arange(n)).sum()
    end = time.perf_counter()
    return l, round(end - start, 4)

print(f"NumPy Funktion: {sum_integers_numpy(1_000_000)}")

NumPy Funktion: (499999500000, 0.0152)


Wir sehen, dass NumPy die Ausführung von Code erheblich verbessern kann. Bei komplexeren Algorithmen und Berechnung kann NumPy die Ausführung sogar um den Faktor 100 verbessern.

Ein weiterer Punkt ist die einfache Anwendung von Rechenoperationen auf ganze Arrays, auch mehrdimensionale. Stellen wir uns eine zwei Vektoren mit Ganzzahlen vor, deren Elemente wir in Python paarweise addieren wollen. In reinem Python müsste man etwas wie folgt schreiben (ausserdem messen wir mal wieder die Zeit:

In [23]:
from typing import List
import random

def add_vectors(v1: List[int], v2: List[int]) -> tuple:
    start = time.perf_counter()

    assert len(v1) == len(v2), "Beide Vektoren müssen gleich lang sein!"
    output = [v1[i] + v2[i] for i, _ in enumerate(v1)]

    end = time.perf_counter()

    return round(end - start, 6), output

vec1 = [random.choices(range(1, 10), k=1_000_000)]
vec2 = [random.choices(range(1, 10), k=1_000_000)]

add_vectors(vec1, vec2)

(0.023561,
 [[4,
   5,
   2,
   7,
   8,
   7,
   8,
   2,
   1,
   8,
   3,
   5,
   7,
   3,
   8,
   3,
   2,
   7,
   1,
   7,
   9,
   8,
   1,
   3,
   6,
   4,
   1,
   4,
   2,
   4,
   6,
   6,
   3,
   9,
   4,
   8,
   4,
   1,
   5,
   2,
   1,
   6,
   5,
   9,
   6,
   5,
   4,
   6,
   6,
   3,
   1,
   5,
   9,
   4,
   1,
   8,
   1,
   6,
   9,
   1,
   3,
   4,
   7,
   3,
   7,
   9,
   3,
   8,
   1,
   2,
   8,
   5,
   1,
   6,
   2,
   2,
   3,
   6,
   7,
   6,
   3,
   2,
   3,
   7,
   1,
   7,
   6,
   8,
   9,
   2,
   2,
   4,
   5,
   2,
   4,
   6,
   5,
   5,
   2,
   5,
   9,
   6,
   6,
   9,
   3,
   9,
   5,
   9,
   1,
   5,
   8,
   4,
   3,
   3,
   6,
   8,
   6,
   2,
   8,
   7,
   8,
   9,
   5,
   7,
   3,
   9,
   8,
   5,
   2,
   5,
   2,
   2,
   1,
   7,
   6,
   9,
   2,
   8,
   2,
   2,
   4,
   5,
   2,
   4,
   5,
   9,
   2,
   9,
   7,
   7,
   1,
   4,
   6,
   3,
   6,
   3,
   7,
   5,
   6,
   2,
   6,
   7,
   2,
   9,
   6,

Mit NumPy ist der Code wesentlich simpler und auch schneller.

In [20]:
def add_vectors_np(np_arr1, np_arr2) -> tuple:
    start = time.perf_counter()

    output = np_arr1 + np_arr2 # das ist alles!!

    end = time.perf_counter()
    return round(end - start, 6), output

np_vec1 = np.random.randint(low=1, high=9, size=1_000_000)
np_vec2 = np.random.randint(low=1, high=9, size=1_000_000)

add_vectors_np(np_vec1, np_vec2)

(0.003408, array([ 5, 12,  4, ...,  6, 13, 12]))

Im Prinzip brauchen wir also nur den "+" Operator (Zeile 4), um zwei Vektoren elementweise zu addieren. Das geht, wie wir später noch sehen werden auch mit mehrdimensionalen Matrizen.

## NumPy Arrays: ndarray

Damit dies funktioniert, arbeitet NumPy mit sog. Arrays, Datenstrukturen, auf deren Elemente sehr schnell im Speicher zugegriffen werden kann. In Numpy heiẞen diese Array-Objekte **ndarrays**. Die NumPy Arrays unterscheide sich von klassischen sequentiellen Datenstrukturen in Python wie Listen und Tupel in folgenden Punkten:
  - Bei ihrer Generierung haben *ndarrays* eine fest gesetzte Gröẞe, anders als Listen, die dynamisch wachsen können. Wir der Arrays verändert, wird ein neues Array erstellt und der alte im Speicher gelöscht.
  - Alle Elemente eines Arrays müssen den gleichen Datentyp haben und damit auch die gleiche Gröẞe im Speicher. Einzige Ausnahme: jedes Python Objekt kann auch Teil eines *ndarrays* sein.
  - Es sind, wie schon gezeigt, mathematische Funktionen für diese Arrays vorhanden, mit denen man diesen Objekten sehr effizient operieren kann, ohne viel Code zu schreiben.

Wie wird nun ein *ndarray* erzeugt? Hierfür gibt es die Funktion `np.array()`, dem wir eine ganze normale Python Liste samt Elementen übergeben.

In [34]:
obj = np.array([2, 3, 5])

print(obj)
print(obj.dtype)

[2 3 5]
int64


### Verschiedene Dimensionen

Auch mehrdimensionale Matrizen kann man so erzeugen. Dabei gibt dann die Methode `.shape` ein Tupel mit der Gröẞe der Dimensionen zurück.

In [3]:
obj1 = np.array([1, 2, 3, 4])

print(obj1.shape)

obj2 = np.array([[1, 2, 3 , 4], [4, 3, 2, 1]])

print(obj2.shape)

(4,)
(2, 4)


Den obigen Numpy Array `obj1` nennt man auch einen *Vektor*, da dieser nur *eine* Dimension hat. `obj2` nennt man eine *Matrix* (Pl. *Matrizen*), da es min. zwei Dimensionen hat.

Natürlich kann man dieses Dimensionen-Spielchen theoretisch unendlich weiterführen. Einen Array mit drei oder mehr Dimensionen nennt man *Tensor*.


Man erzeugt einen Tesor indem man einen `ndarray` aus einer Liste von zweidimensionalen Listen erzeugt. Einen dreidimensionalen Tensor kann man sich dabei wie einen Rubic's Cube vorstellen:

--> BILD TENSOR


In [5]:
# Bau eines Tensors:

matrix1 = np.array([[1, 3, 4, 6], [3, 4, 6, 8]])
matrix2 = np.array([[3, 2, 4, 5], [7, 6, 8, 9]])
matrix3 = np.array([[0, 1, 9, 2], [2, 3, 4, 5]])

tensor = np.array([ matrix1, matrix2, matrix3 ])

print(tensor, "\n")

print(tensor.shape)

[[[1 3 4 6]
  [3 4 6 8]]

 [[3 2 4 5]
  [7 6 8 9]]

 [[0 1 9 2]
  [2 3 4 5]]] 

(3, 2, 4)


Mehr als drei Dimensionen mental zu visualisieren ist nicht leicht. Eine Analogie aus dem täglichen Leben mag aber helfen:

- **2d:** Zeilen und Spalten
- **3d:** Rubic's Cube
- **4d:** eine Schublade voll Rubic's Cubes
- **5d:** ein Schreibtisch mit mehreren Schubladen voll Rubic's Cubes
- **6d:** eine Halle voller Schreibtische voller ...
- **7d:** eine Strasse mit aneinandergereihten Hallen voll Schreibtischen voller ...
- **8d:** usw. usw.

### Reshaping: Dimensionalität eines Arrays ändern

## Vektoren und Matrizen direkt erzeugen lassen

### np.random

### np.linspace

# Statistische Funktionen mit NumPy

## Maße der zentralen Tendenz

## Maße der Streuung 

### Quantile / Percentile: np.quantile

Mit `np.quantile` lassen sich die Quantile einer Stichprobe berechnen. `np.quantile` arbeitet dabei, dass man als Argumente ein Array, sowie die Liste der Quantile zwischen 0 und 1, die man berechnen will.

In [12]:
# wir berechnen die Quartile 25%, 50% und 75%

koerpergroessen = np.random.normal(1.75, .15, 100) # 100 zufällig normalverteilte Körpergröẞen

np.quantile(koerpergroessen, [.25, .5, .75])

array([1.66539975, 1.76501605, 1.88188364])

Wollen wir mehr Quantile, ist es mühselig, diese als Liste auszuschreiben. Der Einfachheit halber können wir die Funktion `np.linspace` benutzen, die wir schon kennengelernt haben und die eine kontinuierliche Zahlenreihe in gleichgroẞe Stücke "zerschneidet". So können wir die Zahlenreihe von 0 bis 1 benutzen, um diese in Quantile zu zerschneiden und an `np.quantile` zu übergeben.

Hier ein paar Beispiele:

In [13]:
# Quintile (5 Quantile):

print("Quintile:", np.quantile(koerpergroessen, np.linspace(0, 1, 5)))

# Decile (10 Quantile):

print("Centile:", np.quantile(koerpergroessen, np.linspace(0, 1, 10)))

Quintile: [1.4515198  1.66539975 1.76501605 1.88188364 2.08062421]
Centile: [1.4515198  1.59257309 1.66420276 1.68446388 1.74643079 1.78222782
 1.8361634  1.88969072 1.98373368 2.08062421]


# Wahrscheinlichkeitstheorie