# Speichern und Verarbeiten von Daten mit NumPy

## NumPy: Numerical Python
* NumPy: Python-Bibliothek, die Unterstützung für grosse, mehrdimensionale Arrays und Matrizen bietet, zusammen mit einer grossen Sammlung von höchst effizienten mathematischen Funktionen, um mit diesen Arrays zu arbeiten
* NumPy Dokumentation: https://docs.scipy.org/doc/
  * Anhand der Versionsnummer findet man die passende Dokumentation


In [5]:
import numpy as np
np.__version__

'1.25.0'

* _Note_: Wir werden den Alias `np` für das Modul `numpy` in allen Codebeispielen verwenden

## NumPy Arrays
* Pythons Vanilla-Listen sind heterogen: Jedes Element in der Liste kann von einem anderen Datentyp sein.
 * Das hat seinen "Preis": Jedes Element in der Liste muss seine eigenen Typinformationen und andere Informationen enthalten.
 * Es ist viel effizienter, Daten in einem Array mit festem Typ zu speichern (alle Elemente sind vom gleichen Typ).
* NumPy-Arrays sind homogen: Jedes Element in der Liste ist vom gleichen Typ.
 * Sie sind sehr viel effizienter für die Speicherung und Bearbeitung von Daten.

## NumPy Arrays erstellen
* Verwenden Sie die Methode `np.array()`, um ein NumPy-Array zu erstellen:

In [6]:
example = np.array([0,1,2,5])
example

array([0, 1, 2, 5])

## Mehrdimensionale NumPy-Arrays
* _Eindimensionales_ Array: wir brauchen nur eine Koordinate, um ein einzelnes Element zu adressieren, nämlich einen ganzzahligen Index
* _Mehrdimensionales_ Array: wir brauchen nun mehrere Indizes, um ein einzelnes Element zu adressieren
 * Für ein $n$-dimensionales Array benötigen wir bis zu $n$ Indizes, um ein einzelnes Element zu adressieren.
 * Wir werden in diesem Kurs hauptsächlich mit zweidimensionalen Arrays arbeiten, d.h. $n=2$.

In [None]:
twodim = np.array([[1,2,3],
                   [4,5,6],
                   [7,8,9]])
twodim

## Array Indexing
* Array-Indizierung für eindimensionale Arrays funktioniert wie üblich: `onedim[0]`
* Für den Zugriff auf Elemente in einem zweidimensionalen Array müssen Sie zwei Indizes angeben: `twodim[0,1]`
* Der erste Index ist die Zeilennummer (hier `0`), der zweite Index ist die Spaltennummer (hier `1`)

## Objekte in Python
* Fast alles in Python ist ein Objekt, mit entsprechenden Eigenschaften und Methoden.
 * Ein dictionary ist zum Beispiel ein Objekt, das eine Methode `items()` bereitstellt, die nur für ein dictionary-Objekt aufgerufen werden kann (was dasselbe ist wie ein Wert vom Typ dictionary oder ein dictionary value)
* Ein Objekt kann neben Methoden auch Attribute bereitstellen, welche die Eigenschaften des spezifischen Objekts beschreiben können.
 * Bei einem Array-Objekt könnte es zum Beispiel interessant sein zu sehen, wie viele Elemente es gerade enthält, also könnten wir ein Grössenattribut bereitstellen, das Informationen über diese spezifische Eigenschaft speichert
 
### NumPy Array Attributes
* Der Typ eines NumPy-Arrays ist `numpy.ndarray` ($n$-dimensionales Array)

In [4]:
example = np.array([0,1,2,3])
type(example)

* Nützliche Array-Attribute
 * `ndim`: Die Anzahl Dimensionen, z.B. für ein zweidimensionales Array ist 2
 * `shape`: Tupel mit der Grösse der einzelnen Dimensionen
 * `size`: Die Gesamtgröße des Arrays (Gesamtzahl der Elemente)

In [7]:
rng = np.random.RandomState(41) # Ensure that the same random numbers are generated each time we run this code
x1 = rng.randint(10, size=6) # One-dimensional array
x2 = rng.randint(10, size=(3, 4)) # Two-dimensional array
print("x2 ndim: ", x2.ndim)
print("x2 shape:", x2.shape)
print("x2 size: ", x2.size)
print("x2 dtype: ", x2.dtype)

x2 ndim:  2
x2 shape: (3, 4)
x2 size:  12
x2 dtype:  int64


## Arrays erstellen
* NumPy bietet eine breite Palette von Funktionen für die Erstellung von Arrays:<br>
  https://docs.scipy.org/doc/numpy-1.15.4/reference/routines.array-creation.html#routines-array-creation 
 * Beispiele: `np.arange`, `np.zeros`, `np.ones`, `np.linspace`, usw.
* NumPy bietet auch Funktionen zum Erstellen von Arrays, die mit Zufallsdaten gefüllt sind:<br>
  https://docs.scipy.org/doc/numpy-1.15.1/reference/routines.random.html
 * Beispiele: `np.random.random`, `np.random.randint`, usw.

In [8]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [9]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
np.full((3, 5), w)

In [None]:
np.arange(0, 20, 2)

In [None]:
np.linspace(0, 10, 5)

In [None]:
np.random.random((3, 3))

In [None]:
np.random.randint(0, 10, (3, 3))

## NumPy Data Types
* Verwenden das Schlüsselwort `dtype`, um den Datentyp der Array-Elemente anzugeben:

In [7]:
floats = np.array([0,1,2,3], dtype="float32")
floats

NameError: name 'np' is not defined

 * Alle vorhandenen Datentypen: https://docs.scipy.org/doc/numpy-1.15.4/user/basics.types.html

## Array Slicing: One-Dimensional Subarrays
* Die NumPy-Slicing-Syntax folgt dem, der Standard-Python-Liste: `x[start:stop:step]`

In [8]:
x = np.arange(10)
x

NameError: name 'np' is not defined

In [None]:
x[5:]

In [None]:
x[5:]

In [None]:
x[::-1]

## Array Slicing: Multidimensional Subarrays
* Sei `x2` ein zweidimensionales NumPy-Array. Mehrere Slices werden einfach Kommata getrennt: "x2[start:stop:step, start:stop:step".

In [9]:
x2

NameError: name 'x2' is not defined

In [None]:
x2[:2, :3]

In [None]:
x2[:3, ::2] # All rows, every other column

In [None]:
x2[:, 0] # Select the first column of x2

In [None]:
x2[1, :] # Select the second row of x2

In [None]:
x2[1] # Select the second row of x2

## Array Views and Copies
* Bei Python-Listen sind Slices _Kopien_: Wenn wir das Subarray ändern, wird nur die Kopie geändert.
* Bei NumPy-Arrays sind die Slices _direkte Ansichten_: Wenn wir das Subarray ändern, wird auch das ursprüngliche Array geändert.
 * Sehr nützlich: Wenn wir mit großen Datenmengen arbeiten, brauchen wir keine Daten zu kopieren (kostspielige Operation)
* Erstellen von Kopien: Wir können die Methode `copy()` eines Slice verwenden, um eine Kopie des spezifischen Subarrays zu erstellen
 * Hinweis: Der Typ eines Slice ist wiederum `numpy.ndarray`.

In [10]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

NameError: name 'x2' is not defined

In [None]:
x2_sub_copy[0, 0] = 42

In [None]:
x2

In [None]:
x2_sub_copy

## Reshaping
* Wir können die Methode `reshape()` auf ein NumPy-Array anwenden, um dessen Form zu ändern:

In [11]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)


NameError: name 'np' is not defined

* Damit dies funktioniert, muss die Grösse des ursprünglichen Arrays mit der Grösse des umgestalteten Arrays übereinstimmen
* _Wichtig_: `reshape()` wird einen neuen View zurückgeben, wenn möglich; andernfalls wird es eine Kopie sein
 * Im Falle eines Views (Ansicht), wenn man einen Eintrag des reshaped-Arrays ändert, wird auch das ursprüngliche Array geändert

## Array Concatenation and Splitting
* Die Verkettung oder Verbindung von zwei oder mehreren Arrays in NumPy kann durch die Funktionen `np.concatenate, np.vstack und np.hstack` erreicht werden.
 * Mehrere zweidimensionale Arrays verbinden: `np.concatenate([twodim1, twodim2,...], axis=0)`
   * Ein zweidimensionales Array hat zwei Achsen: Die erste verläuft vertikal nach unten über die Zeilen (Achse `0`), und die zweite horizontal über die Spalten (Achse `1`)
* Das Gegenteil der Verkettung ist die Aufteilung, die durch die Funktionen `np.split, np.hsplit` (horizontale Aufteilung) und `np.vsplit` (vertikale Aufteilung) bereitgestellt wird.
 * Für jede dieser Funktionen können wir eine Liste von Indizes übergeben, die den Aufteilungspunkt angeben

In [12]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

NameError: name 'np' is not defined

In [None]:
grid = np.array([[1, 2, 3], [4, 5, 6]])
np.concatenate([grid, grid])

In [None]:
np.concatenate([grid, grid], axis=1)

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

np.vstack([x, grid])

In [None]:
y = np.array([[99],
              [99]])
np.hstack([grid, y])



In [None]:
grid = np.arange(16).reshape((4, 4))
grid

In [None]:
upper, lower = np.vsplit(grid, [2])

In [None]:
upper

In [None]:
lower

## Faster Operations Instead of Slow `for` Loops
* Schleifen über Arrays, um auf jedes Element zu wirken, können in Python ziemlich langsam sein.
* Einer der Gründe, warum der Ansatz der for-Schleife so langsam ist, liegt in der Typüberprüfung und den Funktionsübertragungen, die bei jeder Iteration durchgeführt werden müssen
 * Python muss den Typ des Objekts prüfen und dynamisch nach der richtigen Funktion für diesen Typ suchen.

In [13]:
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

values = np.random.randint(1, 10, size=5)

compute_reciprocals(values)

NameError: name 'np' is not defined

In [None]:
big_array = np.random.randint(1, 100, size=10000)
%timeit compute_reciprocals(big_array)

## NumPy's Universal Functions
* NumPy bietet sehr schnelle, vektorisierte Operationen, die über _universelle Funktionen_ (ufuncs) implementiert werden, deren Hauptzweck es ist, wiederholte Operationen auf Werte in NumPy-Arrays blitzschnell auszuführen.
 * Eine _vektorisierte Operation_ wird auf das Array ausgeführt, die dann auf jedes Element angewendet wird.
Anstatt den Kehrwert mit einer for-Schleife zu berechnen, können wir dies auch gut mit einer universellen Funktion tun:

In [14]:
%timeit (1.0 / big_array)



NameError: name 'big_array' is not defined

 * Wir können ufuncs verwenden, um eine Operation zwischen einem Skalar und einem Array durchzuführen, aber wir können ufuncs auch zwischen zwei Arrays anwenden

In [None]:
np.array([4,5,6]) / np.array([1,2,3])

## Advanced Ufunc Features: Specifying Output and Aggregates
* ufuncs bieten einige spezielle Funktionen
* Wir können angeben, wie (bzw. wo) Ergebnis gespeichert werden soll (nützlich für grosse Berechnungen)
* Wenn kein "out"-Argument angegeben wird, wird ein neu zugewiesenes Array zurückgegeben (kann sehr speicherintensiv sein).

In [None]:
x = np.random.random(10)
y = np.zeros(10)
np.multiply(x,3,y)

* _Reduce_: Wiederholte Anwendung einer bestimmten Operation auf die Elemente eines Arrays, bis nur noch ein einziges Ergebnis übrig bleibt
 * Zum Beispiel: `np.add.reduce(x)` wendet Addition auf die Elemente an, bis nur noch ein Ergebnis übrig bleibt, nämlich die Summe aller Elemente
* _Accumulate_: Fast dasselbe wie reduce, speichert aber zusätzlich die Zwischenergebnisse der Berechnung

In [15]:
x = np.array([1,2,3,4,5])
np.add.reduce(x)

NameError: name 'np' is not defined

In [None]:
x = np.array([1,2,3,4,5])
np.add.accumulate(x)

## Aggregationen
* Wenn man eine zusammenfassende Statistik für die betreffenden Daten berechnen möchte, sind Aggregationen sehr nützlich.
  * Allgemeine zusammenfassende Statistiken: Mittelwert, Standardabweichung, Median, Minimum, Maximum, Quantile, usw.
* NumPy bietet schnelle integrierte Aggregationsfunktionen für die Arbeit mit Arrays:

In [16]:
x = np.random.random(100000)
%timeit np.max(x) # NumPy ufunc
%timeit max(x)    # Python function

NameError: name 'np' is not defined

* Summieren von Werten in einem Array:

In [17]:
%timeit np.sum(x) # NumPy ufunc
%timeit sum(x)    # Python function

NameError: name 'np' is not defined

## Multidimensionale Aggregationen
* Standardmässig gibt jede NumPy-Aggregationsfunktion das Aggregat über das gesamte Array zurück.
* Aggregationsfunktionen benötigen ein zusätzliches Argument, das die Achse angibt, entlang der das Aggregat berechnet wird.
 * Zum Beispiel können wir den Minimalwert innerhalb jeder Spalte finden, indem wir `axis=0` angeben:

In [18]:
twodim = np.array([[1,2,3],[0.12, -1, 0.41],[10,9,8]])
twodim.min(axis=0)

NameError: name 'np' is not defined

## Zeit für ein paar Aufgaben! Wir lösen 1 bis 19

## Comparison Operators als ufuncs
* NumPy implementiert auch Vergleichsoperatoren als elementweise ufuncs
* Das Ergebnis dieser Vergleichsoperatoren ist immer ein Array mit einem booleschen Datentyp

In [19]:
np.array([1,2,3]) < 2

NameError: name 'np' is not defined

* Es ist auch möglich, einen Element-für-Element-Vergleich von zwei Arrays durchzuführen:

In [20]:
np.array([1,2,3]) < np.array([0,4,2])

NameError: name 'np' is not defined

## Arbeiten mit Boolean Arrays: Zählen von Einträgen
* Die Funktion `np.count_nonzero()` zählt die Anzahl der `True` Einträge in einem booleschen Array.

In [21]:
nums = np.array([1,2,3,4,5])
np.count_nonzero(nums < 4)

NameError: name 'np' is not defined

* Wir können auch die Funktion `np.sum()` verwenden, um das Gleiche zu erreichen. In diesem Fall wird `True` als `1` und `False` als `0` interpretiert:

In [22]:
np.sum(nums < 4)

NameError: name 'np' is not defined

* NumPy implementiert auch bitweise logische Operatoren als elementweise ufuncs.
* Wir können diese bitweisen Logikoperatoren verwenden, um zusammengesetzte Bedingungen (bestehend aus mehreren Bedingungen) zu konstruieren

In [23]:
(nums < 2) | (nums > 3)

NameError: name 'nums' is not defined

## Boolean Arrays als Masks
* In den vorherigen Folien haben wir uns Aggregate angesehen, die direkt auf booleschen Arrays berechnet werden.
* Sobald wir ein boolesches Array haben, z.B. aus einem Vergleich, können wir die Einträge auswählen, die die Bedingung erfüllen, indem wir das boolesche Array als _Maske_ verwenden.

In [24]:
x = np.array([[3,1,5],[10,32,100],[-1,3,4]])
print(x)
x[x<5]

NameError: name 'np' is not defined

## Zeit für ein paar Aufgaben! Wir lösen 20 bis 60

## Lesen und Schreiben von Daten mit NumPy

* Wir können die Funktion `np.savetxt()` verwenden, um NumPy-Daten in einer Datei zu speichern.
* Wir können die Funktion `np.loadtxt()` verwenden, um Daten aus einer Datei zu laden.
  * *Erinnerung*: Wir können nur Elemente eines einzigen Typs in einem NumPy-Array speichern
* Verwenden Sie die Shell-Befehle `!ls`, `!pwd` und `!cd` innerhalb unseres Notebooks, um im Dateisystem zu navigieren, falls nötig