# NumPy - Numerical Python

## Was ist ein Array?

Arrays sind Datenstrukturen für viele gleichartig strukturierte Daten.

Sind Python Listen Arrays?

NumPy Arrays sind sehr performant und der de-facto Standard in Python.

NumPy Arrays sind n-dimensional:
- 1D: eine Reihe von Zahlen
- 2D: eine Tabelle
- 3D: ein Datenwürfel
- 4D: viele Datenwürfel
- ...

Dabei gilt:
- alle Elemente haben den gleichen dtype
- Größe ist nicht dynamisch
- Form muss "rechteckig" sein

## Warum numpy? - Ausdrucksfähigkeit für Mathematik

Beispiel: Berechnung des Mean Squared Error im Kontext Machine Learning.

`predictions` und `labels` (die Vorhersagen und Ziele z.B. einer Regression) können beliebig groß sein.

<div style="text-align: center;">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_MSE_formula.png" alt="" style="min-width: 400px">
</div>

<div style="text-align: center;">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_MSE_implementation.png" alt="" style="min-width: 400px">
</div>


<div style="text-align: center;">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_MSE_implementation.png" alt="" style="min-width: 400px">
</div>
<div style="text-align: center;">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_mse_viz1.png" alt="" style="min-width: 400px">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_mse_viz2.png" alt="" style="min-width: 400px">
    <img width="70%" src="https://numpy.org/devdocs/_images/np_MSE_explanation2.png" alt="" style="min-width: 400px">
</div>


## Warum NumPy? - Performance

In [None]:
def compute_reciprocals(values):
    """
    Berechnet Kehrwerte einer Sequenz.
    """
    output = []
    for val in values:
        output.append(1 / val)
    return output

values = list(range(2, 10, 2))
print(values)

compute_reciprocals(values)

In [None]:
# Wie ist die Performance mit richtig vielen Zahlen?
import numpy as np

# Zufällige Integers zwischen 1 und 100.
big_array = np.random.randint(1, 100, size=100_000_000) 

compute_reciprocals(big_array) 

In [None]:
# Version direkt mit numpy
(1 / big_array)

Warum ist NumPy so viel schneller?

- Python muss für jede Iteration im for-Loop den Typ von `values` prüfen 
- NumPy: 
    - weiß dass es nur 64-Bit Integer sein können 
    - alle Werte sind zusammenhängend im Speicher
    - NumPy kann parallelisieren
    - NumPy kann schnelle Routinen wie BLAS oder LAPACK nutzen, wenn z.B. OpenBLAS oder Intel MKL installiert sind

In [None]:
np.show_config()

# Grundlagen

In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])
a

In [None]:
a[0]

In [None]:
a[:3]

Anders als bei Listen ist "fancy Indexing" mit mehreren Indizes auf einmal möglich:

In [None]:
a[[1, 3]]

Arrays mit zwei oder mehr Dimensionen können aus verschachtelten Listen initialisiert werden.

In [None]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

a hat zwei Achsen, könnte aber auch 3 Punkte in vierdimensionalem Raum repräsentieren. 

*Arraydimensionen sind nicht gleich Datendimensionen!*

## Arrayattribute

In [None]:
a.ndim

In [None]:
a.shape 

In [None]:
a.size

In [None]:
a.dtype

## Arrays initialisieren

Um effizient mit Arrays zu arbeiten, müssen Arrays oft erst in der richtigen Größe angelegt und dann mit Werten belegt werden.

In [None]:
np.zeros(5)

In [None]:
# Typ der Elemente kann eingestellt werden
a = np.ones(5, dtype=np.int64)
a

Elemente können dann neu belegt werden:

In [None]:
a[0] = 10
a

### Übung

1. Kann man auch ein Float in `a` speichern? Oder Bools? Strings?
2. Die Elemente von `a` sind wie bei Listen veränderlich. Können wir auch Elemente anhängen?
2. Teste die verschiedenen Funktionen zur Erstellung von Arrays: `np.arange`, `np.linspace`, `np.zeros`, `np.eye`, `np.diag`, `np.empty`, `np.random.random`, `np.random.randint`.
    
    Tip: `np.arange?` zeigt mögliche Argumente an.
3. Bonus: Erzeuge mit `np.tile` diesen Array:
    ```
    [[4, 3, 4, 3, 4, 3],
     [2, 1, 2, 1, 2, 1],
     [4, 3, 4, 3, 4, 3],
     [2, 1, 2, 1, 2, 1]]
    ```

## Indexing und Slicing

In [None]:
a = np.arange(1, 13).reshape(3,4)
a

In [None]:
# Bei mehreren Dimensionen brauchen wir ein Tupel als Index:
a[1, 3] 

Dabei kommt der Zeilenindex immer vor dem Spaltenindex.

In [None]:
# Slicing:
a[:2, :3]

In [None]:
# Auch fancy Indexing geht:
a[[0, 1, 1], [0, 1, 2]]

### Übung

1. Lege einen eindimensionalen Array mit `np.arange` an. Nutze Slicing um alle geraden Zahlen, und dann alle ungeraden Zahlen in umgekehrter Reihenfolge auszuwählen.
2. Reproduziere die Slices und Indices im folgenden Diagramm. 


<div style="text-align: center;">
    <img width="50%" src="fig/indexing.bmp" alt="" style="min-width: 400px">
</div>

In [None]:
# Array angelegt mit
a = np.arange(6) + np.arange(0, 51, 10)[:, np.newaxis]
a


# Arrays kombinieren

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
np.concatenate((a, b))

In [None]:
c = np.array([0.5, 1])
np.concatenate((a, c))  # automatisches Type Casting

In [None]:
np.concatenate((a, c), dtype=np.int64, casting='unsafe')

In [None]:
# Bei mehrdimensionalen Arrays kann man die Achse der Kombination wählen.
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])
np.concatenate((x, y), axis=0)

## Übung

1. Können `x` und `y` auch entlang der anderen Achse kombiniert werden? Und wenn zuerst einer der Arrays mit `.T` transponiert wird?
2. Teile die kombinierten Arrays mit `np.split` wieder auf.

Dokumentation:
- https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html
- https://numpy.org/doc/stable/reference/generated/numpy.split.html


# Arrays umformen

In [None]:
data = np.arange(1, 7)
data

In [None]:
data.reshape(2, 3)

In [None]:
data.reshape(3, 2)

<div style="text-align: center;">
    <img width="60%" src="https://numpy.org/devdocs/_images/np_reshape.png" alt="" style="min-width: 400px">
</div>

## Dimensionalität erhöhen

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a.shape)
a

In [None]:
row_vector = a[np.newaxis, :]
print(row_vector.shape)
row_vector

In [None]:
col_vector = a[:, np.newaxis]
print(col_vector.shape)
col_vector

# Views und Copies

Aus Performancegründen vermeidet es NumPy, Daten zu kopieren, wann immer möglich. 

Viele Operationen, deren Ergebnis aussieht wie ein neuer Array, ergeben eigentlich nur einen *View*.

Ob man es mit einem View zu tun hat kann man prüfen, indem man das `.base` Attribut ausgibt.

In [None]:
a = np.arange(1, 7)

# .reshape erzeugt einen View, deswegen gibt es .base
y = a.reshape(3, 2)
y.base

In [None]:
# Fancy Indexing muss Daten kopieren:
z = y[[2, 1]]
z

In [None]:
z.base is None

# Berechnungen mit Arrays

Berechnungen mit NumPy Arrays werden aus "ufuncs" aufgebaut. ufuncs sind vektorisierte Wrapper für Funktionen und erlauben Kontrolle über Broadcasting und Type Casting.

- Äquivalente zu eingebauten Operatoren wie `+`, `*`
- Äquivalente zu eingebauten Funktionen wie `sum`, `abs`, `max`
- Zusätzliches, wie trigonometrische Funktionen, Vergleichsfunktionen etc.

Ganze Liste [hier](https://numpy.org/devdocs/reference/ufuncs.html#available-ufuncs).

In [None]:
data = np.array([1, 2, 3])
ones = np.ones(3, dtype=int)
data + ones  

In [None]:
(data + ones) ** data

## Broadcasting

Arrays müssen für elementweise Operationen nicht einmal unbedingt den gleichen `shape` haben.

In [None]:
a = np.array([1, 2, 3])
b = 2
a * b

![](https://numpy.org/devdocs/_images/broadcasting_1.png)
*Quelle*: [numpy](https://numpy.org/devdocs/user/basics.broadcasting.html#basics-broadcasting)

Die Werte des gebroadcasteten Arrays werden dabei **nicht** im Speicher dupliziert.

In [None]:
a = np.array([[ 0,  0,  0],
              [10, 10, 10],
              [20, 20, 20],
              [30, 30, 30]])
b = np.array([1, 2, 3])
a + b

![](https://numpy.org/devdocs/_images/broadcasting_2.png)

Achtung: Dimensionen müssen jeweils entweder gleich oder 1 sein.

In [None]:
# Passt shape (4,) zu (4, 3)?
b = np.array([1, 2, 3, 4])
a + b

In [None]:
a = np.array([0, 10, 20, 30])
b = np.array([10, 2, 3])
a[:, np.newaxis] + b

![](https://numpy.org/devdocs/_images/broadcasting_4.png)

Mit Multiplikation statt Addition ließe sich so z.B. das [tensorielle Produkt](https://de.wikipedia.org/wiki/Dyadisches_Produkt) zweier Vektoren berechnen.

## Matrixmultiplikation

Für Matrixmultiplikation muss der `@` Operator genutzt werden.

In [None]:
c = np.ones((3, 3))
c * c  # normale Multiplikation ist elementweise

In [None]:
c @ c  # Matrixmultiplikation

# Filtern

In [None]:
a = np.array([[10, 20, 30, 40], [5, 6, 7, 8], [-9, -10, -11, -12]])
a

In [None]:
# Auch Vergleichsoperatoren arbeiten elementweise und mit Broadcasting: 
a < 10

In [None]:
# Der entstandene Boolean Array kann als Index genutzt werden:
a[a < 10] 

## Übung

1. Gebe alle negativen geraden Zahlen im Array aus.
2. Setze alle Elemente die größer als 10 und kleiner als -10 sind, auf 0.

Achtung: Um elementweise Bedingungen zu verknüpfen immer:
1. Einzelne Bedingungen in Klammern packen.
2. Binäre Operatoren `&` und `|` statt `and` und `or` verwenden.

# Aggregierungen

In [None]:
data = np.array([[1, 2], [3, 4], [5, 6]])
data

In [None]:
print(data.max())
print(data.min())
print(data.sum())

Die Arraymethoden `.max`, `.sum` `.abs` etc. sind besser optimiert als die Python-Funktionen `max`, `sum`.


Außerdem können sie auf bestimmte Achsen beschränkt werden:

In [None]:
data.max(axis=0)

In [None]:
data.max(axis=1)

<div style="text-align: center;">
    <img width="80%" src="https://numpy.org/devdocs/_images/np_matrix_aggregation_row.png" alt="" style="min-width: 400px">
</div>


Alle Arraymethoden: https://numpy.org/devdocs/reference/arrays.ndarray.html#array-methods

# Weitere Quellen

- https://jakevdp.github.io/PythonDataScienceHandbook/
- https://betterprogramming.pub/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d
- https://betterprogramming.pub/a-comprehensive-guide-to-numpy-data-types-8f62cb57ea83
- https://github.com/rossant/awesome-scientific-python#numpy