**Fachprojekt Dokumentenanalyse** *WS 22/23* -- *Philipp Oberdiek, Gernot A. Fink* -- *Technische Universität Dortmund, Lehrstuhl XII, Mustererkennung in eingebetteten Systemen*
---
# Einführung in NumPy/Scipy und Matplotlib

In diesen Einführungsaufgaben sollen Sie sich mit den grundlegenden Eigenschaften und Funktionen von *NumPy/SciPy* und *matplotlib* vertraut machen. Die Aufgaben sind dazu gedacht, Ihnen den Einstieg zu erleichtern.

Sehr grosse Datenmengen lassen sich iterativ nicht effizient in Python verarbeiten. Dazu gibt es mit NumPy / SciPy eine Bibliothek, mit der numerische Berechnungen vektorisiert effizient durchgefuehrt werden können.
Vektorisiert bedeutet dabei, dass Operationen auf großen Datenmengen direkt mit einzelnen Methodenaufrufen durchgeführt werden und nicht über Schleifen in Python Code umgesetzt werden.

**ACHTUNG:** Diese Form der Programmierung unterscheidet sich DEUTLICH von dem was sie vielleicht aus C / C++ oder auch Java gewohnt sind.

Zuerst importieren wir die benötigten Module.

In [None]:
%load_ext autoreload
%autoreload 2

import numpy as np
import sys
# Uebergeordneten Ordner zum Pfad hinzufuegen, damit das common Package importiert werden kann
if '..' not in sys.path:
    sys.path.append('..')

from common.python_intro_functions import RandomArrayGenerator, bar_plot

## NumPy/Scipy

---
### Initialisierung

Die elementare Datenstruktur ist das [`ndarray`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html). Ein neues ndarray erstellt man zum Beispiel aus einer Python Liste. 

In [None]:
rand_list = [1, 3, 5, 2, 7, 4, 9, 0, 6]
rand_arr = np.array(rand_list)
print(type(rand_arr))

Ein Array, welches mit Nullen gefüllt ist, erstellt man mit der [`zeros()`](http://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html) Funktion.

Eine fortlaufende Sequenz (analog zu `range()`) kann mit der [`arange()`](https://numpy.org/doc/stable/reference/generated/numpy.arange.html) Funktion erstellt werden.

In [None]:
zeros_arr = np.zeros((3, 3))
print(zeros_arr)

seq_arr = np.arange(100).reshape(10, 10)
print(seq_arr.shape)
print(seq_arr)

---
### Zugriffsfunktionen und Slicing
Im folgenden schauen wir uns Zugriffsfunktionen für ndarrays an. Hierbei sind besonders [indirekte Addressierung und Slicing](https://numpy.org/doc/stable/reference/arrays.indexing.html) wichtige Themen.

(1) Geben Sie die obere (3, 2) Matrix aus.

(2) Geben Sie die untere (3, 3) Matrix aus.

(3) Geben Sie die 4. Zeile aus.

(4) Geben Sie jede ungerade Spalte aus, also Spalten 1, 3, ... Verwenden sie dabei slicing mit step=2.

(5) Geben Sie die Spalten mit Index 2, 3, 6, 7 aus.

---
### Boolean Indexing

Setzen Sie nun alle ungeraden Elemente des ndarray `seq_arr` auf 0 und geben Sie das Ergebnis aus.

---
### Mathematische Operation

Numpy ermöglicht mit wenig Code viele Operationen gleichzeitig (bzw. sehr performant) zu berechnen, ohne dass Sie dazu eine Schleife in Python verwenden müssen.  
Dies können beispielsweise Operationen sein, die für die Elemente zweier Vektoren paarweise angewendet werden. Zudem ist es häufig empfehlenswert sich zu überlegen, ob Operationen auch als Vektor- oder Matrixmultiplikation formuliert werden können.

Verwenden Sie dazu die Operatoren `+`, `*`  und [`np.dot`](https://numpy.org/doc/stable/reference/generated/numpy.dot.html) in geeigneter Weise.

(1) Geben Sie die elementweise Summe der ersten beiden Zeilen aus.

(2) Geben Sie das elementweise Produkt der ersten beiden Zeilen aus.

(3) Geben Sie das Skalarprodukt der ersten beiden Zeilen aus.

(4) Berechnen Sie eine gewichtete Summe zwischen dem Eingabevektor $x$ und den Gewichten $w$. Sie können zuerst die Summe in einer Schleife berechnen.
Berechnen Sie anschließend dieselbe gewichtete Summe, ohne eine Schleife zu verwenden.

In [None]:
x = np.arange(5)
w = np.asarray([1.0, 2.0, 1.5, 0.5, 4.2])


(5) Statt einer einzelnen Vektors $x$ als Eingabe sollen nun die Gewichteten Summen für mehrere Eingaben $X$ (einzelne Eingaben in Zeilen) berechnen. Das Ergebnis soll nun ein Vektor mit den gewichteten Summen sein. Verwenden Sie keine Schleifen.

In [None]:
X = np.arange(20).reshape((4, 5))
w = np.asarray([1.0, 2.0, 1.5, 0.5, 4.2])


(6) Als letzte Erweiterung dieser Berechnung nehmen wir nun an, dass die Gewichtete Summe nicht nur für mehrere Eingaben gleichzeitg berechnet werden soll, sondern auch für mehrere Gewichtungen. Jetzt haben Sie also die Eingabematrix $X$ mit Zeilenweise vorliegenden Beispielen. In der Matrix $W$ liegen die Gewichte ebenfalls zeilenweise vor. Berechnen Sie nun die gewichteten Summen für jede Kombination von Eingaben und Gewichten. Verwenden Sie auch hier keine Schleife!

In [None]:
W = np.asarray([[1.0, 2.0, 1.5, 0.5, 4.2],
                [0.5, 3.0, 1.2, 1.3, 0.2],
                [3.5, 4.3, 2.7, 3.1, 0.2]])


---
### Wichtige Funktionen

Nun schauen wir uns noch einige wichtige NumPy Funktionen an.

(1) Bestimmen Sie in dem ndarray `seq_arr` in jeder Zeile das größte Element
und seinen Index. Geben Sie die Ergebnisse aus.

Hinweis: Achten Sie dabei auf die korrekte Wahl des *axis*-Arguments!

Nützliche Funktionen:
- [`np.max` / `np.amax`](https://numpy.org/doc/stable/reference/generated/numpy.amax.html)
- [`np.argmax`](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html)

(2) Bestimmen Sie die Summe und den Mittelwert entlang jeder Zeile.

Nützliche Funktionen:
- [`np.sum`](https://numpy.org/doc/stable/reference/generated/numpy.sum.html)
- [`np.mean`](https://numpy.org/doc/stable/reference/generated/numpy.mean.html)

---
## Matplotlib

Häufig kann es sehr hilfreich sein, Daten und deren Verteilung zu visualisieren. Hierfür bietet sich die Verwendung der Bibliothek matplotlib an.

In Kombination mit JupyterLab oder Jupyter Notebooks können mit Hilfe von Magic Commands [verschiedene Backends für matplotlib](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-matplotlib) gewählt werden. Für JupyterLab empfiehlt sich die Verwendung von `%matplotlib widget` (erfordert das [ipympl](https://jupyter-tutorial.readthedocs.io/de/latest/workspace/jupyter/ipywidgets/libs/ipympl.html) package).

Hinweis: Normalerweise würde man diese Imports ebenfalls am Anfang des Skripts platzieren.


In [None]:
import matplotlib.pyplot as plt

%matplotlib widget

Zunächst schauen wir uns noch ein etwas komplexeres Beispiel für NumPy Funktionen an und visualisieren die Ergebnisse mit matplotlib. 

Die folgenden Arrays enthalten normalverteilte und gleichverteilte Zufallszahlen.

In [None]:
rand_arr_gen = RandomArrayGenerator()
rand_arr_gauss = rand_arr_gen.rand_gauss(arr_shape=(50000,), mean=50, std_deviation=10)
rand_arr_unif = rand_arr_gen.rand_uniform(arr_shape=(10000, 50), min_elem=0.5, max_elem=10.5)

Runden Sie die Elemente der Arrays (ganzzahlig) und erstellen sie jeweils Histogramme. Um das Histogramm für `rand_arr_unif` zu erstellen, linearisieren Sie die Matrix zunächst. (Verwenden Sie `reshape` mit shape Parameter -1.)

Plotten Sie die Ergebnisse mit matplotlib. Erstellen Sie dazu eine neue Figure inkl. Axis und verwenden Sie dazu die Methode `bar_plot` aus dem Modul [`common.python_intro_functions`](../common/python_intro_functions.py) um darin zu plotten.

Nützliche Funktionen:
- [`np.around`](http://docs.scipy.org/doc/numpy/reference/generated/numpy.around.html)
- [`np.bincount`](http://docs.scipy.org/doc/numpy/reference/generated/numpy.bincount.html)
- [`np.reshape`](http://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html)
- [`plt.subplots`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html)

Bilden Sie nun die zeilenweisen Summen über das ndarray mit den gleichverteilten Zufallszahlen 
(`rand_arr_unif`). Berechnen und visualisieren Sie das Histogramm wie zuvor. Erklären Sie das Ergebnis.