![CT Logo](img/ct_logo_small.png)
# Vorlesung "Computational Thinking"        
## Einführung in NumPy
#### Dr. Sarah Ottinger & Prof. Dr.-Ing. Martin Hobelsberger, CT_5

### Lernziele dieser Einheit

* Einführung in die Bibliothek *NumPy*
    * *Teile dieses Notebooks aus Datenanalyse mit Python (Wes McKinney)*
    * Zum weiterführenden Selbststudium bitte einen Blick auf folgende Links werfen: [NumPy Tutorials](https://numpy.org/devdocs/user/quickstart.html)
    

#### Was Sie bisher schon Wissen/Können sollten
* Strukturiere Ein-/Ausgabe
* Variablen
* Datentypen (Arithmetische und Sequenzielle)
* Arithmetische Ausdrücke und Vergleiche
* Kontrollstrukturen (IF-Statement, For-/While-Schleife)
* Dateien lesen/schreiben
* Nützliche Funktionen (zip, enumerate, list comprehensions)
* Funktionen
* Dictionaries
* map()/filter()
* Lambda Expressions
* Generatoren/Iteratoren
* Datentyp von pandas (DataFrame & Series)
* Erstellen von DataFrames
* Gängige Operationen auf DataFrames (Daten anzeigen und Daten bereinigen bereinigen, Imputation)
* Verständnis von Variablen, Abhängigkeiten von kontinuierlichen Variablen

## Numpy

![Numpy Logo](img/numpy.png)

`NumPy` (https://numpy.org) (*Numerical Python*) ist eines der wichtigsten Pakete für numerische Berechnungen und somit einer der Eckpfeiler für das wissenschaftliche Programmieren, Data Science & Scientific Computing mit Python. Die `NumPy`-Bibliothek ist deshalb für Data-Science mit Python so wichtig, da fast alle anderen Bibliotheken im Python Ökosystem auf `NumPy` aufbauen. 
NumPy umfasst u.a. folgende Features: 
* ein schnelles und effizientes mehrdimensionales Array-Objekt names `ndarray`,
* Funktionen zum Durchführen von elementweisen Berechnungen mit Arrays oder mathematischen Operationen zwischen Arrays, 
* Tools zum Lesen und Schreiben von Array-basierten Datenmengen auf Datenträger,
* mathematische Funktionen, Zufallszahlengeneratoren, Routinen der linearen Algebra, Fourier-Transformationen,
* eine C-API zum Anbinden von NumPy an Bibliotheken, die in C, C++ oder Fortran geschrieben sind.

Ein Grundverständnis von NumPy-Arrays und Array-orientierten Berechnungen hilft bei der effektiveren Benutzung von Tools mit Array-orientierter Semantik wie etwa pandas. 
Für Datenanalyseanwendungen sind vor allem folgende Bereiche relevant:

* Schnelle vektorisierte Array-Operationen zum Bereinigen von Daten, Bildern und Filtern von Teilmengen sowie für Transformationen
* Gebräuliche Array-Algorithmen wie Sortieren, Eindeutigkeit und Mengenoperationen
* Effiziente beschreibende Statistik und Aggregieren/ Zusammenfassen von Daten
* Datenausrichtung und relationale Datenmanipulation zum Mischen und Verbinden heterogener Datenmengen
* Ausdrücke logischer Bedingungen als Array-Ausdruck statt als Schleifen mit if-elif-else-Verzweigungen
* Gruppenweise Datenmanipulation (Aggregation, Transformation, Funktionsanwendung)
    
--> NumPy bietet die rechnerische Grundlage für die allgemeine numerische Datenverarbeitung. Dennoch wird die Bibliothek pandas als Basis für die meisten Arten von Statistiken und Analysen verwendet.  

### NumPy Grundkonzepte
#### Erster Schritt - Installation

`NumPy` ist keine Standard-Bibliothek von Python und muss daher vor dem benutzen installiert werden. Dies können Sie lokal auf Ihrem PC mittels einem Paketverwaltungsprogramm namens **pip** machen oder nutzen Sie die [Anaconda-Distribution](https://www.anaconda.com/products/individual) 


In [None]:
!pip install numpy

In [None]:
%conda install numpy

Das "!" sorgt in einem Notebook dafür, dass die Zeile nicht als Code sondern als wie in einem Terminal ausgeführt wird.

Eine weitere Möglichkeit ist es in Ihrem lokalen Terminal folgenden Befehl auszuführen:

```
python -m pip install numpy
```

Nach dem die Bibliothek erfolgreich installiert wurde, können wir sie benutzen / importieren.

In [None]:
# import der Bibliothek
import numpy as np # Anmerkung: Es ist üblich numpy als "np" zu importieren


Eine der Gründe dafür, dass NumPy für numerische Berechnungen in Python so wichtig ist, besteht in seiner Effizienz bei großen Daten-Arrays.

In [None]:
x = [1,2,3,4,5,6,7,8,9,10]

Vergleich Leistungsunterschied Python-Liste und NumPy-Array

In [None]:
# NumPy-Array und entsprechende Python-Liste mit einer Millionen Integer-Werten
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [None]:
%time for _ in range(10): my_arr2 = my_arr *2

In [None]:
%time for _ in range(10): my_list2 = [x*2 for x in my_list]

NumPy-basierte Algorithmen sind im Allgemeine 10- bis 100-mal schneller (oder mehr) als ihre reinen Python-Gegenstücke und nutzen dabei deutlich weniger Speicher.

#### Was sind NumPy-Arrays?
ndarrys (N-dimensionale Array-Objekte) sind schnelle, flexible Container, die immer nur einen Datentyp enthalten können, also beispielsweise nur Integers. Jedes Array hat einen `shape`, einen Tupel, das die Größe jeder Dimension angibt, und einen `dtype`, ein Objekt, das den Datentyp des Arrays beschreibt.

In [None]:
# Bsp. 1-dimensionaler Array
data1 = np.array([6, 7.5, 8, 0, 1])



In [None]:
# Shape des Array


In [None]:
# Bsp. 2-dimensionaler Array
#Generate some random data



In [None]:
# Shape des 2-dim. Arrays

Die Shape eines Arrays sagt uns etwas über die Reihenfolge, in der die Indizes ausgeführt werden, d.h. zuerst die Zeilen, dann die Spalten und dann gegebenenfalls eine weitere Dimension oder weitere Dimensionen.

In [None]:
# Dtype des 2-dim. Arrays

#### ndarrays erzeugen
ndarrys (N-dimensionale Array-Objekte) sind schnelle, flexible Container, die immer nur einen Datentyp enthalten können, also beispielsweise nur Integers.
Es gibt viele Wege um einen `ndarrys` zu erzeugen. Am einfachsten wird ein Array mit der `array`-Funktion erzeugt. Diese akzeptiert jedes sequenzartige Objekt.

In [None]:
# Eindimensionaler Array, erzeugt aus einer Liste
arr1 = np.array([1, 1, 2, 3, 5, 8, 13, 21])
print("Dimension von var1: ", np.ndim(arr1))

In [None]:
# Zweidimensionaler Array, erzeugt aus einer verschachtelten Sequenz
arr2 = np.array([[1,2,3,4],[5,6,7,8]])
print(arr2)
print(arr2.shape)

In [None]:
# Zweidimensionaler Array, erzeugt aus einer verschachtelten Sequenz
arr_2 = np.array([[3.4, 8.7, 9.9], 
               [1.1, -7.8, -0.7],
               [4.1, 12.3, 4.8]])
print(arr_2)
print(arr_2.shape)
print(arr_2.ndim)

In [None]:
arr_3 = np.array([[[3.4, 8.7, 9.9], 
               [1.1, -7.8, -0.7],
               [4.1, 12.3, 4.8]],
               [[3.4, 8.7, 9.9], 
               [1.1, -7.8, -0.7],
               [4.1, 12.3, 4.8]]])
print(arr_3)
print(arr_3.shape)
print(arr_3.ndim)

#### (Weitere) Funktionen zum Erzeugen von Arrays sind z.B.:
* `array`: Wandelt Eingabedaten in ein ndarry um, indem entweder ein dtype abgeleitet oder explizit ein dtype angegeben wird; kopiert standardmäßig die Eingabedaten.
* `ones, ones_like`: Erzeugt ein Array nur aus Einsen mit der angegebenen Form und dtype; ones_like nimmt ein Array entgegen und erzeug ein Einsen-Array derselben Form und dtype.
* `zeros, zeros_like`: Wie ones und ones-like, erzeugt aber stattdessen Arrays aus Nullen.
* `empty, empty_like`: Erzeugt neue Arrays, indem es neuen Speicher belegt, diesen aber nicht mit Werten füllt.
* `eye, identity`: Erzeugt eine quadratische NxN-Einheitsmatrix.
* `arange`: Wie die eingebaute range-Funktion, liefert aber ein ndarry statt einer Liste zurück.
* `linspace` liefert ein ndarray zurück, welches aus gleichmäßig verteilten Werten eines bestimmten Intervalls besteht.


In [None]:
# Erstelle Array von 10 Nullen


In [None]:
#Erstelle ein Array aus 20 gleichmäßig verteilten Punkten zwischen 0 und 1


In [None]:
# Erstelle eine Einheitsmatrix



#### `Reshape`

Gibt ein Array zurück, das dieselben Daten in neuer Form enthält.

In [None]:
# Array mit 25 Elementen und shape (25,) in shape (5,5) umwandeln


### Random

NumPy kann außerdem auf viele verschiedene Weisen Pseudozufallszahlen erzeugen.

##### `rand`

Erstellt ein Array der gegebenen Form und füllt es mit Zufallszahlen einer Gleichverteilung über [0,1].

##### `randn`

Gibt ein Sample (oder mehrere) einer "standard normal" Verteilung zurück. Anders als `rand`, dass gleichverteilt ist.

##### `randint`

Gibt Zufallszahlen von `low`(inklusive) bis `high`(exklusive) zurück.

#### Weitere numpy.random-Funktionen
* `binomial`: Zieht Stichproben aus einer Binominalverteilung.
* `normal`: Zieht Stichproben aus einer Normalverteilung (einer gausschen Verteilung)
* `chisquare`: Zieht Stichproben aus einer Chi-Quadrat-Verteilung
* `shuffle`: Vermischt eine Sequenz an Ort und Stelle
* `permutation`: Liefert eine zufällige Permutation einer Sequenz oder einen permutierten Bereich zurück


### Rechnen mit NumPy-Arrays
#### Arithmetik

Arrays erlauben, viele Operationen auf Daten auszuführen, ohne dass die for-Schleife benötigt wird -> Vektorisierung.
Jede arithmetische Operation zwischen Arrays gleicher Größe führ ihre Arbeit elementweise durch.

In [None]:
# Bsp. Addition, Subtraktion, Multiplikation


Arithemeitsche Operationen mit Skalaren propagieren das skalare Argument zu jedem Element in dem Array.

In [None]:
# Bsp. Multiplikation/ Division mit Skalaren


Vergleiche zwischen Arrays derselben Größe ergeben boolsche Arrays

Operationen zwischen Arrays unterschiedlicher Größe werden als [Broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html) bezeichnet.

### Einfaches Indizieren und Slicing

In [None]:
# Werte in einem Bereich erhalten


Wenn einem Teilbereich ein skalarer Wert zugeordnet wird, wird dieser Wert an die gesamte Auswahl propagiert (`Broadcasting`).

In [None]:
# Einen Wert durch einen Index-Bereich festlegen (Broadcasting)arr[0:5]=100

# Anzeigen


Teilbereiche (Slices) von Arrays sind sogenannte View auf das ursprüngliche Arrays. D.h. die Daten werden nicht kopiert und alle Modifikationen an dem View schlagen sich im Quell-Array nieder.
Wenn man die Werte eines Slice ändert, spiegelt sich die Änderung widerum im Original-Array wider. Falls man statt eines Views tatsächlich die Kopie eines Slice eines ndarry haben will, muss man das Array explizit kopieren mit `.copy`.

In [None]:
# Zugriff auf Elemente bei höherdimensionalen Arrays

arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])

![Numpy Logo](img/numpy_indexing.png)

### Universelle Funktionen: schnelle elementweise Array-Funktionen
Eine universelle Funktion oder *ufunc* ist eine Funktion, die auf den Daten in ndarrays elementenweise Operationen durchführt. Man kann sich dazu einen schnellen vektorisierten Wrapper für einfache Funktionen vorstellen, der einen oder mehrere skalare Werte nimmt und ein oder mehrere skalare Ergebnisse produziert.

In [None]:
# Einfache elementenweise Transformation, wie sqrt oder exp
arr = np.arange(10)


In [None]:
# Funktionen, die zwei Arrays entgegennehmen und ein einzelnes Array als Ergebnis zurückliefern:
x = np.random.randn(8)
y = np.random.randn(8)


#### Bsp. unärer ufuncs
* `abs, fabs`: Berechnet elementweise den absoluten Wert für Integer-, Gleitkomma- oder komplexe Werte
* `sqrt`: Berechnet für jedes Element die Quadratwurzel
* `square`: Berechnet das Quadrat jedes Elements
* `exp`: Berechnet den Exponenten exp(x) jedes Elements
* `sign`: Berechnet das Vorzeichen jedes Elements: 1 (positiv), 0 (null) oder -1 (negativ)
* `cos, sin, tan`: Reguläre trigonometrische Funktionen

#### Bsp. universelle Funktionen
* `add`: Addiert korrespondierende Elemente in Arrays
* `subtract`: Subtrahiert die Elemente im zweiten Array vom ersten Array
* `multiply`: Mulitpliziert die Array-Elemente miteinander
* `maximum, fmax`: Elementweises Maximum; fmax ignoriert NaN
* `minimum, fmin`: Elementweises Minimum; fmin ignoriert NaN
* `mod`: Elementweiser Modulus (Rest der Division)
* `greater, greater_equal`: Führt elementweise Vergleiche durch, die ein boolsches Array errgeben
* `less, less_equal, not_equal`: Führt elementweise Vergleiche durch, die ein boolsches Array errgeben


### Mathematische und statistische Methoden
Eine Reihe mathematischer Funktionen, die Statistiken über ein ganzes Array oder über dei Daten entlang einer Achse berechnen, sind als Methoden der Array-Klasse verfügbar.
`Aggregationen` wie die Summe `sum`, der Mittelwert `mean`und die Standardabweichung `std`können entweder als Methoden, Array-Instanz oder auf oberster Ebene als NumPy-Funktion aufgerufen werden.

In [None]:
# Normalverteilte Zufallsdaten generieren
arr = np.random.randn(5,4)
arr

In [None]:
# Mittelwert


In [None]:
# Mittelwerte entlang einer Achse berechnen


In [None]:
#  Kumulative Summe der Elemente, beginnend bei 0


#### Grundlegende statistische Array-Methoden
* `sum`: Summe aller Elemente in dem Array oder entlang einer Achse; arrays der Länge null ergeben die Summe 0
* `mean`: Arithmetischer Mittelwert; Arrys der Länge null haben den Mittelwert NaN
* `std, var`: Standardabweichung bzw. Varianz mit optionaler Anpassung der Freiheitsgrade
* `min, max`: Minimum und Maximum
* `argmin, argmax`: Indizes der minimalen bzw. maximalen Elemente
* `cumsum`: Kumulative Summe der Elemente, beginnend bei 0
* `cumprod`: Kumulatives Produkt der Elemente, beginnend bei 1
