_Einführung in Python, Clemens Brunner, 14.6.2018_

# 10 - NumPy

## Allgemeines
Python eignet sich hervorragend für Datenanalysen im wissenschaftlichen Bereich. Einerseits ist Python eine interpretierte Programmiersprache, welche sehr einfach zu erlernen ist. Andererseits gibt es eine riesige Anzahl an Paketen, welche neue Funktionalität bereitstellen. Es gibt für die meisten Anwendungsgebiete bereits Python-Pakete, daher lohnt es sich immer, sich zuerst einmal auf die Suche zu machen, ob es für einen bestimmten Einsatzzweck nicht schon ein Python-Paket gibt. Folgende Argumente sprechen für Python als Datenverarbeitungssprache:
* Open Source
* Plattformübergreifend (Windows, Mac OS X, Linux)
* Generelle Programmiersprache (nicht eingeschränkt auf ein bestimmtes Anwendungsgebiet wie z.B. Statistik)
* Interpretierte Sprache mit sehr einfacher und eleganter Syntax
* Trotzdem sehr hohe Geschwindigkeit möglich
* Daher geeignet zum Prototyping als auch zum Erstellen von Software für den Produktiveinsatz
* Sehr umfangreiche Standardbibliothek
* Unzählige Pakete verfügbar
* Riesige und hilfsbereite Community

[SciPy](http://www.scipy.org/) fasst mehrere wichtige Pakete zusammen, welche sich für wissenschaftliches Arbeiten in Python als De-Facto-Standard etabliert haben:
* [NumPy](http://www.numpy.org/)
* [SciPy (Bibliothek)](http://www.scipy.org/scipylib/index.html)
* [Matplotlib](http://matplotlib.org/)
* [Pandas](http://pandas.pydata.org/)
* [SymPy](http://www.sympy.org/en/index.html)
* [IPython](http://ipython.org/)

Außerhalb dieses fertig geschnürten Pakets gibt es aber noch eine große Anzahl an exzellenten Paketen für speziellere Anwendungen wie z.B. [scikit-learn](http://scikit-learn.org/stable/) (Machine Learning), [statsmodels](http://www.statsmodels.org/stable/index.html) (Statistik), oder [scikit-image](http://scikit-image.org/) (Bildverarbeitung). Diese Pakete setzen meist zumindest NumPy voraus.

In den folgenden Einheiten werden nach einer kurzen Einführung in IPython die wichtigsten Funktionen der Pakete NumPy, Matplotlib und Pandas beschrieben.

## IPython
Der Python-Interpreter kann im Script-Modus oder im interaktiven Modus verwendet werden. Letzterer eignet sich zum interaktiven Verarbeiten von Daten. Das Paket IPython fügt dem interaktiven Modus von Python einige zusätzliche Funktionen hinzu, die das Arbeiten komfortabler gestalten (z.B. farbliche Hervorhebung der Syntax, einfacher Zugriff auf bereits ausgeführte Befehle und Ergebnisse, hervorragende Vervollständigung von Befehlen mittels Tab-Completion, viele Zusatzfunktionen durch sogenannte Magic Functions). Deswegen sollte man eigentlich immer IPython und nicht den "nackten" Python-Interpreter für interaktive Aufgaben verwenden.

IPython stellt sowohl eine interaktive Konsole als auch ein Browser-basierendes Notebook (Jupyter) zur Verfügung. Wir beschäftigen uns hier aus Zeitgründen nur mit ersterem (angemerkt sei jedoch, dass dieses Dokument als Jupyter Notebook mit IPython erstellt wurde).

IPython kann im normalen Terminal oder als Qt-Console gestartet werden. Letzteres bietet u.a. zusätzlich die Möglichkeit, Grafiken direkt darzustellen. Auch Spyder oder PyCharm verwenden letztendlich IPython als interaktive Konsolen.

## NumPy
[NumPy](http://wiki.scipy.org/Tentative_NumPy_Tutorial) ist die Basis der allermeisten wissenschaftlichen Pakete in Python. Es stellt einen hocheffizienten Datentyp für numerische Daten zur Verfügung, nämlich ein homogenes multidimensionales (n-dimensionales) Array (auch kurz ND-Array bzw. `ndarray` genannt). Homogen bedeutet, dass alle Elemente eines Arrays denselben Datentyp haben (im Gegensatz zu Listen, welche Elemente mit unterschiedlichen Typen beinhalten können). Multidimensional bedeutet, dass ein Array beliebig viele Dimensionen (Achsen) besitzen kann. Jedes Element wird daher mit einem Tupel indiziert, welches seine genaue Position innerhalb des Arrays beschreibt.

Der erste Schritt ist wie bei jedem Paket bzw. Modul, NumPy zu importieren. Konventionell importiert man das Paket unter dem Kürzel `np`:

In [1]:
import numpy as np

Nun kann man alle NumPy-Funktionen mit Hilfe des Objekts `np` ansprechen. Am besten beginnen wir mit einem einfachen Beispiel.

In [2]:
a = np.arange(15)  # 15 Zahlen von 0 bis 14

In [3]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [4]:
type(a)

numpy.ndarray

In [5]:
a.shape  # 15 Elemente in einer Dimension (Achse)

(15,)

In [6]:
a = a.reshape(3, 5)  # umwandeln in 3 Zeilen und 5 Spalten

In [7]:
a  # 2 Dimensionen (Achsen), 1. Achse (=Zeilen) hat Länge 3, 2. Achse (=Spalten) hat Länge 5

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [8]:
a.ndim  # Anzahl an Dimensionen (Achsen), auch Rank genannt

2

In [9]:
a.shape  # Länge der einzelnen Achsen

(3, 5)

In [10]:
a.size  # Anzahl aller Elemente im Array

15

In [11]:
a.dtype  # Datentyp aller Elemente im Array

dtype('int64')

## Erstellen von Arrays
Arrays können mit der Funktion `np.array` aus Python-Listen erstellt werden:

In [12]:
b = np.array([1.1, 3.14, 7.68, -12.69, -4.55])  # aus einer normalen Liste
b

array([  1.1 ,   3.14,   7.68, -12.69,  -4.55])

Eine Liste von Listen wird in ein 2D-Array (Tabelle, besteht aus Zeilen und Spalten) konvertiert:

In [13]:
c = np.array([[1, 2, 3], [4, 5, 6]])  # aus einer Liste von Listen
c

array([[1, 2, 3],
       [4, 5, 6]])

In [14]:
c.shape

(2, 3)

Im Gegensatz zu Listen, welche dynamisch wachsen können, sollte die Größe von Arrays bereits bei der Erstellung bekannt sein, da das Hinzufügen von Zeilen oder Spalten relativ langsam ist. Hierfür gibt es einige praktische Konstruktionen, welche die Arrays mit Platzhalterelementen wie z.B. lauter Nullen erzeugen.

In [15]:
np.zeros((3, 4))  # Nullen - die Funktion hat 1 Argument (Tupel)

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [16]:
np.ones((2, 4))  # Einsen

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

Arrays die mit Zahlen ungleich 0 oder 1 gefüllt werden sollen, kann man mit der Funktion `np.full` erzeugen:

In [17]:
np.full((3, 4), 66)  # 3 Zeilen, 4 Spalten, alle Elemente gleich 66

array([[66, 66, 66, 66],
       [66, 66, 66, 66],
       [66, 66, 66, 66]])

Analog zur Builtin-Funktion `range` können mit `np.arange` Arrays mit Folgen von Zahlen erstellt werden. Hier sind nicht nur ganze Zahlen möglich, sondern auch Kommazahlen.

In [18]:
np.arange(5, 17)

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

In [19]:
np.arange(0.3, 5.4, 0.6)  # von 0.3 bis 5.4 mit Schrittweite 0.6

array([0.3, 0.9, 1.5, 2.1, 2.7, 3.3, 3.9, 4.5, 5.1])

Wenn man die Anzahl der Elemente einer Folge vorgeben will, verwendet man am besten die Funktion `linspace`:

In [20]:
np.linspace(1, 10, 10)  # 10 Elemente von 1 bis 10

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [21]:
np.linspace(1, 10, 10, dtype=int)  # wie oben, nur Integer-Elemente

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [22]:
np.linspace(1, 10, 25)  # 25 Elemente von 1 bis 10

array([ 1.   ,  1.375,  1.75 ,  2.125,  2.5  ,  2.875,  3.25 ,  3.625,
        4.   ,  4.375,  4.75 ,  5.125,  5.5  ,  5.875,  6.25 ,  6.625,
        7.   ,  7.375,  7.75 ,  8.125,  8.5  ,  8.875,  9.25 ,  9.625,
       10.   ])

Sollen die Elemente nicht den gleichen (linearen) Abstand haben sondern logarithmisch unterteilt sein gibt es analog dazu die Funktion `logspace`:

In [23]:
np.logspace(0, 4, 8)  # 8 Werte von 10**0 bis 10**4

array([1.00000000e+00, 3.72759372e+00, 1.38949549e+01, 5.17947468e+01,
       1.93069773e+02, 7.19685673e+02, 2.68269580e+03, 1.00000000e+04])

## Rechnen mit Arrays
### Arithmetische Operationen
Arithmetische Operationen werden grundsätzlich elementweise angewendet.

In [24]:
a = np.arange(100, 700, 100).reshape((2, 3))
b = np.arange(1, 7).reshape((2, 3))

In [25]:
a

array([[100, 200, 300],
       [400, 500, 600]])

In [26]:
b

array([[1, 2, 3],
       [4, 5, 6]])

In [27]:
a + b

array([[101, 202, 303],
       [404, 505, 606]])

In [28]:
a * b

array([[ 100,  400,  900],
       [1600, 2500, 3600]])

In [29]:
b**2

array([[ 1,  4,  9],
       [16, 25, 36]])

In [30]:
a < 300

array([[ True,  True, False],
       [False, False, False]])

Sind die zwei Arrays nicht gleich groß, wird das kleinere Array falls möglich vergrößert (d.h. Werte werden automatisch dupliziert) - dies nennt man Broadcasting. Das folgende Beispiel zeigt eine Multiplikation von einem Array der Shape (2, 3) mit der Zahl 5, was einer Shape von (1,) entspricht:

In [31]:
b.shape

(2, 3)

In [32]:
b * 5

array([[ 5, 10, 15],
       [20, 25, 30]])

Hier wird also die Zahl 5 automatisch vervielfältigt, sodass die Operation elementweise durchgeführt werden kann. Im Prinzip ist diese Operation äquivalent zu folgender Schreibweise:

In [33]:
b * np.array([[5, 5, 5], [5, 5, 5]])

array([[ 5, 10, 15],
       [20, 25, 30]])

### Matrixoperationen
Eine Matrixmultiplikation kann mit der Funktion `dot` durchgeführt werden.

In [34]:
np.dot(a, b.T)  # Matrixmultiplikation

array([[1400, 3200],
       [3200, 7700]])

Zu beachten sind natürlich die Regeln der Matrixmultiplikation, d.h. die Arrays müssen zweidimensional sein und die Shapes müssen kompatibel sein. Im Beispiel oben wir durch das Attribut `.T` das vorangestellte Array transponiert (d.h. Zeilen und Spalten werden vertauscht).

In [35]:
a.dot(b.T)  # alternative Schreibweise mit Methode

array([[1400, 3200],
       [3200, 7700]])

In [36]:
a @ b.T  # alternative Schreibweise (ab Python 3.5)

array([[1400, 3200],
       [3200, 7700]])

### Methoden
Viele Funktionen wie z.B. `sum`, `mean`, `min` oder `max` sind als Methoden von `ndarray`-Objekten verfügbar. Standardmäßig verarbeiten sie dabei alle Elemente so, als ob diese in einer Dimension wären. Alternativ zu den Methoden gibt es aber auch Funktionen mit dem gleichen Namen.

In [37]:
a.mean()  # Methode

350.0

In [38]:
np.mean(a)  # Funktion

350.0

In [39]:
b.sum()

21

In [40]:
b.max()

6

In [41]:
a.min()

100

Man kann diese Funktionen/Methoden aber auch auf einzelne Achsen anwenden, z.B. auf Zeilen oder Spalten.

In [42]:
a.mean(axis=0)  # Mittelwert entlang der Zeilen, d.h. Spaltenmittelwerte

array([250., 350., 450.])

In [43]:
a.mean(axis=1)  # Mittelwert entlang der Spalten, d.h. Zeilenmittelwerte

array([200., 500.])

## Indizieren und Slicen
Analog zu Listen oder Tupeln können einzelne Elemente aus Arrays herausgegriffen werden. Eindimensionale Arrays werden im Prinzip genau wie Listen indiziert.

In [44]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [45]:
a[0]  # erstes Element (wie in Python üblich beginnt auch hier die Indizierung bei 0)

0

In [46]:
a[-2]  # vorletztes Element

512

In [47]:
a[2:5]  # drei Elemente, beginnend mit Position 2

array([ 8, 27, 64])

In [48]:
a[::2]  # jedes zweite Element

array([  0,   8,  64, 216, 512])

Mehrdimensionale Arrays haben einen Index pro Achse.

In [49]:
b = np.random.randint(0, 100, (5, 4))

In [50]:
b

array([[42, 31, 94, 77],
       [39, 70, 48, 80],
       [19, 10, 51, 51],
       [12, 80, 63, 34],
       [41, 78, 32, 88]])

In [51]:
b.shape

(5, 4)

In [52]:
b[2, 3]  # 3. Zeile, 4. Spalte

51

In [53]:
b[:, -1]  # alle Zeilen, letzte Spalte

array([77, 80, 51, 34, 88])

In [54]:
b[0, :]  # erste Zeile

array([42, 31, 94, 77])

In [55]:
b[1:3, 2:]

array([[48, 80],
       [51, 51]])

Mit Index-Arrays kann man auch spezifische Positionen aus einem Array indizieren. Der Einfachkeit halber sei dies an einem 1D-Array veranschaulicht:

In [56]:
a = np.arange(12)**2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [57]:
idx = np.array([2, 7, 10, 10])  # wir wollen das 2., 7., 10. und 10. Element herausgreifen
idx

array([ 2,  7, 10, 10])

In [57]:
a[idx]

array([  4,  49, 100, 100])

Alternativ kann man als Index auch direkt eine Liste verwenden:

In [58]:
a[[2, 7, 10, 10]]

array([  4,  49, 100, 100])

Mit Bool'schen Indexarrays kann man Arrays ebenfalls indizieren (maskieren):

In [59]:
idx = a % 2 == 0  # gerade Zahlen
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False])

In [60]:
a[idx]

array([  0,   4,  16,  36,  64, 100])

In [61]:
a[a % 2 == 0]  # kompakter ohne eigenen Namen idx

array([  0,   4,  16,  36,  64, 100])

Es werden hier also nur jene Elemente herausgegriffen, für die das Indexarray `True` ist.

## Form (Shape)
Die Form eines Arrays lässt sich auf folgende Arten einsehen bzw. ändern:

In [62]:
c = np.random.randint(-500, 500, (3, 4))
c

array([[ 175,  115, -385,   67],
       [ 244,   53, -108, -350],
       [ 178,  228,  344,  371]])

In [63]:
c.shape  # gibt die aktuelle Form aus

(3, 4)

In [64]:
c.shape = 2, 6  # ändert die Form in place
c

array([[ 175,  115, -385,   67,  244,   53],
       [-108, -350,  178,  228,  344,  371]])

In [65]:
c.resize((4, 3))  # ändert die Form in place
c

array([[ 175,  115, -385],
       [  67,  244,   53],
       [-108, -350,  178],
       [ 228,  344,  371]])

In [66]:
c.reshape((1, -1))  # reshape ändert das Objekt nicht (-1 bedeutet, dass der Wert automatisch bestimmt wird)
c

array([[ 175,  115, -385],
       [  67,  244,   53],
       [-108, -350,  178],
       [ 228,  344,  371]])

In [67]:
c = c.reshape((1, -1))  # daher muss man einen Namen zuweisen, um damit weiterarbeiten zu können
c

array([[ 175,  115, -385,   67,  244,   53, -108, -350,  178,  228,  344,
         371]])

## Kombinieren von Arrays
Mit den Funktionen `hstack` und `vstack` können Arrays horizontal bzw. vertikal miteinander kombiniert werden.

In [68]:
a = np.random.randint(-100, 100, (2, 3))
b = np.random.randint(-100, 100, (2, 3))

In [69]:
a

array([[-47,   8, -58],
       [-56, -30, -55]])

In [70]:
b

array([[-40, -89, -34],
       [-67, -26,   5]])

In [71]:
np.hstack((a, b))

array([[-47,   8, -58, -40, -89, -34],
       [-56, -30, -55, -67, -26,   5]])

In [72]:
np.vstack((a, b))

array([[-47,   8, -58],
       [-56, -30, -55],
       [-40, -89, -34],
       [-67, -26,   5]])

Die Funktionen `column_stack` und `row_stack` liefern bei 2D-Arrays dieselben Ergebnisse wie `hstack` und `vstack`. Es gibt jedoch Unterschiede bei 1D-Arrays.

In [73]:
np.column_stack((a, b))

array([[-47,   8, -58, -40, -89, -34],
       [-56, -30, -55, -67, -26,   5]])

In [74]:
np.row_stack((a, b))

array([[-47,   8, -58],
       [-56, -30, -55],
       [-40, -89, -34],
       [-67, -26,   5]])

In [75]:
c = np.random.randint(-100, 100, 5)
c

array([-81,  22,  68,  -9,  46])

In [76]:
d = np.random.randint(-100, 100, 5)
d

array([37,  8, 52, 77,  8])

In [77]:
c.shape

(5,)

In [78]:
d.shape

(5,)

In [79]:
np.row_stack((c, d))

array([[-81,  22,  68,  -9,  46],
       [ 37,   8,  52,  77,   8]])

In [80]:
np.column_stack((c, d))

array([[-81,  37],
       [ 22,   8],
       [ 68,  52],
       [ -9,  77],
       [ 46,   8]])

In [81]:
np.hstack((c, d))

array([-81,  22,  68,  -9,  46,  37,   8,  52,  77,   8])

In [82]:
np.vstack((c, d))

array([[-81,  22,  68,  -9,  46],
       [ 37,   8,  52,  77,   8]])

## Hausübung
Geben Sie diese Hausübung als Python-Script in Moodle ab. Verwenden Sie für den Namen Ihrer Datei bitte folgendes Schema:

*Nachname1*_*Nachname2*-HUE10.py

### Übung 1
Erstellen Sie ein eindimensionales Array mit den Zahlen von 0 (inklusive) bis 10 (exklusive) in Schritten von 0.1. Weisen Sie diesem Array den Namen `t` zu. Wie viele Elemente hat das Array? Wie lautet die Form (Shape) des Arrays?

### Übung 2
Erstellen Sie aus dem Array `t` aus Übung 1 ein zweidimensionales Array `s`, welches die gleichen Elemente beinhaltet, jedoch aus 10 Zeilen (und der entsprechenden Anzahl an Spalten) besteht.

### Übung 3
Das Modul `np.random` enthält viele Funktionen zum Arbeiten mit Zufallszahlen. Erstellen Sie ein zweidimensionales Array `u` der Form (100, 8), welches aus zufälligen Ganzzahlen im Bereich \[-100, 100) besteht (d.h. -100 ist dabei, 100 nicht). Setzen Sie vorher den Seed mit dem Befehl `np.random.seed(4711)`. Berechnen Sie dann folgende Größen:

* Summe aller Elemente
* Mittelwert aller Elemente
* Zeilenmittelwerte
* Spaltenmittelwerte
* Maxima und Minima jeder Spalte
* Maxima und Minima jeder Zeile
* Maximum der Zeilenmittelwerte

*Hinweis:* Das Modul `np.random` ist komplett unabhängig vom Modul `random`. Immer wenn Sie mit NumPy-Arrays arbeiten und Zufallszahlen benötigen, sollten Sie `np.random` verwenden.

### Übung 4
Verwenden Sie das Array `u` aus Übung 3. Normieren Sie alle Spalten (d.h. ziehen Sie für jede Spalte den Spaltenmittelwert ab und dividieren durch die Spaltenstandardabweichung). Speichern Sie das Ergebnis in `z` ab. Zum Überprüfen berechnen Sie die Mittelwerte bzw. Standardabweichungen der einzelnen Spalten (diese sollten alle 0 bzw. 1 sein).

*Hinweis:* Sie können durch Broadcasting die Spaltenmittelwerte direkt vom gesamten Array `u` abziehen und müssen dies nicht für jede Spalte extra durchführen.

### Übung 5
Erstellen Sie ein dreidimensionales Array `x` der Form (3, 10, 5), welches die Zahlen von 1 bis 150 enthält. Wie lauten die *drei* Mittelwerte wenn Sie über die letzten beiden Dimensionen mitteln?

*Hinweis:* Der Mittelwert aller Elemente von `x[0, :, :]` ist der erste gesuchte Mittelwert, jener von `x[1, :, :]` der zweite, und jener von `x[2, :, :]` der dritte. Sie können so die drei Mittelwerte berechnen, oder kürzer wenn Sie das `axis`-Argument von `np.mean` auf ein Tupel setzen, welches die Achsen beinhält, über die Sie mitteln möchten (also die Achsen 1 und 2, da Python bei 0 zu zählen beginnt).

### Übung 6
Erstellen Sie ein (8, 8)-Array `c` mit einem Schachbrettmuster (verwenden Sie dafür die Werte 0 und 1). Es gibt viele mögliche Lösungen, gerne können Sie auch mehrere Varianten anführen. Sehen Sie sich z.B. die Hilfe zur Funktion `np.tile` an, oder erzeugen Sie zuerst ein Array aus lauter Nullen und fügen Sie dann an den entsprechenden Stellen Einsen ein (z.B. durch entsprechendes Indizieren oder mit `for`-Schleifen).