_Einführung in Python, Clemens Brunner, 17.6.2016_

# 10 - NumPy

## Allgemeines
Python eignet sich hervorragend für die Datenverarbeitung im wissenschaftlichen Bereich. Einerseits ist Python eine interpretierte Programmiersprache, welche sehr einfach zu erlernen ist. Andererseits gibt es eine riesige Anzahl an Paketen, welche neue Funktionalität bereitstellen. Es gibt für die meisten Anwendungsgebiete bereits Python-Pakete, daher lohnt es sich immer, sich zuerst einmal auf die Suche zu machen, ob es für einen bestimmten Einsatzzweck nicht schon ein Python-Paket gibt. Folgende Argumente sprechen für Python als Datenverarbeitungssprache:
* Open Source
* Plattformübergreifend (Windows, Mac OS X, Linux)
* Generelle Programmiersprache (nicht eingeschränkt auf ein bestimmtes Anwendungsgebiet wie z.B. Statistik)
* Interpretierte Sprache mit sehr einfacher und eleganter Syntax
* Trotzdem sehr hohe Geschwindigkeit möglich
* Daher geeignet zum Prototyping als auch zum Erstellen von Software für den Produktiveinsatz
* Sehr umfangreiche Standardbibliothek
* Unzählige Pakete verfügbar

[SciPy](http://www.scipy.org/) fasst mehrere wichtige Pakete zusammen, welche sich für wissenschaftliches Arbeiten in Python als De-Facto-Standard etabliert haben:
* [NumPy](http://www.numpy.org/)
* [SciPy (Bibliothek)](http://www.scipy.org/scipylib/index.html)
* [Matplotlib](http://matplotlib.org/)
* [Pandas](http://pandas.pydata.org/)
* [SymPy](http://www.sympy.org/en/index.html)
* [IPython](http://ipython.org/)

Außerhalb dieses fertig geschnürten Pakets gibt es aber noch eine große Anzahl an sehr guten Paketen für speziellere Anwendungen wie z.B. [scikit-learn](http://scikit-learn.org/stable/) (Machine Learning), [statsmodels](http://statsmodels.sourceforge.net/) (Statistik), oder [scikit-image](http://scikit-image.org/) (Bildverarbeitung). Diese Pakete setzen meist zumindest NumPy voraus.

Im Folgenden werden nach einer kurzen Einführung in IPython die wichtigsten Funktionen der Pakete NumPy, Matplotlib und Pandas beschrieben.

## IPython
Der Python-Interpreter kann im Script-Modus oder im interaktiven Modus verwendet werden. Letzterer eignet sich zum interaktiven Verarbeiten von Daten. Das Paket IPython fügt dem interaktiven Modus von Python einige zusätzliche Funktionen hinzu, die das Arbeiten komfortabler gestalten. Deswegen sollte man eigentlich immer IPython und nicht den "nackten" Python-Interpreter für interaktive Aufgaben verwenden.

IPython stellt sowohl eine interaktive Konsole als auch ein Browser-basierendes Notebook (Jupyter) zur Verfügung. Wir beschäftigen uns hier aus Zeitgründen nur mit ersterem (angemerkt sei jedoch, dass dieses Dokument mit IPython Notebook erstellt wurde).

IPython kann im normalen Terminal oder als Qt-Console gestartet werden. Letzteres bietet u.a. zusätzlich die Möglichkeit, Grafiken direkt darzustellen. Auch Spyder oder PyCharm verwenden letztendlich IPython als interaktive Konsolen.

## NumPy
[NumPy](http://wiki.scipy.org/Tentative_NumPy_Tutorial) ist die Basis der allermeisten wissenschaftlichen Pakete in Python. Es stellt einen hocheffizienten Datentyp für numerische Daten zur Verfügung, nämlich ein homogenes multidimensionales Array (auch kurz ND-Array bzw. `ndarray` genannt). Homogen bedeutet, dass das alle Elemente eines Arrays denselben Datentyp haben (im Gegensatz zu Listen, welche Elemente unterschiedlichen Typs besitzen können). Multidimensional bedeutet, dass ein Array beliebig viele Dimensionen (Achsen) besitzen kann. Jedes Element wird daher mit einem Tupel indiziert, welches seine genaue Position innerhalb des Arrays beschreibt.

Der erste Schritt ist, NumPy zu importieren. Konventionell importiert man das Paket als `np`:

In [1]:
import numpy as np

Nun kann man alle NumPy-Funktionen mit Hilfe des Objekts `np` ansprechen. Am besten beginnen wir mit einem einfachen Beispiel.

In [2]:
a = np.arange(15)  # 15 Zahlen von 0 bis 14

In [3]:
a  # 1 Dimension (Achse)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [4]:
type(a)

numpy.ndarray

In [5]:
a = a.reshape(3, 5)  # umwandeln in 3 Zeilen und 5 Spalten

In [6]:
a  # 2 Dimensionen (Achsen), 1. Achse (=Zeilen) hat Länge 3, 2. Achse (=Spalten) hat Länge 5

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [7]:
a.ndim  # Anzahl an Dimensionen (Achsen), auch Rank genannt

2

In [8]:
a.shape  # Länge der einzelnen Achsen

(3, 5)

In [9]:
a.size  # Anzahl aller Elemente im Array

15

In [10]:
a.dtype  # Datentyp aller Elemente im Array

dtype('int64')

## Erstellen von Arrays
Arrays können aus Python-Listen erstellt werden:

In [11]:
b = np.array([1.1, 3.14, 7.68, -12.69, -4.55])  # aus einer normalen Liste
b

array([  1.1 ,   3.14,   7.68, -12.69,  -4.55])

Eine Liste von Listen wird in ein 2D-Array konvertiert:

In [12]:
c = np.array([[1, 2, 3], [4, 5, 6]])  # aus einer Liste von Listen
c

array([[1, 2, 3],
       [4, 5, 6]])

In [13]:
c.shape

(2, 3)

Die Größe von Arrays sollte bereits bei der Erstellung bekannt sein, da das Hinzufügen von Zeilen oder Spalten relativ langsam ist. Hierfür gibt es einige praktische Konstruktionen, welche die Arrays mit Platzhalterelementen wie z.B. lauter Nullen erstellen.

In [14]:
np.zeros((3, 4))  # Nullen

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

In [15]:
np.ones((2, 4))  # Einsen

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

In [16]:
np.empty((3, 2))  # zufällige Elemente

array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])

Analog zur Funktion `range` können mit `arange` Arrays mit Folgen von Zahlen erstellt werden. Hier sind nicht nur ganze Zahlen möglich, sondern auch Kommazahlen.

In [17]:
np.arange(5, 17)

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

In [18]:
np.arange(0.3, 5.4, 0.6)

array([ 0.3,  0.9,  1.5,  2.1,  2.7,  3.3,  3.9,  4.5,  5.1])

Wenn man die Anzahl der Elemente einer Folge vorgeben will, verwendet man am besten die Funktion `linspace`:

In [19]:
np.linspace(1, 10, 10)  # 10 Elemente von 1 bis 10

array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.])

In [20]:
np.linspace(1, 10, 10, dtype=int)  # wie oben, nur Integer-Elemente

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [21]:
np.linspace(1, 10, 25)  # 25 Elemente von 1 bis 10

array([  1.   ,   1.375,   1.75 ,   2.125,   2.5  ,   2.875,   3.25 ,
         3.625,   4.   ,   4.375,   4.75 ,   5.125,   5.5  ,   5.875,
         6.25 ,   6.625,   7.   ,   7.375,   7.75 ,   8.125,   8.5  ,
         8.875,   9.25 ,   9.625,  10.   ])

## Rechnen mit Arrays
Arithmetische Operationen werden grundsätzlich elementweise angewendet.

In [22]:
a = np.arange(100, 500, 100)
b = np.arange(1, 5)

In [23]:
a

array([100, 200, 300, 400])

In [24]:
b

array([1, 2, 3, 4])

In [25]:
a + b

array([101, 202, 303, 404])

In [26]:
a * b

array([ 100,  400,  900, 1600])

In [27]:
b**2

array([ 1,  4,  9, 16])

In [28]:
a < 300

array([ True,  True, False, False], dtype=bool)

Sind die zwei Arrays nicht gleich groß, wird das kleinere Array falls möglich vergrößert (d.h. Werte werden automatisch dupliziert) - dies nennt man Broadcasting. Das folgende Beispiel zeigt eine Multiplikation von einem Array der Shape (4,) mit der Zahl 5, was einer Shape von (1,) entspricht:

In [29]:
b.shape

(4,)

In [30]:
b * 5

array([ 5, 10, 15, 20])

Hier wird also die Zahl 5 automatisch 4 Mal wiederholt, sodass die Operation elementweise durchgeführt werden kann. Im Prinzip ist diese Operation äquivalent zu folgender Schreibweise:

In [31]:
b * np.array([5, 5, 5, 5])

array([ 5, 10, 15, 20])

Eine Matrixmultiplikation kann mit der Funktion `dot` durchgeführt werden.

In [32]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

In [33]:
A

array([[1, 2],
       [3, 4]])

In [34]:
B

array([[5, 6],
       [7, 8]])

In [35]:
np.dot(A, B)  # Matrixmultiplikation

array([[19, 22],
       [43, 50]])

In [36]:
A.dot(B)  # alternative Schreibweise mit Methode

array([[19, 22],
       [43, 50]])

In [37]:
A @ B  # alternative Schreibweise ab Python 3.5

array([[19, 22],
       [43, 50]])

In [38]:
A * B  # elementweise Multiplikation

array([[ 5, 12],
       [21, 32]])

Viele Funktionen wie z.B. `sum`, `mean`, `min` oder `max` sind als Methoden von `ndarray`-Objekten verfügbar. Standardmäßig verarbeiten sie dabei alle Elemente so, als ob diese in einer Dimension wären. Alternativ zu den Methoden gibt es aber auch Funktionen mit dem gleichen Namen.

In [39]:
A.mean()  # Methode

2.5

In [40]:
np.mean(A)  # Funktion

2.5

In [41]:
B.sum()

26

In [42]:
B.max()

8

Man kann diese Funktionen/Methoden aber auch auf einzelne Achsen anwenden, z.B. auf Zeilen oder Spalten.

In [43]:
A.mean(0)  # Mittelwert entlang der Zeilen, d.h. Spaltenmittelwerte

array([ 2.,  3.])

In [44]:
B.mean(axis=1)  # Mittelwert entlang der Spalten, d.h. Zeilenmittelwerte

array([ 5.5,  7.5])

## Indizieren und Slicen
Analog zu Listen oder Tupeln können einzelne Elemente aus Arrays herausgegriffen werden. Eindimensionale Arrays werden im Prinzip genau wie Listen indiziert.

In [45]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729])

In [46]:
a[0]  # erstes Element (wie in Python üblich beginnt auch hier die Indizierung bei 0)

0

In [47]:
a[-2]  # vorletztes Element

512

In [48]:
a[2:5]  # drei Elemente, beginnend mit Position 2

array([ 8, 27, 64])

In [49]:
a[::2]  # jedes zweite Element

array([  0,   8,  64, 216, 512])

Mehrdimensionale Arrays haben einen Index pro Achse.

In [50]:
b = np.random.randint(0, 100, (5, 4))

In [51]:
b

array([[10, 98, 77, 97],
       [48, 71, 55, 66],
       [29, 50, 79,  5],
       [47, 17, 68, 73],
       [29, 10, 90, 34]])

In [52]:
b.shape

(5, 4)

In [53]:
b[2, 3]  # 3. Zeile, 4. Spalte

5

In [54]:
b[:, -1]  # alle Zeilen, letzte Spalte

array([97, 66,  5, 73, 34])

In [55]:
b[0, :]  # erste Zeile

array([10, 98, 77, 97])

In [56]:
b[1:3, 2:]

array([[55, 66],
       [79,  5]])

Mit Index-Arrays kann man auch spezifische Positionen aus einem Array indizieren. Der Einfachkeit halber sei dies an einem 1D-Array veranschaulicht:

In [57]:
a = np.arange(12)**2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121])

In [58]:
idx = np.array([2, 7, 10, 10])  # 2., 7., 10. und 10. Element
idx

array([ 2,  7, 10, 10])

In [59]:
a[idx]

array([  4,  49, 100, 100])

Mit Bool'schen Indexarrays kann man Arrays ebenfalls indizieren (maskieren):

In [60]:
idx = a % 2 == 0  # gerade Zahlen
idx

array([ True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False], dtype=bool)

In [61]:
a[idx]

array([  0,   4,  16,  36,  64, 100])

## Form (Shape)
Die Form eines Arrays lässt sich auf folgende Arten einsehen bzw. ändern:

In [62]:
c = np.random.randint(-500, 500, (3, 4))
c

array([[-204,  133, -360, -221],
       [ 412, -235,  402, -257],
       [ 148,   15,  395,  139]])

In [63]:
c.shape  # gibt die aktuelle Form aus

(3, 4)

In [64]:
c.shape = 2, 6  # ändert die Form in place
c

array([[-204,  133, -360, -221,  412, -235],
       [ 402, -257,  148,   15,  395,  139]])

In [65]:
c.resize((4, 3))  # ändert die Form in place
c

array([[-204,  133, -360],
       [-221,  412, -235],
       [ 402, -257,  148],
       [  15,  395,  139]])

In [66]:
c.reshape((1, -1))  # reshape ändert das Objekt nicht (-1 bedeutet, dass der Wert automatisch bestimmt wird)
c

array([[-204,  133, -360],
       [-221,  412, -235],
       [ 402, -257,  148],
       [  15,  395,  139]])

In [67]:
d = c.reshape((1, -1))  # daher muss es einem Namen zuweisen, um damit weiterarbeiten zu können
d

array([[-204,  133, -360, -221,  412, -235,  402, -257,  148,   15,  395,
         139]])

## Kombinieren von Arrays
Mit den Funktionen `hstack` und `vstack` können Arrays horizontal bzw. vertikal miteinander kombiniert werden.

In [68]:
a = np.random.randint(-100, 100, (2, 3))
b = np.random.randint(-100, 100, (2, 3))

In [69]:
a

array([[ 60,  15, -47],
       [-13, -24,  30]])

In [70]:
b

array([[ 98, -85,  32],
       [-26, -37,  30]])

In [71]:
np.hstack((a, b))

array([[ 60,  15, -47,  98, -85,  32],
       [-13, -24,  30, -26, -37,  30]])

In [72]:
np.vstack((a, b))

array([[ 60,  15, -47],
       [-13, -24,  30],
       [ 98, -85,  32],
       [-26, -37,  30]])

Die Funktionen `column_stack` und `row_stack` liefern bei 2D-Arrays dieselben Ergebnisse wie `hstack` und `vstack`. Es gibt jedoch Unterschiede bei 1D-Arrays.

In [73]:
np.column_stack((a, b))

array([[ 60,  15, -47,  98, -85,  32],
       [-13, -24,  30, -26, -37,  30]])

In [74]:
np.row_stack((a, b))

array([[ 60,  15, -47],
       [-13, -24,  30],
       [ 98, -85,  32],
       [-26, -37,  30]])

In [75]:
c = np.random.randint(-100, 100, 5)
c

array([-86, -40,  13,  86,  86])

In [76]:
d = np.random.randint(-100, 100, 5)
d

array([ -1, -27,  38, -27, -44])

In [77]:
c.shape

(5,)

In [78]:
d.shape

(5,)

In [79]:
np.row_stack((c, d))

array([[-86, -40,  13,  86,  86],
       [ -1, -27,  38, -27, -44]])

In [80]:
np.column_stack((c, d))

array([[-86,  -1],
       [-40, -27],
       [ 13,  38],
       [ 86, -27],
       [ 86, -44]])

In [81]:
np.hstack((c, d))

array([-86, -40,  13,  86,  86,  -1, -27,  38, -27, -44])

In [82]:
np.vstack((c, d))

array([[-86, -40,  13,  86,  86],
       [ -1, -27,  38, -27, -44]])