# Scientific Computing in Python

Unter **Scientific Computing** oder _wissenschaftliches Rechnen_ in Python fallen Verfahren und Methoden um arithmetische, numerische oder statistische Aufgaben zu lösen.

Natürlich lassen sich viele der Aufgaben auch mit der Python Standardbibliothek abbilden. Es gibt jedoch spezielle Bibliotheken, die das meiste, was man benötigt, bereits effizient und einfach nutzbar implementiert haben.


Die für uns wichtigstens Bibliotheken sind [**NumPy**](http://www.numpy.org) und [**pandas**](https://pandas.pydata.org).

## Import von Bibliotheken

Möchte man auf Funktionen und Datentypen aus Bibliotheken zurück greifen, müssen diese in das aktuelle Python-Script oder Jupyter-Notebook importiert werden. Benötigt man z.B. die Funktion `sqrt()`, um eine Wurzel zu ziehen, muss diese aus der `math` Bibliothekt (oder Paket wie man in Python sagt) geladen werden. Das geschieht ganz einfach mit einem **`import`** Statement:

```python
>>> import math
>>> math.sqrt(4)
2.0
```

Möchte man sich beim möglicherweise wiederholten Aufrufen der Funktion das `math.` sparen, kann man die Funktion auch explizit importieren.

```python
>>> from math import sqrt
>>> sqrt(4)
2.0
```

Teilweise ist es auch nützlich importierte Pakete mit einer Abkürzung zu versehen

```python
>>> import math as m
>>> m.sqrt(4)
2.0
```

oder aber explizit die Funktion.

```python
>>> from math import sqrt as wurzel
>>> wurzel(4)
2.0
```

Man sollte es sich jedoch niemals so einfach machen und schreiben:

```python
>>> from math import *
```

Das funktioniert zwar und importiert alle Funktionen aus `math`, ist aber sicher schlechter Stil und birgt einige Gefahren.

## numpy

Die Bibliothek **NumPy** stellt Datenstrukturen und Funktionen zur effizienten Handhabung von Vektoren, Matrizen oder großen multidimensionalen Arrays zur Verfügung. Da numpy intern an vielen Stellen auf vorkompilierten Code zurückgreift, sind die Operationen deutlich schneller als man es in einer interpretierten Sprache erwarten würde.

Die wesentliche Struktur ist das numpy-Array. Es enthält (anders als Python-Listen) nur Elemente des gleichen Typs und in den meisten Fällen sind dies Zahlen.

In [1]:
# Importieren wir also das numpy Paket. Da wir es häufig benutzten, kürzen wir es ab.
import numpy as np

In [2]:
np.array([1, 2, 3, 4, 5])  # Ein array aus einer Liste

array([1, 2, 3, 4, 5])

In [3]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
np.arange(15).reshape(3, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [5]:
np.zeros((3, 5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

### Array-Operationen

Schauen wir uns also mal zwei 2x2 Matrizen bzw. (2, 2)-Arrays an und was wir damit machen können.

In [6]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])
print(A)
print(B)

[[1 1]
 [0 1]]
[[2 0]
 [3 4]]


In [7]:
# Produkt der Elemente
A * B

array([[2, 0],
       [0, 4]])

In [8]:
# Matrixprodukt
A.dot(B)

array([[5, 4],
       [3, 4]])

### numpy-Funktionen

Ihre wirkliche Stärke spielen numpy-Arrays aber erst im Zusammenspiel mit den numpy-Funktionen aus.

In [9]:
C = np.arange(15).reshape(3, 5)
print(C)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [10]:
# Summe aller Elemente
C.sum()

105

In [11]:
# Summe über jede Spalte
C.sum(axis=0)

array([15, 18, 21, 24, 27])

In [12]:
# Minimum über jede Zeile
C.min(axis=1)

array([ 0,  5, 10])

In [13]:
# Kumulative Summe
C.cumsum()

array([  0,   1,   3,   6,  10,  15,  21,  28,  36,  45,  55,  66,  78,
        91, 105])

### np.random

Numpy beinhaltet auch umfangreiche Funktionalität um Zufallszahlen zu erzeugen:

In [14]:
np.random.random((2, 3))

array([[ 0.6218916 ,  0.15562807,  0.58938345],
       [ 0.9992025 ,  0.30345319,  0.49754544]])

### Statistik mit numpy

In [15]:
D = np.random.random((2, 3))

In [16]:
print(D)

[[ 0.44610496  0.12020712  0.26314532]
 [ 0.74691537  0.35012105  0.92369709]]


In [17]:
# arithmetisches Mittel
np.mean(D)

0.4750318175283022

In [18]:
# Standardabweichung
np.std(D)

0.27762597917501836

In [19]:
# Varianz
np.var(D)

0.077076184312887736

In [20]:
# Covarianzmatrix
np.cov(D)

array([[ 0.02668583,  0.02982607],
       [ 0.02982607,  0.08628116]])

### Performance-Vergleich

zwischen Python-Listen und Operationen, die auf numpy aufbauen:

In [21]:
E = np.random.random(1000)

In [22]:
%%timeit -r 10
sum(E) / len(E)

106 µs ± 2.81 µs per loop (mean ± std. dev. of 10 runs, 10000 loops each)


In [23]:
%%timeit -r 10
np.mean(E)

9.2 µs ± 971 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)


## pandas

Während numpy seinen Fokus auf die breite Unterstützung von numerischen Operationen auf multidimensionalen Array-Strukturen legt, steht die Datenanalyse im Mittelpunkt von **pandas**.

Aufbauend auf numpy und mit starken Anlehnungen an aus [**R**](https://www.r-project.org) bekannte Datenstrukturen wie den `DataFrame`, bietet pandas viele nützliche Funktionen zur Datenanalyse.

Wie gehabt importieren wir pandas zunächst und können dann damit arbeiten. Ebenfalls importieren wir die Bibliothek `kiml`, die einige speziell für unseren Kurs nützliche Helfer bereit hält.

In [24]:
# Auch pandas kürzen wir ab
import pandas as pd

# Aus dem `kiml` Paket laden wir die Hilfsfunktion `vinho_verde`,
# die uns später ein Beispieldatensatz zur Vefügung stellt.
from kiml.data import vinho_verde

ModuleNotFoundError: No module named 'kiml'

### Der pandas.DataFrame
Der [**pandas.DataFrame**](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) wird uns durch den kompletten Kurs begleiten.

In [None]:
dates = pd.date_range('20170101', periods=6)
values = np.random.random((6,4))

In [None]:
# DataFrame aus zwei Listen bzw. Arrays. 
# Die 'dates' werden dem 'index' zugeordnen und die 'colums' benennen wir manuell.
pd.DataFrame(data=values, index=dates, columns=['A', 'B', 'C', 'D'])

In [None]:
# Definition eines Dictionary
values = {
    'A': 1.0,
    'B': 'python',
    'C': np.random.random(6)
}

In [None]:
# DataFrame aus dem Dictionary und den vorigen 'dates'
pd.DataFrame(data=values, index=dates)

### Vinho Verde

Laden wir einmal einen Beispieldatensatz und schauen uns an, was sich daraus mit pandas machen lässt. Der Datensatz enthält rund 5000 Stichproben von Weinen. Verschiedene chemisch-physikalische Größen z.B. pH-Wert, Zucker- und Säuregehalt sind enthalten, sowie ein aus einem Expertenfeedback gewonnenes Qualitätsmaß.

In [None]:
# Der Datensatz kommt aus dem zuvor geladenen 'kiml.data' Paket.
df = vinho_verde()

In [None]:
# Der Datensatz enthält für 4898 Stichproben jeweils 12 Größen.
df.shape

In [None]:
# Die oberen 5 Zeilen anzeigen bzw. mit `.tail()` unteren Zeilen.
df.head(5)

In [None]:
# Anders als in unserem Beispiel zuvor haben wir hier einen numerischen Index.
df.index

In [None]:
# Die Spalten enthalten die folgenden Größen:
df.columns

In [None]:
# Mit `.describe()` bekommen wir eine statistische Zusammenfassung:
df.describe()

In [None]:
# Wir können den Datensatz neu sortieren.
df.sort_values(by='pH', ascending=False).head(5)

In [None]:
# Wir können uns einzelne Spalten anschauen.
df[['fixed acidity', 'citric acid', 'quality']].head()

In [None]:
# Uns die möglichen Einträge einer Spalte ansehen.
pd.unique(df['quality'])

In [None]:
# Diese sortieren, gruppieren und zählen:
df.groupby('quality')['quality'].count()

In [None]:
# Wir können die Daten filtern
df[df['alcohol'] > 10.0].head()

In [None]:
# Und alles hintereinander anwenden.
df[df['alcohol'] > 10.0].sort_values(by='alcohol', ascending=False).head()

In [None]:
# Probieren Sie es aus





