Wahlpflichtach Künstliche Intelligenz I: Praktikum

---

# 04 - Numerische Berechnungen in Numpy

- [Numpy Arrays erstellen](#Numpy-Arrays-erstellen)
- [Datentypen](#Datentypen)
- [Mit Arrays rechnen](#Mit-Arrays-rechnen)
- [Funktionen auf Arrays anwenden](#Funktionen-auf-Arrays-anwenden)
- [Numpy Arrays sind Reihen](#Numpy-Arrays-sind-Reihen)
- [Broadcasting](#Broadcasting)
- [Aggregationsfunktionen](#Aggregationsfunktionen)
- [Daten einlesen und speichern](#Daten-einlesen-und-speichern)
- [Erweiterte Indizierung](#Erweiterte-Indizierung)
- [Erweitern, Reduzieren, Kombinieren von Arrays](#Erweitern,-Reduzieren,-Kombinieren-von-Arrays)
- [Numpy print Möglichkeiten](#Numpy-print-Möglichkeiten)

## Das Modul Numpy

Python Listen sind sehr flexibel, da sie Werte unterschiedlicher Datentypen beinhalten können und einfach verändert werden können (bspw. mit `append`). Diese Flexibilität geht jedoch auf Kosten der Performance, sodass Listen für numerische Berechnungen nicht ideal sind.

Das **Numpy** Modul definiert daher den n-dimensionalen **Array** Datentyp `numpy.ndarray`, der für numerische Berechnungen auf höchst performanten C und Fortran Code zurückgreift.

Arrays können nur Werte eines einzelnen numerischen Datentyps (bspw. floating point Werte) enthalten und sind sehr viel starrer als Listen. Dies ist jedoch für viele wissenschaftliche Anwendung, wie die Arbeit mit Datensätzen, genau was wir brauchen!

Wir importieren das Numpy Modul per Konvention unter der Abkürzung `np`:

In [None]:
import numpy as np

### Einführendes Beispiel

In Python eingebaute Container wie `list` bieten eine flexible Möglichkeit, Daten zu speichern und zu verwalten. Wie bereits erwähnt, speichern Sammlungen normalerweise nur Referenzen auf Objekte. Das ist zwar beim Schreiben von Code sehr praktisch, hat aber Kosten für die Performance im Speicher zur Folge. 

Lassen Sie uns ein Beispiel betrachten. Sagen wir, wir haben in einem Experiment eine Million Messungen gemacht und wollen nun den Mittelwert davon berechnen. Wir könnten dies auf die folgende Weise tun.

In [None]:
import random 
measurements = [random.randint(150, 200) for _ in range(1_000_000)]
print(measurements[:100])

Das ist ziemlich langsam, da Python in jeder Schleife eine neue Variable binden muss und dann prüfen muss, ob die `+`-Operation zwischen dem `Akkumulator` und der aktuellen `Messung` unterstützt wird. Das verhindert, dass es versucht, Objekte zu addieren, die nicht addiert werden können, aber in diesem Fall sind wir ziemlich sicher, dass wir es nur mit ganzen Zahlen zu tun haben. Wenn wir dem Interpreter sagen könnten, dass wir nur ganze Zahlen addieren, könnten wir die ganze Typüberprüfung überspringen und die Operation beschleunigen. Für diesen Zweck wurde `numpy` erfunden.  

In [None]:
def mean(values):
    accumulator = 0
    for value in values:
        accumulator += value
    mean_value = accumulator / len(values)
    return mean_value

%timeit mean(measurements)

Wir können bereits schnellere Berechnungen erreichen, wenn wir versuchen, so viele von Pythons eingebauten Funktionen wie `sum` zu verwenden.

In [None]:
%timeit sum(measurements) / len(measurements)

Der Standard-Datentyp von Numpy ist das `ndarray` (was für n-dimensionales Array steht). Im einfachsten Fall kann ein Numpy-Array aus einer Liste erstellt werden.

In [None]:
measurements_array = np.array(measurements)
measurements_array

In [None]:
type(measurements_array)

Sie verhalten sich sehr ähnlich wie Listen, haben aber einen festen Datentyp darunter. Numpy merkt automatisch, dass alle unsere Werte Interger sind und wählt den passenden Datentyp. Eine Ganzzahl, die 64 Bit Speicherplatz benötigt. https://docs.scipy.org/doc/numpy-1.13.0/user/basics.types.html

In [None]:
measurements_array.dtype

Außerdem bietet numpy eine Menge Routinen für mathematische Operationen von Arrays. Schauen wir mal, ob wir durch den Einsatz von numpy tatsächlich etwas gewonnen haben.

In [None]:
%timeit np.mean(measurements_array)

Ein deutlicher Geschwindigkeitszuwachs im Vergleich zu den reinen Python-Implementierungen! Nachdem wir uns von der Nützlichkeit von NumPy überzeugt haben, werfen wir einen genaueren Blick auf das Numpy-Array.

## Numpy Arrays erstellen

Am einfachsten erstellen wir Numpy Arrays aus Python Listen, indem wir die `numpy.array` Funktion verwenden:

In [None]:
a = np.array([1, 2, 3])   # Create a rank 1 array
print(type(a))            # Prints "<class 'numpy.ndarray'>"

In [None]:
a = np.array([ 1, 2, 3, 5, 8, 13])
a

In [None]:
b = np.array([[  1.5, 2.2, 3.1 ], [ 4.0, 5.2, 6.7 ]])
b

Numpy Arrays haben einige **Attribute**, die hilfreiche Informationen über das Array geben:

In [None]:
a.ndim, b.ndim # Die Zahl der Dimensionen des Arrays

In [None]:
a.shape, b.shape # Die Länge des Arrays in jeder Dimension

In [None]:
a.dtype, b.dtype # Der Datentyp des Arrays

> **Erinnerung:** Verwendet die `<TAB>`-Autovervollständigung und die `?`-Dokumentation im Jupyter Notebook wenn ihr nicht wisst, welche Funktionen es gibt oder was diese bewirken!

In [None]:
values = [[0, 1, 2, 3, 4]] * 3
two_dim_arr = np.array(values)
two_dim_arr

In [None]:
two_dim_arr.shape

In [None]:
two_dim_arr.ndim

In [None]:
values = [[[0, 1, 2, 3, 4]] * 3] * 6
three_dim_arr = np.array(values)
three_dim_arr

In [None]:
three_dim_arr.shape

In [None]:
three_dim_arr.ndim

#### Es gibt viele Möglichkeiten, Arrays zu erstellen

- Die `numpy.arange` Funktion arbeitet ähnlich wie Python's `range` Funktion, kann jedoch auch floating-point Argumente annehmen:

In [None]:
np.arange(10)

In [None]:
np.arange(1.5, 2, 0.1)

- Außerdem sehr hilfreich sind `numpy.linspace` und `numpy.logspace`, welche eine Anzahl von Werten in linearem oder logarithmischem Abstand zwischen zwei Zahlen generiert:

In [None]:
np.linspace(10, 20, 4)

In [None]:
np.logspace(1, 3, 4)

- Wir können mit `numpy.zeros` und `numpy.ones` Arrays erstellen, die mit Nullen oder Einsen gefüllt sind. Indem wir dem Argument `shape` dieser Funktionen statt einem Integer einen Tupel übergeben, können wir auch mehrdimensionale Arrays erzeugen:

In [None]:
np.zeros(5)

In [None]:
np.ones((5, 2, 3))

In [None]:
c = np.full((2,2,2,2), 4)  # Create a constant array
print(c)               # Prints "[[ 7.  7.]
                       #          [ 7.  7.]]"

In [None]:
# Corresponds to whatever was left in memory. Using zeros for initialising arrays is usually saver.
np.empty(shape=(2, 3, 2))

In [None]:
# empty is faster than initialized arrays but usually doesn't make a difference
%timeit np.empty(shape=100_000)
%timeit np.ones(shape=100_000)

In [None]:
d = np.eye(3)         # Create a 2x2 identity matrix
print(d)              # Prints "[[ 1.  0.]
                      #          [ 0.  1.]]"

In [None]:
e = np.random.random((2,2,2,2))  # Create an array filled with random values
print(e)                     # Might print "[[ 0.91940167  0.08143941]
                             #               [ 0.68744134  0.87236687]]"

Über andere Methoden der Array-Erstellung können Sie [in der Dokumentation](http://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation) nachlesen.

## Datentypen

Jedes Numpy-Array ist ein Grid aus Elementen desselben Typs. Numpy bietet einen großen Satz von numerischen Datentypen, die Sie zum Konstruieren von Arrays verwenden können. Numpy versucht, einen Datentyp zu erraten, wenn Sie ein Array erstellen, aber Funktionen, die Arrays konstruieren, enthalten normalerweise auch ein optionales Argument, um den Datentyp explizit anzugeben. Hier ist ein Beispiel:

In [None]:
x = np.array([1, 2])   # Let numpy choose the datatype
print(x.dtype)         # Prints "int64"

In [None]:
x = np.array([1.0, 2.0])   # Let numpy choose the datatype
print(x.dtype)             # Prints "float64"

In [None]:
x = np.array([1, 2], dtype=np.int64)   # Force a particular datatype
print(x.dtype)

### dtype

`dtype` gibt Auskunft über den Datentyp. Arrays können bools, ints, unsigned ints, floats oder komplexe Zahlen verschiedener Bytegrößen enthalten. Sie können auch Zeichenketten oder Python-Objekte speichern, aber das hat nur sehr wenige Anwendungsfälle.

In [None]:
values = [0, 1, 2, 3, 4]
int_arr = np.array(values, dtype='int')
int_arr, int_arr.dtype

Wenn der dtype nicht mit den angegebenen Werten übereinstimmt, castet numpy alles in diesen Datentyp.

In [None]:
bool_arr = np.array(values, dtype='bool')
bool_arr, bool_arr.dtype

Wenn kein expliziter Datentyp angegeben wird, wählt numpy den "kleinsten gemeinsamen Nenner". Im folgenden Beispiel wird alles zu einem Float, da Ints als Floats dargestellt werden können, aber nicht umgekehrt.

In [None]:
values = [0, 1, 2.5, 3, 4]
float_arr = np.array(values)
float_arr, float_arr.dtype

Sobald jedoch der Datentyp festgelegt ist, wird alles auf diesen Typ gezwungen.

In [None]:
int_arr[1] = 2.5
int_arr, int_arr.dtype

Diese Nicht-Python-Datentypen zwingen uns, erneut über Probleme wie Überlauf etc. nachzudenken.

In [None]:
values = [0, 1, 2, 3, 4]
uint_arr = np.array(values, dtype='uint8')
uint_arr, uint_arr.dtype

In [None]:
uint_arr[1] += 255
uint_arr

...und kann zu einigen Problemen führen, wenn man sie mit Standard-Python-Typen vergleicht

In [None]:
print(type(uint_arr[0]), type(183))

In [None]:
val = 1.2 - 1.0
arr = np.array([val], dtype=np.float32)
print(f'{val} == {arr[0]} -> {val == arr[0]}')

Zum besseren Vergleich können Sie mit einem Epsilon-Wert vergleichen:

In [None]:
epsilon = 1e-6  # 1*10^(-6); 0.000001
abs(arr[0] - val) < epsilon

http://effbot.org/pyfaq/why-are-floating-point-calculations-so-inaccurate.htm

Sie können alles über Numpy-Datentypen [in der Dokumentation](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html) nachlesen .

**Wiederholen Sie das bis jetzt Gelernte in Bezug auf Numpy für sich selber!**

Bearbeiten Sie inbesondere die folgende **Übung** und schreiben Sie die Antwort am Ende der Bearbeitungszeit in den Chat: 

**Erstellen Sie ein 3*3-Array, das ausschließlich aus True besteht.**

## Mit Arrays rechnen

Arrays können mit den Standardoperatoren `+-*/**` **elementweise** kombiniert werden:

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

In [None]:
# Elementwise sum; both produce the array
# [[ 6.0  8.0]
#  [10.0 12.0]]
print(x + y)
print(np.add(x, y))

In [None]:
# Elementwise difference; both produce the array
# [[-4.0 -4.0]
#  [-4.0 -4.0]]
print(x - y)
print(np.subtract(x, y))

In [None]:
# Elementwise product; both produce the array
# [[ 5.0 12.0]
#  [21.0 32.0]]
print(x * y)
print(np.multiply(x, y))

In [None]:
# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

In [None]:
# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

In [None]:
x = np.array([1,2,3])
y = np.array([4,5,6])
print(x)
print(y)

In [None]:
x + 2 * y

In [None]:
x ** y

Mit `@` können Sie sogar eine Matrixmultiplikation durchführen. Im Fall von 1d-Arrays ist dies das innere Produkt zwischen zwei Vektoren.

In [None]:
x @ y

In [None]:
# That's the same as
np.sum(x * y)

In [None]:
x.dot(y)

> **Achtung:** Für Python-Listen sind diese Operatoren völlig anders definiert!

Beachten Sie, dass `*` im Gegensatz zu MATLAB eine elementweise Multiplikation und keine Matrixmultiplikation ist. Wir verwenden stattdessen die Funktion `dot` zur Berechnung innerer Produkte von Vektoren, zur Multiplikation eines Vektors mit einer Matrix und zur Multiplikation von Matrizen. `dot` ist sowohl als Funktion im Numpy-Modul als auch als Instanzmethode von Array-Objekten verfügbar:

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

In [None]:
# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

In [None]:
# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

In [None]:
# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

## Funktionen auf Arrays anwenden

Während Funktionen aus dem `math` Modul wie `sin` oder `exp` auf Zahlen anwendbar sind, sind die gleichnamigen Funktionen aus dem `numpy` Modul auf Arrays anwendbar. **Die Funktion wird auf alle Element des Arrays** angewendet und ist typischerweise um einiges schneller als jedes Element einzeln zu berechnen:

In [None]:
phi = np.linspace(0, 2 * np.pi, 10) # 10 Werte zwischen 0 und 2π
np.sin(phi) # Der Sinus jedes dieser Werte

In [None]:
arr = np.arange(-9, 9)
arr

In [None]:
np.log(arr)

In [None]:
np.exp(arr)

In [None]:
np.sin(arr)

`np.sign` liefert -1 für negative Werte, +1 für positive Werte und 0 für 0:

In [None]:
np.sign(arr)

Numpy bietet viele nützliche Funktionen zur Durchführung von Berechnungen auf Arrays; eine der nützlichsten ist `sum`:

In [None]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

Außerdem gibt es weitere Funktionen, die Eigenschaften eines Arrays berechnen:

In [None]:
x = np.linspace(0, 10, 100)
np.sum(x), np.mean(x), np.std(x)

Diese Funktionen generalisieren auf mehrere Dimensionen, indem die Achse angegeben wird, auf der die Berechnung durchgeführt werden soll:

In [None]:
x = np.array([[ 1, 2 ], [ 3, 4 ]])
np.sum(x), np.sum(x, axis=0), np.sum(x, axis=1)

Abgesehen von der Berechnung mathematischer Funktionen mit Hilfe von Arrays, müssen wir häufig Daten in Arrays umformen oder anderweitig manipulieren. Das einfachste Beispiel für diese Art von Operation ist das Transponieren einer Matrix; um eine Matrix zu transponieren, verwenden Sie einfach das Attribut "T" eines Array-Objekts:

In [None]:
x = np.array([[1,2], [3,4]])
print(x)    # Prints "[[1 2]
            #          [3 4]]"
print(x.T)  # Prints "[[1 3]
            #          [2 4]]"

In [None]:
# Note that taking the transpose of a rank 1 array does nothing:
v = np.array([1, 2, 3])
print(v)    # Prints "[1 2 3]"
print(v.T)  # Prints "[1 2 3]"

Versuchen Sie immer, vektorisierte ufuncs anstelle von expliziten Schleifen zu verwenden! 

Die Verwendung dieser Operatoren/Universalfunktionen ist in der Regel schneller als das anderweitige Schreiben der Operationen:

In [None]:
var1 = lambda: np.repeat(np.arange(1, 4), 30).reshape(3, -1).T.flatten()
var2 = lambda: np.arange(3 * 30) % 3 + 1
var3 = lambda: np.array([[1, 2, 3] for _ in range(30)]).flatten()

print(var1())
print(var2())
print(var3())

%timeit var1()
%timeit var2()
%timeit var3()

### Zufällige Werte

`np.random` enthält eine Reihe von Funktionen, um Arrays zu erzeugen, die mit Zufallswerten verschiedener Wahrscheinlichkeitsverteilungen gefüllt sind.

In [None]:
np.random.random((3, 3))

In [None]:
np.random.randint(0, 10, (5, 5))

Mit ``np.random.randint`` und einem boolean dtype können Sie zufällige boolesche Arrays erzeugen!

### Wiederholende Werte

Mit ``np.repeat`` werden Elemente eines Arrays wiederholt:

In [None]:
np.repeat(3, 5)

In [None]:
np.repeat([[1,2], [3,4]], 2)

`np.tile` ist eine weitere Möglichkeit, Werte mit NumPy zu wiederholen.

In [None]:
print('Repeat:', np.repeat([1, 2, 3], 3))
print('Tile:', np.tile([1, 2, 3], 3))

### Reshape

In [None]:
a = np.arange(start=2, stop=14)
print(a.shape)
a

In [None]:
b = a.reshape(3, 4)
b

-1 als Achse ermittelt automatisch die Größe der jeweiligen Dimension

In [None]:
a.reshape(-1, 2)

Beispiel: Wir möchten ein 2D-Array erstellen, bei dem jede Zeile [1, 2, 3] ist und das 10 Zeilen haben soll.

In [None]:
print(np.repeat(np.arange(1, 4), 10).reshape(-1, 10).T, "\n")
print(np.tile(np.arange(1, 4), 10).reshape(10, -1))

### Arrays vergleichen

In [None]:
epsilon = 0.000000000001
a = np.zeros((3, 3))
a[0, 0] += epsilon  # a[0][0] -> list

b = np.zeros((3, 3))
print(a)
print(b)

In [None]:
a == b

In [None]:
(a == b).all()

In [None]:
c = np.array([])
d = np.array([1])
(c == d).all()

Probleme bei dieser Vorgehensweise: 
* Wenn entweder a oder b leer ist und das andere ein einzelnes Element enthält, wird dies True zurückgeben (der Vergleich a==b gibt ein leeres Array zurück, für das der All-Operator True zurückgibt).
* Wenn a und b nicht die gleiche Form haben und nicht übertragbar sind, dann wird dieser Ansatz einen Fehler auslösen.

Verwenden Sie stattdessen numpys bereitgestellte Funktionen!

In [None]:
np.array_equal(c, d)

In [None]:
np.allclose(a, b)

In [None]:
np.isclose(a, b)

Die vollständige Liste der von numpy bereitgestellten mathematischen Funktionen finden Sie [in der Dokumentation](http://docs.scipy.org/doc/numpy/reference/routines.math.html).

**Jetzt haben Sie kurz Zeit, sich mit dem Modul `numpy` und dem Anlegen von Numpy-Arrays und der Anwendung von Funktionen auf diese zu beschäftigen!**

Bearbeiten Sie inbesondere die folgende **Übung** und schreiben Sie die Antwort am Ende der Bearbeitungszeit in den Chat: 

**Erstellen Sie ein 5x5-Array, in dem *statistisch* im Schnitt 1/4 der Elemente Falsch sind, alle anderen sind Wahr (`randint()` und `astype(bool)`).**


## Numpy Arrays sind Reihen

Wir können alle Funktionen auf Numpy Arrays anwenden die für Reihen definiert sind.

In [None]:
a = np.arange(3)
len(a)

In [None]:
for x in a:
    print(x)

Wir können mit eckigen Klammern auf Elemente zugreifen:

In [None]:
a[0]

In [None]:
a[0] = 5                 
print(a)                  

#### Slicing wählt Teile eines Arrays aus

Die Slicing-Syntax von Reihen haben wir schon kennengelernt. Sie erlaubt uns, auf einzelne Elemente oder Teile einer Reihe zuzugreifen:

```python
a[start:stop:step]
```

Erweitert auf mehrdimensionale Arrays:

```python
b[start:stop:step, start:stop:step]
```

In [None]:
x = np.arange(10)
print(x[:5])
print(x[::2])

In [None]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

In [None]:
b = a[:2, 1:3]
b

In [None]:
print(a[0, 1])
b[0, 0] = 77     # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1])  

Alternativ können wir statt einem Index auch eine **Liste von Indizes** (auch _Fancy Indexing_ genannt, werden wir später noch einmal, wenn Zeit ist, tiefer besprechen) in das Subskript schreiben und erhalten die zugehörigen Elemente aus dem Array:

In [None]:
x = np.array([1, 6, 4, 7, 9])
indices = [1, 0, 2, 1]
x[indices]

Sie können auch eine ganzzahlige Indizierung mit einer Slice-Indizierung kombinieren. Dies führt jedoch zu einem Array mit niedrigerem Rang als das ursprüngliche Array. Beachten Sie, dass sich dies von der Art und Weise unterscheidet, wie MATLAB mit Array-Slicing umgeht:

In [None]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

In [None]:
row_r1 = a[1, :]    # Rank 1 view of the second row of a
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape) 

In [None]:
# We can make the same distinction when accessing columns of an array:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape) 
print(col_r2, col_r2.shape)  

**Ganzzahlige Array-Indizierung**: Wenn Sie mit Slicing in Numpy-Arrays indizieren, ist die resultierende Array-Ansicht immer ein Unterarray des ursprünglichen Arrays. Im Gegensatz dazu erlaubt Ihnen die Integer-Array-Indizierung, beliebige Arrays zu konstruieren, indem Sie die Daten eines anderen Arrays verwenden. Hier ist ein Beispiel:

In [None]:
a = np.array([[1, 2], 
              [3, 4], 
              [5, 6]])

In [None]:
print(a[[0, 1, 2], [0, 1, 0]]) 

In [None]:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

In [None]:
print(a[[0, 0], [1, 1]])

In [None]:
print(np.array([a[0, 1], a[0, 1]]))

Ein nützlicher Trick bei der Indizierung von Integer-Arrays ist das Auswählen oder Ändern eines Elements aus jeder Zeile einer Matrix:

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

print(a)

In [None]:
# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])

In [None]:
# Mutate one element from each row of a using the indices in b
a[np.arange(4), b] += 10

print(a)

#### Masking filtert ein Array

Außerdem erweitert Numpy diese Syntax um die **Masking** Funktionalität. Dabei geben wir im Subskript ein **Array von Booleans** an, welches die gleiche Länge hat, und erhalten nur die Elemente, für die wir `True` angegeben haben:

In [None]:
x = np.array([1, 6, 4, 7, 9])
mask = np.array([True, True, False, False, True])
x[mask]

Masking ist deshalb äußerst praktisch, weil die **Vergleichsoperatoren** in Kombination mit Numpy Arrays wiederum Boolean Arrays zurückgeben:

In [None]:
x > 4

Somit können wir Teile eines Arrays herausfiltern, die einer **Bedingung** entsprechen:

In [None]:
x[x > 4]

Bedingungen werden mit dem `&` Operator kombiniert:

In [None]:
x[(x > 4) & (x < 8)]

#### Slices oder Masken eines Arrays kann auch zugewiesen werden

Wenn ein Slice oder eine Maske eines Arrays auf der linken Seite einer Zuweisung steht, wird diesem Teil des Original-Arrays zugewiesen:

In [None]:
x = np.array([1, 6, 4, 7, 9])
x[x > 4] = 0
x

Der Kürze halber haben wir viele Details über weitere Möglichkeiten der Indizierung von Numpy-Arrays weggelassen. Wenn Sie mehr wissen wollen, sollten Sie [die Dokumentation](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html) lesen.

**Schauen Sie sich jetzt nochmal in Ruhe die Indizierung, das Slicen und das Maskieren in Numpy an!**

Bearbeiten Sie inbesondere die folgendende **Übung** und schreiben Sie die Antwort am Ende der Bearbeitungszeit in den Chat: 

**Ersetzt alle ungeraden Zahlen im angegebenen Array durch -1:**

```python
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
```


## Broadcasting
Broadcasting ist ein leistungsfähiger Mechanismus, der es numpy ermöglicht, bei der Durchführung von arithmetischen Operationen mit Arrays unterschiedlicher Form zu arbeiten. Häufig haben wir ein kleineres Array und ein größeres Array, und wir wollen das kleinere Array mehrfach verwenden, um eine Operation auf dem größeren Array durchzuführen.

Numpy versucht, die Arrays nach drei Regeln zu expandieren und ihre Formen übereinstimmen zu lassen, damit die Operation elementweise angewendet werden kann. 

**1. Regel** Wenn die Arrays eine unterschiedliche Anzahl von Dimensionen haben, wird die kleinere Form mit Einsen auf ihrer linken Seite aufgefüllt.<br/>
            Beispiel: (5 x 3) + (3) &rarr; (5 x 3) + (**1** x 3)<br/>
**2. Regel** Wenn die Anzahl der Dimensionen übereinstimmt, aber die Größe einer Dimension nicht, werden Dimensionen mit der Größe 1 aufgefüllt.<br/>
            Beispiel: (5 x 3) + (1 x 3) &rarr; (5 x 3) + (**5** x 3)<br/>
**3. Regel** Wenn sich die Formen der Arrays nach Anwendung der Regel 1 und 2 immer noch verschieben, wird ein Broadcasting-Fehler ausgelöst.

![](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

The Numpy documentation gives further insights https://docs.scipy.org/doc/numpy-1.14.0/user/basics.broadcasting.html.

Nehmen wir zum Beispiel an, dass wir zu jeder Zeile einer Matrix einen konstanten Vektor hinzufügen wollen. Wir könnten das so machen:

In [None]:
x = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9], 
              [10, 11, 12]])

v = np.array([1, 0, 1])
y = np.empty_like(x)   

for i in range(4):
    y[i, :] = x[i, :] + v
    
print(y)

Dies funktioniert; wenn die Matrix `x` jedoch sehr groß ist, könnte die Berechnung einer expliziten Schleife in Python langsam sein. Beachten Sie, dass das Hinzufügen des Vektors `v` zu jeder Zeile der Matrix `x` äquivalent zur Bildung einer Matrix `vv` ist, indem mehrere Kopien von `v` vertikal gestapelt werden und dann eine elementweise Summierung von `x` und `vv` durchgeführt wird. Wir könnten diesen Ansatz wie folgt implementieren:

In [None]:
x = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9], 
              [10, 11, 12]])

v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))   
print(vv)                 

In [None]:
y = x + vv
print(y)

Mit Numpy-Broadcasting können wir diese Berechnung durchführen, ohne tatsächlich mehrere Kopien von "v" zu erstellen. Betrachten Sie diese Version, die Broadcasting verwendet:

In [None]:

x = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9], 
              [10, 11, 12]])

v = np.array([1, 0, 1])
y = x + v 

print(y)  

Die Zeile `y = x + v` funktioniert, obwohl `x` aufgrund der Übertragung die Form `(4, 3)` und `v` die Form `(3,)` hat; diese Zeile funktioniert, als ob `v` tatsächlich die Form `(4, 3)` hätte, wobei jede Zeile eine Kopie von `v` wäre und die Summe elementweise durchgeführt würde.

Das Zusammenschalten von zwei Arrays erfolgt nach den folgenden Regeln:

1. Wenn die Arrays nicht den gleichen Rang haben, wird der Form des Arrays mit dem niedrigeren Rang eine 1 vorangestellt, bis beide Formen die gleiche Länge haben.
1. Die beiden Arrays werden als kompatibel in einer Dimension bezeichnet, wenn sie die gleiche Größe in der Dimension haben oder wenn eines der Arrays die Größe 1 in dieser Dimension hat.
1. Die Arrays können zusammen übertragen werden, wenn sie in allen Dimensionen kompatibel sind.
1. Nach dem Broadcasting verhält sich jedes Array so, als hätte es die Form, die dem elementweisen Maximum der Formen der beiden Eingangs-Arrays entspricht.
1. In jeder Dimension, in der ein Array die Größe 1 und das andere Array eine Größe größer als 1 hat, verhält sich das erste Array so, als ob es entlang dieser Dimension kopiert würde
Wenn diese Erklärung keinen Sinn ergibt, versuchen Sie, die Erklärung [aus der Dokumentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) oder [diese Erklärung](http://wiki.scipy.org/EricsBroadcastingDoc) zu lesen.

Funktionen, die Broadcasting unterstützen, werden als universelle Funktionen bezeichnet. Die Liste aller universellen Funktionen finden Sie [in der Dokumentation](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs).

Hier sind einige Anwendungen von Broadcasting:

In [None]:
# Compute outer product of vectors
v = np.array([1, 2, 3])  # v has shape (3,)
w = np.array([4, 5])    # w has shape (2,)
# To compute an outer product, we first reshape v to be a column
# vector of shape (3, 1); we can then broadcast it against w to yield
# an output of shape (3, 2), which is the outer product of v and w:
# [[ 4  5]
#  [ 8 10]
#  [12 15]]
print(np.reshape(v, (3, 1)) * w)

In [None]:
# Add a vector to each row of a matrix
x = np.array([[1, 2, 3], [4, 5, 6]])
# x has shape (2, 3) and v has shape (3,) so they broadcast to (2, 3),
# giving the following matrix:
# [[2 4 6]
#  [5 7 9]]
print(x + v)

In [None]:
# Add a vector to each column of a matrix
# x has shape (2, 3) and w has shape (2,).
# If we transpose x then it has shape (3, 2) and can be broadcast
# against w to yield a result of shape (3, 2); transposing this result
# yields the final result of shape (2, 3) which is the matrix x with
# the vector w added to each column. Gives the following matrix:
# [[ 5  6  7]
#  [ 9 10 11]]
print((x.T + w).T)

In [None]:
# Another solution is to reshape w to be a column vector of shape (2, 1);
# we can then broadcast it directly against x to produce the same
# output.
print(x + np.reshape(w, (2, 1)))

In [None]:
# Multiply a matrix by a constant:
# x has shape (2, 3). Numpy treats scalars as arrays of shape ();
# these can be broadcast together to shape (2, 3), producing the
# following array:
# [[ 2  4  6]
#  [ 8 10 12]]
print(x * 2)

Broadcasting macht Ihren Code in der Regel prägnanter und schneller, daher sollten Sie sich bemühen, es zu verwenden, wo es möglich ist.

## Aggregationsfunktionen
Aggregationsfunktionen sind Funktionen, die die Dimensionalität eines Arrays reduzieren. Sie liefern ein Argument "Achse", um anzugeben, welche Dimension reduziert werden soll.

In [None]:
np.random.seed(1)
two_dim_arr = np.random.randint(0, high=20, size=(4, 4))
two_dim_arr

Wenn nur das Array übergeben wird, wird die Aggregationsoperation über das gesamte Array ausgeführt.

In [None]:
np.min(two_dim_arr)

Mit dem optionalen Argument `axis` können wir angeben, welche Dimension aggregiert werden soll. Man kann sich das so vorstellen, dass die Operation auf alle Einträge angewendet wird, die sich ergeben, wenn man die Indizes in allen Dimensionen außer der Dimension `axis` festhält.

Schauen wir uns das Ergebnis der Minimum-Operation mit `axis=0` an:

In [None]:
np.min(two_dim_arr, axis=0)

Das Achsenkonzept erstreckt sich auf mehr als eine Dimension

In [None]:
np.random.seed(1)
three_dim_arr = np.random.randint(0, high=20, size=(4, 4, 4))
three_dim_arr

In [None]:
np.min(three_dim_arr, axis=0)

Hier ist der Eintrag bei Index `[0, 0]`, d.h. `5` das Minimum der folgenden Werte. 

In [None]:
for i in range(4):
    print(three_dim_arr[i, 0, 0])

Lassen Sie uns noch einmal alle Achsen mit einem anderen dreidimensionalen Array demonstrieren:

In [None]:
a = np.array([[[2, 4], [6, 9]], [[3, 1], [7, 8]], [[4, 5], [9, 0]]])
a, a.shape

In [None]:
np.min(a)

In [None]:
np.min(a, axis=0)

Das Setzen des Achsen-Arguments ist gleichbedeutend damit, alle anderen Achsen des jeweiligen Arrays der Reihe nach durchzugehen und für jede Kombination davon das jeweilige Aggregat zurückzugeben.

In [None]:
for i in range(a.shape[1]):
    for j in range(a.shape[2]):
        print(a[:, i, j])

Für `axis=1` wird eine Schleife durch Achse 0 und Achse 2 durchlaufen:

In [None]:
a

In [None]:
np.min(a, axis=1)

In [None]:
for i in range(a.shape[0]):
    for j in range(a.shape[2]):
        print(a[i, :, j])

...und schließlich durchlaufen wir für `axis=2` die Achsen 0 und 1:

In [None]:
a

In [None]:
np.min(a, axis=2)

In [None]:
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        print(a[i, j, :])

Die Form des resultierenden Arrays ist einfach die Form des ursprünglichen Arrays, wobei die angegebene Achse weggelassen wird:

In [None]:
mins = []
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        mins.append(min(a[i,j,:]))
np.array(mins).reshape([a.shape[0], a.shape[1]])

...allerdings ist die Verwendung von numpy natürlich viel schneller als die Schleifenbildung über das Array:

In [None]:
def find_min_manual(arr):
    mins = []
    for i in range(arr.shape[0]):
        for j in range(arr.shape[1]):
            mins.append(min(arr[i,j,:]))
    np.array(mins).reshape([arr.shape[0], arr.shape[1]])

%timeit find_min_manual(a)
%timeit np.min(a, axis=2)

#### np.nan

In [None]:
np.nan == np.nan

In [None]:
np.isnan(np.nan)

In [None]:
a = np.r_[np.arange(5), np.repeat(0, 5)]
a

In [None]:
b = a / a
b

In [None]:
~np.isnan(b)

In [None]:
b[~np.isnan(b)]

In [None]:
np.divide(a, a, out=np.zeros(a.shape), where=(a!=0)) 
# at the positions where a!=0, make the division,
# at other indices use what's specified as "out"

### Mehr als eine Dimension

Aggregationsfunktionen können auch mehr als eine Dimension auf einmal aggregieren.

In [None]:
three_dim_arr = np.random.randint(0, 10, (4, 2, 3))
three_dim_arr

In [None]:
np.min(three_dim_arr, axis=(1, 2))

### Andere Aggregationsfunktionen

In [None]:
two_dim_arr

In [None]:
np.max(two_dim_arr)

In [None]:
np.max(two_dim_arr, axis=0)

In [None]:
np.max(two_dim_arr, axis=1)

In [None]:
np.sum(two_dim_arr)

In [None]:
np.sum(two_dim_arr, axis=0)

In [None]:
np.sum(two_dim_arr, axis=1)

Viele dieser Funktionen sind auch als Methode auf dem Array-Objekt verfügbar.

In [None]:
two_dim_arr.sum(axis=0)

### Flatten
Wir möchten ein beliebiges Array in ein 1D-Array umwandeln.

In [None]:
a = np.arange(64).reshape((2, 2, 2, 2, 2, 2))
a

In [None]:
a.flatten()

**Steigen Sie jetzt nochmal ein bisschen selber für sich persönlich in das Flatten und das Broadcasting von Numpy-Arrays ein. Für die spätere Programmierung in Python und auch inbesondere im Umfeld von Machine Learning ist ein guter Umgang mit Numpy-Arrays elementar!**

## Daten einlesen und speichern

Mit der `numpy.loadtxt` Funktion können wir Daten aus einer Datei als Numpy Array einlesen:

In [None]:
data = np.loadtxt('data/04/temperatures.txt')
data.shape

Die Funktion gibt ein zweidimensionales Array mit den _Zeilen_ der eingelesenen Datei zurück. Alle Werte einer _Spalte_ können wir durch Slicing erhalten:

In [None]:
date = data[:,0] # Alle Zeilen, jeweils erste Spalte
T = data[:,1] # Alle Zeilen, jeweils zweite Spalte
date, T

> **Hinweis:** Die `numpy.loadtxt` Funktion kann auch direkt ein Array für jede Spalte zurückgeben, wenn das Argument `unpack=True` übergeben wird:
>
> ```python
> date, T = np.loadtxt('data/04/temperatures.txt', unpack=True)
> ```
>
> Weitere praktische Optionen, wie die ersten Zeilen zu überspringen u.ä., findet ihr in der Dokumentation. Entfernt das '`#`'-Zeichen in der folgenden Zelle und schaut euch die Optionen mal an:

In [None]:
np.loadtxt?

Mit der verwandten `np.savetxt` Funktion können wir Daten als Textdatei abspeichern:

In [None]:
#np.savetxt?

#### Berechnungen zwischenspeichern mit `numpy.save`

Die `numpy.loadtxt` und `numpy.savetxt` Funktionen arbeiten mit Textdateien. Wenn ihr ein Numpy Array jedoch nur zwischenspeichern möchtet, bspw. das Ergebnis einer langen numerischen Berechnung, könnt ihr es auch mit `numpy.save` in einer `.npy` Binärdatei speichern:

In [None]:
# lange numerischen Berechnung hier
result = np.random.random(10)
print(result)
# Ergebnis zwischenspeichern
np.save('data/04/result.npy', result)

Anstatt die Berechnung jedes mal erneut durchführen zu müssen, könnt ihr nun einfach mit `numpy.load` das zwischengespeicherte Ergebnis laden:

In [None]:
result = np.load('data/04/result.npy')
print(result)

> **Hinweis:** Diese Vorgehensweise kann viel Zeit sparen während ihr an einem Teil eures Programms arbeitet, das die numerische Berechnung nicht betrifft, bspw. die graphische Ausgabe als Plot.

## Erweiterte Indizierung

Numpy bietet Indizierungsmethoden, die über die aus Standard-Python-Sequenzen bekannten Indizierungstechniken hinausgehen.

### Mehrdimensionale Indizierung

Sie können einen Doppelpunkt verwenden, um alle Werte aus dieser Dimension zu erhalten.

In [None]:
large_two_dim_arr = np.arange(81).reshape((9, 9))
large_two_dim_arr

In [None]:
large_two_dim_arr[:, 1]

Standard-Slicing mit `(start, stop, step)` funktioniert wie erwartet.

In [None]:
large_two_dim_arr[:, 1:3]

In [None]:
large_two_dim_arr[:, 2:7:2]

Slices eines Arrays sind immer `views`. Das heißt, Sie "betrachten" den gleichen Teil des Arrays aus einer anderen Perspektive. Das spart eine Menge Speicher, aber es bedeutet auch, dass das ursprüngliche Array geändert wird, wenn Sie die Ansicht ändern.

In [None]:
arr_slice = large_two_dim_arr[:, 1]
arr_slice[:] = 0
large_two_dim_arr

In [None]:
large_two_dim_arr[:, 2] = 0
large_two_dim_arr

In [None]:
l2 = np.copy(large_two_dim_arr)
l2[:, 6] = 0
large_two_dim_arr

In [None]:
l2

Wenn Sie alle Werte aus mehreren aufeinanderfolgenden Dimensionen benötigen, können Sie Ellipsen (`...`) als Kurzzeichen verwenden.

In [None]:
# Ellipsis is an actual Python object.
print(...)

In [None]:
# np.stack joins arrays along a new axis.
four_dim_arr = np.stack((np.ones((3, 3, 3)), 
                         np.ones((3, 3, 3)) * 2, 
                         np.ones((3, 3, 3)) * 3, 
                         np.ones((3, 3, 3)) * 4))
four_dim_arr

In [None]:
four_dim_arr.shape

In [None]:
four_dim_arr[3, :, :, :]

In [None]:
four_dim_arr[1,..., 1]

In [None]:
four_dim_arr[..., 1]

### Fancy indexing
Sie können ein Array mit Indizes übergeben, dies ist besonders nützlich, um zufällige Elemente aus einem Array zu ziehen.

In [None]:
arr = np.arange(9) + 10
arr

In [None]:
indices = np.array([1, 4, 5])
arr[indices]

Das resultierende Array wird die Form des Index-Arrays widerspiegeln.

In [None]:
indices = np.array([[1, 4],
                    [5, 7]])
arr[indices]

Sie können jede Dimension separat indizieren.

In [None]:
two_dim_arr = np.arange(25).reshape(5, 5)
two_dim_arr

In [None]:
x_indices = np.array([3, 4])
y_indices = np.array([1, 2])
two_dim_arr[x_indices, y_indices] # Corresponds to indexing at [3, 1] and [4, 2].

Mit `np.argsort` können Sie die Indizes eines Arrays sortieren, so dass Sie andere Arrays auf die gleiche Weise sortieren können (beachten Sie, dass ich vstack nur zu Demonstrationszwecken verwende)

In [None]:
a = np.random.randint(0, 10, 10)
b = a**2
np.vstack((a, b))

In [None]:
indices = a.argsort()
indices

In [None]:
np.vstack((a[indices], b[indices]))

### Advanced Masking

In [None]:
arr = np.arange(1, 7)
arr

Verschiedene Masken können mit bitweisen logischen Operatoren kombiniert werden. Diese sind die vektorisierte Version der logischen Operatoren und sollten nicht mit `and`, `or` und `not` verwechselt werden, wenn sie den Wahrheitswert eines ganzen Objekts auswerten.

In [None]:
smaller_or_equal_four = (arr <= 4)
smaller_or_equal_four   

In [None]:
greater_two = (arr > 2)
greater_two

Bitweise `and` `&`.

In [None]:
greater_two & smaller_or_equal_four

In [None]:
# This does not work.
greater_two and smaller_or_equal_four

In [None]:
arr

In [None]:
arr[greater_two & smaller_or_equal_four]

Bitweise `or` mit `|`.

In [None]:
arr[greater_two | smaller_or_equal_four]

Bitweise xor mit `^`.

In [None]:
arr

In [None]:
arr[greater_two ^ smaller_or_equal_four]

Bitweise Negation mit `~`.

In [None]:
arr[~((arr < 2) ^ (arr > 2))]

In [None]:
arr[~greater_two]

In [None]:
# Gives everything smaller or equal to 2.
arr[~greater_two] = 2
arr

#### Verwendung von np.where

Die Verwendung von Maskierung verändert immer das ursprüngliche Array, während manchmal das ursprüngliche Array eher unverändert bleiben sollte. ``np.where`` ermittelt die Indizes eines Arrays, bei denen die angegebene Bedingung wahr ist.

In [None]:
a = np.arange(9).reshape(3, 3)
a[a % 3 == 0] = 0
a

In [None]:
a = np.arange(9).reshape(3, 3)
indices = np.where(a % 3 == 0)
indices

In [None]:
b = np.ones((3, 3))
b[indices] = 0
b

`where` kann auch verwendet werden, um einem neuen Array Werte zuzuweisen:

In [None]:
np.where(a % 3 == 0, 0, a)

In [None]:
a

`np.argwhere` gibt die Indizes gruppiert nach Element zurück:

In [None]:
a = np.eye(4) * np.arange(16).reshape(4,4)
a

In [None]:
np.argwhere(a)

In [None]:
np.where(a)

**Wiederholen Sie jetzt das Einlesen von Daten und die erweiterte Indizierung von Numpy! Sie werden es warscheinlich in Zukunft brauchen.**

## Erweitern, Reduzieren, Kombinieren von Arrays

### Hinzufügen neuer Dimensionen mit `np.newaxis`

Anstelle von `np.newaxis` kann auch `None` verwendet werden.

In [None]:
one_dim_arr = np.arange(5)
one_dim_arr, one_dim_arr.shape

In [None]:
two_dim_arr = one_dim_arr[np.newaxis, :]
two_dim_arr, two_dim_arr.shape

In [None]:
two_dim_arr = one_dim_arr[:, np.newaxis, None]
two_dim_arr, two_dim_arr.shape

Das Hinzufügen neuer Dimensionen ist z.B. nützlich, wenn Tensorflow für Batch-Inputs verwendet wird, Sie aber einen einzelnen Datenpunkt für die Vorhersage bereitstellen wollen:

In [None]:
one_dim_arr[:, None]

### Entfernen von Dimensionen

`arr.squeeze()` entfernt die Dimensionen der Größe 1:

In [None]:
one_dim_arr = np.arange(5)
two_dim_arr = one_dim_arr[np.newaxis, :]
two_dim_arr, two_dim_arr.shape

In [None]:
two_dim_arr.squeeze(), two_dim_arr.squeeze().shape

In [None]:
a = np.arange(5).reshape(1, -1, 1, 1)
a

In [None]:
a.squeeze()

### Kombinieren von Arrays
Es gibt viele Möglichkeiten, bestehende Arrays zu kombinieren, wie `np.append`, `np.concatenate` und `np.stack`. Bei diesen Operationen muss jedoch immer das gesamte Array kopiert werden. Daher ist es oft sinnvoller, im Vorfeld ein Array in der später benötigten Größe zu allokieren und dann nur die jeweiligen Teile zu füllen.

In [None]:
np.concatenate((np.arange(10), np.arange(10)[::-1]))

Eine schnelle und einfache Möglichkeit, Skalare und Arrays zu kombinieren, ist die Verwendung von ``np.r_``, mit den gewünschten Arrays, Listen oder Zahlen in eckigen Klammern:

In [None]:
np.r_[2, 2, 2, np.arange(10), np.arange(10)[::-1], [0, 1, 2]]

``np.append`` verwendet intern eine Verkettung:

In [None]:
np.append(np.arange(10), np.arange(10))

Für höherdimensionale Arrays sind andere Funktionen sinnvoll:

In [None]:
np.stack((np.arange(10), np.arange(10)))

Es gibt auch die Funktionen ``np.vstack`` (zeilenweises Stacking) und ``np.hstack`` (spaltenweises Stacking):
* hstack ist äquivalent zur Verkettung entlang der zweiten Achse, außer für 1-D-Arrays, wo es entlang der ersten Achse verkettet
* vstack ist äquivalent zur Verkettung entlang der ersten Achse, nachdem 1-D-Arrays der Form (N,) zu (1,N) umgeformt worden sind.

In [None]:
two_dim_arr = np.arange(16).reshape(4, -1)
two_dim_arr_2 = np.arange(16).reshape(4, -1) + 16
two_dim_arr, two_dim_arr_2

In [None]:
np.hstack((two_dim_arr, two_dim_arr_2))

In [None]:
np.vstack((two_dim_arr, two_dim_arr_2))

### Zufallsgesteuerter Zugriff mit random.seed

Wenn ein Zufalls-Seed gesetzt ist, verwendet der Zufallszahlen-Generator immer wieder die gleichen Zahlen. Dies ist sehr nützlich zum Testen, aber natürlich nimmt dies jegliche Zufälligkeit aus allem heraus, so dass es nicht im endgültigen Code verwendet werden sollte:

In [None]:
for _ in range(5):
    np.random.seed(0)
    print(np.random.random(5))

Um sie zu deaktivieren, setzen Sie einen Zufallswert von ``None``, in diesem Fall generiert numpy Zufallszahlen unter Verwendung Ihrer System-Zufälligkeit (oder der Systemzeit, ...)

In [None]:
for _ in range(5):
    np.random.seed(None)
    print(np.random.random(5))

### Mischen von Arrays

``np.random.shuffle`` mischt ein Array ab der ersten Dimension. Das heißt, ein eindimensionales wird komplett gemischt, während bei mehrdimensionalen Arrays die Arrays ab der zweiten Dimension intakt bleiben.

In [None]:
a = np.arange(10)
np.random.shuffle(a)
a

In [None]:
a = np.arange(9).reshape(3, 3)
np.random.shuffle(a)
a

Um das Array vollständig zu mischen, können Sie es flatten und anschließend wieder in seine ursprüngliche Form bringen:

In [None]:
a = np.arange(9).reshape(3, 3)
a

In [None]:
b = a.flatten()
np.random.shuffle(b)
a = b.reshape(a.shape)
a

Beachten Sie, dass ``np.shuffle`` das Array an Ort und Stelle durchmischt. Um eine Permutation zurückzugeben, würden Sie ``np.permutation`` verwenden:

In [None]:
a = np.arange(9).reshape(3, 3)
a

In [None]:
np.random.permutation(a)

In [None]:
a

Wenn Sie es mit verschiedenen Arrays zu tun haben, die Sie mischen möchten, ohne dass sie zueinander passen, ist es sinnvoller, stattdessen die Indizes zu mischen:

In [None]:
a = np.arange(9) + 1
b = a ** 2
np.vstack((a, b))

In [None]:
order = np.random.permutation(a.shape[0])
np.vstack((a[order], b[order]))

### np.random.choice

np.random.choice erzeugt aus einem gegebenen 1D-Array ein Sub-Array:

In [None]:
np.random.seed(1)
a = np.arange(10)
np.random.choice(a, size=5)

In [None]:
np.random.choice(a, size=5, replace=False)

In [None]:
np.random.choice(a, size=5, replace=False)

Sie können auch Wahrscheinlichkeiten angeben, mit denen bestimmte Elemente genommen werden sollen. Um ein weiteres Array zu erzeugen, bei dem etwa ein Viertel der Elemente True sind, können Sie verwenden:

In [None]:
np.random.choice(np.array([True, False]), size=(5, 5), p=[0.01, 0.99])

## Numpy `print`-Möglichkeiten

In seinen Standard-Optionen druckt numpy Zahlen nur bis zu einer bestimmten Genauigkeit aus, oder fasst das Drucken von Arrays zusammen. Mit ``np.set_printoptions`` kann das geändert werden:

In [None]:
rand_arr = np.random.random((5, 3))
rand_arr

In [None]:
np.set_printoptions(precision=3)
rand_arr

In [None]:
rand_arr = rand_arr / 1e3
rand_arr

In [None]:
np.set_printoptions(suppress=True, precision=6)
rand_arr

In [None]:
arr = np.arange(90)
arr

In [None]:
np.set_printoptions(threshold=10)
arr

## Weitere Literaturhinweise

NumPy-Kapitel aus dem "Python Data Science Handbook" von Jake VanderPlas https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html

[Video-Tutorial von Scipy 2017](https://youtu.be/lKcwuPnSHIQ)

In [None]:
from IPython.display import YouTubeVideo
YouTubeVideo('lKcwuPnSHIQ')

### Numpy Dokumentation

Dieser kurze Überblick hat viele der wichtigen Dinge angesprochen, die Sie über numpy wissen müssen, ist aber bei weitem nicht vollständig. Schauen Sie sich die [_Numpy_ Dokumentation](http://docs.scipy.org/doc/numpy/reference/) an, um viel mehr über _Numpy_ zu erfahren.

Du kannst jetzt Daten einlesen und mit Numpy analysieren. Lerne in der nächsten Lektion, wie du mit _Matplotlib_ wissenschaftlich plotten kannst.

Hier ist das Übungsblatt zu diesem Notebook: [**04 - Übungsaufgaben Numerische Berechnungen in Numpy**](04_uebungsaufgaben_numerische_berechnungen_in_numpy.ipynb)

---

Wahlpflichtach Künstliche Intelligenz I: Praktikum