# **Aufgabe 1 - Arrays**

<p style="background-color:#f6f6f6;border-left:5px solid red;padding:0.6em;box-sizing:border-box;">
<strong>Lernziele:</strong><br/>
    Diese Übung zeigt ihnen die grundlegende Synatax für das Erstellen und manipiulieren von Arrays. Ausserdem werden die Syntax für grundlegende Kontrollstrukturen (<em>for-loop & if-condition</em>) eingeführt.
</p>

## **Hintergrund**

Daten, die wir aus einem Experiment erhalten liegen meistens in Form von Listen vor. Wir denken hier oft an Tabellen:

x  | y
---|---
x1 | y1
x2 | y2
 . | .
 . | .
 . | .

In Python gibt es viele Datenstrukturen um solche Arten von Daten zu verarbeiten. Besonders gut geeignet für Datenanalyse sind Arrays aus der Numpy-Bibliothek.

Ein Array ist eine Variable, ganz ähnlich wie eine herkömmliche Integer, Fliesskomma oder Stringvariable. Der Unterschied ist, dass in dieser Variable mehrere Werte gespeichert werden können, z.B. :

`a = np.array([0.1, 0.2, 0.3])`

Die Variable `a` ist hier ein 1-Dimensionales Array, in dem drei Zahlenwerte gespeichert sind. Arrays können auch mehrere Dimensionen haben:

`a = np.array([[0.1, 0.2, 0.3],
               [1.1, 1.1, 1.3]])`

Dies ist ein 2-dimensionales Array, bestehend aus zwei Zeilen mit jeweils drei spalten. Höherdimensionale Arrays sind nicht mehr so einfach darzustellen. Wir beschränken uns hier zunächst auf 1- und 2-dimensionale Arrays.

In einem Array müssen alle Zeilen gleich viele Spalten haben.

Die einzelnen Werte in einem Array können über ihre Zeilen- und Spaltenindizes identifiziert werden.

## **Aufgaben**

Binden Sie die die Numpy-Bibliothek ein:

In [None]:
import numpy as np

### Erstellen von Arrays

Um ein Numpy-Array zu erstellen verwenden wir den Befehl np.array(). Dabei können wir schon die Werte übergeben, mit denen das Array initialisiert werden soll. Dabei legen wir auch schon die Dimension des Arrays fest.

Wir erstellen ein 1-dimensionales Array:

In [None]:
a = np.array([0.1, 0.2, 0.3])

Nun sind der Variable a diese drei Werte in einem 1-dimensionalen Array zugewiesen. Die Werte in der gleichen Dimension (hier gibt es nur eine) stehen in einer eckigen Klammer und sind durch Kommata getrennt.

Wir können das leicht überprüfen:

In [None]:
print(a)

Um ein Array einer bestimmten Länge zu erstellen, dessen Werte erst später eingetragen werden, können wir die Funktionen np.zeros() oder np.ones() verwenden, je nach dem mit welchem Wert das Array initialisiert werden soll.

In [None]:
b = np.zeros(5)
print(b)

c = np.ones(5)
print(c)

Standardmässig erzeugen diese Funktionen Arrays aus 64-bit floats. Falls ein anderer Datentyp für die Einträge verwendet werden soll, kann man das mit einem Argument bestimmen:

In [None]:
d = np.ones(5, dtype=int)
print(d)

Informationen über Standardwerte und weitere Optionen finden Sie in der Numpy-Dokumentation: https://numpy.org/doc/stable/reference/generated/numpy.array.html

In IPython-Notebooks können Sie die Dokumentation einer Funktion auch so abrufen:

In [None]:
# Führen Sie diese Zelle aus
np.array?

Aufgabe:

- Finden Sie heraus, mit welchem Datentyp die Funktion np.array das Array initialisiert.

### Einfaches Indexieren von Arrays

Wir können Werte des Arrays indexieren, in dem wir den entsprechenden Index in eckigen Klammern angeben:


In [None]:
a = np.array([0.1, 0.2, 0.3])
print(a[1])

In [None]:
print(a[0])
print(a[1])
print(a[2])

Hier sehen wir auch: In Python beginnen die Indizes von Arrays mit 0.

Man kann sich das so vorstellen, dass die Indizes "zwischen" den Werten stehen:

`Index 0   1   2   3   4   5 `<br>
`Wert  | a | b | c | d | e |`

Damit ist einfacher verständlich, dass wir mit 0 zu Zählen beginnen und der letzte Eintrag im Array nach dem Index 'Länge-1' steht.

Das heisst in einem Array mit drei Einträgen ist der letzte Index 2. Wenn wir einen Index verwenden der grösser ist als 'Länge-1' gibt es eine Fehlermeldung. Wir können jedoch negative Indizes angeben.

**Aufgabe:**
- Geben Sie den Wert des Arrays a an der Stelle -1 aus. Was stellen Sie fest? Was gibt ein Index -2?

In [None]:
# Ihr Code

Wir können also ein Arrays mit negativen Indizes von hinten indizieren, ohne die Länge des Arrays kennen zu müssen!


Der Index kann natürlich auch selbst eine Variable sein, diese muss aber (in neueren Python-Versionen) ein Integer sein.

**Aufgabe:**
- Definieren Sie eine Indexvariable und geben sie den entsprechenden Wert des Arrays a aus.

In [None]:
# Ihr Code

Ganz analog zum Auslesen kann man einem Eintrag auch einen Wert zuweisen.

In [None]:
b = np.array([0.1, 0.2, 0.3])
b[1] = 5.5
print(b)

### Array Slicing

Häufig möchte man nicht nur einen einzelnen Wert aus einem Array lesen, sondern gleich ein ganzes Subarray. Die allgemeine Syntax hierfür ist:

`a[i_start:i_stop:i_step]`

Auf diese Weise wählt man aus dem Array `a` die Elemente zwischen den Indizes `i_start` und `i_stop` in Schritten von `i_step` aus.

In [None]:
a = np.array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

# Alle Werte zwischen Positionen 1 und 4
print(a[1:4:1])
# Jeder zweite Wert zwischen Positionen 1 und 8
print(a[1:8:2])
# Jeder dritte Wert zwischen Positionen 0 und 8
print(a[0:8:3])

Auch hier ist es hilfreich, sich die Indizes zwischen den Werten vorzustellen.

`Index  0   1   2   3   4   5 `<br>
`Wert   | a | b | c | d | e |`<br>
`Index -5  -4  -3  -2  -1`

So wird deutlich, dass alle Werte *zwischen* `i_start` und `i_stop` ausgewählt werden. Wie beim einfachen Indexieren funktioniert das Slicing auch mit negativen Indizes.

Wenn eines der drei Argumente `i_start`, `i_stop` oder `i_step` weggelassen wird, nimmt es einen Standardwert an. Die Standardwerte sind:

- `i_start`: Anfang des Arrays (Index 0)
- `i_stop`: Ende des Arrays (Index = Länge des Arrays)
- `i_step`: 1

Wenn `i_step` weggelassen wird, kann man den zweiten Doppelpunkt auch weglassen und die Syntax vereinfacht sich zu `a[i_start:i_stop]`.

In [None]:
print(a[:4])
print(a[3:])
print(a[-3:])

**Aufgabe:**
    
- Probieren Sie ein paar verschiedene Array-Slices aus um sich mit der Syntax vertraut zu machen.
- Wählen sie aus dem Array a alle Einträge ausser dem ersten und dem letzten aus.

In [None]:
# Ihr Code

### For-Schleifen

Wenn man durch die Einträge eines Arrays iterieren will, d.h. eines nach dem anderen bearbeiten, bieten sich hierzu for-Schleifen an. In Python wird in einer for-Schleife eine Iterationsvariable definiert und eine Liste von Werten, die diese annehmen soll.

In [None]:
a = np.array([0.1, 0.2, 0.3])
for index in a:
    print(index)

Hier ist i die Iterationsvariable und das Array a enthält die Werte, die i in der Schleife annehmen soll.

Wenn man in der Schleife nicht nur den Wert eines Eintrags, sondern auch seinen Index verwenden möchte, kann man die Funktion `enumerate` verwenden.

In [None]:
a = np.array([0.1, 0.2, 0.3])

# Erstelle ein zweites Array mit der gleichen Länge wie a
b = np.zeros(len(a))

# Wir möchten jedem b[i] den Wert a[i]**2 zuweisen.
for index, value in enumerate(a):
    b[index] = value**2
    
print(a)
print(b)

Die Iterationsvariablen `index` und `wert` können natürlich auch beliebig anders benannt werden.

Wenn man über einen Bereich von ganzen Zahlen iterieren will, z.B. über einen Bereich von Indizes, verwendet man die Funktion `range(i_start, i_stop, i_step)` um den Zahlenbereich zu erzeugen. Die Argumente `i_start`, `i_stop` und `i_step` verhalten sich genau so wie oben bei "Array Slicing" erklärt.

In [None]:
for index in range(2, 10, 2):
    print(index)

Beachten Sie, dass `i_stop` nicht im erzeugten Bereich enthalten ist!

Diese Funktion bietet sich auch an, um eine for-Schleife einfach eine bestimmte Anzahl mal durchlaufen zu lassen. Gibt man nur ein Argument an, wird dieses als `i_stop` interpretiert und die anderen beiden nehmen die Standardwerte `i_start = 0` und `i_step = 1` an.

In [None]:
# Diese Schleife wird fünfmal durchlaufen.
for index in range(5):
    print(index)

**Aufgabe:**

- Schreiben Sie eine for-Schleife, die jeden Eintrag eines Arrays mit 2 multipliziert und ausgibt.
- Erzeugen Sie ein Array a mit beliebigen Werten, und ein zweites Array b mit derselben Länge wie a. Schreiben Sie dann eine for-Schleife, die von jedem Wert a[i] den Index i des Eintrags abzieht und das Resultat in b[i] speichert.
- Schreiben Sie eine for-Schleife, die zu jedem Wert a[i] den nächsten Eintrag a[i+1] dazuaddiert und das Resultat ausgibt. Achten Sie darauf, wo die Schleife abbrechen muss, um eine Fehlermeldung zu vermeiden.

In [None]:
# Ihr Code

## If-Else Bedingungen

Ein weiteres wichtiges Konzept, ist das der If-Else Bedingungen. Diese verwenden wir um Bedingungen zu setzen, welche den Codefluss beeinflussen.  
Die Syntax für ein If-Statement ist folgendermassen in Python:

In [None]:
if condition: #first condition
    code
elif condition2: #else if condition
    code
else: #No condition met
    code

Hierbei sind insbesondere die Doppelpunkte zu beachten, welche den Code-Block beginnen. Zusätzlich sind die *elif* and *else* statements optional und müssen nicht verwendet werden.  
Zum Beispiel können wir überprüfen wie oft ein bestimmter Wert in einem Array vorkommt, indem wir einen Zähler inkrementieren wenn immer ein Array-Element den gesuchten Wert hat:

In [None]:
a = np.array([0.0, 2.0, 3.0, 5.0, 2.0, 0.0, 1.0])
counter = 0
number_of_interest = 2.0
for value in a:
    if value == number_of_interest:
        counter += 1
print(counter)

**Aufgabe:**  
Schauen sie sich den folgenden Code an und überlegen sie welcher Wert in der Variable x gespeichert wird und welcher numerischer Wert am Ende ausgegeben wird:

In [None]:
a = np.array([0, -4, 2, 1, -7, 8, 3, 2, 1])
x = 0
for value in a[1::2]:
    if value > 0:
        x += value
print(x)

Können sie den Code von oben erweitern, sodas zusätzlich die Summe der negativen Elemente an den ungeraden Indices in der Variable y berechnet wird:

In [None]:
a = np.array([0, -4, 2, 1, -7, 8, 3, 2, 1, -9])
x = 0
y = 
for value in a[1::2]:
    if value >= 0:
        x += value
    
print(x)
print(y)

### Höherdimensionale Arrays

Um ein Array mit höheren Dimensionen zu erzeugen können wir ähnlich wie bei eindimensionalen vorgehen:

In [None]:
a = np.array([[0.1, 0.2, 0.3],
              [1.1, 1.2, 1.3]])
print(a)

Dies ist ein 2-dimensionales Array mit zwei Zeilen mit jeweils drei Einträgen.

Um einen Eintrag in diesem Array zu indexieren müssen wir nun zwei Werte übergeben:

In [None]:
print(a[0, 1])

Dabei ist der erste Wert der Index der Zeile und der zweite der der Spalte.

Das Array-Slicing funktioniert ebenso wie bei eindimensionalen Arrays und kann auf Zeilen und Spalten separat angewendet werden. So kann man ganz einfach bestimmte Zeilen oder Spalten auswählen.


In [None]:
print(a[0, :])
print(a[:, 0])

Aber wir können auch einen Bereich indexieren:

In [None]:
print(a[0, 1:])
print(a[:, 1:])
print(a[:, ::2])

So können wir sehr einfach einen Teil des Arrays erhalten. 

Auch hier können natürlich wir wieder iterativ in Schleifen Subarrays auswählen.

In [None]:
for i in range(0, 3, 1):
    print(a[:, i])

So erhalten wir die einzelnen Spalten aus dem Array.

Um die Grösse eines Arrays zu erfahren können wir die shape-Funktion benutzen:

In [None]:
print(a.shape)

Diese Funktion gibt ein Tupel zurück mit den Längen der einzelnen Dimensionen des Arrays, auf das die Funktion angewendet wird.
In Python können wir in einem solchen Fall die Rückgabewerte auch gleich individuellen Variablen zuordnen:

In [None]:
zeilen, spalten = a.shape
print(zeilen)
print(spalten)

### Operationen auf Numpy-Arrays

Für unsere Anwendung sind Numpy-Arrays besonders gut geeignet weil wir viele mathematische Funktionen auf das ganze Array anwenden können und diese dann automatisch auf alle Einträge des Arrays angewendet werden.
Um z.B. alle Werte in einer Zeile eines 2-D Arrays zu quadrieren können wir schreiben:

In [None]:
a = np.array([[0.1, 0.2, 0.3],
              [1.1, 1.2, 1.3]])
b = a[1, :]**2
print(b)

Wir können auch alle Werte aus zwei Arrays miteinander Verrechnen:

In [None]:
b = a[0, :] + a[1, :]
print(b)

Beachten Sie, dass Operationen auf zwei Arrays nur funktionieren, wenn sie die gleiche Länge haben!

**Aufgabe:**
- Probieren Sie verschieden Operationen auf Arrays aus: Arrays mit Zahlen multiplizieren, addieren, etc. und Arrays mit Arrays verrechnen.
- Probieren Sie ein paar verschiedene Funktionen (auch transzendente Funktionen wie np.sin(), oder np.exp()) auf dem Array aus.

In [None]:
# Ihr Code

Darüber hinaus gibt es einige Funktionen, die auf dem ganzen Array operieren:

In [None]:
c = np.sum(a[0, :])
print(c)

Dies ergibt die Summe aller Einträge in dem Array.

**Aufgabe:**
- Verwenden Sie die Funktion np.prod() um das Produkt aller Einträge eines Arrays zu berechnen.

In [None]:
# Ihr Code

Schliesslich gibt es noch weitere Funktionen um Arrays mit speziellen Werten zu initialisieren:

In [None]:
print('1D Zeros')
a = np.zeros(10)
print(a)

print('---')
print('2D Zeros')
a = np.zeros([2, 2])
print(a)

print('---')
print('1D Ones')
a = np.ones(10)
print(a)

print('---')
print('2D Ones')
a = np.ones([2, 2])
print(a)

a_min = 0
a_max = 5
n_a = 11
d_a = 0.5

print('---')
print('Arange von {:0.2f} bis {:0.2f}, mit Schrittgrösse {:0.2f}'.format(a_min, a_max, d_a))
a = np.arange(a_min, a_max, d_a)
print(a)

print('---')
print('Linspace von {:0.2f} bis {:0.2f}, in {:d} Schritten'.format(a_min, a_max, n_a))
a = np.linspace(a_min, a_max, n_a)
print(a)

Die ersten beiden Funktionen sind selbsterklärend. Die letzten sind geeignet um Arrays zu erzeugen, die Werte zwischen zwei Grenzwerten a_min und a_max in gleichmässigen Abständen enthalten.
Numpy stellt uns hierfür zwei Funktionen zur Verfügung: np.arange(a_min, a_max, d_a) und np.linspace(a_min, a_max, n_a). Der Unterschied zwischen den beiden Funktionen ist, dass bei arange die Differenz zwischen zwei aufeinanderfolgenden Werten angegeben wird (d_a). Die Länge des Arrays ist dann vollständig definiert. Bei linspace übergeben wir stattdessen die Länge des Arrays, das wir erzeugen wollen, und damit ist die Differenz zwischen den aufeinanderfolgenden Werten definiert. 

**Aufgabe:**
- Erzeugen Sie ein paar Arrays mit diesen Funktionen und versuchen Sie die Unterschiede zu verstehen. Welche Werte müssen n_a bzw d_a haben um mit arange und linspace identische Arrays zu erzeugen?

In [None]:
# Ihr Code

## Bemerkung zu Numpy-Arrays und Python Listen

Wir haben in diesem Notebook Arrays aus dem Modul Numpy vorgestellt, da diese für die Datenverarbeitung besonders geeignet sind. Allerdings gibt es in Python auch den eingebauten Datentyp der Listen, die sehr ähnlich wie Numpy-Arrays aussehen, sich aber anders verhalten. Die wichtigsten Unterschiede sind:

- Mehrdimensionale Listen lassen sich nicht mit der gleichen Syntax wie mehrdimensionale Numpy-Arrays indexieren: statt a[1, 5] muss man a[1][5] schreiben. Ausserdem funktioniert das Slicing nicht mehr auf die gleiche Weise.
- Operationen, die auf eine Liste angewendet werden, werde nicht automatisch elementweise ausgeführt. Oft gibt es direkt eine Fehlermeldung, weil die Operation für die Liste nicht definiert ist, aber manchmal muss man sich vor unerwartetem Verhalten in Acht nehmen.

Wir empfehlen Ihnen deshalb in diesem Kurs immer Numpy-Arrays zu verwenden. Wenn Sie Fehlermeldungen antreffen, in denen "list" vorkommt, haben Sie vermutlich aus Versehen eine Python-Liste anstelle eines Numpy-Arrays verwendet.

Hier folgen ein paar Beispiele, bei denen das Verhalten von Python Listen von demjenigen von Numpy-Arrays abweicht.

In [None]:
# Definiere eine python-Liste
a = [0.1, 0.2, 0.3]

In [None]:
# Die Addition von Listen und Zahlen ist undefiniert!
print(a + 2)

In [None]:
# Ebenso andere einfach operationen
print(a * 2)

In [None]:
# 2D Liste
a = [[0.1, 0.2, 0.3],
     [1  ,   2,   3]]

# Indexieren funktioniert nicht mehr so...
print(a[1, 2])

In [None]:
# ...sondern so
print(a[1][2])

In [None]:
# Slicing funktioniert noch innerhalb einer Zeile
print(a[1][:])

In [None]:
# ...verhält sich aber anders wenn man es auf der Spalte versucht
print(a[:][1])

In [None]:
# Addieren von zwei Listen fügt sie zusammen, statt die Elemente zu addieren
a = [1, 2, 3]
b = [0.1, 0.2, 0.3]

print(a + b)

## Zusammenfassung

Sie haben nun die wichtigsten Eigenschaften von Numpy-Arrays kennengelernt. Damit sollten Sie in der Lage sein Daten in Arrays zu organisieren und alle relevanten Manipulationen an diesen Daten vorzunehmen.

Bitte beachten Sie dass viele dieser Funktionen nur für Numpy-Arrays auf diese Art und Weise funktionieren und für 'native' Python-Arrays oder Listen die Syntax oder die Funktionen oft anders aussehen.