# Python Workshop 

## Termin 2: Datenanalyse mit Python - Numpy & Pandas
#### Torben Abts & Jonas Hummel (CorrelAid), 21.Juni 2022

In [5]:
# Install Numpy and Pandas in the current Jupyter kernel
#import sys
#!{sys.executable} -m pip install numpy
#!{sys.executable} -m pip install pandas

# Import Numpy and Pandas
import numpy as np
import pandas as pd

## Numpy

### 1. Was ist Numpy?

- Basic Package für **wissenschaftliches Rechnen mit Python** und besonders nützlich für die **Datenanalyse**
- Stellt **n-dimensionales Array-Objekt** bereit (n-dimensional = ein- und mehrdimensional)
- Beinhaltet unter anderem mathematische und logische Operationen, Formenmanipulation, Sortieren, Auswählen, I/O (Input/Output), diskrete Fourier-Transformationen, grundlegende lineare Algebra, grundlegende statistische Operationen, Zufallssimulation und vieles mehr...

### 2. Numpy Array


#### Eigenschaften von Arrays

Numpy Array oder auch ndarray (n-dimensional array):
- Multidimensional / n-dimensional
- Homogen $\rightarrow$ alle Items sind vom selben Datentyp und haben dieselbe Größe
- Reihen (axis=0) und Spalten (axis=1) $\rightarrow$ Shape (Reihen, Spalten)
- Größe eines Arrays ist nach der Initialisierung festgesetzt - das erstellte Objekt kann also in seinem Shape nicht mehr verändert werden. Das ist ein erheblicher Unterschied zu z.B. Listen in Python.
- Eindimensionale Arrays werden auch als Series, mehrdimensionale Arrays auch als Matrizen bezeichnet.

#### Erstellen eines Arrays

In [6]:
# Definition unseres ersten Arrays
our_array = np.array([1, 2, 3], dtype=float) # dtype muss nicht spezifiziert werden, sondern wird automatisch zugewiesen
our_array

array([1., 2., 3.])

In [7]:
type(our_array)

numpy.ndarray

In [10]:
# Definition unseres ersten mehrdimensionalen Arrays
our_array_nd = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
our_array_nd

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [12]:
type(our_array_nd)

numpy.ndarray

In [18]:
# Eigenschaften der beiden Arrays

print("Eigenschaften our_array")
print(f"ndim {our_array.ndim}")
print(f"size {our_array.size}")
print(f"shape {our_array.shape}")

print('-' * 20)

print("Eigenschaften our_array_nd")
print(f"ndim {our_array_nd.ndim}")
print(f"size {our_array_nd.size}")
print(f"shape {our_array_nd.shape}")

Eigenschaften our_array
ndim 1
size 3
shape (3,)
--------------------
Eigenschaften our_array_nd
ndim 2
size 8
shape (2, 4)


Eigenschaften eines Arrays:
- ndim = Anzahl der Dimensionen (1, 2, 3, 4, ...)
- size = Reihen * Spalten
- shape = (Reihen, Spalten)

In [19]:
# Anstatt Listen kann man auch Tuples für die Initialisierung eines Arrays verwenden

tuple_arr = np.array(((1, 2, 3, 4), (5, 6, 7, 8)))
tuple_arr

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
# Was übrigens nicht geht...
wrong = np.array([[1, 2, 3, 4], [5, 6, 7]]) # eine Reihe mit 4 und eine Reihe mit 3 Einträgen --> wirft Fehler

  wrong = np.array([[1, 2, 3, 4], [5, 6, 7]]) # eine Reihe mit 4 und eine Reihe mit 3 Einträgen --> wirft Fehler


#### "Intrinsic Creation" eines Arrays

In [21]:
# Man kann ein Array auch mit einem bestimmten vorgefertigen Inhalt initialisieren. Hier gibt es zwei Optionen:

# Array aus 0en
zeros = np.zeros((4, 3)) # numbers specify the shape (Reihen, Spalten)

# Array aus 1en
ones = np.ones((1, 9))

# Dieses Feature wirkt trivial, ist aber sehr nützlich, da wir den Shape eines Arrays in Nachhinein nicht mehr 
# verändern können und 0en und 1er somit z.B. als Platzhalter dienen

print(zeros)
print(ones)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1. 1. 1. 1. 1. 1. 1.]]


In [33]:
# Außerdem gibt es noch die np.arange- und die np.random.random-Funktion

arange_1 = np.arange(0, 12) # Achtung: hintere Grenze zählt NICHT mit 
arange_2 = np.arange(4, 10) # startet bei 4
arange_3 = np.arange(0, 10, 2) # mit Schritt-Parameter
arange_4 = np.arange(0.8, 7.4, 1.6) # geht auch mit floats
arange_5 = arange_1.reshape(3, 4) # mit reshape(Reihen, Spalten) kann ein mehrdimensionales Array erstellt werden
random_1 = np.random.random(3) # array with 3 random values between 0 and 1
random_2 = np.random.random((3,3)) # array with 3x3 random values between 0 and 1

print("arange_1"), print(arange_1)
print("arange_2"), print(arange_2)
print("arange_3"), print(arange_3)
print("arange_4"), print(arange_4)
print("arange_5"), print(arange_5)
print("random_1"), print(random_1)
print("random_2"), print(random_2)

arange_1
[ 0  1  2  3  4  5  6  7  8  9 10 11]
arange_2
[4 5 6 7 8 9]
arange_3
[0 2 4 6 8]
arange_4
[0.8 2.4 4.  5.6 7.2]
arange_5
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
random_1
[0.68463235 0.89878066 0.96507546]
random_2
[[0.60585846 0.60347056 0.81398062]
 [0.49391484 0.67762655 0.3584943 ]
 [0.72822115 0.03480306 0.23486266]]


(None, None)

### 3. Einfache Operationen 

#### Einfache arithmetische Operatoren

In [None]:
# Einzelnes Array

a + 2 # Addition
a - 2 # Subtraktion
a * 2 # Multiplikation
a / 2 # Division

# --> ändert alle Werte im Array

In [None]:
# Zwei Arrays

a + b # Addition
a - b # Subtraktion
a * b # Multiplikation
a / b # Division

# --> erstellt ein neues Array mit entsprechenden Werten

#### Komplexere arithmetische Operatoren

In [35]:
a = 2
np.sin(a)
np.sqrt(a)
np.log(a)
np.log2(a) # apply specific log

1.0


#### Rechnen mit Matrizen

In [None]:
A * B # Multiplikation jedes einzelnen Elements mit dem Element derselben Stelle --> KEIN Kreuzprodukt
np.dot() # Kreuzprodukt(A, B), Achtung: Nicht kommutativ
np.linalg.inv(a) # Invertieren
np.T() # Transponieren oder auch np.transpose()

#### Aggregatfunktionen

In [None]:
a.sum()
a.min()
a.max()
a.mean()
a.std()

**Übung 1**: Bearbeitet die Aufgaben im Aufgabenblock 1 im separaten Notebook.

### 4. Indexing, Slicing, Iterating

#### Indexing

In [None]:
# Series

a[4]
a[-1]
a[2, 4, 7] # multiple items at once

# Matrix (Reihe, Spalte)

a[1, 2] # Element aus 2. Reihe und 3. Spalte

#### Slicing

In [None]:
# Series

a[1, 5, 2]

# Matrix
a[0:2, 1:2] # separat definiert für Reihen und Spalten
# mehr Beispiele (siehe Seite 66)

#### Iterating

In [None]:
# Naiver Ansatz

# Series

for i in a:
    print(i)

# Matrix
for row in A:
    print(row)
    
for i in A.flat:
    print(i)

In [None]:
# Eleganterer Ansatz zum Implementieren von Funktionen

np.apply_along_axis(func, axis=0, arr=A)

# mit eigener Funktion

### 5. Shape- und Array-Manipulation

### 6. Weitere Konzepte und Funktionen

**Übung 2**: Bearbeitet die Aufgaben im Aufgabenblock 2 im separaten Notebook.

## Pandas

### 1. Was ist Pandas? 

- Vollständig entwickelt unter Verwendung der von Numpy eingeführten Konzepte

## Numpy & Pandas

## Weiterführende Materialien

Dokumentationen:
- [Numpy](https://numpy.org/doc/stable/user/absolute_beginners.html)
- [Pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

Lehrbuch:
- [Python Data Analytics, Fabio Nelli](https://link.springer.com/book/10.1007/978-1-4842-3913-1) (Notebook orientiert sich an diesem Buch)