# Python Workshop 

## Termin 2: Datenanalyse mit Python - Numpy & Pandas
#### Torben Abts & Jonas Hummel (CorrelAid), 21.Juni 2022

In [1]:
# Install Numpy and Pandas in the current Jupyter kernel
#import sys
#!{sys.executable} -m pip install numpy
#!{sys.executable} -m pip install pandas

# Import Numpy and Pandas
import numpy as np
import pandas as pd

## I. Numpy

### 1. Was ist Numpy?

- Basic Package für **wissenschaftliches Rechnen mit Python** und besonders nützlich für die **Datenanalyse**
- Stellt **n-dimensionales Array-Objekt** bereit (n-dimensional = ein- und mehrdimensional)
- Beinhaltet unter anderem mathematische und logische Operationen, Formenmanipulation, Sortieren, Auswählen, I/O (Input/Output), diskrete Fourier-Transformationen, grundlegende lineare Algebra, grundlegende statistische Operationen, Zufallssimulation und vieles mehr...

### 2. Numpy Array


#### Eigenschaften von Arrays

Numpy Array oder auch ndarray (n-dimensional array):
- **Multidimensional** / n-dimensional
- **Homogen** $\rightarrow$ alle Items sind vom selben Datentyp und haben dieselbe Größe (Sonderfall: Structured Arrays)
- Reihen (axis=0) und Spalten (axis=1) $\rightarrow$ Shape (**Reihen, Spalten**)
- **Größe** eines Arrays ist nach der Initialisierung **festgesetzt** - das erstellte Objekt kann also in seinem Shape nicht mehr verändert werden. Das ist ein erheblicher Unterschied zu z.B. Listen in Python.

#### Erstellen eines Arrays

In [2]:
# Definition unseres ersten Arrays
our_array = np.array([1, 2, 3], dtype=float) # dtype muss nicht spezifiziert werden, sondern wird automatisch zugewiesen
our_array

array([1., 2., 3.])

In [3]:
type(our_array)

numpy.ndarray

In [4]:
# Definition unseres ersten mehrdimensionalen Arrays
our_array_nd = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
our_array_nd

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [5]:
type(our_array_nd)

numpy.ndarray

In [6]:
# Eigenschaften der beiden Arrays

print("Eigenschaften our_array")
print(f"ndim {our_array.ndim}")
print(f"size {our_array.size}")
print(f"shape {our_array.shape}")

print('-' * 20)

print("Eigenschaften our_array_nd")
print(f"ndim {our_array_nd.ndim}")
print(f"size {our_array_nd.size}")
print(f"shape {our_array_nd.shape}")

Eigenschaften our_array
ndim 1
size 3
shape (3,)
--------------------
Eigenschaften our_array_nd
ndim 2
size 8
shape (2, 4)


Eigenschaften eines Arrays:
- ndim = Anzahl der Dimensionen (1, 2, 3, 4, ...)
- size = Reihen * Spalten
- shape = (Reihen, Spalten)

In [7]:
# Anstatt Listen kann man auch Tuples für die Initialisierung eines Arrays verwenden

tuple_arr = np.array(((1, 2, 3, 4), (5, 6, 7, 8)))
tuple_arr

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [8]:
# Was übrigens nicht geht...
wrong = np.array([[1, 2, 3, 4], [5, 6, 7]]) # eine Reihe mit 4 und eine Reihe mit 3 Einträgen --> wirft Fehler

#### "Intrinsic Creation" eines Arrays

In [9]:
# Man kann ein Array auch mit einem bestimmten vorgefertigen Inhalt initialisieren. Hier gibt es zwei Optionen:

# Array aus 0en
zeros = np.zeros((4, 3)) # Zahlen geben den shape an (Reihen, Spalten)

# Array aus 1en
ones = np.ones((1, 9))

# Dieses Feature wirkt trivial, ist aber sehr nützlich, da wir den Shape eines Arrays in Nachhinein nicht mehr 
# verändern können und 0en und 1er somit z.B. als Platzhalter dienen

print(zeros)
print(ones)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1. 1. 1. 1. 1. 1. 1.]]


In [119]:
# Außerdem gibt es noch die np.arange- und die np.random.random-Funktion

arange_1 = np.arange(0, 12) # Achtung: hintere Grenze zählt NICHT mit 
arange_2 = np.arange(4, 10) # startet bei 4
arange_3 = np.arange(0, 10, 2) # mit Schritt-Parameter
arange_4 = np.arange(0.8, 7.4, 1.6) # geht auch mit floats
arange_5 = arange_1.reshape(3, 4) # mit reshape(Reihen, Spalten) kann ein mehrdimensionales Array erstellt werden
random_1 = np.random.random(3) # Array mit 3 zufälligen Werten zwischen 0 und 1
random_2 = np.random.random((3,3)) # Array mit 3x3 zufälligen Werten zwischen 0 und 1

print("arange_1"), print(arange_1)
print("arange_2"), print(arange_2)
print("arange_3"), print(arange_3)
print("arange_4"), print(arange_4)
print("arange_5"), print(arange_5)
print("random_1"), print(random_1)
print("random_2"), print(random_2)

arange_1
[ 0  1  2  3  4  5  6  7  8  9 10 11]
arange_2
[4 5 6 7 8 9]
arange_3
[0 2 4 6 8]
arange_4
[0.8 2.4 4.  5.6 7.2]
arange_5
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
random_1
[0.59780427 0.96884836 0.58887382]
random_2
[[0.67429844 0.6814961  0.13846034]
 [0.05541174 0.50738579 0.38613744]
 [0.20910979 0.42024129 0.54800716]]


(None, None)

### 3. Einfache Operationen 

#### Einfache arithmetische Operatoren

In [14]:
# Einzelnes Array

sample = np.array([1, 2, 3, 4, 5])

sample = sample + 2 # Addition
print(f"Addtion {sample}")
sample = sample - 2 # Subtraktion
print(f"Subtraktion {sample}")
sample = sample * 2 # Multiplikation
print(f"Multiplikation {sample}")
sample = sample / 2 # Division
print(f"Division {sample}")

# --> ändert alle Werte im Array

# Abkürzende Schreibweise
sample += 3
print(f"Addtion Kurzschreibweise {sample}")

Addtion [3 4 5 6 7]
Subtraktion [1 2 3 4 5]
Multiplikation [ 2  4  6  8 10]
Division [1. 2. 3. 4. 5.]
Addtion Kurzschreibweise [4. 5. 6. 7. 8.]


In [17]:
# Zwei Arrays

sample1 = np.array([10, 9, 8, 7, 6])
sample2 = np.array([1, 2, 3, 4, 5])

addition = sample1 + sample2 # Addition
subtraktion = sample1 - sample2 # Subtraktion
multiplikation = sample1 * sample2 # Multiplikation
division = sample1 / sample2 # Division

# --> erstellt ein neues Array mit entsprechenden Werten

print(addition)
print(subtraktion)
print(multiplikation)
print(division)

[11 11 11 11 11]
[9 7 5 3 1]
[10 18 24 28 30]
[10.          4.5         2.66666667  1.75        1.2       ]


#### Komplexere arithmetische Operatoren

In [19]:
sample = np.array([1, 2, 3, 4, 5])

sample_sin = np.sin(sample) # Sinus-Transformation
sample_sqrt = np.sqrt(sample) # Wurzel
sample_log = np.log(sample) # natürlicher log
sample_log2 = np.log2(sample) # spezifischer log

print(sample_sin)
print(sample_sqrt)
print(sample_log)
print(sample_log2)

[ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427]
[1.         1.41421356 1.73205081 2.         2.23606798]
[0.         0.69314718 1.09861229 1.38629436 1.60943791]
[0.         1.         1.5849625  2.         2.32192809]


#### Rechnen mit Matrizen

In [64]:
sample_1 = np.ones((3, 3))
sample_2 = np.ones((3, 3))
sample_2 += 3 # erhöht jeden Wert in Sample_2 um 3
sample_2[1:2] = 10 # ändert jeden Wert in der zweiten Reihe

print("Multiplikation aller einzelnen Werte")
print(sample_1 * sample_2) # Multiplikation jedes einzelnen Elements mit dem Element derselben Stelle --> KEIN Kreuzprodukt
print("Kreuzprodukt")
print(np.dot(sample_1, sample_2)) # Kreuzprodukt(A, B), Achtung: Nicht kommutativ
print("Kreuzprodukt vertauscht --> anderes Ergebnis")
print(np.dot(sample_2, sample_1))

[[ 4.  4.  4.]
 [10. 10. 10.]
 [ 4.  4.  4.]]
Multiplikation aller einzelnen Werte
[[ 4.  4.  4.]
 [10. 10. 10.]
 [ 4.  4.  4.]]
Kreuzprodukt
[[18. 18. 18.]
 [18. 18. 18.]
 [18. 18. 18.]]
Kreuzprodukt vertauscht --> anderes Ergebnis
[[12. 12. 12.]
 [30. 30. 30.]
 [12. 12. 12.]]


#### Aggregatfunktionen

In [22]:
sample = np.array([1, 2, 3, 4, 5])

print(sample.sum()) # Summe aller Werte
print(sample.min()) # Minimum im Array
print(sample.max()) # Maximum im Array
print(sample.mean()) # Durchschnitt aller Werte
print(sample.std()) # Standardabweichung der Werte im Array

15
1
5
3.0
1.4142135623730951


**Übung 1**: Bearbeitet die Aufgaben im Aufgabenblock 1 im separaten Notebook.

### 4. Indexing, Slicing, Iterating

#### Indexing

In [65]:
# Eindimensionale Arrays

sample = np.arange(1, 10)

print(sample[4])
print(sample[-1])
print(sample[[2, 4, 7]]) # mehrere Items auf einmal


# Mehrdimensionale Arrays

sample = sample.reshape((3, 3))

print(sample[1, 2]) # Element aus 2. Reihe und 3. Spalte

5
9
[3 5 8]
6


#### Slicing

In [120]:
# Eindimensionale Arrays

sample = np.arange(1, 10)

print(sample[1:7:2])


# # Mehrdimensionale Arrays

sample = sample.reshape((3, 3))

print(sample[0:2, 0:2]) # separat definiert für Reihen und Spalten

[2 4 6]
[[1 2]
 [4 5]]


In [70]:
# Veranschaulichung Matrix Slicing

# Erster Schritt: Auswahl der Reihen
# xxx
# xxx
# ooo

# Zweiter Schritt: Auswahl der Spalten
# oxo
# oxo
# 000

#### Iterating

In [75]:
# Naiver Ansatz


# Eindimensionale Arrays

sample = np.arange(1, 5)

for i in sample:
    print(i)
    
print("-" * 20)


# Mehrdimensionale Arrays

sample = sample.reshape((2, 2))

for row in sample:
    print(row)
    
print("-" * 20)
    
for i in sample.flat:
    print(i)

1
2
3
4
--------------------
[1 2]
[3 4]
--------------------
1
2
3
4


In [80]:
# Eleganterer Ansatz zum Implementieren von Funktionen

sample = np.arange(1, 10)
sample = sample.reshape((3, 3))

print(np.apply_along_axis(np.mean, axis=0, arr=sample))


# mit eigener Funktion

def product(x, counter=1):
    for i in x:
        counter *= i
    return counter

print(np.apply_along_axis(product, axis=0, arr=sample))
print(np.apply_along_axis(product, axis=1, arr=sample))

[4. 5. 6.]
[ 28  80 162]
[  6 120 504]


### 5. Shape- und Array-Manipulation

#### Shape Manipulation

In [82]:
# Veränderung der Dimensionalität

sample = np.arange(1, 10)

# Vom eindimensionalen zum mehrdimensionalen Array
sample = sample.reshape((3, 3))
print(sample)

# Vom mehrdimensionalen zum eindimensionalen Array
sample = sample.ravel()
print(sample)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[1 2 3 4 5 6 7 8 9]


In [94]:
# Transformation von Matrizen

sample = np.random.random((3, 3))

print("Random Matrix")
print(sample)

# Transponieren = Reihen und Spalten vertauschen
print("Transponiert")
print(sample.T) # oder auch: .transpose()

# Invertieren
print("Invertiert")
print(np.linalg.inv(sample))

Random Matrix
[[0.15135458 0.10834525 0.05392029]
 [0.4236659  0.06206897 0.21379869]
 [0.84415493 0.37059865 0.61438858]]
Transponiert
[[0.15135458 0.4236659  0.84415493]
 [0.10834525 0.06206897 0.37059865]
 [0.05392029 0.21379869 0.61438858]]
Invertiert
[[  4.45401465   5.04835871  -2.14765428]
 [  8.6499063   -5.14482584   1.03119031]
 [-11.33732335  -3.83296737   3.95644594]]


#### Array Joins

In [100]:
# Eindimensionale Arrays

sample_1 = np.arange(1, 5)
sample_2 = np.arange(11, 15)

cstack = np.column_stack((sample_1, sample_2)) # Join über Spalten
rstack = np.row_stack((sample_1, sample_2)) # Join über Reihen

print("Column Stack")
print(cstack)
print("Row Stack")
print(rstack)

Column Stack
[[ 1 11]
 [ 2 12]
 [ 3 13]
 [ 4 14]]
Row Stack
[[ 1  2  3  4]
 [11 12 13 14]]


In [117]:
# Mehrdimensionale Arrays

sample_1 = np.zeros((2, 2))
sample_2 = np.ones((2, 2))

vstack = np.vstack((sample_1, sample_2)) # vertikaler Join
hstack = np.hstack((sample_1, sample_2)) # horizontaler Join

print("Vertical Stack")
print(vstack)
print("Horizontal Stack")
print(hstack)

Vertical Stack
[[0. 0.]
 [0. 0.]
 [1. 1.]
 [1. 1.]]
Horizontal Stack
[[0. 0. 1. 1.]
 [0. 0. 1. 1.]]


#### Array Splits

In [106]:
# Horizontaler Split in gleiche Teile

sample = np.arange(1, 17).reshape((4, 4))

[a, b] = np.hsplit(sample, 2) # zweiter Parameter gibt Anzahl der Sub-Arrays an, in die gesplittet werden soll

print(a)
print("-" * 20)
print(b)

[[ 1  2]
 [ 5  6]
 [ 9 10]
 [13 14]]
--------------------
[[ 3  4]
 [ 7  8]
 [11 12]
 [15 16]]


In [116]:
# Vertikaler Split in gleiche Teile

sample = np.arange(1, 17).reshape((4, 4))

[a, b, c, d] = np.vsplit(sample, 4) # zweiter Parameter gibt Anzahl der Sub-Arrays an, in die gesplittet werden soll

print(a)
print("-" * 20)
print(b)
print("-" * 20)
print(c)
print("-" * 20)
print(d)

[[1 2 3 4]]
--------------------
[[5 6 7 8]]
--------------------
[[ 9 10 11 12]]
--------------------
[[13 14 15 16]]


In [125]:
# Split in verschieden große Teile

sample = np.arange(1, 17).reshape((4, 4))
[a, b , c] = np.split(sample, [1, 2], axis=0) # schneidet an zweiter und dritter Trennlinie, vertikaler Split
print(a)
print("-" * 20)
print(b)
print("-" * 20)
print(c)

print("#" * 50)

[a, b , c] = np.split(sample, [1, 4], axis=1) #schneidet an zweiter und fünfter Trennlinie, horizontaler Split
print(a)
print("-" * 20)
print(b)
print("-" * 20)
print(c) # leer, da an äußerster Trennlinie abgeschnitten (quasi nur die Kante, aber keine Werte enthalten)

[[1 2 3 4]]
--------------------
[[5 6 7 8]]
--------------------
[[ 9 10 11 12]
 [13 14 15 16]]
##################################################
[[ 1]
 [ 5]
 [ 9]
 [13]]
--------------------
[[ 2  3  4]
 [ 6  7  8]
 [10 11 12]
 [14 15 16]]
--------------------
[]


**Übung 2**: Bearbeitet die Aufgaben im Aufgabenblock 2 im separaten Notebook.

## II. Pandas

### 1. Was ist Pandas? 

- Vollständig entwickelt unter Verwendung der von Numpy eingeführten Konzepte

In [None]:
# Input/Output (I/O) mit Pandas

**Übung 3**: Bearbeitet die Aufgaben im Aufgabenblock 3 im separaten Notebook.

**Übung 4**: Bearbeitet die Aufgaben im Aufgabenblock 4 im separaten Notebook.

## III. Numpy & Pandas zusammen nutzen

In [None]:
# Numpy zu Pandas
# - aus vielen Arrays einen DataFrame
# - eine Spalte hinzufügen

# Pandas-Spalte zu Numpy-Vektor
# Pandas df zu np.matrix

**Bonus-Übung**: Wer die hier dargestellten Konzepte näher vertiefen und lernen möchte, Numpy zusammen mit Pandas zu benutzen, der findet weitere Bonus-Übungen im separaten Übungs-Notebook.

## Evaluation

Da die Erstellung dieser Kurse viel Arbeit ist und wir die Kurse auch in den kommenden Semestern wieder anbieten wollen, möchten wir euch bitten, euch kurz Zeit für die anonyme Evaluation zu nehmen, die nicht mehr als 5 Minuten euer Zeit beanspruchen sollte.

[Link fehlt noch](https://kicker.de)

## Weiterführende Materialien

Dokumentationen:
- [Numpy](https://numpy.org/doc/stable/user/absolute_beginners.html)
- [Pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

Lehrbuch:
- [Python Data Analytics, Fabio Nelli](https://link.springer.com/book/10.1007/978-1-4842-3913-1) (Notebook orientiert sich an diesem Buch)

Übungen Numpy:
- [w3resource](https://www.w3resource.com/python-exercises/numpy/index.php)
- [20 NumPy Exercises for Beginners]("https://favtutor.com/blogs/numpy-exercises-python")
- [Vektorielles Rechnen in Numpy](https://gkabbe.github.io/Python-Kurs-2017/uebungen/numpy/)

Übungen Pandas:
- [w3resource](https://www.w3resource.com/python-exercises/pandas/index.php)
- [guipsamora (GitHub)](https://github.com/guipsamora/pandas_exercises)
- [101 Pandas Exercises for Data Analysis](https://www.machinelearningplus.com/python/101-pandas-exercises-python/)