
# Module, Pakete und Bibliotheken
In Python gibt es verschiedene Möglichkeiten, Code zu organisieren. Die wichtigsten sind Module, Pakete und Bibliotheken.
Im Folgenden eine kurze Übersicht. Für weitere Informationen siehe [hier](https://docs.python.org/3/tutorial/modules.html#).

#### Module
Module sind Python-Dateien (Dateien mit der Endung `.py`), die Klassen, Funktionen und Variablen enthalten. Sie dienen dazu, den Code zu organisieren und die Wiederverwendbarkeit zu erhöhen. Module können von anderen Modulen importiert werden.

#### Pakete
Ein Paket ist eine Sammlung von Modulen. Pakete sind Verzeichnisse, die Module und andere Pakete enthalten. Pakete sind eine Möglichkeit, Module hierarchisch zu organisieren und zu strukturieren.

#### Bibliotheken
Der Begriff Bibliothek ist ein allgemeiner Begriff, der sich auf eine Sammlung von Code bezieht, der mit dem Ziel entwickelt wurden in anderen Programmen verwendet zu werden.
Eine Bibliothek in Python ist also eine Sammlung von bereits vorhandenen Modulen und Paketen, die von anderen Entwicklern erstellt wurden. Oft enthalten Bibliotheken ein oder mehrere verwnadte Pakete. Sie lassen sich in der Regel nicht direkt ausführen, sondern bieten Funktionen und Methoden an, die importiert werden müssen.




## Paketmanagement mit pip
Python bietet mit dem Paketmanager `pip` ein Tool, um Pakete zu installieren und zu verwalten. Er soll die Installation und Verwaltung von Softwarepaketen in Python vereinfachen. `pip` ist das bevorzugte Installationsprogramm für Python-Pakete aus dem Python Package Index (PyPI), einem [öffentlichen Repository](https://pypi.org/), das von der Python Software Foundation gehostet wird.

`pip` ist standardmäßig in Python 3.4 und höher enthalten. Um zu überprüfen, ob `pip` installiert ist, geben Sie den folgenden Befehl in der Kommandozeile ein:

```bash
pip --version
```

Wenn Sie eine Version von Python vor 3.4 verwenden, können Sie `pip` mit dem folgenden Befehl installieren:

```bash
python -m pip install -U pip
```

Pakete können wie folgt verwaltet werden:

```bash
# install a package
pip install <package-name>

# remove a package
pip uninstall <package-name>

# update a package
pip install --upgrade <package-name>

# search for a package
pip search <package-name>

# list installed packages
pip list

# export installed packages to a file
pip freeze > requirements.txt

# import packages from a file
pip install -r requirements.txt

# update packages from a file
pip install -r requirements.txt --upgrade

```

Weitere Informationen zu `pip` finden Sie [hier](https://pip.pypa.io/en/stable/).

#### Pakete in Jupyter Notebook installieren
In Jupyter Notebooks gibt es wie bereits gelernt Markdown- und Code-Zellen.
Da Code-Zellen in Jupyter Notebooks direkt in Python ausgeführt werden, können Pakete nicht direkt in einer Code-Zelle installiert werden. Stattdessen müssen Sie den Befehl in einer Zelle mit einem Ausrufezeichen `!` am Anfang ausführen. Dieser Befehl wird an die Shell weitergeleitet und dort ausgeführt.

Um ein Paket in Jupyter Notebooks zu installieren, geben Sie also den folgenden Befehl in einer Zelle ein und führen Sie diese aus:

```bash
!pip install <paketname>
```


# Bibliotheken

Bibliotheken sind wie bereits erwähnt Sammlungen von Funktionen und Methoden, die in Python verwendet werden können.
Sie werden mit dem Schlüsselwort `import` importiert.

Die wichtigsten Bibliotheken sind:
- `numpy`
- `opencv`
- `matplotlib`
- `pandas`
- `scikit-learn`


## Numpy

Numpy ist eine [Python-Bibliothek](https://github.com/numpy/numpy) für numerische Berechnungen. Numpy bietet eine Vielzahl von Funktionen und Methoden für die Arbeit mit Arrays. Um Numpy verwenden zu können, muss es zunächst installiert werden und anschließend importiert werden.

Installiert wird es über den Paketmanager `pip`:

```bash
pip install numpy
```
Anschließend kann es importiert werden:

```python
import numpy as np
```

Der Befehl `as` ermöglicht es, der Bibliothek einen Alias zu geben. In diesem Fall wird der Alias `np` verwendet. Dies ist eine gängige Konvention, die in der Python-Community verwendet wird. Dadurch kann auf die Funktionen und Methoden der Bibliothek zugegriffen werden, indem der Alias vorangestellt wird anstatt den Namen der Bibliothek auszuschreiben.

Alle Abbildungen stammen aus dem sehr empfehlenswerten [Tutorial](https://jalammar.github.io/visual-numpy/) von Jay Alammar.


### Arrays
Wie bereits erwähnt, sind Arrays eine der wichtigsten Datenstrukturen in Numpy. Arrays sind eine Sammlung von Elementen des gleichen Typs. Arrays können ein- oder mehrdimensionale Arrays sein. Arrays können mit der Funktion `array()` erstellt werden. Sie sind von Typ `ndarray`.

```python
# create a zero-dimensional array (scalar).
data = np.array(42)
print(data)       # 42
print(type(data)) # <class 'numpy.ndarray'>

# create a one-dimensional array. Each value is a 0-dimensional array.
data = np.array([1, 2, 3])
print(data)       # [1 2 3]
print(type(data)) # <class 'numpy.ndarray'>

# create a two-dimensional array
data = np.array([[1, 2], [3, 4]])
print(data)       # [[1 2]
                  #  [3 4]]
print(type(data)) # <class 'numpy.ndarray'>
```

<img src="images/numpy/create-numpy-array-1.png" height="150">
<img src="images/numpy/numpy-array-create-2d.png" height="150">

Alternativ lassen sich Arrays mit vorinitialisierten Werten erstellen. Dazu gibt es verschiedene Funktionen. Die Funktion `zeros()` erstellt ein Array mit Nullen. Die Funktion `ones()` erstellt ein Array mit Einsen. Die Funktion `full()` erstellt ein Array mit einem bestimmten Wert. Die Funktion `eye()` erstellt ein Array mit Einsen auf der Hauptdiagonale und Nullen ansonsten. Die Funktion `random()` erstellt ein Array mit Zufallswerten zwischen 0 und 1.

```python

# create an array with ones
data = np.ones(3)
print(data)       # [1. 1. 1.]

# create an array with zeros
data = np.zeros(3)
print(data)       # [0. 0. 0.]

# create a two-dimensional array with zeros
data = np.zeros((3, 2))
print(data)       # [[0. 0.]
                  #  [0. 0.]
                  #  [0. 0.]]

# create an array with a specific value
data = np.full(3, 42)
print(data)       # [42 42 42]

# create an array with random values
data = np.random.random(3)
print(data)       # [0.37454012 0.95071431 0.73199394]

```
<img src="images/numpy/create-numpy-array-ones-zeros-random.png" height="200">
<img src="images/numpy/numpy-matrix-ones-zeros-random.png" height="200">

Eine weitere Möglichkeit, Arrays zu erstellen, ist die Funktion `arange()`. Diese Funktion ist ähnlich wie die Funktion `range()`.
Die Funktion `arange()` erstellt ein Array mit einer Sequenz von Zahlen.

```python
# create a one-dimensional array
data = np.arange(5)
print(data)       # [0 1 2 3 4]
```



#### Shape und Dimension

Die `shape`-Eigenschaft eines Arrays gibt die Anzahl der Elemente in jeder Dimension an. Die `ndim`-Eigenschaft gibt die Anzahl der Dimensionen an.

```python   
# create a one-dimensional array
data = np.array([1, 2, 3, 4, 5])
print(data.shape) # (5,)
print(data.ndim)  # 1

# create a two-dimensional array
data = np.array([[1, 2, 3], [4, 5, 6]])
print(data.shape) # (2, 3)
print(data.ndim)  # 2

```

#### Transponieren
Um die Zeilen und Spalten einer Matrix zu vertauschen, kann die `transpose()`-Methode verwendet werden.

```python
# create a two-dimensional array
data = np.array([[1, 2], [3, 4], [5, 6]])
print(data)       # [[1 2]
                  #  [3 4]
                  #  [5 6]]

print(data.shape) # (3, 2)

# transpose the array
print(data.transpose()) # [[1 3 5]
                        #  [2 4 6]]
```

Alternativ kann die `T`-Eigenschaft verwendet werden.

```python
# transpose the array
print(data.T)   # [[1 3 5]
                #  [2 4 6]]

print(data.T.shape) # (2, 3)
```

<img src="images/numpy/numpy-transpose.png" height="200">




#### Reshape
Beim Reshape wird die Form (Dimension) eines Arrays geändert. Die Anzahl der Elemente muss gleich bleiben. Die `reshape()`-Methode wird verwendet, um die Form eines Arrays zu ändern.

```python
# create a one-dimensional array
data = np.array([1, 2, 3, 4, 5, 6])
print(data.shape) # (6,)
print(data.ndim)  # 1

# reshape the array to a two-dimensional array
data = data.reshape(2, 3)
print(data.shape) # (2, 3)
print(data.ndim)  # 2
print(data)       # [[1 2 3]
                  #  [4 5 6]]
```

<img src="images/numpy/numpy-reshape.png" height="200">



#### Zugriff auf Elemente
Auf die Elemente eines Arrays kann über den Index zugegriffen werden. Der Index beginnt bei 0.


```python
# create a one-dimensional array
data = np.array([1, 2, 3, 4, 5])

# access the first element
print(data[0]) # 1

# access the second element
print(data[1]) # 2

```
Um auf die Elemente eines mehrdimensionalen Arrays zuzugreifen, müssen mehrere Indizes angegeben werden. Dabei werden die Indizes entsprechend ihrer Dimension durch Kommas getrennt angegeben. Das heißt, dass ein zweidimensionales Array zwei Indizes benötigt, um auf ein Element zuzugreifen. Das erste Element ist der Index der Zeile und das zweite Element ist der Index der Spalte.\

Wie bei Listen können auch negative Indizes oder die Slice-Notation verwendet werden. Negative Indizes beginnen bei -1 und zählen rückwärts. Die Slice-Notation wird verwendet, um auf mehrere Elemente zuzugreifen. Sie wird durch einen Doppelpunkt `:` gekennzeichnet. Die Slice-Notation kann auch mit negativen Indizes verwendet werden. 



```python
# create a two-dimensional array
data = np.array([[1, 2], [3, 4] , [5, 6]])
print(data)       # [[1 2]
                  #  [3 4]
                  #  [5 6]]


# access the first row
print(data[0]) # [1 2]
#or
print(data[0, :]) # [1 2]

# access the second row
print(data[1]) # [3 4]

# access the first column
print(data[:, 0]) # [1 3 5]

# access the first element of the first row
print(data[0, 0]) # 1

# access the second element of the first row
print(data[0, 1]) # 2

# access the first element of the second row
print(data[1, 0]) # 3

# access the first two elements of the first column
print(data[:2, 0]) # [1 3]

```

<img src="images/numpy/numpy-array-slice.png" height="200">
<img src="images/numpy/numpy-matrix-indexing.png" height="200">



#### Datentypen
Die Elemente eines Numpy-Arrays müssen den gleichen Datentyp haben. Es gibt verschiedene Datentypen, die verwendet werden können. Der Datentyp kann mit der `dtype`-Eigenschaft abgerufen werden. Der Datentyp kann auch beim Erstellen des Arrays angegeben werden.

```python
# create an array with the default data type
data = np.array([1, 2, 3, 4, 5])
print(data.dtype) # int64

# create an array with the data type int32
data = np.array([1, 2, 3, 4, 5], dtype='int32')
print(data.dtype) # int32

# create an array with the data type float32
data = np.array([1, 2, 3, 4, 5], dtype='float32')
print(data.dtype) # float32
print(data)       # [1. 2. 3. 4. 5.]

```

Wenn die Elemente eines Arrays nicht konvertiert werden können, wird eine Fehlermeldung ausgegeben.

```python
# create an array with the data type int32
data = np.array(['1', 2, 3, 4, 5], dtype='int32')
print(data.dtype) # int32
print(data)       # [1 2 3 4 5]

# create an array with invalid elements
data = np.array(['test', 2, 3, 4, 5], dtype='int32')
# ValueError: invalid literal for int() with base 10: 'test'
```

Um den Datentyp eines Arrays zu ändern, kann die `astype()`-Methode verwendet werden.

```python
# create an array with the data type int32
data = np.array([1, 2, 3, 4, 5], dtype='int32')
print(data.dtype) # int32

# change the data type to float32
data = data.astype('float32')
print(data.dtype) # float32

```

Für weitere Informationen zu den Numpy Datentypen siehe [hier](https://numpy.org/doc/stable/user/basics.types.html).




#### View und Copy

Der Unterschied zwischen einer View und einer Copy ist, dass eine View eine andere Sicht auf die gleichen Daten darstellt, während eine Copy eine Kopie der Daten erstellt. Wenn die Daten einer View geändert werden, werden auch die Daten des Originals geändert. Wenn die Daten einer Copy geändert werden, werden die Daten des Originals nicht geändert.

```python
# create an array
data = np.array([1, 2, 3, 4, 5])
print(data) # [1 2 3 4 5]

# create a view
view = data.view()
print(view) # [1 2 3 4 5]

# change the first element of the view
view[0] = 42
print(view) # [42  2  3  4  5]

# the first element of the original array is also changed
print(data)  # [42  2  3  4  5]

# create a copy
copy = data.copy()
print(copy) # [42  2  3  4  5]

# change the first element of the copy
copy[0] = 1
print(copy) # [1 2 3 4 5]

# the first element of the original array is not changed
print(data)  # [42  2  3  4  5]

```

Um zu überprüfen, ob es sich um eine View oder eine Copy handelt, kann die `base`-Eigenschaft verwendet werden. Wenn es sich um eine View handelt, wird das Original zurückgegeben. Wenn es sich um eine Copy handelt, wird `None` zurückgegeben.

```python   
# create an array   
data = np.array([1, 2, 3, 4, 5])
print(data) # [1 2 3 4 5]

# create a view
view = data.view()
print(view) # [1 2 3 4 5]

# create a copy
copy = data.copy()
print(copy) # [1 2 3 4 5]

# check if it is a view or a copy
print(view.base) # [1 2 3 4 5]
print(copy.base) # None
print(data.base) # None

```


#### Funktionen 

Numpy bietet eine Vielzahl von Funktionen für die Arbeit mit Arrays. Im Folgenden werden einige der wichtigsten Funktionen vorgestellt. Der Vorteil dieser Funktionen ist, dass sie schneller als übliche Python Implementierungen sind, da sie in C implementiert sind und Techniken wie Vektorisierung und Broadcasting verwenden (mehr dazu später oder [hier](https://numpy.org/doc/stable/user/basics.broadcasting.html)).

##### Kombinieren von Arrays
Numpy bietet eine Reihe von Funktionen (`concatenate()`, `stack()`, `hstack()` und `vstack()`), um Arrays zu kombinieren. Das bedeutet, dass mehrere Arrays zu einem Array kombiniert werden können. Die Funktion `concatenate()` kombiniert Arrays entlang einer vorhandenen Achse, wohingegen die Funktion `stack()` die Arrays entlang einer neuen Achse kombiniert. Die Funktionen `hstack()` und `vstack()` kombinieren Arrays horizontal bzw. vertikal.


```python
# create two arrays
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([6, 7, 8, 9, 10])


# combine the arrays horizontally  
res = np.concatenate((arr1, arr2), axis=0)
print(res)  # [ 1  2  3  4  5  6  7  8  9 10]

```

<img src="images/numpy/numpy-concatenate.png" height="400">





```python
res = np.hstack((arr1, arr2))
print(res)  # [ 1  2  3  4  5  6  7  8  9 10]


# combine the arrays vertically
res = np.stack((arr1, arr2), axis=0)
print(res) # [[ 1  2  3  4  5]
           #  [ 6  7  8  9 10]]

res = np.stack((arr1, arr2), axis=1)
print(res)  # [[ 1  6]
            #  [ 2  7]
            #  [ 3  8]
            #  [ 4  9]
            #  [ 5 10]]

res = np.vstack((arr1, arr2))
print(res) # [[ 1  2  3  4  5]
           #  [ 6  7  8  9 10]]


res = np.concatenate((arr1.reshape(5,1), arr2.reshape(5,1)), axis=1)
print(res) # [[ 1  6]
           #  [ 2  7]
           #  [ 3  8]
           #  [ 4  9]
           #  [ 5 10]]

```



##### Arithmetische Operationen
Numpy bietet eine Reihe von arithmetischen Operationen, die auf Arrays angewendet werden können. Die Operationen werden elementweise auf die Arrays angewendet. Das heißt, dass die Operation auf jedes Element des Arrays angewendet wird.

```python
# create two arrays
arr1 = np.array([[1, 2], [3, 4]])   # [[1 2]
                                    #  [3 4]]

arr2 = np.array([[2, 1], [1, 2]])   # [[2 1]
                                    #  [1 2]]

# add the arrays
res = arr1 + arr2
print(res) # [[3 3]
           #  [4 6]]

# subtract the arrays
res = arr1 - arr2
print(res) # [[-1  1]
           #  [ 2  2]]

# multiply the elements of the arrays
res = arr1 * arr2
print(res) # [[2 2]
           #  [3 8]]

# divide the arrays
res = arr1 / arr2
print(res) # [[0.5 2. ]
           #  [3.  2. ]]

# power
res = arr1 ** arr2
print(res) # [[ 1  2]
           #  [ 3 16]]
           
```


<img src="images/numpy/numpy-operatoren.png" height="300">



##### Matrixmultiplikation

Die Matrixmultiplikation ist eine der wichtigsten Operationen in der linearen Algebra. Sie wird verwendet, um lineare Gleichungssysteme zu lösen oder Transformationen durchzuführen. Die Matrixmultiplikation wird mit dem `@`-Operator durchgeführt.

**Matrix-Matrix-Multiplikation**
Um zwei Matrizen miteinander multiplizieren zu können müssen die Anzahl der Spalten der ersten Matrix gleich der Anzahl der Zeilen der zweiten Matrix sein. Die Anzahl der Zeilen der ersten Matrix und die Anzahl der Spalten der zweiten Matrix bestimmen die Form der Ergebnismatrix.


$$
\begin{bmatrix}
    a & b & c\\
    d & e & f 
\end{bmatrix}
\times
\begin{bmatrix}
    g & h\\
    i & j\\
    k & l
\end{bmatrix}
=
\begin{bmatrix}
    ag + bi + ck & ah + bj + cl\\
    dg + ei + fk & dh + ej + fl
\end{bmatrix}
$$
> $$(m \times n) \times (n \times p) = m \times p$$

```python

# multiply the arrays
res = arr1 @ arr2   # [[1 2]   [[2 1]     [[4 5]
                    # [3 4]] @ [[1 2]] =   [10 11]]
# or

res = arr1.matmul(arr2) # [[1 2]   [[2 1]     [[4 5]
                        # [3 4]] @ [[1 2]] =   [10 11]]

# 1 * 2 + 2 * 1 = 4
# 1 * 1 + 2 * 2 = 5
# 3 * 2 + 4 * 1 = 10
# 3 * 1 + 4 * 2 = 11

print(res) # [[ 4  5]
           #  [10 11]]

```

**Matrix-Vektor-Multiplikation**

```python
# create a vector
vec = np.array([1, 2])

# multiply the arrays
res = arr1 @ vec   # [[1 2]   [1]     [[ 5]
                   # [3 4]] @ [2] =    [11]]  
                   # 
# or
 
res = arr1.dot(vec) # [[1 2]   [1]     [[ 5]
                    # [3 4]] @ [2] =    [11]]  
                    #  

# 1 * 1 + 2 * 2 = 5
# 3 * 1 + 4 * 2 = 11
``````


<img src="images/numpy/numpy-operatoren.png" height="300">


##### Aggregation
Numpy bietet eine Reihe von Funktionen, um Arrays zu aggregieren. Im Folgenden werden einige der wichtigsten Funktionen vorgestellt.
Bei mehrdimensionalen Arrays kann der `axis`-Parameter verwendet werden, um die Aggregation auf eine bestimmte Dimension anzuwenden. Der `axis`-Parameter kann auch als Tupel angegeben werden, um die Aggregation auf die angegebenen Dimensionen anzuwenden.

```python
# create an array
data   = np.array([1, 2, 3, 4, 5])
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2d) # [[1 2 3]
             #  [4 5 6]]


# sum
res = np.sum(data)
print(res) # 15

# sum with axis
res = np.sum(arr2d)
print(res) # 21
res = np.sum(arr2d, axis=0)
print(res) # [5 7 9]
res = np.sum(arr2d, axis=1)
print(res) # [ 6 15]


# mean
res = np.mean(data)
print(res) # 3.0

# median
res = np.median(data)
print(res) # 3.0

# standard deviation
res = np.std(data)
print(res) # 1.4142135623730951

# min
res = np.min(data)
print(res) # 1

# max
res = np.max(data)
print(res) # 5

```

<img src="images/numpy/numpy-array-aggregation.png" height="200">
<img src="images/numpy/numpy-matrix-aggregation-4.png" height="200">



##### Broadcasting
Numpy bietet die Möglichkeit, Arrays zu broadcasten. Der Begriff Broadcasting bezieht sich auf die Art und Weise, wie Numpy Arrays mit unterschiedlichen Dimensionen während arithmetischer Operationen behandelt. 

```python   
# create an array
data = np.array([1, 2, 3, 4, 5])

# add 1 to each element
# The number 1 is streched to match the shape of the array
res = data + 1
print(res) # [2 3 4 5 6]
```

<img src="images/numpy/numpy-broadcasting.png" height="200">


```python
# add two arrays with different shapes
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([1, 2, 3])
res = arr1 + arr2
print(res) # ValueError: operands could not be broadcast together with shapes (5,) (3,)


```


```python
# create a two-dimensional array

mat  = np.ones((3,3))   # [[1. 1. 1.]
                        #  [1. 1. 1.]
                        #  [1. 1. 1.]]

data = np.arange(3)     # [0 1 2]


res = mat + data

print(res) # [[1. 2. 3.]
           #  [1. 2. 3.]
           #  [1. 2. 3.]]

# Loop version
res = np.empty_like(mat)
for i in range(mat.shape[0]):
    res[i] = mat[i] + data

print(res) # [[1. 2. 3.]
           #  [1. 2. 3.]
           #  [1. 2. 3.]]


```

<img src="images/numpy/numpy-broadcasting-2.png" height="200">


```python
# create two 1-dimensional arrays
arr1 = np.arange(3).reshape(3,1) # [[0]
                                 #  [1]
                                 #  [2]]

arr2 = np.arange(3)              # [0 1 2]

res = arr1 + arr2

print(res) # [[0 1 2]
           #  [1 2 3]
           #  [2 3 4]]
```
<img src="images/numpy/numpy-broadcasting-3.png" height="200">






##### Masking
Numpy bietet die Möglichkeit, Arrays zu maskieren. Das heißt, dass ein Array mit einem anderen Array verglichen werden kann. Das Ergebnis ist ein Array mit booleschen Werten. Die booleschen Werte können verwendet werden, um das Array zu filtern.

```python
# create an array
data = np.array([1, 2, 3, 4, 5])

# create a mask
mask = data > 3
print(mask) # [False False False  True  True]

# filter the array
res = data[mask]
print(res) # [4 5]

```







## OpenCV

OpenCV ist eine [Python-Bibliothek](https://github.com/opencv/opencv-python) für Computer Vision. OpenCV bietet eine Vielzahl von Funktionen und Methoden für die Arbeit mit Bildern und Videos. OpenCV kann über 
```bash
pip install opencv-python
```
installiert werden. Nach der Installation kann OpenCV wie folgt importiert werden:

```python
import cv2
```


### Bilder

OpenCV bietet eine Reihe von Funktionen und Methoden für die Arbeit mit Bildern. Im Folgenden werden einige der wichtigsten Funktionen vorgestellt. Für weitere Informationen siehe [hier](https://docs.opencv.org/4.8.0/d6/d00/tutorial_py_root.html).

#### Bilder lesen
Um ein Bild zu lesen, kann die `imread()`-Funktion verwendet werden. Die Funktion gibt ein Numpy-Array zurück. Die Dimensionen des Arrays entsprechen der Höhe, Breite und Anzahl der Farbkanäle des Bildes. Die Reihenfolge der Farbkanäle ist BGR (Blau, Grün, Rot) und nicht wie üblich RGB (Rot, Grün, Blau). Über einen Parameter kann die Farbkonfiguration geändert werden. Die möglichen Werte sind `cv2.IMREAD_COLOR`, `cv2.IMREAD_GRAYSCALE` und `cv2.IMREAD_UNCHANGED`. Die Funktion `imread()` gibt `None` zurück, wenn das Bild nicht gelesen werden kann.

```python
# read an image
img = cv2.imread('cat.png')
# or
img = cv2.imread('cat.png', cv2.IMREAD_COLOR)
print(img.shape) # (360, 640, 3)    height x width x channels

# read an image in grayscale
img = cv2.imread('cat.png', cv2.IMREAD_GRAYSCALE)   
print(img.shape) # (360, 640)

# read an image with unchanged color
img = cv2.imread('cat.png', cv2.IMREAD_UNCHANGED)
print(img.shape) # (360, 640, 3)

```

In [None]:
# Aufgabe:
# Lesen Sie das Bild 'cat.png' ein.
# Geben Sie die Dimensionen des Bildes aus.
# Berechnen Sie den mittleren Rot-, Grün- und Blauwert des Bildes und geben Sie diese aus.
# Berechnen sie die Standardabweichung des Rot-, Grün- und Blauwertes des Bildes und geben Sie diese aus.



#### Bilder anzeigen
Um ein Bild anzuzeigen, kann die `imshow()`-Funktion verwendet werden. Die Funktion erwartet zwei Parameter. Der erste Parameter ist der Name des Fensters, in dem das Bild angezeigt werden soll. Der zweite Parameter ist das Bild, das angezeigt werden soll. Die Funktion `imshow()` erwartet ein Numpy-Array. Zu beachten ist, dass diese Funktion nicht in einer Server/Client Umgebung wie z.B. hier bei uns funktioniert. Das Bild soll schließlich am Client im Jupiter Notebook angezeigt werden und nicht am Server, wo der Code ausgeführt wird. Um Bilder in Jupyter Notebooks anzuzeigen, kann die Funktion `imshow()` von Matplotlib (siehe nächstes Kapitel) verwendet werden.


```python
# show the image
cv2.imshow('cat', img)
cv2.waitKey(0)
cv2.destroyAllWindows()
```

Die `waitKey()`-Funktion erwartet einen Parameter. Dieser Parameter gibt an, wie lange das Fenster geöffnet bleibt. Wenn der Parameter 0 ist, bleibt das Fenster geöffnet, bis es geschlossen wird. Wenn der Parameter größer als 0 ist, bleibt das Fenster für die angegebene Anzahl von Millisekunden geöffnet. Wenn der Parameter kleiner als 0 ist, wird das Fenster sofort geschlossen.
Die Funktion `destroyAllWindows()` schließt alle Fenster.

#### Bilder speichern
Bilder können mit der `imwrite()`-Funktion gespeichert werden. Die Funktion erwartet zwei Parameter. Der erste Parameter ist der Name der Datei, in die das Bild gespeichert werden soll. Der zweite Parameter ist das Bild, das gespeichert werden soll. Die Funktion `imwrite()` erwartet ein Numpy-Array.

```python
# save the image
cv2.imwrite('cat.png', img)
```


#### Farbraumkonvertierung
Wie bereits erwähnt, verwendet OpenCV die Farbkonfiguration BGR. Um die Farbkonfiguration zu ändern, kann die `cvtColor()`-Funktion verwendet werden. Die Funktion erwartet zwei Parameter. Der erste Parameter ist das Bild, das konvertiert werden soll. Der zweite Parameter ist der Farbraum, in den das Bild konvertiert werden soll. Eine Liste möglicher Farbräume finden Sie [hier](https://docs.opencv.org/4.8.0/d8/d01/group__imgproc__color__conversions.html).

```python
# convert the image to grayscale
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# convert the image to RGB
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

# convert the image to HSV
img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)
```

In [None]:
# Aufgabe:
# Konvertieren Sie das Bild in ein Graustufenbild.
# Berechnen Sie ein Graustufenbild durch Mittelwertbildung der Farbkanäle.
# Speichern Sie beide Bilder ab. Ist ein Unterschied zu erkennen?
# Wie viele Pixel haben einen Grauwert von 80?








#### Bildgröße ändern
Um die Größe eines Bildes zu ändern, kann die `resize()`-Funktion verwendet werden. Die Funktion erwartet drei Parameter. Der erste Parameter ist das Bild, das geändert werden soll. Der zweite Parameter ist die neue Breite des Bildes. Der dritte Parameter ist die neue Höhe des Bildes. Die Funktion `resize()` gibt das geänderte Bild zurück.

```python
# resize the image
img = cv2.resize(img, (640, 360))
```




#### Faltung
Die Faltung haben Sie als eine der grundlegenden Operationen in der Bildverarbeitung kennengelernt. OpenCV bietet die Funktion `filter2D()` für die Faltung. Die Funktion erwartet drei Parameter. Der erste Parameter ist das Bild, das gefaltet werden soll. Der zweite Parameter ist der Datentyp des Ergebnisses. Hat dieser den Wert `-1`, wird der Datentyp des Eingabebildes verwendet. Der dritte Parameter ist der Kernel, der für die Faltung verwendet werden soll. Die Funktion `filter2D()` gibt das gefaltete Bild zurück.

```python
# create a kernel
kernel = np.ones((3,3), np.float32) / 9

# apply the kernel
img = cv2.filter2D(src=img, ddepth=-1, kernel=kernel)
```




In [None]:
# Aufgabe:
# Verwenden Sie das zuvor erstellte Graustufenbild.
# Führen Sie eine Mittelwertfilterung mit einem 3x3 Filter durch.
# Führen Sie eine Gaußfilterung mit einem 3x3 Filter durch.
# Führen Sie eine Faltung mit dem Sobel-Filter durch. (Partielle Ableitung in x-Richtung G_x, partielle Ableitung in y-Richtung G_y)
# Berechnen Sie das Kantenbild. Das Kantenbild ists die Amplitude des Gradientenbildes. (G = sqrt(G_x^2 + G_y^2))




## Matplotlib
Matplotlib ist eine [Python-Bibliothek](https://github.com/matplotlib/matplotlib) für die Visualisierung von Daten. Matplotlib bietet eine Vielzahl von Funktionen und Methoden für die Erstellung von Diagrammen und Grafiken.

Matplotlib kann über 
```bash
pip install matplotlib
```
installiert werden. Nach der Installation kann Matplotlib wie folgt importiert werden:

```python
import matplotlib.pyplot as plt
```

Danach kann auf das Paket `pyplot` mit dem Alias `plt` zugegriffen werden. Dies ist eine gängige Konvention, die in der Python-Community verwendet wird.




### Line Plot
Ein Line Plot ist ein Diagramm, das aus einer Reihe von Datenpunkten besteht, die durch Linien verbunden sind. Ein Line Plot wird mit der `plot()`-Funktion erstellt. Die `plot()`-Funktion erwartet zwei Arrays als Parameter. Das erste Array enthält die x-Werte und das zweite Array enthält die y-Werte. 


```python
# create two arrays
x = np.array([1, 2, 6, 8])
y = np.array([3, 8, 1, 10])

# create a line plot
plt.plot(x, y)
```


#### Farben und Marker
Die Farbe und der Marker können mit den Parametern `color` und `marker` angegeben werden. Die Farbe kann mit einem String oder einem Hex-Wert angegeben werden. Die Marker können mit einem String angegeben werden. Eine Liste der verfügbaren Marker finden Sie [hier](https://matplotlib.org/stable/api/markers_api.html).

Die Größe des Markers kann mit dem Parameter `markersize` angegeben werden. Die Dicke der Linie kann mit dem Parameter `linewidth` angegeben werden.


```python
# create a line plot
plt.plot(x, y, color='red', marker='o', markersize=10, linewidth=4)
```


#### Linienstil
Der Linienstil kann mit dem Parameter `linestyle` angegeben werden. Eine Liste der verfügbaren Linienstile finden Sie [hier](https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html).


```python
# create a line plot
plt.plot(x, y, color='red', marker='o', linestyle='dashed')
```

#### Beschriftungen

Die Achsen können mit den Funktionen `xlabel()` und `ylabel()` beschriftet werden. Der Titel kann mit der Funktion `title()` angegeben werden.


```python
# set the labels
plt.xlabel('x-axis')
plt.ylabel('y-axis')

# set the title
plt.title('Line Plot')
```

#### Legende

Die Legende kann mit der Funktion `legend()` angegeben werden. Die Legende wird automatisch erstellt, wenn die Funktion `label` verwendet wird. Die Funktion `label` wird verwendet, um die Datenpunkte zu beschriften.

```python
# create a line plot
plt.plot(x, y, color='red', marker='o', linestyle='dashed', label='line')

# set the legend
plt.legend()
```

#### Grid

Das Gitter kann mit der Funktion `grid()` angezeigt werden. Soll das Gitter nur horizontal oder vertikal angezeigt werden, kann der Parameter `axis` verwendet werden.

```python
# show the grid
plt.grid()

# show the horizontal grid
plt.grid(axis='y')

# show the vertical grid
plt.grid(axis='x')

```


#### Speichern und Anzeigen

Das Diagramm kann mit der Funktion `savefig()` gespeichert werden oder mit der Funktion `show()` angezeigt werden.


```python
# save the plot
plt.savefig('line_plot.png')

# show the plot
plt.show()
```

![Line Plot](images/matplotlib/line_plot.png)

Weitere Informationen zur `plot()`-Funktion finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html).




### Subplots
Subplots sind mehrere Diagramme, die in einer Abbildung angezeigt werden. Subplots werden mit der `subplot()`-Funktion erstellt. Die `subplot()`-Funktion erwartet drei Parameter. Der erste Parameter gibt die Anzahl der Zeilen an, der zweite Parameter gibt die Anzahl der Spalten an und der dritte Parameter gibt die Position des Diagramms an. Die Position wird von links nach rechts und von oben nach unten gezählt.

```python
# create a figure with two subplots
# first subplot
plt.subplot(1, 2, 1)    # 1 row, 2 columns, position 1
plt.plot(x, y, color='red', marker='o', linestyle='dashed', label='line')
plt.title('Plot 1') # set the title of the subplot 1

# second subplot
plt.subplot(1, 2, 2)
plt.plot(x, y, color='green', marker='x', linestyle='dotted', label='line')
plt.title('Plot 2') # set the title of the subplot 2

# set the title of the figure
plt.suptitle('Subplots') 

# show the plot
plt.show()
```

Die Funktion `title()` kann verwendet werden, um jedem Diagramm einen eigenen Titel zu geben. Die Funktion `suptitle()` wird verwendet, um der gesamten Abbildung einen Titel zu geben.

![Subplots](images/matplotlib/subplots.png)

Weitere Informationen zu Subplots finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplot.html).



### Scatter Plot
Ein Scatter Plot ist ein Diagramm, das für jede Beobachtung einen Datenpunkt verwendet. Ein Scatter Plot wird verwendet, um die Beziehung zwischen zwei Variablen zu untersuchen. Ein Scatter Plot wird mit der `scatter()`-Funktion erstellt. Die `scatter()`-Funktion erwartet zwei Arrays als Parameter. Das erste Array enthält die x-Werte und das zweite Array enthält die y-Werte.


```python
# create two arrays
x = np.array([1, 2, 3, 4, 5])
y = np.array([1, 2, 3, 4, 5])

# create a scatter plot
plt.scatter(x, y,  color='green', marker='x', label='scatter')
```

#### Größe der Datenpunkte
Die Größe der Datenpunkte kann mit dem Parameter `s` angegeben werden.

```python
# use different sizes for each data point
s = np.array([10, 20, 30, 40])

# create a scatter plot
plt.scatter(x, y, s=s, color='green', marker='x', label='scatter')
```


![Scatter Plot](images/matplotlib/scatter_plot.png)

Weitere Informationen zu Scatter Plots finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html).


### Balkendiagramm

Ein Balkendiagramm ist ein Diagramm, das aus einer Reihe von Balken besteht. Ein Balkendiagramm wird mit der `bar()`-Funktion erstellt. Die `bar()`-Funktion erwartet zwei Arrays als Parameter. Das erste Array enthält die Kategorien und das zweite Array enthält die Werte.
```python
# create two arrays
x = np.array([f'Cat. {i}' for i in range(1, 6)])
y = np.array([1, 2, 3, 4, 5])

# create a bar chart
plt.bar(x, y, color='green', label='bar')
```

Sollen die Balken horizontal angezeigt werden, kann die Funktion `barh()` verwendet werden.

```python
# create a horizontal bar chart
plt.barh(x, y, color='green', label='bar')
```


#### Breite der Balken

Die Breite der Balken kann mit dem Parameter `width` angegeben werden.
Der Standardwert für die Breite ist `0.8`.

```python
# create a bar chart
plt.bar(x, y, width=0.5, color='green', label='bar')
```

Bei horizontalen Balkendiagrammen wird die Höhe der Balken analog mit dem Parameter `height` angegeben.


![Bar Chart](images/matplotlib/bar_chart.png)

Weitere Informationen zu Balkendiagrammen finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html).






### Kreisdiagramme

Kreisdiagramme werden mit der `pie()`-Funktion erstellt. Die `pie()`-Funktion erwartet ein Array als Parameter, dass die Werte enthält. Die Kategorien werden automatisch aus dem Index des Arrays abgeleitet.
Standardmäßig wird das erste Stück von der x-Achse aus gegen den Uhrzeigersinn gezeichnet. Die Startposition kann mit dem Parameter `startangle` angegeben werden. Die Richtung kann mit dem Parameter `counterclock` angegeben werden. Der Standardwert ist `True`.

![Pie Chart](images/matplotlib/pie_angles.png)

```python
# create an array
x = np.array([1, 2, 3, 4, 5])

# create labels
labels = [f'Cat. {i}' for i in range(1, 6)]

# create a pie chart
plt.pie(x, labels=labels, startangle=90, counterclock=False)
```

#### Explode

Mit dem Parameter `explode` kann ein Stück aus dem Kreisdiagramm herausgezogen werden. Der Parameter `explode` erwartet ein Array mit Werten zwischen 0 und 1. Der Wert 1 entspricht dem Radius des Kreises.

```python
# create an array to indicate which piece should be pulled out
expl = [0, 0.1, 0, 0, 0]

# create a pie chart
plt.pie(x, labels=labels, explode=expl)
```

![Pie Chart](images/matplotlib/pie_chart.png)


Weitere Informationen zu Kreisdiagrammen finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html).



### Bilder anzeigen
Matplotlib kann wie im Kapitel OpenCV erwähnt zum anzeigen von Bildern in Jupyter Notebooks verwendet werden. Dafür wird die Funktion `imshow()` verwendet. Die Funktion erwartet ein Numpy-Array. 
Beachten Sie, dass die Funktion ein RGB-Bild erwartet. Wenn Sie ein BGR-Bild haben, müssen Sie es mit der Funktion `cvtColor()` von OpenCV in ein RGB-Bild konvertieren.

```python
# show the image
plt.imshow(img)
```

Wird der Funktion ein Grauwertbild übergeben, wird für das Bild eine Farbpalette verwendet. Die Farbpalette kann mit dem Parameter `cmap` angegeben werden. Eine Liste der verfügbaren Farbpaletten finden Sie [hier](https://matplotlib.org/stable/tutorials/colors/colormaps.html). Standardmäßig wird die Farbpalette `viridis` verwendet. Soll das Bild in Graustufen angezeigt werden, kann die Farbpalette `gray` verwendet werden.

```python
# show the image in grayscale
plt.imshow(img, cmap='gray')
```

Weiter Informationen zur `imshow()`-Funktion finden Sie [hier](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.imshow.html).

## Pandas
Pandas ist eine [Python-Bibliothek](https://github.com/pandas-dev/pandas) für die Datenverarbeitung und Datenanalyse. Sie bietet Datenstrukturen und Funktionen, die speziell für die Arbeit mit tabellarischen Daten entwickelt wurden.
Pandas kann über 
```bash
pip install pandas
```
installiert werden. Nach der Installation kann Pandas wie folgt importiert werden:

```python
import pandas as pd
```



### Datenstrukturen
Pandas bietet zwei Datenstrukturen: Series und Data Frames.

#### Series
Eine Series ist eine eindimensionale Datenstruktur und kann als Spalte einer Tabelle betrachtet werden. Eine Series besteht aus einem Array und einem Index. Der Index kann ein Integer oder ein String sein. Der Index kann mit der `index`-Eigenschaft, die Elemente können mit der `values`-Eigenschaft abgerufen werden.

```python
# create a series
s = pd.Series([1, 2, 3, 4, 5])

# get the index
print(s.index) # RangeIndex(start=0, stop=5, step=1)

# get the values
print(s.values) # [1 2 3 4 5]

# get the first element
print(s[0]) # 1

```

Alternativ kann eine Series mit einem Index erstellt werden.

```python
# create a series with an index
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# get the index
print(s.index) # Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

# get the values
print(s.values) # [1 2 3 4 5]

# get the first element
print(s['a']) # 1

```

Eine weitere Möglichkeit, eine Series zu erstellen, ist die Verwendung eines Dictionaries. Die Schlüssel des Dictionaries enstprechen dem Index und die Werte des Dictionaries den Werten der Series.

```python
# create a series with a dictionary
s = pd.Series({
                'a': 1,
                'b': 2, 
                'c': 3, 
                'd': 4, 
                'e': 5
            })

# get the index
print(s.index) # Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

# get the values
print(s.values) # [1 2 3 4 5]

```

In [None]:
# Aufgabe:
# Erstellen Sie eine Pandas Series.

          
#### Data Frames
Ein Data Frame ist eine zweidimensionale Datenstruktur und kann als Tabelle betrachtet werden. Ein Data Frame besteht aus einer oder mehreren Spalten, wobei jede Spalte eine Series ist. Der Index kann mit der `index`-Eigenschaft, die Spalten mit der `columns`-Eigenschaft und die Elemente mit der `values`-Eigenschaft abgerufen werden.


```python
# define data
data = {
    'name': ['Max', 'Lisa', 'Tom'],
    'age': [25, 28, 30],
    'city': ['Berlin', 'Hamburg', 'Munich']
}

# create a data frame
df = pd.DataFrame(data)

# print the data frame
print(df) #    name  age city
          # 0  Max   25  Berlin
          # 1  Lisa  28  Hamburg
          # 2  Tom   30  Munich

# get the index
print(df.index) # RangeIndex(start=0, stop=3, step=1)

# get the columns
print(df.columns) # Index(['name', 'age', 'city'], dtype='object')

# get the values
print(df.values) # [['Max' 25 'Berlin']
                 #  ['Lisa' 28 'Hamburg']
                 #  ['Tom' 30 'Munich']]

```


##### Zugriff auf Daten
Auf die Daten eines Data Frames kann über den Index zugegriffen werden. Mit Hilfe der `iloc`-Eigenschaft kann über den numerischen Index (also der Position) auf die Daten zugegriffen. Soll über den Namen oder die Labels auf die Daten zugegriffen werden, kann die `loc`-Eigenschaft verwendet werden. 


```python
# get the first row
print(df.iloc[0])           # name      Max
# or                        # age        25
print(df.loc[0])            # city    Berlin
                            # Name: 0, dtype: object

# get the first column
print(df.iloc[:, 0])        # 0    Max
# or                        # 1    Lisa
print(df.loc[:, 'name'])    # 2    Tom                 
                            # Name: name, dtype: object

# get the first element
print(df.loc[0, 'name']) # Max
# or
print(df.iloc[0, 0])     # Max


# select some specific rows and columns
print(df.iloc[[0, 2], [0, 2]]) #    name  city
                               # 0  Max   Berlin
                               # 2  Tom   Munich

```





### Daten lesen und schreiben
Pandas bietet eine Reihe von Funktionen zum Einlesen und Schreiben von Daten. Im Folgenden werden einige der wichtigsten Funktionen vorgestellt. Für weitere Informationen siehe [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).


#### CSV
CSV (Comma Separated Values) ist ein Dateiformat zum Speichern von Daten. CSV-Dateien können mit der `read_csv()`-Funktion eingelesen und mit der Funktion `to_csv()` geschrieben werden. Die Funktionen erwarten als Parameter mindestens den Name der Datei die eingelesen bzw. geschrieben werden soll. Die Funktion `read_csv()` gibt ein Data Frame zurück. Häufig wird bei CSV-Dateien ein anderes Trennzeichen als ein Komma verwendet. Das Trennzeichen kann mit dem Parameter `sep` angegeben werden.

```python
# read a csv file
df = pd.read_csv('data.csv', sep=';')

# write a csv file
df.to_csv('data.csv', sep=';')
```
Weitere Informationen zu den Funktionen `read_csv()` und `to_csv()` finden Sie [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) und [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html).


#### Excel
Excel ist ein Tabellenkalkulationsprogramm von Microsoft. Excel-Dateien können mit der `read_excel()`-Funktion eingelesen und mit der Funktion `to_excel()` geschrieben werden. Die Funktionen erwarten mindestens den Name der Datei die eingelesen bzw geschrieben werden soll als Parameter. Die Funktion `read_excel()` gibt ein Data Frame zurück.

```python
# read an excel file
df = pd.read_excel('data.xlsx')

# write an excel file
df.to_excel('data.xlsx')
```

Weitere Informationen zu den Funktionen `read_excel()` und `to_excel()` finden Sie [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) und [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).



#### JSON
JSON (JavaScript Object Notation) ist ein Dateiformat zum Speichern von Daten. JSON-Dateien können mit der `read_json()`-Funktion eingelesen und mit der Funktion `to_json()` geschrieben werden. Die Funktionen erwarten mindestens den Name der Datei die eingelesen bzw. geschrieben werden soll als Parameter. Die Funktion `read_json()` gibt ein Data Frame zurück.

```python
# read a json file
df = pd.read_json('data.json')

# write a json file
df.to_json('data.json')

```

Weitere Informationen zu den Funktionen `read_json()` und `to_json()` finden Sie [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html) und [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html).



### Daten analysieren
Pandas bietet eine Reihe von Funktionen und Methoden für die Datenanalyse. Im Folgenden werden einige der wichtigsten Funktionen vorgestellt. Für weitere Informationen siehe [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html).

#### Informationen
Mit der `info()`-Methode können Informationen über ein Data Frame abgerufen werden. Die Methode gibt die Anzahl der Zeilen, die Anzahl der Spalten, die Datentypen der Spalten und die Anzahl der nicht leeren Werte pro Spalte zurück.

```python
# get information about the data frame
df.info()

# RangeIndex: 3 entries, 0 to 2
# Data columns (total 3 columns):
# #  Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
# 0   name    3 non-null      object
# 1   age     3 non-null      int64
# 2   city    3 non-null      object
# dtypes: int64(1), object(2)
# memory usage: 200.0+ bytes

```

Mit der `head()`-Methode können die **ersten Zeilen** eines Data Frames, mit der `tail()`-Methode die **letzten Zeilen** eines Data Frames abgerufen werden. Die Anzahl der Zeilen kann mit dem Parameter `n` angegeben werden.


```python   
# get the first five rows
df.head()

# get the last five rows
df.tail()

#    name  age city
# 0  Max   25  Berlin
# 1  Lisa  28  Hamburg
# 2  Tom   30  Munich
```









#### Statistiken
Mit der `describe()`-Methode können Statistiken über ein Data Frame abgerufen werden. Die Methode gibt die Anzahl der Zeilen, den Mittelwert, die Standardabweichung, den Minimumwert, den Maximumwert und die Quantile für jede Spalte zurück.

```python
# get statistics about the data frame
df.describe()

#          age
# count	3.000000
# mean	27.666667
# std	2.516611
# min	25.000000
# 25%	26.500000
# 50%	28.000000
# 75%	29.000000
# max	30.000000
```



#### Sortieren
Mit der `sort_values()`-Methode können die Daten eines Data Frames sortiert werden. Die Methode erwartet einen Parameter, der angibt, nach welcher Spalte sortiert werden soll. Der Parameter kann auch eine Liste von Spaltennamen sein. Die Methode gibt ein sortiertes Data Frame zurück. Standardmäßig wird aufsteigend sortiert. Um absteigend zu sortieren, kann der Parameter `ascending` auf `False` gesetzt werden. 

```python
# sort the data frame by the age column
df.sort_values('age')   

# sort the data frame by sort by age and then by name
df.sort_values(['age', 'name']) 
```


#### Filtern
Mit der `query()`-Methode können die Daten eines Data Frames gefiltert werden. Die Methode erwartet einen Parameter, der angibt, nach welcher Spalte gefiltert werden soll. Der Parameter kann auch eine Liste von Spaltennamen sein. Die Methode gibt ein gefiltertes Data Frame zurück. 

```python
# filter the data frame by the age column
df.query('age > 25')

# filter the data frame by the age column and the name column
df.query('age > 25 and name == "Max"') 
```


#### Gruppieren
Mit der `groupby()`-Methode können die Daten eines Data Frames gruppiert werden. Die Methode erwartet einen Parameter, der angibt, nach welcher Spalte gruppiert werden soll. Der Parameter kann auch eine Liste von Spaltennamen sein. Die Methode gibt ein Data `FrameGroupBy`-Objekt zurück. Dieses Objekt kann verwendet werden, um die Daten zu aggregieren. 

```python
# group the data by the name and calculate the mean age
df.loc[:,['age', 'name']].groupby('name').mean()

# group the data by the name, calculate the mean age and return the number of rows per group
print(df.loc[:,['age', 'name']].groupby('name').agg(['mean', 'count']))

```



# Übung
Der Titanic-Datensatz ist ein berühmter Datensatz in der Datenanalyse und im maschinellen Lernen. Er enthält Informationen über Passagiere des Schiffes RMS Titanic, darunter Daten wie Alter, Geschlecht, Ticketklasse, der Hafen, an dem sie an Bord gingen (C = Cherbourg; Q = Queenstown; S = Southampton), die Anzahl der Geschwister oder Ehepartner an Bord, die Anzahl der Eltern oder Kinder an Bord, die Ticketnummer, die Ticketgebühr, die Kabinennummer und vieles mehr.

Die Hauptmerkmale im Titanic-Datensatz, die für die Analyse und das maschinelle Lernen verwendet werden, sind normalerweise:

- Survived (Überlebt): Eine binäre Variable, die angibt, ob der Passagier überlebt hat (1) oder nicht (0).
- Pclass (Ticketklasse): Die Ticketklasse des Passagiers (1 = Erste Klasse, 2 = Zweite Klasse, 3 = Dritte Klasse).
- Name (Name): Der Name des Passagiers.
- Sex (Geschlecht): Das Geschlecht des Passagiers (männlich oder weiblich).
- Age (Alter): Das Alter des Passagiers.
- SibSp (Anzahl der Geschwister/Ehepartner an Bord): Die Anzahl der Geschwister oder Ehepartner, die der Passagier an Bord hatte.
- Parch (Anzahl der Eltern/Kinder an Bord): Die Anzahl der Eltern oder Kinder, die der Passagier an Bord hatte.
- Ticket (Ticketnummer): Die Ticketnummer des Passagiers.
- Fare (Ticketgebühr): Die Ticketgebühr, die der Passagier bezahlt hat.
- Cabin (Kabinennummer): Die Kabinennummer des Passagiers.
- Embarked (Einstiegsort): Der Hafen, an dem der Passagier an Bord gegangen ist (C = Cherbourg; Q = Queenstown; S = Southampton).

Beantworten Sie folgende Fragen:
1. Lesen Sie die Datei `titanic.csv` mit Pandas ein. 
2. Geben Sie die ersten 10 Zeilen der Daten aus.
3. Wie viele Männer und Frauen sind an Bord?
4. Was ist das durchschnittliche Alter?
5. Wie viele Männer und Frauen haben überlebt?
6. Was ist das durchschnittliche Alter der Überlebenden?
7. Was war die Überlebensrate gesamt und nach Geschlecht getrennt?
8. Gibt es einen Zusammenhang zwischen der Ticketklasse und dem Überleben?
9. Gibt es einen Zusammenhang zwischen dem Alter und dem Überleben?
