Wintersemester 2022/2023

# mug121 - Wissenschaftliche Datenverarbeitung: Python-Einführung – Notebook 2 - Module, NumPy, Pandas und Matplotlib

> Niklas Heidemann (heidemann@geo.uni-bonn.de)<br>
> Anna Zoporowski (zoporowski@geo.uni-bonn.de)

----
----
## Modularisierung

### Globale Module - Import von Bibliotheken

```python
# Import der gesamten Bibliothek:
import bibliothek
import bibliothek as kürzel
# Import einzelner Funktionen:
from bibliothek import funktion
from bibliothek import funktion as kürzel
```

möglichst vermeiden:

```from bibliothek import *```

* **!! importiert alle Funktionen des Moduls `bibliothek` und überschreibt / konkurriert mit build-in Funktionen !!**

### Funktionsaufruf

Funktionsaufruf je nach Import mit `bibliothek.funktion()` bzw. `kürzel.funktion()`, `funktion()` oder `kürzel()`

In [1]:
# Codezeile zum Testen

import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


---
---

## Weiterer Ablauf: 


* [**NumPy** - Numerical Python](#NumPy---Numerical-Python "Link zu 'NumPy - Numerical Python'")
* [**Pandas** - Python Data Analysis Library](#Pandas---Python-Data-Analysis-Library "Link zu Pandas - Python Data Analysis Library'")
* Matplotlib - Plotting Library
* [Exkurs: Mathematische Operationen](#Exkurs:-Mathematische-Operationen "Link zu Exkurs: Mathematische Operationen'")
* Anwendung auf Daten (Import, Export, Prozessierung, Darstellung)


* Objektorientiertes Programmieren (Klassen `class`) und eigene Bibliotheken 

---
---
## NumPy - Numerical Python

[NumPy Dokumentation](https://numpy.org/ "externer Link nach numpy.org")

Modul für die meisten mathematischen, numerischen Operationen:

* Vektoren
* Matrizen (Inverse, Pseudoinverse)
* Datenimport / Datenexport
* Regression / Fit
* Generierung von Zufallszahlen
* uvm.


Import des Moduls:
```python
import numpy
```
meistens:
```python
import numpy as np
```

**Vorsicht:**
Ähnliche Syntax wie Listen `list`, allerdings wesentlich andere Funktionalität.

* effizientere Speicherung **und Bearbeitung** (im Unterschied zum biuld-in `array`-Modul)
* feststehender Datentyp (Listen: variabler Datentyp)
* zusätzliche Funktionen zur Datenbearbeitung
* effiziente Schnittstelle zum Speichern und Bearbeiten dicht gepackter Daten
* grundlegendes Werkzeug der *Data Science* mit *Python*

Spezielle Anwendung gesucht? Bspw. Import, Export, Determinante, Transponierte, Inversion, etc.

```python
numpy.lookfor() # Suche nach Funktionen und Methoden mittels Docstrings
```


*```Funktion(x)``` zum Erstellen und Umformatieren von x in den jeweiligen Datentyp, Beispiel für Formatierung des Datentyps*

NumPy n-dimensionaler Array: ```numpy.ndarray```

```python
numpy.array(), array([[1, 2, 3],
                      [4, 5, 6],
                      [7, 8, 9]])
``` 
                      



### Syntax

#### Zusätzliche Operatoren

```python
@ 
```

* Skalarprodukt: @

----

In [2]:
# Codezeile zum Testen

import numpy as np

---
#### **Aufgabe 0:**

Verschaffen Sie sich mithilfe der bereits bekannten Möglichkeiten einen Überblick über die Möglichkeiten der `numpy`-Bibliothek.

Hinweis: `help()`, `?`, `??`, Tastenkombinationen (`Shift + TAB`), `.` für Methoden, `np.lookfor`

In [3]:
# Codezeile Aufgabe



----
----
### Erstellen von NumPy-ndarrays

#### aus Listen

```python
np.array([1, 2, 3, 4]) # mit Integers
np.array([0.11, 2.2, 33, 440]) # mit Floats
liste = [1, 2, "xyz"] # aus Variablen
np.array(liste)
np.array([1, 2]) # 2x1 Vektor
np.array([[1], 
          [2], 
          [3]]) # 1x3 Vektor
np.array([[1, 2, 3], 
          [4, 5, 6],
          [7, 8, 9]]) # 3x3 Matrix

np.array([1, 2, 3, 4], dtype='float32') # Angabe eines Datentyps
```

#### mit NumPy-Funktionen

```python
np.zeros(10, dtype=int) # mit Nullen gefüllter Vektor der Länge 10, Datentyp int
np.ones((3, 2), dtype=float) # mit Einsen gefüllte 3x2 Matrix, Datentyp float64
np.full((10, 10), 25) # mit dem Wert 25 gefüllte 10x10 Matrix

np.arange(0, 10, 0.5) # Vektor mit linearer Sequenz von 0 bis 10, Schrittweite 0.5 (entspricht der built-in range-Funktion)
np.linspace(0, 10, 4) # Vektor mit linearer Sequenz von vier Einträgen zwischen 0 und 10, konstante Differenz

np.random.random((3, 3)) # 3x3 Matrix gleichmäßig verteilter Zufallszahlen zwischen 0 und 1
np.random.normal(0, 1, (3, 3)) # 3x3 Matrix normalverteilter Zufallszahlen mit Mittelwert 0 und Standardabweichung 1
np.random.randint(0, 10, (3, 3)) # 3x3 Matrix mit zufälligen Ganzzahlen zwischen 0 und 10

np.eye(3) # 3x3 Einheitsmatrix (Einsen auf der Hauptdiagonalen)
np.empty((3, 3)) # Nicht initialisierte 3x3 Matrix mit drei Integers erzeugen, Werte werden aus reservierten Speicherpositionen genommen.
```
----

In [4]:
# Codezeile zum Testen



---
#### **Aufgabe 1:**

Erstellen Sie jeweils eine Liste (Variablennamen `liste`) und einen NumPy-Vektor (Variablennamen `vektor`) mit den drei Einträgen `[1, 2, 3]`. Führen Sie die folgenden Operationen aus:

a) `liste` $\pm$ `liste`<br>
b) `vektor` $\pm$ `vektor`<br>
c) `liste` $\pm$ `vektor`<br>
d) `liste` $\cdot$ `liste`<br>
e) `vektor` $\cdot$ `vektor`<br>
f) `liste` $\cdot$ `vektor`

Was geht, was geht nicht?

In [5]:
# Codezeile Aufgabe



----
### Indizierung von NumPy-ndarrays:

> #### Die Null-Indizierung:
> Python beginnt beim Zählen (Indizieren von Objekten, etc.) bei 0. <br>

* Beginn von links bei `0`
* Beginn von rechts bei `-1`
* Elemente: `[von:bis:Schrittweite]`
* **n-Dimensionen:** [start:stop:step, start:stop:step, start:stop:step, etc] 

Beispiel:<br>
Das erste Element einer Liste `liste = [1, 2, 3]` ist die `1`, wird jedoch in Python als Element `0` angesprochen.

```python
array = np.array([[1, 2, 3], 
                  [4, 5, 6],
                  [7, 8, 9]])
array[0] # gibt das erste Element aus (erste Zeile)
array[-1] # gibt das letzte Element aus (letzte Zeile)
array[1:2] # gibt das zweite bis ausschließlich dritte Element aus
array[1:3] # gibt das zweite bis einschließlich dritte Element aus
array[::2] # beginnt beim ersten Element (0) und gibt jedes zweite aus
array[1:3, ::2] # mehrdimensional: gibt das zweite bis einschließlich dritte Element der ersten Dimension aus 
# und von diesen jeweils jedes zweite Element

array[:, 0] # Ausgabe der ersten Spalte
array[:, -1] # Ausgabe der letzten Spalte
```

#### Überschreiben von Einträgen:

```python
array[0] = [-1, -2, -3] # überschreibe die erste Zeile mit einer Liste neuer Einträge
array[-1, -1] = -9 # überschreibe das Element unten rechts mit -9
```

#### Anhängen von Einträgen:

Eigene `numpy`-Funktion `np.append()`:

```python
new_array = np.append(array, [4, 5, 6]) # anhängen einer Liste an einen numpy.ndarray mittels .append()
```

> #### Dimensionen eines numpy.ndarrays ausgeben lassen:
> Mithilfe der Funktion 
>```python
>array.shape # Größe der jeweiligen Dimensionen
>```
> <br>
> lassen sich Dimension (Komma-getrennt) und die Anzahl der Einträge abfragen.<br>
> Auch hier indiziert Python intern bei Null beginnend, allerdings wird die tatsächliche Anzahl der Elemente angegeben und nicht der Zähler des letzten Elements.<br>
> <br>
> Andere wichtige Attribute:
>
>```python
>array.ndim # Anzahl der Dimensionen
>array.size # Gesamtgröße
>array.dtype # Datentyp
>array.itemize # Größe der Elemente des Arrays in Bytes
>array.nbytes # Größe des gesamten Arrays in Bytes
>```
> <br>

![arrays](https://cdn-images-1.medium.com/max/1200/1*O2_46c16UdgmXzen4VktMg.png)

----

### Überblick: hilfreiche Funktionen


|Name      |   NaN-safe Version  | Beschreibung                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.cumsum``        | ``np.nancumsum``       | Compute the comulative sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |
| --        | --                 | --        |
| ``np.sin``        | N/A                 | Compute sine-function (Sinus)       |
| ``np.cos``        | N/A                 | Compute cosine-function (Kosinus)        |
| ``np.tan``        | N/A                 | Compute tangent-function (Tangens)        |
| ``np.arcsin``        | N/A                 | Compute arcsine-function (Arcussinus)        |
| ``np.arccos``        | N/A                 | Compute arccosine-function (Arcuskosinus)        |
| ``np.arctan``        | N/A                 | Compute arctangent-function (Arcustangens)        |
| ``np.exp``        | N/A                 | Compute the exponential function (Exponentialfunktion)       |
| ``np.exp2``        | N/A                 | Compute the squared function (Quadrat)       |
| ``np.power``        | N/A                 | Compute a power function (Exponent)        |
| ``np.abs`` / ``np.absolute``       | N/A                 | Compute the absolute value (Absolutwert/Betrag)        |
| ``np.log``        | N/A                 | Compute the natural logarithm (natürlicher Logarithmus)       |
| ``np.log2``        | N/A                 | Compute the logarithm to base 2 (Logarithmus zur Basis 2)        |
| ``np.log10``        | N/A                 | Compute the logarithm to base 10 (Logarithmus zur Basis 10)        |
| ``np.sqrt``        | N/A                 | Compute the square root (Quadratwurzel)      |



jeweils auch als Methode, bspw.: `array.mean`

In [6]:
# Codezeile zum Testen

array = np.array([[1, 2, 3], 
                  [4, 5, 6],
                  [7, 8, 9]])
print(array[0]) # gibt das erste Element aus
print(array[-1]) # gibt das letzte Element aus
print(array[1:2]) # gibt das zweite bis ausschließlich dritte Element aus
print(array[1:3]) # gibt das zweite bis einschließlich dritte Element aus
print(array[::2]) # beginnt beim ersten Element (0) und gibt jedes zweite aus
print(array[1:3, ::2]) # gibt das zweite bis einschließlich dritte Element der ersten Dimension aus 
# und von diesen jeweils jedes zweite Element

[1 2 3]
[7 8 9]
[[4 5 6]]
[[4 5 6]
 [7 8 9]]
[[1 2 3]
 [7 8 9]]
[[4 6]
 [7 9]]


In [7]:
array.shape

(3, 3)

---
#### **Aufgabe 2:** 

In [8]:
# Do Not Touch - Start
array = np.array([[1, 2, 3], 
                  [4, 5, 6],
                  [7, 8, 9]])
# Do Not Touch - Ende

a) Lassen Sie sich den ersten und den letzten Eintrag der Hauptdiagonale der Matrix `array` ausgeben.

In [9]:
# Codezeile Aufgabe



b) Nutzen Sie jeweils die Funktion `np.diagonal` und die Methode `.diagonal`, um sich die gesamte Hauptdiagonale der Matrix `array` ausgeben zu lassen.

In [10]:
# Codezeile Aufgabe



c) Berechnen Sie den arithmetischen Mittelwert (`mean`), die Standardabweichung (`std`), sowie den kleinsten (`min`) und den größten (`max`) Wert der Matrix `array`.

In [11]:
# Codezeile Aufgabe



d) Transponieren Sie die Matrix `array` und berechnen Sie anschließend die Determinante der Transponierten.

Hinweis: `np.lookfor`

In [12]:
# Codezeile Aufgabe



e) Geben Sie jede Spalte der Matrix `array` einzeln aus. Berechnen Sie die jeweils die Summe der ersten und letzten Spalte.

In [13]:
# Codezeile Aufgabe



----
----
### Bearbeiten von Dimensionen

Die Dimensionen von Arrays können umgeformt werden:

```python
np.array([1, 2, 3]).reshape((1, 3))  # Spaltenvektor in Zeilenvektor
np.array([[1, 2, 3]]).reshape((3, 1))  # Zeilenvektor in Spaltenvektor
```

> Wichtig beim Bearbeiten:
>
> Mithilfe von `array.copy()` lassen sich *Kopien* eines Arrays erstellen, die unabhängig von dem *View* eines NumPy-Arrays bearbeitet werden können.

### Verketten und aufteilen

Arrays lassen sich mithilfe von `np.concatenate`, `np.vstack` (vertikaler Stack), `np.hstack` (horizontaler Stack) und `np.dstack` (dimensional Stack in der dritten Dimension) verketten.


Aufteilen von Arrays ist mit `np.split`, `np.hsplit` (aufteilen in horizontaler Ebene), `np.vsplit` (aufteilen in vertikaler Ebene) und `np.dsplit` (aufteilen in der dritten Dimension) möglich.

----
----

### Broadcasting und Rechnen mit Skalaren, Vektoren und Matrizen

#### Broadcasting:<br>

Mithilfe des Braodcastings ermöglicht NumPy es, eine (mathematische) Operation auf alle Einträge eines Arrays anzuwenden. Dies funktioniert, indem NumPy intern für die Operation einen Array erstellt, der die gleiche Dimension hat wie der Array, auf den die Operation angewendet werden soll:

![broadcasting](https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png)

In [14]:
# Codezeile zum Testen

vector_2_1 = np.array([1, 2]) # 2x1 Vektor
vector_1_3 = np.array([[1], 
                       [2], 
                       [3]]) # 1x3 Vektor
matrix_3_3 = np.array([[1, 2, 3], 
                       [4, 5, 6],
                       [7, 8, 9]]) # 3x3 Matrix

print("2 x 1 Vektor: \n{}".format(vector_2_1))
print("1 x 3 Vektor: \n{}".format(vector_1_3))
print("3 x 3 Matrix: \n{}".format(matrix_3_3))

2 x 1 Vektor: 
[1 2]
1 x 3 Vektor: 
[[1]
 [2]
 [3]]
3 x 3 Matrix: 
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [15]:
print("Broadcasting mit Skalar\n")

print( matrix_3_3 + 10 )
print( matrix_3_3 - 10 )
print( matrix_3_3 * 10 )
print( matrix_3_3 / 10 )

Broadcasting mit Skalar

[[11 12 13]
 [14 15 16]
 [17 18 19]]
[[-9 -8 -7]
 [-6 -5 -4]
 [-3 -2 -1]]
[[10 20 30]
 [40 50 60]
 [70 80 90]]
[[0.1 0.2 0.3]
 [0.4 0.5 0.6]
 [0.7 0.8 0.9]]


In [16]:
print("\nAddition\n")

print( matrix_3_3 + matrix_3_3 )
print( matrix_3_3 + np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) + np.array([1, 2, 3]) )
print( np.array([[1], [2], [3]]) + np.array([1, 2, 3]) )


Addition

[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]
[[ 2  4  6]
 [ 5  7  9]
 [ 8 10 12]]
[2 4 6]
[[2 3 4]
 [3 4 5]
 [4 5 6]]


In [17]:
print("\nSubtraktion\n")

print( matrix_3_3 - matrix_3_3 )
print( matrix_3_3 - np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) - np.array([1, 2, 3]) )
print( np.array([[1], [2], [3]]) - np.array([1, 2, 3]) )


Subtraktion

[[0 0 0]
 [0 0 0]
 [0 0 0]]
[[0 0 0]
 [3 3 3]
 [6 6 6]]
[0 0 0]
[[ 0 -1 -2]
 [ 1  0 -1]
 [ 2  1  0]]


In [18]:
print("\nMultiplikation\n")

print( matrix_3_3 * matrix_3_3 )
print( matrix_3_3 * np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) * np.array([1, 2, 3]) )
print( np.array([[1], [2], [3]]) * np.array([1, 2, 3]) )


Multiplikation

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]
[[ 1  4  9]
 [ 4 10 18]
 [ 7 16 27]]
[1 4 9]
[[1 2 3]
 [2 4 6]
 [3 6 9]]


In [19]:
print("\nSkalarprodukt\n")

print( matrix_3_3 @ matrix_3_3 )
print( matrix_3_3 @ np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) @ np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) @ np.array([[1], [2], [3]]) )


Skalarprodukt

[[ 30  36  42]
 [ 66  81  96]
 [102 126 150]]
[14 32 50]
14
[14]


In [20]:
print("\nDivision\n")

print( matrix_3_3 / matrix_3_3 )
print( matrix_3_3 / np.array([1, 2, 3]) )
print( np.array([1, 2, 3]) / np.array([1, 2, 3]) )
print( np.array([[1], [2], [3]]) / np.array([1, 2, 3]) )


Division

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[1.  1.  1. ]
 [4.  2.5 2. ]
 [7.  4.  3. ]]
[1. 1. 1.]
[[1.         0.5        0.33333333]
 [2.         1.         0.66666667]
 [3.         1.5        1.        ]]


In [21]:
# Codezeile zum Testen



-----
-----

## Pandas - Python Data Analysis Library

[Pandas Dokumentation](https://pandas.pydata.org/ "externer Link nach pandas.pydata.org/")

[pandas in pypi](https://pypi.org/project/pandas/)

[pandas in python-kurs.eu](https://www.python-kurs.eu/pandas.php)

Modul für alles, was mit Datensätzen zu tun hat:

* Datenserien `Series`, "Datenrahmen" `DataFrame`
* Matrizen
* Pixelmatrizen: Abbildungen / Bildbearbeitung
* Datenimport / Datenexport
* Regression / Fit
* Statistik
* Zeitreihen
* etc.


Import des Moduls:
```python
import pandas
```
meistens:
```python
import pandas as pd
```

**Vorsicht:**
Teilweise ähnliche Syntax wie Arrays in NumPy, allerdings deutlich erweiterte Funktionalität.

* effizientere Speicherung
* feststehender Datentyp
* zusätzliche Funktionen zur Datenbearbeitung
* effiziente Schnittstelle zum Speichern und Bearbeiten dicht gepackter, strukturierter Daten
* grundlegendes Werkzeug der *Data Science* mit *Python*

Spezielle Anwendung gesucht? Bspw. Import, Export, Determinante, Transponierte, Inversion, etc.

```python
pandas? # Suche nach Funktionen und Methoden mittels Docstrings
```

Pandas Datenreihe und Datenrahmen:

```python
pandas.Series(), pandas.DataFrame()
``` 

----

In [22]:
import pandas as pd



----
### Das Pandas-Series-Objekt

```python
pandas.Series()
``` 

* erweiterter 1D-NumPy-Array:
    * Index bei NumPy *implizit definiert*: ganzzahlig für Einträge
    * Index bei Pandas *explizit definiert*: Index gehört zu Wert, muss keine Ganzzahl sein
* spezialisiertes Dictionary
    * Wert-Schlüssel Zuweisung des Dictionaries ist vergleichbar mit Index-Wert Paar der Pandas-Series
    + zusätzl. Array-Operationen (Slicing, Broadcasting)


#### Series erzeugen

```python
import pandas as pd

pd.Series(data, index=index) # data: Dateneingabe (kann Listen- oder Array-artig sein), index: optionales Argument für Index (kann ebenfalls Listen- oder Array-artig sein)

# # Bsp.:
pd.Series([2, 4, 6]) # index wird bei 0 begonnen und ganzzahlig fortlaufend nummeriert
pd.Series([2, 4, 6], index=["a", "b", "c"]) # index wird als beliebiger String definiert
pd.Series([2, 4, 6], index=[0, 10, 20]) # index wird als beliebiger Integer definiert

pd.Series({"Bonn":15, "Köln":18}) # index verwendet die Schlüssel des Dictionaries
pd.Series(42, index=[0, 10, 20, 30, 40]) # beliebiger Wert 42 wird für alle Indizes übernommen

```

### Das Pandas-DataFrame-Objekt

```python
pandas.DataFrame()
``` 

* erweiterter 2D-NumPy-Array:
    * Index (Zeile und Spalte) bei NumPy *implizit definiert*: ganzzahlig für Einträge
    * Index und Column bei Pandas *explizit definiert*: Index gehört zu Wert, muss keine Ganzzahl sein, Column benennt die zweite Dimension
* spezialisiertes 2D-Dictionary
    * Wert-Schlüssel Zuweisung des Dictionaries ist vergleichbar mit Index-Wert Paar der Pandas-Series
    + zusätzl. Array-Operationen (Slicing, Broadcasting)
    + zusätzl. zweidimensionale "Schlüssel"-Zuweisung
* Verknüpfung zweier Pandas-Series mit übereinstimmenden Indizes zu 2D-Datenframe

#### DataFrame erzeugen

```python
import pandas as pd

pd.DataFrame(data, index=index, columns=columns) # data: Dateneingabe (kann Listen- oder Array-artig sein), index: optionales Argument für Zeilen-Index (kann ebenfalls Listen- oder Array-artig sein), columns: optionales Argument für Spalten-Index (kann ebenfalls Listen- oder Array-artig sein)

# # Bsp.:
pd.DataFrame([2, 4, 6]) # index und column werden bei 0 begonnen und ganzzahlig fortlaufend nummeriert
pd.DataFrame([2, 4, 6], index=["a", "b", "c"] , columns=["Spalte 1"]) # index und column werden als beliebiger String definiert
pd.DataFrame([[2, 4, 6]], columns=[0, 10, 20]) # column wird als beliebiger Integer definiert, index wird automatisch nummeriert

pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}]) # DataFrame wird aus Liste mehrerer Dictionaries erstellt
pd.DataFrame([{"Bonn":15, "Köln":18}]) # column verwendet die Schlüssel des Dictionaries
pd.DataFrame(42, index=[0, 10, 20, 30, 40], columns=["Wo", "Wann", "Warum"]) # beliebiger Wert 42 wird für alle Indizes und Columns übernommen

pd.DataFrame({"Series1":pd.Series({"Bonn":15, "Köln":18}), "Series2":pd.Series({"Bonn":20, "Köln":30})}) # DataFrame aus einem Dictionary zweier Series, die wiederum aus Dictionaries erstellt werden

```
----

In [23]:
import pandas as pd

# pd.Series(data, index=index) # data: Dateneingabe (kann Listen- oder Array-artig sein), index: optionales Argument für Index (kann ebenfalls Listen- oder Array-artig sein)

# # Bsp.:
print( "PANDAS SERIES" )
print( "\n##################\n" )
print( 'pd.Series([2, 4, 6])', ":\n" )
print( pd.Series([2, 4, 6]) ) # index wird bei 0 begonnen und ganzzahlig fortlaufend nummeriert
print( "\n##################\n" )
print( 'pd.Series([2, 4, 6], index=["a", "b", "c"])', ":\n" )
print( pd.Series([2, 4, 6], index=["a", "b", "c"]) ) # index wird als beliebiger String definiert
print( "\n##################\n" )
print( 'pd.Series([2, 4, 6], index=[0, 10, 20])', ":\n" )
print( pd.Series([2, 4, 6], index=[0, 10, 20]) ) # index wird als beliebiger Integer definiert

print( "\n##################\n" )
print( 'pd.Series({"Bonn":15, "Köln":18})', ":\n" )
print( pd.Series({"Bonn":15, "Köln":18}) ) # index verwendet die Schlüssel des Dictionaries
print( "\n##################\n" )
print( 'pd.Series(42, index=[0, 10, 20, 30, 40])', ":\n" )
print( pd.Series(42, index=[0, 10, 20, 30, 40]) ) # beliebiger Wert 42 wird für alle Indizes übernommen

# Codezeile zum Testen

import numpy as np

# pd.DataFrame(data, index=index, columns=columns) # data: Dateneingabe (kann Listen- oder Array-artig sein), index: optionales Argument für Zeilen-Index (kann ebenfalls Listen- oder Array-artig sein), columns: optionales Argument für Spalten-Index (kann ebenfalls Listen- oder Array-artig sein)

# # Bsp.:
print( "\n####################\n####################")
print( "\n\nPANDAS DATAFRAME" )
print( "\n##################\n" )
print( 'pd.DataFrame([2, 4, 6])', ":\n" )
print( pd.DataFrame([2, 4, 6]) ) # index und column werden bei 0 begonnen und ganzzahlig fortlaufend nummeriert
print( "\n##################\n" )
print( 'pd.DataFrame([2, 4, 6], index=["a", "b", "c"] , columns=["Spalte 1"])', ":\n")
print( pd.DataFrame([2, 4, 6], index=["a", "b", "c"] , columns=["Spalte 1"]) ) # index und column werden als beliebiger String definiert
print( "\n##################\n" )
print( 'pd.DataFrame([[2, 4, 6]], columns=[0, 10, 20])', ":\n")
print( pd.DataFrame([[2, 4, 6]], columns=[0, 10, 20]) ) # column wird als beliebiger Integer definiert, index wird automatisch nummeriert

print( "\n##################\n" )
print( "pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}])", ":\n")
print( pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}]) ) # DataFrame wird aus Liste mehrerer Dictionaries erstellt
print( "\n##################\n" )
print( 'pd.DataFrame([{"Bonn":15, "Köln":18}])', ":\n" )
print( pd.DataFrame([{"Bonn":15, "Köln":18}]) ) # column verwendet die Schlüssel des Dictionaries
print( "\n##################\n" )
print( 'pd.DataFrame(42, index=[0, 10, 20, 30, 40], columns=["Wo", "Wann", "Warum"])', ":\n" )
print( pd.DataFrame(42, index=[0, 10, 20, 30, 40], columns=["Wo", "Wann", "Warum"]) ) # beliebiger Wert 42 wird für alle Indizes und Columns übernommen

print( "\n##################\n" )
print( 'pd.DataFrame({"Series1":pd.Series({"Bonn":15, "Köln":18}), "Series2":pd.Series({"Bonn":20, "Köln":30})})', ":\n" )
print( pd.DataFrame({"Series1":pd.Series({"Bonn":15, "Köln":18}), "Series2":pd.Series({"Bonn":20, "Köln":30})}) ) # DataFrame aus einem Dictionary zweier Series, die wiederum aus Dictionaries erstellt werden

PANDAS SERIES

##################

pd.Series([2, 4, 6]) :

0    2
1    4
2    6
dtype: int64

##################

pd.Series([2, 4, 6], index=["a", "b", "c"]) :

a    2
b    4
c    6
dtype: int64

##################

pd.Series([2, 4, 6], index=[0, 10, 20]) :

0     2
10    4
20    6
dtype: int64

##################

pd.Series({"Bonn":15, "Köln":18}) :

Bonn    15
Köln    18
dtype: int64

##################

pd.Series(42, index=[0, 10, 20, 30, 40]) :

0     42
10    42
20    42
30    42
40    42
dtype: int64

####################
####################


PANDAS DATAFRAME

##################

pd.DataFrame([2, 4, 6]) :

   0
0  2
1  4
2  6

##################

pd.DataFrame([2, 4, 6], index=["a", "b", "c"] , columns=["Spalte 1"]) :

   Spalte 1
a         2
b         4
c         6

##################

pd.DataFrame([[2, 4, 6]], columns=[0, 10, 20]) :

   0   10  20
0   2   4   6

##################

pd.DataFrame([{'a':1, 'b':2}, {'b':3, 'c':4}]) :

     a  b    c
0  1.0  2  NaN
1  NaN  3  4.0



----

### Indizierung von Pandas-Objekten:

* Indizierung von Index und Values wie bei bisherigen Containern (Tupel, Listen, Strings)
* Multi-dimensional wie bei NumPy-ndarrays
* Indizierung von Columns (Spalten) wie bei Dictionaries nach Schlüssel

außerdem gibt es folgende Attribute:

#### Indizes

```python
pd.Series([2, 4, 6]).index
pd.DataFrame([2, 4, 6]).index
```

#### Columns

```python
pd.DataFrame([2, 4, 6]).columns
```

#### Values

```python
pd.Series([2, 4, 6]).values
pd.DataFrame([2, 4, 6]).values
```

----

In [24]:
# Codezeile zum Testen
c = 0
pd.Series([2, 4, 6], index=["a", "b", c]).index

Index(['a', 'b', 0], dtype='object')

In [25]:
pd.DataFrame([2, 4, 6]).index

RangeIndex(start=0, stop=3, step=1)

In [26]:
pd.DataFrame([2, 4, 6]).columns

RangeIndex(start=0, stop=1, step=1)

In [27]:
pd.Series([2, 4, 6]).values

array([2, 4, 6])

In [28]:
pd.DataFrame([2, 4, 6]).values

array([[2],
       [4],
       [6]])

----

**Aufgabe 3:**

Erstellen Sie einen Pandas-DataFrame, füllen Sie ihn mit `int` und `float`-Werten und lassen Sie sich folgendes einzeln ausgeben:

1. den gesamten DataFrame
2. nur die Werte des DataFrames
3. nur die Indizes
4. nur die Columns

Erstellen Sie eine weitere column, in der Sie die Differenz vorheriger Columns berechnen.

In [29]:
# Codezeile Aufgabe



----
----

## Exkurs: Mathematische Operationen

Sowohl `numpy` als auch `pandas` haben Methoden und Funktionen für Statistik und numerische oder analytische Operationen.

Weitere Operationen aus dem C-Standard erhält man mit den Modulen `math` [python.org - math](https://docs.python.org/3/library/math.html) (für nicht-komplexe Zahlen) und `cmath` [python.org - cmath](https://docs.python.org/3/library/cmath.html) (für komplexe Zahlen).

Spezielle Funktionen für Berechnungen im wissenschaftlichen Gebrauch (Algorithmen für Interpolationen, Inversion, Eigenwert-Probleme etc.) sind im Modul `scipy` (*Scientific Python* [scipy.org](https://scipy.org/)) verfügbar.

Für die symbolhafte Darstellung in der Mathematik gibt es das Modul `sympy` (*Symbolic Python* [sympy.org](https://www.sympy.org/en/index.html)).

-----


### Komplexe Zahlen

Funktionen für komplexe Zahlen mit `numpy`:

```python
import numpy as np
np.real # Realteil
np.imag # Imaginärteil
np.abs # Betrag
np.conjugate # konjugiert Komplexes
```

Funktionen für komplexe Zahlen mit `cmath`:

```python
import cmath
cmath.polar # Umrechnung in Polarform
cmath.rect # Umrechnung in kartesische Form
cmath.phase # Berechnung der Phase
```
----


### Lineare Algebra

Wichtige Funktionen für lineare Algebra mit NumPy:

```python
import numpy

np.dot                # Skalarprodukt
np.cross              # Kreuzprodukt

np.transpose          # Transponierte
np.linalg.det         # Determinante
np.linalg.norm        # Betrag (Vektoren und Matrizen)
np.linalg.eig         # Eigenwerte und Eigenvektoren

np.linalg.solve       # Solver für lineare Gleichungssysteme
np.linalg.tensorsolve # Tensorsolver für LGS

np.linalg.inv         # Inverse
np.linalg.pinv        # Pseudoinverse

np.linalg.svd         # Singulärwertzerlegung

```

----
### Regression

Wichtige Funktionen für Regressionen:

```python
import numpy

np.polyfit() # Fit von Polynomen von Grad n
np.polyval() # entsprechende Werteverteilung

```

Andere Bibliotheken:<br>
beispielsweise

```python
import scipy.stats as scstats

scstats.linregress() # lineare Regression

```
----
----

----

## Ausblick

* Darstellung und Plots

* Anwendung auf Daten (Darstellung, Import, Export, Prozessierung)

* Objektorientiertes Programmieren (Klassen `class`) und eigene Bibliotheken 