# Datenverarbeitung mit Python

## Warum Python?
- Rapid Prototyping
- Flexibilität
- Weit verbreitet
 - zum fünften Jahr in Folge beliebteste Programmiersprache laut IEEE (https://spectrum.ieee.org/top-programming-languages/)
 - unter anderem genutzt durch YouTube, Google, Instagram, etc. (https://codeinstitute.net/blog/7-popular-software-programs-written-in-python/)
- mächtige Bibliotheken

## Der Data Science Stack von Python (Auszug)

![alt text](Datenverarbeitung_Python_High_Res_Fixed.png "Übersicht über Bibliotheken zur Datenverarbeitung mit Python")


## Numpy

https://numpy.org/

- erleichtert mathematische Berechnungen mit Daten
- relevante Datenstruktur: `Array`
- viele Bibliotheken, darunter matplotlib, hängen von Numpy ab

Aufgabe: Plotte $y = x^2$ mit Python.

Beispiel der Berechnung ohne Numpy:

In [None]:
# Matplotlib: Bibliothek zum Erstellen von Graphen mit Python die später genauer vorgestellt wird
# mit der nächsten Zeile können wir das Resultat direkt im Notebook anzeigen lassen

%matplotlib inline
import matplotlib.pyplot as plt

# Array mit den Werten 0-9
xs = []
for x in range(0, 100):
    xs.append(x / 10)
    
# Oder: xs = [x / 10 for x in range(100)]
    
# Array mit den Werten 0²-9²
ys = []
for x in xs:
    ys.append(x ** 2)
    
# Oder: ys = [x ** 2 for x in xs]

# Simpler Befehl zum plotten von zwei gleich großen Listen
plt.plot(xs, ys)

# Ausgabe des Plots
plt.show()

Das gleiche mit Numpy:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# Üblicherweise wird Numpy mit np abgekürzt
import numpy as np

# Array von 0-9
xs = np.arange(100) / 10

# Array von 0²-9²
ys = xs ** 2

plt.plot(xs, ys)
plt.show()

In [None]:
# Numpy verwendet eine eigene Klasse für Arrays
type(ys)

## Numpy Arrays erstellen

In [None]:
import numpy as np

Der `array()` Befehl wandelt Python-Listen in Numpy Arrays um.

In [None]:
np.array([1, 2, 4, 8, 16])

Die Funktion `arange()` erstellt Arrays zu einem beliebigen Zahlenbereich.

In [None]:
# Zwei Möglichkeiten die arange() Funktion zu nutzen
print(np.arange(12,22))
print(np.arange(10))

Auch für Arrays mit einer vordefinierten Länge, die ausschließlich aus Nullen oder Einsen besteht gibt es Funktionen:

In [None]:
print(np.zeros(5))
print(np.ones(12))

Rechenoperationen mit Numpy Arrays beziehen sich auf jeden Wert in der Liste. Eine Schleife müssen wir selber nicht implementieren:

In [None]:
print(np.arange(10) + 3)
print(np.arange(10) * 3)
print(np.array([7,16,21,59]) ** 2)

Natürlich stellt Numpy auch einfache Aggregationsfunktionen, sowie eine Sortierfunktion für Listen zur Verfügung:

In [None]:
l = np.array([33,7,18,1,59,12])

print("Durchschnitt:", l.mean())
print("Maximum:", l.max())
print("Minimum:", l.min())
print("Standartabweichung:", l.std())

In [None]:
# Die sort() Operation wird direkt auf der Liste ausgeführt und gibt nichts zurück.
l.sort()

In [None]:
print(l)

#### Wie funktioniert die `Array` Klasse in Numpy?
Dazu bauen wir eine eigene Klasse `MyArray`, die sich bei der Multiplikation genauso verhält wie Numpy Arrays, also jedes Element in der Liste einzeln multipliziert und nicht die gesamte Liste.

In [None]:
# Zunächst das normale Verhalten in Python

a = [1,2,3]
b = a * 2

print(a)
print(b)

In [None]:
# Jetzt mit unserer eigenen Klasse nach dem Vorbild von Numpy

class MyArray():
    
    # der Constructor in Python, hier übergeben wir lediglich die Liste
    def __init__(self, liste):
        self.liste = liste
        
    # die Multiplikationsfunktion (*) wird überschrieben, so dass sie für jedes Element aus der Liste aufgerufen wird    
    def __mul__(self, other):
        nliste = []
        for element in self.liste:
            nliste.append(element * other)
        # Oder: nliste = [element * other for element in self.liste]
        return MyArray(nliste)
        
a = MyArray([1, 2, 3])
b = a * 2

print(a.liste)
print(b.liste)

## Erweiterte Funktionen: Arrays filtern mit Numpy

- Arrays können mit einem weitern Array bestehend aus Wahrheitswerten einfach gefiltert werden
- Numpy kann so eine Liste mit einem simplen Vergleichsoperator erstellen

In [None]:
import numpy as np

a = np.arange(4) + 1
print(a)

In [None]:
b = np.array([False, True, True, False])
print(b)

In [None]:
a[b]

In [None]:
a >= 3

In [None]:
a[a >= 3]

## Mehrdimensionale Arrays

- Arrays unterstützen in Numpy von Haus aus mehrere Dimensionen
- diese werden durch die Verschachtelung von Arrays gekennzeichnet
- Daten lassen sich über diverse Matrizenoperationen neu anordnen

In [None]:
import numpy as np

a = np.arange(8) + 1
a

In [None]:
reshaped = a.reshape((2, 4))
print(reshaped[0])
print(reshaped[1])

In [None]:
a.reshape((4, -1))

In [None]:
a.reshape((4, -1)).transpose()

In [None]:
b = np.array([[1,2,3], [4,5,6]])
b

In [None]:
b.reshape(-1)

In [None]:
b.shape # das Original Array wurde nicht verändert, die Methode 'shape()' liefert noch die alte Struktur

## Pandas

https://pandas.pydata.org/docs/index.html

- Bibliothek für Datenanalyse und Datenmanipulation
- basiert auf Numpy
- Acronym: <b>P</b>ython <b>an</b>d <b>d</b>ata <b>a</b>nalysi<b>s</b>
- relevante Datenstruktur: `DataFrame`

Pandas vereinfacht komplexe Operationen wie:
- das Einlesen tabellarischer Daten oder anderer strukturierter Daten
- das Filtern und Sortieren von Daten
- die Manipulation von Daten

## Pandas: Tabellarische Daten einlesen

Auch hier wollen wir uns zunächst anschauen wie man eine bestimmte Aufgabe ohne Pandas lösen würde.

Die Datei `astronauts.csv` im Ordner `data` soll eingelesen werden und wir möchten uns die Daten anschauen.

In [None]:
# Naive Implementierung ohne Pandas mit dem 'with open(...) Operator'
first_line = True
head = []
data = []
with open('./data/astronauts.csv', 'r') as astronauts:
    for line in astronauts:
        split = line.strip().split(',')
        if first_line:
            head = split
            first_line = False
        else:
            data.append(split)
            
print(head)
print(data[0:4])

Mit Pandas können wir den oberen Block auf eine Zeile reduzieren.

In [None]:
# Pandas wird üblicherweise mit pd abgekürzt, DataFrame mit df
import pandas as pd
df_astronauts = pd.read_csv("./data/astronauts.csv", delimiter=",") # "," ist der Standardwert

In [None]:
# Und eine komfortablere Ausgabe erzeugen
df_astronauts.head(15)

Weitere einfache DataFrame Operationen werden im Folgenden gezeigt.

In [None]:
len(df_astronauts) # Längenabfrage

In [None]:
df_astronauts["Name"] # Nur die Spalte Name

In [None]:
df_astronauts.iloc[0] # Nur die erste Zeile

In [None]:
entry = df_astronauts.iloc[0]
print(type(entry)) # Datentyp einer Zeile

In [None]:
print(entry["Birth Date"]) # Spezifischer Eintrag aus der Zeile

In [None]:
df_astronauts.iloc[-4:] # Die letzten vier Zeilen

## Pandas: Daten filtern

Um Daten zu Filtern kann unter Pandas eine ähnliche Syntax wie in Numpy verwendet werden.

DataFrames können so in immer kleinere Teile zerlegt werden:

In [None]:
# Natürlich können auch Schleifen verwendet werden...
for i, d in df_astronauts.iterrows():
    print(i)
    print(d["Year"])
    # hier könnten wir den Index entfernen, wenn das Jahr nicht unserem Kriterium entspricht
    break

In [None]:
# ...aber die Implementierung mit Pandas ist deutlich effizienter und einfacher.
df_astronauts["Year"] < 1990

In [None]:
df_astronauts[df_astronauts["Year"] <= 1964]

In [None]:
df_female = df_astronauts[df_astronauts["Gender"] == "Female"]
df_female_2000_plus = df_female[df_female["Year"] >= 2005]
df_female_2000_plus.head()

Die Methode `isin()` erleichtert den Vergleich mit mehreren Werten, etwa wenn uns nur Astronauten interessieren, die einen Hochschulabschluss in Geologie oder Physik haben:

In [None]:
df_physics_geology = df_astronauts[df_astronauts["Graduate Major"].isin(['Geology', 'Physics'])]
df_physics_geology.head()

Sogar beliebige `String` Operationen können verwendet werden um Elemente zu filtern. Hier möchten wir im Feld `Undergraduate Major` nach Abschlüssen im Bereich `Engineering` suchen. Aber es gibt ein Problem:

In [None]:
df_engineering = df_astronauts[df_astronauts['Undergraduate Major'].str.contains('Engineering')]
df_engineering.head()

Das Dataframe enthält Zeilen mit `NaN` Werten, da einige der Astronauten keinen Abschluss haben. Wir müssen diese also zunächst entfernen oder ersetzen:

In [None]:
# Wir entscheiden uns hier die Werte zu entfernen. Um diese zu ersetzen, kann der Befehl 'fillna()' analog verwendet werden.
df_no_nan = df_astronauts.dropna(subset=['Undergraduate Major'])
df_engineering = df_no_nan[df_no_nan['Undergraduate Major'].str.contains('Engineering')]
df_engineering.head()

## Pandas: Daten sortieren

Hier stellt Pandas ebenfalls eine einfache Funktion zur Verfügung:

In [None]:
df_namesort = df_astronauts.sort_values("Name", ascending=False)
df_namesort.head()

In [None]:
for name in df_namesort["Name"]:
    print(name)

## Pandas: Zeilen entfernen und hinzufügen

Einzelne Zeilen lassen sich einfach anhand ihres Index mit der Methode `drop()` entfernen, das funktioniert auch für mehrere Zeilen:

In [None]:
index = df_astronauts.index[df_astronauts['Graduate Major'] == 'Geology']

df_astronauts_no_geology = df_astronauts.drop(index)
df_astronauts_no_geology.head(5)

Um Zellen hinzuzufügen, werden diese einfach dem DataFrame als Liste oder Dictionary angefügt. Fehlende Werte, werden mit `np.nan` automatisch aufgefüllt.

In [None]:
df_i_am_astronaut = df_astronauts.append({'Name': "Markus Ullrich", 'Alma Mater': 'HSZG', 'Birth Date': '16/1/1988', 'Gender': 'Male', 'Graduate Major': 'Computer Science'}, ignore_index=True)
df_i_am_astronaut.tail()

## Pandas: Spalten Entfernen und Erstellen

- Spalten können ebenfalls mit dem Befehl `drop()` gelöscht werden
- Dazu muss die `axis` geändert werden (auf 1). Standardwert ist der Zeilenindex (0).
- Auch mehrere Spalten können gelöscht werden
- `insert()` fügt neue Spalten hinzu
- Neue Spalten können ähnlich wie in Numpy aus bereits existierenden Spalten erstellt werden

Die Spalten `Alma Mater`, `Undergraduate Major` und `Graduate Major` werden für die weitere Bearbeitung nicht weiter benötigt und sollen gelösct werden:

In [None]:
df_dropped = df_astronauts.drop(['Alma Mater', 'Undergraduate Major', 'Graduate Major'], axis=1)
df_dropped.head()

Nun soll die Spalte `Hours per Space Flight` hinzugefügt werden, nach der Spalte `Space Flight (hr)`, mit der durchschnittlichen Zeit, die Astronauten pro Flug im All verbracht haben:

In [None]:
# Für den Index müssen wir auf das 'columns' Objekt zugreifen
column_index = df_dropped.columns.get_loc('Space Flight (hr)') + 1
column_name = 'Hours per Space Flight'

# Hinzufügen können wir die Spalte dann mit einem Befehl
# Achtung! Der Befehl 'insert()' modifiziert das DataFrame direkt.
# Um mehrere Spalten durch Mehrfachausführung der Zelle zu vermeiden...
# ...wird hier die Spalte erst gelöscht, falls sie existiert
df_dropped.drop(column_name, axis = 1, inplace = True, errors = 'ignore')
df_dropped.insert(column_index, column_name, df_dropped['Space Flight (hr)'] / df_dropped['Space Flights'])
df_dropped.head(10)

## Pandas: Excel und Grafiken zeichnen

- Pandas erleichtert auch den Umgang mit Excel Dateien
- Durch die direkte Integration von Matplotlib, wird das Plotten von Informationen ebenfalls erleichtert

In [None]:
import pandas as pd
# Auch Excel Dateien lassen sich mit einer Zeile einlesen
df_excel = pd.read_excel("./data/umsatz_daten.xlsx")
df_excel.head()

Nun können wir die einzelnen Spalten abrufen und plotten lassen:

In [None]:
year = df_excel["Jahr"]
sales = df_excel["Umsatz"]

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
plt.plot(year, sales)
plt.show()

Oder wir ersetzen auch diesen Vorgang mit einem einzelnen Befehl in Pandas:

In [None]:
df_excel.plot("Jahr", "Umsatz")

## Komplexbeispiel: Wetterdaten einlesen

In diesem Beispiel soll die generelle Herangehensweise an komplexe Probleme bei der Verarbeitung von Daten gezeigt werden.
Hier sollen Wetterdaten, die wir von Wetterstationen erhalten haben, in ein geeignetes Format zur Weiterverarbeitung gebracht werden. Zunächst schauen wir uns die Rohdaten mit Pandas an:

In [None]:
import pandas as pd

df_wind = pd.read_csv('./data/wind.csv', delimiter=";", skipinitialspace=True)
print(df_wind.head(10))

Wir möchten Uhrzeit und Datum in einer Spalte haben. Dazu ersetzen wir die existierenden Spalten mit einer neuen und passen gleichzeitig das Datumsformat an. Außerdem entfernen wir weitere nicht benötigte Spalten:

In [None]:
df_wind["Date"] = pd.to_datetime(df_wind["Logische Periode "] + " " + df_wind["Endzeitstempel "] + "+01:00").dt.tz_convert('Europe/Berlin')
df_wind = df_wind.drop(["Status ", "Tarif ", "Logische Periode ", "Endzeitstempel "], axis=1)
df_wind.head(10)

Die Spalte `Wert` ist wenig aussagekräftig, wir ändern den Namen in `Globalstrahlung`. Außerdem möchten wir das Datum als Index verwenden:

In [None]:
wert_name = 'Globalstrahlung'
df_wind.rename(columns={'Wert ': wert_name}, inplace=True)
df_wind = df_wind.set_index('Date')
df_wind.head(10)

Da es sich um ein deutsches Zahlenformat handelt, können die Werte in der Spalte `Globalstrahlung` nicht einfach in Zahlen umgewandelt werden. Wir machen das hier händisch per Übergabe einer Funktion. Damit können Daten beliebig modifiziert werden. Anschließend, können die Werte einfach in ein numerisched Format umgewandelt werden:

In [None]:
df_wind[wert_name] = df_wind[wert_name].map(lambda x: x.replace(".", "").replace(",", "."))
df_wind[wert_name] = pd.to_numeric(df_wind[wert_name])
print(df_wind[wert_name])

Zum Schluss möchten wir die Werte in den Daten für jede Stunde aufsummieren, da wir die Werte nur stundenweise benötigen. Dazu verwenden wie die Funktion `resample()` sowie die Klasse `to_offset` um den Index um eine Stunde nach hinten zu korrigieren:

In [None]:
from pandas.tseries.frequencies import to_offset

df_wind = df_wind.resample("1H", closed="right").sum()
df_wind.index = df_wind.index + to_offset('1H')
print(df_wind.head(10))

## Mehr über Matplotlib

https://matplotlib.org/stable/index.html

- Bisher haben wir nur den Standarddiagrammtyp betrachtet
- Matplotlib erlaubt aber auch hier vielfältige Konfigurationsmöglichkeiten
- Auch weitere Diagrammtypen sind möglich und sollen im Folgenden kurz vorgestellt werden

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# Zunächst noch einmal ein einfacher Plot
plt.plot([1,2,3], [5,4,7])
plt.show()

In [None]:
# Farbe, Art des Plots und Label, sowie die Anzeige der Legende können frei gewählt werden
plt.plot([1,2,3], [5,4,7], color="#f77216", linestyle="dashed", marker="o", label="Umsatz")
plt.legend()
plt.show()

### Weitere Diagrammtypen

- Mit Beispielen aus der offiziellen Dokumentation
- Anpassungen können gerne vorgenommen werden

In [None]:
# Kreisdiagramm
labels = 'Kiefer', 'Tanne', 'Eiche', 'Buche'
werte = [37, 28, 53, 12]
explode = (0, 0.1, 0, 0)  # der zweite Bereich wird hervorgehoben

fig1, ax1 = plt.subplots()
ax1.pie(werte, explode=explode, labels=labels, autopct='%1.1f%%',
        shadow=True, startangle=90)
ax1.axis('equal')  # Stellt sicher, dass das Diagramm tatsächlich als Kreis gezeichnet wird

plt.show()

In [None]:
# Ein Balkendiagramm mit gestapelten Balken und Markierungen für die Standardabweichung

import numpy as np

N = 5
menMeans = (20, 35, 30, 35, -27)
womenMeans = (25, 32, 34, 20, -25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N)    # die x-Werte für die Gruppen
width = 0.35       # die breite der Balken: auch eine 'Sequence' der Länge x ist möglich

fig, ax = plt.subplots()

p1 = ax.bar(ind, menMeans, width, yerr=menStd, label='Männer') # dem Attribut 'yerr' übergeben wir die Standardabweichungen
p2 = ax.bar(ind, womenMeans, width,
            bottom=menMeans, yerr=womenStd, label='Frauen')

# eine einfache graue horizontale Linie
ax.axhline(0, color='grey', linewidth=0.8)

ax.set_ylabel('Punkte')
ax.set_title('Punkte nach Gruppe und Geschlecht')
ax.set_xticks(ind)
ax.set_xticklabels(('G1', 'G2', 'G3', 'G4', 'G5'))
ax.legend()

# Label mit dem Typ 'center' anstatt dem default-Wert 'edge', bar_label werden nur in der neuesten Version unterstützt
# ax.bar_label(p1, label_type='center')
# ax.bar_label(p2, label_type='center')
# ax.bar_label(p2)

plt.show()

In [None]:
# Scatterplot mit 'zufälliger' Verteilung der Punkte

np.random.seed(19680801)

fig, ax = plt.subplots()
for color in ['tab:blue', 'tab:orange', 'tab:green']:
    n = 750
    x, y = np.random.rand(2, n) # erzeugt zwei Zufallslisten der Länge 'n' mit Werten zwischen 0 und 1
    scale = 200.0 * np.random.rand(n)
    ax.scatter(x, y, c=color, s=scale, label=color,
               alpha=0.3, edgecolors='none')

ax.legend()
ax.grid(True)

plt.show()

## Maschinelles Lernen

- zahlreiche Bibliotheken unterstützen ML in Python
- komplexe Aufgaben gelingen mit wenigen Codezeilen
- wir betrachten Beispielhaft eine Anwendung mit Hilfe der Bibliothek Scikit Learn

https://scikit-learn.org/stable/

### Beispielaufgabe

Die Datei `names.csv` enthält für jedes Jahr zwischen 1910 und 2014 die Häufigkeit verschiedener Mädchen- und Jungennamen, die bei der Geburt vergeben wurden, für alle Bundesstaaten der USA.

Die Aufgabe ist in zwei Teile untergliedert:
1. Visualisieren Sie wie oft der Name Anna als Mädchenname (F) in California (CA) jedes Jahr vergeben wurde.
2. Zeichnen Sie eine lineare Regressionskurve ein, die visualisiert, wie sehr die Beliebtheit des Namens gestiegen (oder gefallen) ist.

In [None]:
# Benötigte Importe
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
name = "Anna"
gender = "F"
state = "CA"

# Die Daten können wir wie gewohnt mit Pandas filtern...
df = pd.read_csv("./data/names.csv")
df_f = df[df["Gender"] == gender]
df_anna = df_f[df_f["Name"] == name]
df_ca = df_anna[df_anna["State"] == state]

# ...und mit Matplotlib visualisieren
plt.plot(df_ca["Year"], df_ca["Count"])
plt.show()

In [None]:
# Da wir nicht die gesamte Bibliothek benötigen, importieren wir nur einen Teil davon
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression()
xsl = []
for x in df_ca["Year"]:
    xsl.append([x])
# Die Methode 'fit()' erwartet ein mehrhdimensionales Array/eine mehrdimensionale Liste für die x-Werte und die y-Werte...
# ...beide mit den gleichen Dimensionen
model.fit(xsl, df_ca["Count"])

In [None]:
model.predict(xsl) # liefert für jedes Jahr die vorhergesagte Häufigkeit des Namens

In [None]:
predicted = model.predict(xsl)

In [None]:
# Zum Schluss müssen die Werte nur noch geplottet werden
plt.plot(df_ca["Year"], df_ca["Count"])
plt.plot(df_ca["Year"], predicted)
plt.show()