#### Business Analytics FHDW 2024
# Kurze Einführung in Python mit JupyterLab

*JupyterLab* bietet uns eine interaktive Umgebung zur Arbeit mit Python und seinen diversen Bibliotheken für Statistik, Numerik, Datenanalyse, AI und ML.

Seine übergeordnete Einheit ist ein *Notebook*, das aus *Zellen*/*Cells* besteht. Wenn wir darin etwas textuell beschreiben wollen, nutzen wir den Zellentyp *Markdown*, wollen wir Python, nutzen wir *Code*-Zellen. Beide Arten können wir durch *Strg*-*Return* ausführen (weitere Abkürzungen finden sich in den Menüs von Jupyter).

*Achtung*: Python ist eine interpretierte Sprache. Ein Notebook speichert den jeweiligen Laufzeit-Zustand mit der Belegung von Variablen nach jedem Befehl. Das bedeutet insbesondere, dass wir beim mehrfachen Ausführen einer Code-Zelle, oder beim Vor- und Zurückspringen zwischen Zellen, auf die Änderungen dieses Zustands achten müssen. Insbesondere führt die Mehrfachnutzung von Variablen oft zu Verwirrung, wenn die Ausführung der Code-Zellen nicht streng von oben nach unten erfolgt. Das Stichwort ist hier *Idempotenz* - richten Sie Code in einem Notebook möglichst danach aus.

Beispiel eines Zählers:

In [None]:
i = 0

In [None]:
i += 1
print(i)

In [None]:
i += 1
print(i)

In [None]:
i = "eins"
print(i)

## Arrays, Mengen und Dictionaries

Bei der Arbeit mit Daten nutzen wir meist leistungsfähige Datenstrukturen der Bibliotheken (s. u.). Mindestens als Hilfsmittel, z. B. als Parameter oder zur strukturierten Ablage von Ergebnissen, sind aber auch die Python-nativen Felder, Mengen und Wörterbücher nützlich. Alle davon sind hinsichtlich der darin speicherbaren Inhalte sehr flexibel und erlauben eine Vielzahl an zusätzlichen Operationen über die einfachen Zugriffe hinaus.

In [None]:
drei = 3
ein_feld = ["eins", 2, 2, drei]
ein_feld

In [None]:
ein_feld[1]

In [None]:
eine_menge = {1, "zwei", drei, "zwei", 1}
eine_menge

In [None]:
ein_wörterbuch = {"eintrag_1": 1, "eintrag_2": "zwei", "eintrag_3": drei}
ein_wörterbuch

In [None]:
ein_wörterbuch["eintrag_2"]

Außerdem lassen sich diese Strukturen ziemlich beliebig miteinander kombinieren.

In [None]:
ein_feld.append(ein_wörterbuch)
ein_feld

In [None]:
ein_feld[4]["eintrag_1"]

## Einbinden von Bibliotheken

Python selbst bringt nur grundlegende Kontrollstrukturen und Datentypen mit. Durch die Einbindung von Bibliotheken schaffen wir uns die erforderliche Funktionalität für eine spezifische Anwendung. 

Es ist üblich, dabei längere Namen für die weitere Nutzung abzukürzen:

In [None]:
import pandas as pd
import numpy as np

Im Folgenden können wir nun `pandas` durch `pd` abkürzen.

Wenn wir nicht eine gesamte Bibliothek nutzen wollen, können wir selektiv einzelne Funktionen importieren:

In [None]:
from sklearn.metrics import mean_squared_error

## Kontrollstrukturen in Python

Durch die Nutzung der Bibliotheken wird unsere Programmiertechnik ziemlich vereinfacht. Wir rufen Funktionen auf, weisen Werte zu, geben etwas aus. Für die Ablauflogik benötigen wir sporadisch Schleifen. Python bildet die bekannten *for*, *while*, *repeat* usw. auf `for` ab. Wir können über verschiedene Typen von Elementen iterieren (sie müssen eben nur *iterable* sein):

In [None]:
for i in range(10):
    print(f'Zähler {i}')

print()

iterable_elements = ['eins', 'zwei', 'drei', 'drei']
for j in iterable_elements:
    print(f'Zähler {j}')

Hier sehen wir auch die - kontroverse - Weise, wie Python *Blöcke* kennzeichnet, nämlich durch *Einrückungen*.

Wir können `for` auch innerhalb einer Folgen-, oder Mengenerzeugung nutzen:

In [None]:
folge = ['element_'+j for j in iterable_elements]
print(folge)
menge = {'element_'+j for j in iterable_elements}
print(menge)

## Funktionen in Python

Funktionen können in Python als *Typen erster Ordnung* behandelt werden, d. h. wir können Funktionsobjekte als Parameter nutzen. Insbesondere ist es möglich, anonyme Funktionen als `lambda` zu deklarieren.

In [None]:
def generate_function(y):
    return lambda x: x**y

print(generate_function(3)(2))

some_function = generate_function(3)
print(some_function(2))

## Arbeiten mit Daten

### DataFrame

Eine praktische Datenstruktur, mit der wir in fast allen Beispielen arbeiten, ist der `DataFrame` von *pandas*. Den können wir selbst anlegen, oder aus einer Datei erzeugen. Sehr etabliert ist das Dateiformat *comma separated values*, mit der Endung `.csv`. Die *pandas*-Funktion `read_csv` liest eine solche Datei ein und liefert uns ein passend strukturiertes `DataFrame`-Objekt zurück. 

Wenn wir eine Code-Zelle mit einer Variable beenden, gibt Jupyter diese - auch ohne `print` - formatiert aus, wenn ein passendes Schema dafür existiert. Wenn Sie in einer Zelle mehrere Objekte ausgeben bzw. eine einheitliche Darstellung mehrerer Ausgaben hintereinander möchten, müssen Sie `print`nutzen.

In [None]:
example_df = pd.read_csv('Daten/TinyData.csv')
print(example_df)
example_df

Neben den Inhalten können wir auf die Strukturen eines Dataframe zugreifen. Das geht auch *schreibend*, z. B. um die Spalten umzubenennen, oder eine bestimmte Spalte als Index zu definieren.

In [None]:
print(example_df.columns)
print(example_df.index)
print(example_df.shape)

Einen Dataframe können wir erweitern:

In [None]:
foodstuff = ['food 1', 'food 2', 'food 3', 'food 4', 'food 5', 'food 6']

# df[spaltenname], wenn Spalte noch nicht existiert:
example_df['foodstuff'] = foodstuff 

print(example_df)
# df.spaltenname, wenn Spalte existiert:
example_df.index = example_df.foodstuff 

del example_df['foodstuff'] # Danach steht 'foodstuff' nur noch im Attribut name des Index.

print(example_df.index)
print(example_df.index.name)
example_df

Auf komplette Spalten können wir dann mit ihrem Namen zugreifen. Auf Zeilen können wir entweder durch `loc` mit ihrem jeweiligen Index-Wert zugreifen, oder durch `iloc` mit einen Integer-Wert (startet bei 0, exklusive der oberen Grenze, wenn eine angegeben ist). Die Zugriffsarten lassen sich kombinieren.

In [None]:
print(example_df.salt)
print()
print(example_df.salt.iloc[2]) # Künftige Änderung hier schon drin; einfacher Index deprecated.
print()
print(example_df.loc['food 4':'food 6'])
print()
print(example_df.iloc[1:4])
print()
print(example_df.iloc[1][0:2])

Für die Auswahl der Spaltenwerte können wir Kriterien angeben, ähnlich wie bei Datenbankabfragen:

In [None]:
example_df[(example_df.salt >= 0.5) & (example_df.fat <= 0.3)]

Legen wir einen Dataframe selbst an. Auch das Befüllen kann unterschiedliche Formen annehmen:

In [None]:
extension_df = pd.DataFrame(columns=['foodstuff', 'fat', 'salt', 'acceptance'])
extension_df.index = extension_df.foodstuff
del extension_df['foodstuff']
extension_df.loc['food 7'] = {'fat':0.5, 'salt':0.5, 'acceptance':'like'}
extension_df.loc['food 8'] = {'fat':0.2, 'salt':0.1, 'acceptance':'dislike'}
extension_df

Zwei Dataframes können wir mit `concat` verbinden. Der Parameter `axis` definiert dabei die Dimension der Verbindung mit 0 = *Zeilen*, 1 = *Spalten*.

In [None]:
concatenated_df = pd.concat([example_df, extension_df], axis=0)
print(concatenated_df.index)
concatenated_df

Es gibt diverse Funktionen, um die Abfrage von Dataframes zu vereinfachen. Mit `difference` auf `columns` schließen wir z. B. Spalten aus. 

In [None]:
print(concatenated_df.columns.difference(['acceptance']))
concatenated_df[concatenated_df.columns.difference(['acceptance'])]

Oder wir lassen die Spalten explizit rausfallen:

In [None]:
concatenated_df.drop(columns=['fat', 'salt'])

*numpy*'s `where` liefert die Indizes von Elementen, die einer Bedingung genügen. Zusätzlich können wir *if/else*-Werte angeben, die dann je nach Wahrheitswert der Bedingung am jeweiligen Index als Wert gesetzt werden. 

In [None]:
print(np.where(concatenated_df["acceptance"]=='like'))
print(np.where(concatenated_df["acceptance"]=='like','green','red'))

Aus der beschreibenden Statistik gibt es eine Reihe von Kennzahlen, die von Python oder Dataframe direkt implementiert werden:

In [None]:
print(f'Anzahl der Elemente im Datensatz: {len(concatenated_df)}')
print(f'Summe der Werte der Spalte {concatenated_df.fat.name}: {sum(concatenated_df.fat)}')
print(f'Mittelwert der Spalte {concatenated_df.salt.name}: {concatenated_df.salt.mean():.2f}')
print(f'Sammlung diverser Kennzahlen des Datensatzes insgesamt:')
print(concatenated_df.describe())

Oft können wir uns über grafische Darstellungen der Daten, oder Untermengen davon, einen schnellen Eindruck über deren Eigenschaften verschaffen. Es gibt unzählige Arten von Diagrammen und ebenso unzählige Bibliotheken dazu. Einfache Beispiele sind *Scatterplot* und *Histogram*, die sich direkt als Funktionen der Dataframes aufrufen lassen.

In [None]:
scatter = concatenated_df.plot.scatter(x='fat',y='salt')

In [None]:
histograms = concatenated_df.hist()

## Aufgabe




Lesen Sie den Datensatz *UniversalBank.csv* in ein Dataframe.

1. Löschen Sie die Spalte *ZIP Code*.
2. Ziehen Sie aus dem Datensatz zwei zufällige Stichproben der Größen 1000. Nutzen Sie dazu einmal die Dataframe-Funktion `sample` und einmal einen zufälligen Index mit `np.random.choice`
3. Vergleichen Sie die Eigenschaften des Gesamtdatensatzes und der beiden Stichproben bezogen auf die Variable `Age`.
