# Jupyter Notebooks

Bei diesem Dokument handelt es sich um ein [Jupyter Notebook](https://jupyter.org/). Kurz gesagt, ist Jupyter Notebook eine open-source Webanwendung, die es erlaubt, Dokumente zu erstellen, die sowohl Code als auch Text- und Graphikblöcke enthalten, und dann zu teilen. Jupyter Notebooks haben die etwas ungewöhnliche Dateiendung `.ipynb` und lassen sich daher nicht ohne Weiteres öffnen. Um diese Übung auszuführen, haben Sie folgende Möglichkeiten: 

*   Sie installieren Python auf Ihrem privaten Rechner, lesen dieses Dokument nur und lösen die Aufgaben in einer IDE Ihrer Wahl  
*   Sie installieren sowohl Python als auch Jupyter Notebook auf Ihrem privaten Rechner, starten einen Notebook-Server und führen dieses Dokument direkt in Ihrem Browser aus
*   Sie kopieren dieses Dokument in Ihr Google-Drive und öffnen es mit Google Colaboratory. Dazu benötigen Sie einen Google-Account. Google Colaboratory oder kurz Colab ist ein Webdienst von Google, der auf Jupyter Notebook aufbaut und es erlaubt, Python Code auf Google Servern auszuführen. Der Dienst ist für Machine Learning Anwendungen optimiert. Wenn Sie mehr über Colab (und ein paar Tipps und Tricks) lernen wollen, gibt es eine Videoreihe auf YouTube. Das erste Video ist <a href="https://www.youtube.com/watch?v=inN8seMm7UI"> hier</a> verlinkt. Sie können aber auch direkt hier weitermachen.

# Allgemeines
 Dieses Dokument besteht aus Zellen, die Sie bearbeiten können. Bei diesen Zellen handelt es sich entweder um Textzellen oder um Codezellen. Sie können zwar auch die Textzellen bearbeiten, interessant sind für Sie aber nur die, die Code enthalten. Variablen werden dabei auch über das Ende einer Zelle hinweg gespeichert und können in anderen Zellen weiterverwendet werden. 

Wenn Sie Colab nutzen, müssen Sie sich mit dem Google Colab Server verbinden, bevor Sie Code ausführen können. Das können Sie entweder machen, indem Sie oben rechts auf `Verbinden` klicken, oder indem Sie einfach die erste Zelle ausführen. Die Verbindung wird dann automatisch hergestellt. 

Es gibt folgende Möglichkeiten, eine Zelle auszuführen:

* Klicken Sie auf den **Play Button**. Bei Colab befindet der sich in der linken Hälfte der Zelle, im Jupyter Notebook dagegen oben in der Mitte;
* Drücken Sie **Cmd/Strg+Enter**, um die Zelle einfach nur auszuführen;
* Drücken Sie **Shift+Enter**, um die Zelle auszuführen und zur nächsten zu springen (bzw. eine neue zu erstellen, wenn keine weitere existiert)
* Drücken Sie **Alt+Enter**, um die Zelle auszuführen und eine neue direkt dahinter einzufügen.

Darüber hinaus finden Sie bei Colab oben das Menü `Laufzeit` und bei Jupyter das Menü `Run`, mit denen Sie unter anderem alle Zellen auf einmal ausführen können.

In der folgenden Zelle, können Sie das Ausführen einmal testen. Die Zelle macht nichts weiter als 30 Sekunden zu warten. Sie können sie währenddessen also auch unterbrechen. Das geht zum Beispiel über den **Stop Button**, der anstelle des Play Buttons erscheint.


In [None]:
import time
print("Sleeping")
time.sleep(30) # sleep for a while; interrupt me!
print("Done Sleeping")

# Importieren von Bibliotheken

Eines der mächtigsten Tools in Python sind Bibliotheken. Dabei handelt es sich um Sammlungen von Funktionen und Features, die von Python selbst oder anderen Entwickler:innen entwickelt und zur Verfügung gestellt wurden. Bibliotheken müssen in der Python-Umgebung installiert und anschließend importiert werden. In Colab sind viele dieser Bibliotheken standardmäßig bereits installiert und können einfach importiert werden:

In [None]:
import numpy as np

Sollten Sie nicht mit Colab arbeiten oder auf Bibliotheken zugreifen wollen, die nicht standardmäßig installiert sind, müssen Sie dies über Ihren Umgebungsmanager (z.B [Conda](https://docs.conda.io/en/latest/)) manuell machen. In Colab können Bibliotheken mit den Linux Standardbefehlen `!pip install` oder `!apt-get install` installiert werden:

In [None]:
!pip install matplotlib-venn
import matplotlib_venn

In [None]:
!apt-get -qq install -y libfluidsynth1

# Los geht's!

Zur Verdeutlichung davon, wie viel in Python über Bibliotheken läuft, fangen wir mit einem kleinen Beispiel an: Wir wollen eine Sinusfunktion erstellen und plotten. Aus Matlab kennen Sie, dass es dafür eingebaute Funktionen gibt. In Python verwenden wir schon für diese kleinen Schritte Bibliotheken. Führen Sie die folgende Zelle aus.

In [None]:
t = range(0,10)
print(t)
x = sin(t)

Wie Sie sehen, kennt Python den Befehl `sin` nicht. Stattdessen müssen wir die Bibliothek **numpy** importieren. Die erste Zeile des folgenden Blocks importiert `numpy` mit dem Namen "np". Das ist eine übliche Vorgehensweise, um nicht jedes mal "numpy" ausschreiben zu müssen. Die zweite Zeile sagt Python, dass es den Befehl `sin` in der Bibliothek `np` suchen soll. Die dritte Zeile sorgt für eine Ausgabe:

In [None]:
import numpy as np
x = np.sin(t)
x

Zum Plotten unserer Funktion importieren wir jetzt auch noch `matplotlib.pyplot`. Wie Sie dem Namen vielleicht schon entnehmen können, erlaubt uns diese Bibliothek matlabähnliche Plots zu erzeugen:

In [None]:
import matplotlib.pyplot as plt
plt.plot(t,x)

Wie Sie sehen, sieht dieser Sinus ganz schön zackig aus. Das liegt daran, dass die Python-interne `range`-Funktion nur integer-Werte ausgibt. `range` wird daher primär zum Iterieren über Listen oder in `for`-Loops eingesetzt. Die Bibliothek `numpy`, die wir eben schon für den Sinus verwendet haben, liefert die Funktion `arange(anfang,ende,schrittweite)`, mit der wir Arrays mit beliebiger Schrittweite erstellen können. Jetzt kommt zum ersten Mal ein interaktiver Teil: Erstellen Sie ein Array `x` der Länge 100 mit Werten von 0 bis 10. Plotten Sie danach die Funktion $x\sin(x)$.

In [None]:
# hier kommt das array:
x = np.arange(0,10,0.1)
# hier kommt die Funktion:
f_x = x*np.sin(x)
# hier kommt der Plot:
plt.plot(x,f_x)

Importieren Sie jetzt die Bibliothek `random` und lassen Sie sich eine Zufallszahl zwischen 0 und 10 ausgeben. Lassen Sie sich danach eine Zufallszahl ausgeben, die zu einer Gaußverteilung mit $\mu=0$ und $\sigma=1$ gehört. 

**Tipp:** Wenn sie mehr über eine Funktion, ein Objekt oder eine Bibliothek wissen wollen, könenn Sie Pythons `help()`-Funktion nutzen:

In [None]:
# hier kommt ein import-Befehl:
import random as rd
# lassen Sie sich hier die Hilfe zur Bibliothek random anzeigen und finden Sie Befehle zur Erzeugung von gleichverteilten und gaußverteilten Zufallszahlen
help(rd)

In [None]:
# Nutzen Sie die gefundenen Befehle zur Erzeugung einer Zufallszahl zwischen 0 und 10:
zufallszahl = rd.randint(0,10)
zufallszahl_alternativ = rd.uniform(0,10)
print("Die gezogene Zufallszahl lautet: ", zufallszahl)
print("Die gezogene Zufallszahl lautet: ", zufallszahl_alternativ)
# und hier die Zufallszahl auf einer Gausverteilung:
gaussverteilte_zufallszahl = rd.gauss(0,1)
print("Die aus der Gaußverteilung gezogene Zufallszahl lautet: ", gaussverteilte_zufallszahl)

Listen erzeugt man in Python relativ einfach über folgende Struktur:
```
[Listeninhalt(i) for i in range(a,b)]
```
Die so erzeugte Liste hat die Länge `b-a`. Nutzen Sie das, um eine Liste mit 100 gaußverteilten Zufallszahlen zu erzeugen und plotten Sie ein Histogramm dieser Liste mithilfe von `matplotlib.pyplot`.

In [None]:
# hier kommt die Liste gaußverteilter Zufallszahlen
gaussverteilte_liste = [rd.gauss(0,1) for i in range(0,100)]
# hier kommt der Befehl für das Histogram (nutzen Sie gerne auch hier die help()-Funktion):
plt.hist(gaussverteilte_liste,bins=10)

Jetzt können Sie unsere Funktion mit der gaußverteilten Liste addieren und so ein verrauschtes Signal erzeugen. Plotten Sie dieses als scatter-Plot.

In [None]:
# hier kommt das verrauschte Signal:
y = f_x + gaussverteilte_liste
# hier kommt der Plot-Befehl:
plt.plot(x,y,'o')

# Arbeiten mit einem Datensatz
Als nächstes wollen wir einen Datensatz importieren und damit arbeiten. 

In Google Colab geht das am einfachsten, indem man die Daten in sein Google Drive hochlädt und das Drive mit Colab verbindet. Der nächste Codeblock macht genau das. Der Code gibt Ihnen einen Link, über den Sie sich bei Ihrem Google Konto anmelden müssen und den ausgegebenen Code wieder hier eingeben. Danach ist Ihr Colab mit Ihrem Drive verknüpft. Über `"/content/gdrive/MyDrive"` können Sie auf Ihr Hauptverzeichnis zugreifen. Wenn Sie alles richtig gemacht haben, sollten Sie außerdem sehen, dass Sie hier in dem Textfeld auf die Adresse klicken können und sich link ihr Drive-Order öffnet. Colab merkt sich diese Verknüpfung nicht, Sie müssen diesen Befehl daher jedes Mal wieder ausführen. 

Alternativ können Sie über die Bibliothek `files` in der darauffolgenden Zelle auch direkt Daten in Ihre Maschine laden.

Wenn Sie ein Jupyter Notebook oder eine IDE lokal auf Ihrem Rechner benutzen, können Sie diesen Schritt weglassen und den Datensatz direkt in der nächsten Zelle mit **pandas** einlesen.

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
from google.colab import files
imported_dataset = files.upload()
# über files.download() können Sie übrigens genauso Dateien aus dem Notebook wieder runter laden

Laden Sie den Datensatz 'diabetes.csv' aus Moodle herunter und in Ihr Google Drive hoch. Zum Laden des Datensatzes in Python nutzen wir **pandas**. Importieren Sie `pandas` mit dem Namen `pd` und nutzen Sie den Befehl `read_csv`, um den Datensatz zu importieren.

In [None]:
# hier kommt ein import:
import pandas as pd
# hier passiert das tatsächliche Laden des Datensatzes:
imported_dataset = pd.read_csv('/content/gdrive/MyDrive/diabetes.csv')
imported_dataset

Setzen Sie sich ein bisschen mit dem Datensatz auseinander! <a href="https://www.kaggle.com/uciml/pima-indians-diabetes-database"> Hier</a> finden Sie die Quelle des Datensatzes und Erklärungen dazu, was für Daten enthalten sind und was einzelne Spalten aussagen. Informieren Sie sich dazu, wie Indexing bei Panda-Dataframes funktioniert, wie man einzelne Spalten und Zeilen anspricht und nach Inhalten selektiert. Der folgende `help()`-Befehl kann dabei helfen, die Ausgabe ist aber sehr umfangreich. <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html"> Dieser</a> Link ist daher wahrscheinlich hilfreicher:

In [None]:
help(pd.DataFrame)

Nutzen Sie Ihr gewonnenes Wissen über `pandas` sowie den Datensatz, um zu bestimmen, wie viel Prozent der Patientinnen schon mindestens einmal schwanger waren, wie häufig sie im Durchschnitt schwanger waren und wie hoch die Varianz der Schwangerschaftsanzahl ist.

In [None]:
print('Anteil mindestens einmal schwanger gewesener Patientinnen: ', sum(imported_dataset['Pregnancies']>0)/len(imported_dataset))
print('Durchschnitt Anzahl Schwangerschaften: ', sum(imported_dataset['Pregnancies'])/len(imported_dataset))
print('Varianz Anzahl Schwangerschaften: ', np.var(imported_dataset['Pregnancies']))

Berechnen Sie jetzt, wie wahrscheinlich es ist, dass eine Patientin Diabetes hat. Berechnen Sie außerdem, wie wahrscheinlich es ist, dass eine Patientin Diabetes hat, wenn bekannt ist, dass sie Kinder hat und wie wahrscheinlich es ist, dass eine Patientin Diabetes hat, wenn bekannt ist, dass sie keine Kinder hat.

In [None]:
print('Wahrscheinlichkeit von Diabetes: ', sum(imported_dataset['Outcome'])/len(imported_dataset))
only_patients_with_kids = imported_dataset[imported_dataset['Pregnancies']>=1]
only_patients_without_kids = imported_dataset[imported_dataset.Pregnancies.eq(0)]
print('Wahrscheinlichkeit von Diabetes, wenn bekannt dass Kinder: ', sum(only_patients_with_kids['Outcome'])/len(only_patients_with_kids))
print('Wahrscheinlichkeit von Diabetes, wenn bekannt dass keine Kinder: ', sum(only_patients_without_kids['Outcome'])/len(only_patients_without_kids))

Plotten Sie die Anzahl der Schwangerschaften der Patientinnen in Abhängigkeit ihres Alters.

In [None]:
plt.plot(imported_dataset['Age'],imported_dataset['Pregnancies'],'o')
plt.xlabel('Age')
plt.ylabel('Pregnancies')

Was können Sie diesem Plot entnehmen? Können Sie ihre Vermutung in einer Größe quantifizieren?

In [None]:
cor_Age_Preg = imported_dataset[['Age','Pregnancies']].corr()
print("Korrelation zwischen den Spalten 'Age' und 'Pregnancies' beträgt:\n", cor_Age_Preg)

Bei welchen anderen Größen vermuten Sie einen Zusammenhang? Plotten Sie auch diese gegeneinander und quantifizieren Sie den vermuteten Zusammenhang.

In [None]:
# probieren Sie sich ein bisschen aus!
imported_dataset.corr()

In [None]:
# Insulin + Glucose
# BMI + BloodPressure
plt.subplot(1,2,1)
plt.plot(imported_dataset['Glucose'],imported_dataset['Insulin'],'o')
plt.xlabel('Glucose')
plt.ylabel('Insulin')
plt.subplot(1,2,2)
plt.plot(imported_dataset['BMI'],imported_dataset['BloodPressure'],'o')
plt.xlabel('BMI')
plt.ylabel('BloodPressure')
plt.tight_layout()