# Erstes einfaches Beispiel einer Datenanalyse zur Veranschaulichung

In der ersten Übung würde ich Euch gerne ein Beispiel zeigen, wie eine Datenanalyse entlang der wesentlichen Schritte aussieht. Wichtig ist, dass dies eine starke Vereinfachung ist und kein Anspruch hat alle Aspekte aufzugreifen.

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

![Data-Analysis-Process](https://blogs.sas.com/content/sgf/files/2019/05/AnylticsProcesModal.png)

<div>
<img src="./src/CRISPDM.png" width="700"/>
</div>

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

Anbei eine Übersicht, der die wesentlichen Schritte des Datenanalyseprozesses noch einmal darlegt. Wichtig ist, dass der Prozess sich immer **leicht unterscheidet** und es nicht **den einen Datenanalyseprozess** gibt. Es sind aber in der ein oder anderen Form immer die gleichen Elemente/Schritte enthalten.

# General Setup how to structure a Notebook

1. Import packages
1. Hypothesis 
    1. Welche Fragen möchte ich beantworten
    1. Zielvariablen benennen
1. Gathering Data
1. Assess Data
    1. Results/Findings
1. Clean Data
    1. First Flaw
        1. Define
        1. Code
        1. Test
    1. Second Flaw
        1. Define
        1. Code
        1. Test
1. Storing the Data
1. Exploratory Data Analysis
1. Trainingsset vorbereiten
1. Performance Metricen überlegen
1. Feature Engineering
1. Modelling
    1. Model1
        1. Model1 definieren
        1. Model1 training
        1. Model1 Performance Assessment
    1. Modelx
        1. Modelx definieren
        1. Modelx training
        1. Modelx Performance Assessment
1. Hyperparameter tuning
1. Visualizing your Findings
1. Interpretation

# Datenset und zu lösende Herausforderung

Dieser Datensatz stammt ursprünglich vom **National Institute of Diabetes and Digestive and Kidney Diseases**. Das Ziel des Datensatzes ist die diagnostische Vorhersage, ob ein Patient Diabetes hat oder nicht, basierend auf bestimmten diagnostischen Messungen, die im Datensatz enthalten sind.

Link zur Quelle: [Datenset von Kaggle](https://www.kaggle.com/uciml/pima-indians-diabetes-database)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

# Beispiel Notebook

## Import der benötigten Packages

In [None]:
!pip install pandas_profiling

In [None]:
import pandas as pd
import pandas_profiling as pp
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "last_expr"

## Hypothesen & Zielvariablen
- Welches Verhalten haben Schwangerschaften auf Diabetes
- Welchen Einfluss hat das Alter auf Diabetes
- ...

## Gather Data

Panda bietet vorgefertigte Funktionen, die das Laden eines Datensets vereinfachen. Hier verwenden wir die Funktion
```python
pandas.read_csv
```
Lasst uns gemeinsam einen Blick auf die Dokumentation werfen: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
diabetes_df = pd.read_csv('./src/diabetes.csv')

Der erste Schritt ist ein Überblick über das Datenset zu erhalten, auch hier gibt es einfache Funktionen, die Ihr heranziehen könnt. Hier verwenden wir die Funktion:
```python
pandas.DataFrame.head
```
Hier auch noch einmal der Blick auf die Dokumentation: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html

## Assess Data

In [None]:
diabetes_df.head()

**Wichtig**: Ihr müsst ein gutes fachliches Verständnis der Spalten haben. Wie bereits am Anfang des Kurses erwähnt, könnt Ihr nur Kontext geben, wenn Ihr die Daten nachvollziehen könnt. Hier einmal eine Übersicht der Spalten, die ich aus der Dokumentation gezogen habe.

- **Pregnancies**: Anzahl der Schwangerschaften
- **Glucose**: Glukoselevel der Patienten
- **Blood Pressure**: Blutdruck
- **SkinThickness**: Dicke der Haut des Patienten in mm
- **Insulin**: Insulin-Level der Patienten (Zeitraum 2 Stunden)
- **BMI**: Body-Mass-Index (Gewicht in kg / Größe in m)^2
- **DiabetesPedigreeFunction**: Vorgeschichte von Diabetes mellitus in der Verwandtschaft
- **Age**: Alter des Patienten
- **Outcome**: Ob ein Patient Diabetes hat oder nicht

**Hinweis**: Die Dokumentation kann auch noch ausführlicher sein

Um noch ein wenig besseres Verständnis über das Datenset zu erhalten, lassen wir uns erst einmal **Histogramme** ausgeben. Auch hier bietet Pandas eine Standardfunktionalität.

```python
pandas.DataFrame.hist
```

Hier die Dokumentation: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.hist.html

In [None]:
diabetes_df.hist(bins=30, figsize=(15,10))

**Was sind Eure Beobachtungen habt Ihr bereits bei der Sichtung der Daten?**

 Bei der Auswahl dieses Datensets aus einer größeren Datenbank wurden mehrere Einschränkungen gemacht. Insbesondere sind alle Patienten hier  mindestens 21 Jahre alt. Was nicht ersichtlich ist, dass Sie alle weiblich sind und von Pima-Indianern abstammen.
 
Ein weiter Punkt ist, dass wir direkt identfizieren, was **Numerisch** und **Kategorisch** ist. Hier werden wir im weiteren Kursverlauf weiter eingehen.

Des Weiteren gibt es viele weitere Funktionen, einen ersten Einblick auf das Datenset zu erhalten. Ich würde Euch gerne noch eine Übersicht vorstellen, die Euch einige allgemeine statistische Informationen über den Datensatz zur Verfügung stellt. Dieser **simplifiziert die Erstanalyse massiv** und erstellt wesentliche Erkentnisse **"Out-of-the-Box"**:

In [None]:
diabetes_df.info()

In [None]:
#Gibt die wichtigsten Kennzahlen pro Spalte wieder
diabetes_df.describe()

In [None]:
# Gibt ein sehr ausführlichen Report über die Daten wieder
pp.ProfileReport(diabetes_df, minimal=True)

In [None]:
duplicate = diabetes_df[diabetes_df.duplicated()]
print("Check, ob doppelte Zeilen im DataFrame vorhanden sind:")
duplicate

### Results/Findings
**Wichtige Erkenntnisse:**
- Keine **fehlenden** oder **doppelten Zeilen** im DataFrame
- Summe der Nullwerte in Spalte "Pregnancies" ist ziemlich gering (nur 14,5 %). **Über 80 % der Patienten** im Datensatz einfach oder mehrfach schwanger waren
- ...

**Fazit**: Da es keine fehlenden oder doppelten Zeilen im Datenrahmen gibt, wie oben gesehen, müssen wir keine zusätzliche Datenbereinigung durchführen.

### Anmerkung

Wir merken, dass die Daten bereits gut vorbereitet sind. Das ist im "realen Leben" nicht immer der Fall. Hier eine kleine Anekdote, die Euch im weiteren Verlauf des Kurses begleiten wird.

<div>
<img src="./src/real_data.png" width="500"/>
</div>

## Clean Data

### Erster Fehler: Zum Beispiel NULL Werte in Schwangerschaft mit Mittelwert ersetzen

In [None]:
### Code
### Code um Null Werte in den Zeilen mit dem Mittelwert zu ersetzen

In [None]:
### Test ob die Null Werte behoben sind mit 
diabetes_df.info()

### Zweiter Fehler: Zum Beispiel NULL Werte in Insulin Zeile löschen

In [None]:
### Code
### Code um Zeilen aus einem dataframe zu löschen

In [None]:
### Test ob die Null Werte behoben sind mit 
diabetes_df.info()

## Store the Data

Meistens wollen wir mit dem gesäuberten Dataframe weiterabeiten, damit wir sicher sich, dass dieses auch gespeichert wird, persistieren wir dieses, bevor wir mit der Analyse weitermachen

In [None]:
df_diabetes_clean = diabetes_df.copy()
df_diabetes_clean.to_csv('src/diabetes_clean.csv', index=False)

## Exploratory Data Analysis
Hier werden dann die variablen genauer untersucht. Welche Variablen sind wirklich wichtig, wo findet man Korrelationen etc.

Gucken wir uns noch einmal die Korrelation der Variablen an - hier werden erste Zusammenhänge bereits sehr ersichtlich. Hierzu verwenden wir wieder eine Methode aus dem Pandas Package.

```python
pandas.DataFrame.corr
```

Hier zur Dokumentation: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html

Als Varible verwenden wir den Standard Korrelationskoeffizient, auch Pearson correlation coefficient genannt. Diese Methode ist ein mögliches Maß zur Maß zur Darlegung des linearen Zusammenhangs zwischen zwei Merkmalen.

Um die zurückgegebene Matrix mit den Korrelationen lesbarer zu machen, färben wir die Werte ein.

In [None]:
diabetes_corr = diabetes_df.corr(method='pearson')
diabetes_corr.style.background_gradient(cmap='Blues')

Eine *positive Korrelation* ist zwischen folgenden Variablen zu beobachten:
- Alter und Schwangere
- Glukose und Outcome
- Hautdicke und Insulin

Was könnte hier die *Interpretation* sein?

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Maschine Learning Teil

Für die weitere Analyse würden wir nun die Daten in Test und Train aufteilen, weitere Analysen durchführen und uns für eine Modell entscheiden, welches bestmöglich vorhersagt, ob eine Person Diabetes hat oder nicht.

1. Trainingsset vorbereiten
1. Performance Metricen überlegen
1. Feature Engineering
1. Modelling
    1. Model1
        1. Model1 definieren
        1. Model1 training
        1. Model1 Performance Assessment
    1. Modelx
        1. Modelx definieren
        1. Modelx training
        1. Modelx Performance Assessment
1. Hyperparameter tuning

Das würden wir uns in einem folgenden Kurse genauer ansehen. Nun werden wir uns erst einmal auf erste Analysen stürzen.


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Ergebnisse kommunizieren / visualisieren

**Lasst uns gerne noch einmal die Korrelation zwischen Glukose und Insulin darstellen**

In [None]:
# Streudiagramm mit matplotlib, wobei x = Glucose und y = Insulin und alpha = 0,5 (Transparent)
plt.scatter(x=diabetes_df['Glucose'], y=diabetes_df['Insulin'], alpha=0.5)
# Benenne die X-Achse Glucose
plt.xlabel("Glucose")
# Benenne die Y-Achste Insulin
plt.ylabel("Insulin")
# Plotte das Diagramm
plt.show()

Es besteht eine positive Korrelation zwischen den Variablen Glukose und Insulin. Das ist einfach zu interpretieren, da eine Person mit höheren Glukosespiegeln erwartet würde, dass sie mehr Insulin einnimmt.

**Nun wollen wir die Variablen Ergebnis und Alter visualisieren. Dazu erstellen wir einen Boxplot mit folgendem Code:**

In [None]:
diabetes_df.boxplot(column='Age', by=diabetes_df['Outcome'], figsize= (40, 10), fontsize=20, return_type='axes')

Aus der obigen Grafik kann gesehen werden, dass ältere Menschen mit größerer Wahrscheinlichkeit an Diabetes erkrankt sind. Das Medianalter für Erwachsene mit Diabetes liegt bei etwa 35 Jahren, während es bei Menschen ohne Diabetes niedriger ist.


**Es können viele weitere Interpreationen gewählt weden - wichtig ist ein entsprechenden Fazit.**

## Interpretation / Kurze Zusammenfassung

Menschen mit Diabetes sind mit hoher Wahrscheinlichkeit älter als Menschen, die keinen Diabetes haben. Sie haben auch eher höhere Glukosespiegel im Blut. Menschen mit höheren Glukosewerten neigen auch dazu, mehr Insulin zu nehmen, und diese positive Korrelation deutet darauf hin, dass Patienten mit Diabetes auch höhere Insulinwerte haben könnten (diese Korrelation kann durch Erstellen eines Streudiagramms überprüft werden).

**In der abschließenden Projektarbeit würde ich etwas mehr erwarten als das dargestellte.**

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Gibt es noch Fragen?