# Data Analytics Onboarding Tool

Diesem Python-Notebook wurde entwickelt um

- eine weitgehend automatische deskriptive Analyse von Datensätzen zu ermöglichen
- die Potentiale von code-basierter Analyse zu zeigen
- einen Ausblick auf die Möglichkeiten von Machine-Learning zu geben

Beispielhaft wird hier der Gemeindedatensatz aus der DDJ-Lehrveranstaltung der FH Joanneum Graz verwendet.

___

### Hinweise zur Benützung des Notebooks

* Das Tools selbst ist interaktiv und somit ist es Möglich den Programmiercode an jeder Stelle zu verändern und an persönliche Bedürfnisse anzupassen.

* Das originale Notebook wird dabei nicht überschrieben. Änderungen sind daher unbedenklich - das Original kann jederzeit wiederhergestellt werden.

* Bei längerer Inaktivität wird deine Session beendet. Alle Änderungen gehen dann auch verloren. Du kannst aber deine Änderungen im Browser speichern und später wieder laden (mit den zwei Wolken-Icons).
![Screenshot Zelle ausführen](screenshots/save-restore.jpg)

* Das Notebook besteht aus separaten Zellen.

* Die aktive Zelle ist durch einen blauen vertikalen Balken am linken Rand gekennzeichnet.

* Es wird unterschieden zwischen Text- und Code-Zellen.

* In Text-Zellen, so wie diese, finden sich Erklärungen und Anleitungen.

* In Code-Zellen steht der ausführbare Programmiercode.

* Du kannst mit “Enter” oder Doppelklick die aktive Zelle bearbeiten, also den Text oder Code in der Zelle ändern. Dann ändert sich der vertikale Balken links von blau auf grün.

* In Code-Zellen dient die Raute **#** zum Auskommentieren. Solche Zeilen können entweder Erklärungen sein, oder dazu dienen Optionen im Code auszuprobieren (indem eine Zeile auskommentiert und/oder eine andere aktiviert wird).

* Mit "Strg+Enter" oder dem Button "Run" wird die aktive Zelle ausgeführt und danach die nächste Zelle aktiviert.
![Screenshot Zelle ausführen](screenshots/da-firstview2.jpg)

* Handelt es sich um eine Text-Zelle (wie diese hier), geschieht dabei weiter nichts.

* Wenn es eine Code-Zelle ist, dann wird der Code der Zelle ausgeführt und ein entsprechendes Ergebnis ausgegeben. Eine Code-Zelle ist daran erkennbar, dass die Formatierung deutlich anders aussieht und links von ihr dieses Symbol zu finden ist:
> In \[#\]:

# Import von Libraries, Befehlen & Daten 

Im ersten Schritt werden die notwendigen Libraries und Befehle, sowie die Daten selbst geladen.

* **pandas** ist eine sehr mächtige Library die speziell für Datenanalyse entwickelt wurde. Die Library verfügt auch über eine Vielzahl an Datenimport (und -Export) Befehlen.
* **seaborn** ist eine Library für die statistische Datenvisualisierung.

**import pandas as pd** importiert die gesamte *pandas*-Library und stellt sie unter dem Kürzel *pd* zur Verfügung. Somit können im Folgenden befehle aus der Library mit *pd.gewuenschter_befehl* abgerufen werden. Wie etwa der Befehl *read_csv* der den Datenimport aus CSV-Dateien erledigt.

In [None]:
# Import kompletter Libraries
import pandas as pd
import seaborn as sns

# Import einzelner Funktionen aus einer Library
from pandas_profiling import ProfileReport
from profilehilfe import profile_helfen

# Import des Gemeindedatensatzes mit Pandas 
# die Option sep=";" gibt das Trennzeichen (separator) für die Spalten an
gemeindedaten = pd.read_csv('alle_gemeinden.csv', sep=';')


Nun steht das CSV-File als ***DataFrame*** unter *gemeindedaten* zur Verfügung.

Wir haben aber noch keine Ahnung wie diese Daten aussehen, und ob sie tatsächlich so eingelesen wurden, wie wir und das vorstellen. Daher ist eine Kontrolle des Pandas-DataFrames *gemeindedaten* notwendig.

___

### Coding
Wenn du Gefallen am Programmieren findest, dir aber weitere Befehle "fehlen" (was auch erfahrenen ProgrammiererInnen regelmäßig passiert), dann sind das einige der ersten Anlaufstationen für Hilfe:

* Eine Sammlung von [grundlegenden Python Befehlen ist hier zu finden](https://www.pythoncheatsheet.org/)
* Für Python Libraries (aber auch jene anderer Programmiersprachen) gibt es eine Vielzahl an *Cheat Sheets*. Diese beinhalten eine Übersicht über die gängigsten Befehle der Library.
* Ein Cheat-Sheet für die Pandas Library [findest du hier](https://intellipaat.com/mediaFiles/2018/12/Python-Pandas-Cheat-Sheet.png)
* Einfach danach suchen (via Quant, DuckDuckGoGo, Google, ...). Bei Befehlen von Libraries diese immer mit angeben. Z.B.: *python pandas show row with maximum*

___

Zur Kontrolle unseres Datensatzes rufen wir den Befehl *name_des_datensatzes.head()* auf, der die ersten 5 Zeilen ausgibt.

Willst du mehr Zeilen sehen, dann trage die entsprechende Zahl in die Klammer von *head()* ein.

Falls du die letzten (5) Zeilen sehen willst, dann verwende *tail()* statt head.

In [None]:
# Ausgabe der ersten Zeilen zur Kontrolle
gemeindedaten.head()

## Dezimal- & 1000er-Trennzeichen

Was hier auffällt ist, dass im CSV-File Spalten sind in denen ein "," (als Dezimaltrennzeichen) verwendet wird, und solche in denen ein "." (als 1000-er Trennzeichen) vorkommt. Während es für Menschen zum Lesen sehr angenehm ist, ein 1000er-Trennzeichen zu haben, haben Maschinen (also Computer) damit ein Problem.

Dieses Problem ist ein extrem gängiges Problem und wird zusätzlich dadurch erschwert, dass in anderen Ländern (allen voran den USA) *Punkt* und *Komma* eine umgekehrte Bedeutung haben. Dort wird "." als Dezimaltrennzeichen verwendet. Werden daher internationale CSV-Files gemischt, kommt es schnell zu (dreckigen) Konflikten. Dann kann nämlich nicht nur der Rechner/das Programm die Info nicht richtig lesen, sonder es ist auch (für den Menschen) nicht mehr klar welches Zeichen welche Bedeutung hat.

Dies muss auch bei der Verwendung von Tabellenkalkulationsprogrammen (Excel & Co.) berücksichtig werden. Diese orientieren sich (beim Daten-Im- & Export) in der Regel an den Landeseinstellungen des Betriebssystems.

Durch die unterschiedlichen Trennzeichen sind die Daten jedenfalls nicht vernünftig verarbeitbar, da sie falsch eingelesen werden: Der Befehl *.dtypes* wird auf unseren Datensatz angewandt und zeigt uns, als was für Daten die einzelnen Spalten erkannt wurden.

In [None]:
print(gemeindedaten.dtypes)

Wie man sieht, sind die Spalten "Name", "Alter", "Grundstückspreise" und "Anzahl der Kinder" als *object* kodiert - also keine Zahlen (float oder integer).

Um dieses Problem zu lösen werden wir die Dezimaltrennzeichen im CSV-File vereinheitlichen (auf "."). Dazu gehen wir wie folgt vor:

1. Einlesen des CSV
2. Umwandeln aller "," die eventuell als Text vorhanden sind durch eine sehr unwahrscheinliche Zeichenkombination (##@#!)
3. Ersetzen aller vorhandener "," durch "."
4. Rückumwandlung der Beistriche

In [None]:
# Öffnen des CSV-Files mit den Daten
with open("alle_gemeinden.csv") as datei:
    content = datei.read()

# Vereinheitlichen der Dezimaltrennzeichen
content = content.replace('","','##@#!')    # Umwandlung von notwendigen Beistriche in Text
content = content.replace('.','')           # Löschen aller 1000er-Trennzeichen
content = content.replace(',','.')          # Ersetzen aller (verbliebenen) Kommas durch Punkt
content = content.replace('##@#!','","')    # Rückumwandlung der Text-Beistriche

# Speichern des (neuen) CSV-Files
with open("gemeinden.csv", "w") as datei:
    content = datei.write(content)

# Import des CSV-Files mithilfe des Pandas-Library Befeheles "read_csv", welcher
# einen sogenannten "Pandas DataFrame" anlegt. In diesem Format wird die 
# Variable "gemeindedaten" gespeichert.
gemeindedaten = pd.read_csv('gemeinden.csv', sep=';', na_values=["-"])

# Kontrolle anhand der ersten Zeilen
gemeindedaten.head()

Nun sind alle Spalten korrekt kodiert, was man sich mit *gemeindedaten.dtypes* auch noch ansehen kann (Kommentar vor dem Befehl entfernen).

Bleibt noch zu klären, ob alle Daten eingelesen wurden. Mithilfe von *shape* wird die Dimension des Datensatzes ausgegeben.

In [None]:
# Wiederholte Kontrolle des Datensatzes:
# kommentiere die Folgende Zeile aus um sie ausführen zu können. 

#gemeindedaten.dtypes

In [None]:
# Überprüfe ob Datensatz vollständig ist (auskommentieren)
# Ausgabe erfolgt im Format 
# (Anzahl Zeilen, Anzahl Spalten)

#gemeindedaten.shape

Ist der Datensatz vollständig?

Laut [Wikipedia](https://de.wikipedia.org/wiki/Gemeinde_(%C3%96sterreich)) gibt es in Österreich 2095 Gemeinden (Stand 1. Jänner 2020).

# Deskriptive Analyse

Der Datensatz soll nun einer ersten Analyse unterzogen werden. Dabei stellt sich die Frage nach der Aussagekraft bei der Gegenüberstellung der einzelnen Gemeinden. Nachdem eine Großstadt mehr Einwohner hat, ist es auch naheliegend, dass sie mehr Ehepaare haben wird als ein kleines Bergdorf. Um die Gemeinden miteinander vergleichen zu können macht es daher für *Anzahl an Ehepaaren* Sinn die Variable in Relation zur Einwohnerzahl zu setzen.

Das selbe trifft auch auf *Arbeitsstätten*, *Beschäftigte* und *Erbwerbstätige (15-64)* zu. Diese Spalten werden im Folgenden normiert.
___

## Normierung

In [None]:
# Erstelle eine Kopie des Datensatzes
# (sicher ist sicher - so kann immer auf das Original zugegriffen werden ;)
daten_normiert = gemeindedaten.copy()

# Division der 4 Spalten/Variablen durch die Einwohneranzahl
daten_normiert["Arbeitsstätten"] = daten_normiert["Arbeitsstätten"]/daten_normiert["Einwohner"]
daten_normiert["Beschäftigte"] = daten_normiert["Beschäftigte"]/daten_normiert["Einwohner"]
daten_normiert["Erbwerbstätige (15-64)"] = daten_normiert["Erbwerbstätige (15-64)"]/daten_normiert["Einwohner"]
daten_normiert["Anzahl an Ehepaaren"] = daten_normiert["Anzahl an Ehepaaren"]/daten_normiert["Einwohner"]

# Ausgabe zur Kontrolle
daten_normiert.head()

## Deskriptive Analyse

Wir können den normierten Datensatz jetzt mit Pandas Profiling analysieren lassen.
___

Der Report besteht aus 5 Kapiteln.

1. *Overview*: Hier werden die Eckdaten angezeit und *Warnings* betreffend die einzelnen Variablen ausgegeben. *Reproduction* ist nicht wirklich relevant.
2. *Variables* beinhaltet eine Analyse jeder einzelnen Variablen. Mit *Toggle details* kann jeweils noch ein vielfaches an Zusatzinformationen eingebledet werden.
3. *Interactions* bietet die Möglichkeit je 2 Variablen gegeneinander anzuzeigen. Wir werden in einem nächsten Schritt noch eine zweite Möglichkeit dafür kennen lernen.
4. *Correlations* berechnet statistische Korrelationsmaße für die Variablen zueinander. Mit *Toggle correlation description* kann man sich eine Beschreibung des jeweiligen Maßes anzeigen lassen.
5. *Missing values* weist die Anzahl an fehlenden Werten je Variable aus

___

***Hinweis: Das kann bis zu 90 Sekunden dauern!***

In [None]:
# Profiling-Analyse unseres Datensatzes
profile = ProfileReport(daten_normiert, title='Pandas Profiling Report', explorative=True, samples=None)

# Darstellung der Ergebnisse
profile.to_notebook_iframe()

## Fragen und To-Dos

Analysiere die Daten mithilfe des *Pandas Profiling Reports* und versuche dabei - und damit - die entsprechenden Fragen im Logbuch zu beantworten!

1. Sind die Overview & Warnings für dich verständlich und hilfreich?
2. Was bedeuten die Warnings? Sind sie relevant? Wenn ja/nein welche und warum (nicht)?
3. Was könnten Gründe für die hohe Korrelation von Variablen sein?
4. Gibt es bei den Variablen Probleme?
5. Sind die Grafiken verständlich?
6. Inwiefern sind diese für dich verständlich/nicht verständlich?

___

***Erst dann, wenn du damit fertig bist, führe die folgende Funktion aus.***

Sie generiert dir weitere Hilfestellungen zum Report.

In [None]:
# Erweiterte automatisierte Info zum Profiling-Report
# Import der Funktion erfolgte am Notebook-Beginn.

profile_helfen(profile)

## Vertiefende Erklärungen

Helfen dir diese weiterführenden Informationen zum Profiling Report? Bitte erkläre ...

* welche dir (nicht) geholfen haben und warum (nicht), sowie
* was du zusätzlich zu deiner ersten Analyse herausgefunden/entdeckt hast.



___

# Ausreißer, Korrelation & Kausalität

Das interessante bei Datensätze ist es die "versteckte" Information darin zu finden: Zusammenhänge und Muster. Und in weiterer Folge Erklärungen dafür. Im obigen Report haben wir dafür schon *Interactions* und *Correlations* gesehen. Eine weiter Möglichkeit sich einem Datensatz zu nähern bietet der Scatterplot. Genauer gesagt eine Technik die "Small Multiples" genannt wird und aus einer Vielzahl an Scatterplots besteht (auch Pairplot genannt).

Für den Datensatz lassen wir uns so einen Plot erzeugen.

***Hinweis: Das kann bis zu 90 Sekunden dauern!***



In [None]:
# Pairplot für visuelle Analyse

# Auswahl der Variablen von Interesse
# Der Gemeindenamen zB ist hier (als kategorische Variable) nicht sinnvoll
# Du kannst die Auswahl nach belieben Ändern!
features = ["Einwohner", "Arbeitsstätten", "Beschäftigte", "Alter", "Einkommen", "Erbwerbstätige (15-64)", "Grundstückspreise", "Anzahl an Ehepaaren", "Anzahl der Kinder"]

# Erstellen des Plots mit den gewählten Features
ft_plot = sns.pairplot(daten_normiert[features])

***Info:*** Diese Art von Darstellung eignet sich sehr gut um Ausreißer und Zusammenhänge in den Daten zu erkennen.

Definition: Ausreißer
---

Von einem Ausreißer spricht man in der Statistik, wenn ein (Mess-)Wert nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht.

Im Pairplot sind das Punkte die (weit) abseits der (zusammenhängenden) Punktewolken liegen. Ausreißer können unterschiedliche Erklärungen haben. Sie können sowohl auf Datenfehler zurückgehen, als auch völlig legitim sein. Die richtige Einordnung erfordert bei komplexen Daten in der Regel ExpertInnenwissen.

___


## Visuelle Analyse - Ausreißer

Analysiere nun den Pairplot (s.a. Logbuch):

1. Ist die Visualisierung für dich verständlich?
2. Wo fallen dir Ausreißer auf?
    * Sind diese in Ordnung?
    * Was für Erklärung(en) gibt es dafür?

___

## Visuelle Analyse - Zusammenhänge

Wenn es in Daten Zusammenhänge gibt, dann kann man diese oft ebenfalls mithilfe von Scatterplots feststellen. Im obigen Beispiel haben wir den (anfangs) normierten Datensatz abgebildet, da sonst der Vergleich einzelner Gemeinden miteinander nicht wirklich aussagekräftig wäre.

Um Zusammenhänge zwischen Variablen (Eigenschaften) zu zeigen, eignet sich der ursprüngliche Datensatz jedoch besser.

**Aufgabenstellung (s.a. Logbuch):**

Erstelle dir einen Pairplot für den Datensatz *gemeindedaten* mit den Variablen

* Einwohner
* Erbwerbstätige (15-64)
* Anzahl an Ehepaaren
* Anzahl der Kinder

füge ihn als Screenshot ins Logbuch ein und beschreibe was dir dabei (im Gegensatz zum ersten Pairplot) auffällt.

In [None]:
# Hier ist eine Kopie des Befehls von oben als Platzhalter

# Auswahl der Variablen von Interesse
features = ["Einwohner", "Arbeitsstätten", "Beschäftigte", "Alter", "Einkommen", "Erbwerbstätige (15-64)", "Grundstückspreise", "Anzahl an Ehepaaren", "Anzahl der Kinder"]

# Erstellen des Plots mit den gewählten Features
ft_plot = sns.pairplot(daten_normiert[features])

## Korrelation vs. Kausalität

Ein gängiger Fehler bei der Datenanalyse ist das Verwechseln von Korrelation und Kausalität.
Hängen zwei Merkmale kausal voneinander ab, so ist das eine Merkmal Ursache für Auswirkungen auf das andere.

Bei einer Korrelation ist dies nicht der Fall.

Ein klassisches Beispiel ist die Anzahl an gegessenem Speiseeis und der Häufigkeit von von Sonnenbränden. In den Sommermonaten steigen beide Merkmale deutlich an. Trotzdem ist eher zweifelhaft, dass der Verzehr von Speiseeis Sonnenbrände verursacht ;)

Bevor man von Korrelationen auf Kausalitäten schließt, sollte man beim leisesten Zweifel ExpertInnen des jeweiligen Faches konsultieren.
___

# Manuelle Detailanalyse

Um die entdeckten Ausreißer überprüfen und dann einordnen zu können ("sind sie in Ordnung oder nicht?"), braucht es Details zu ihnen.

Dafür stehen im folgenden 3 Code-Zellen bereit, welche du an deine Bedürfnisse anpassen kannst um die gewünsche Info zu bekommen.

In [None]:
# Ausgabe des Datensatzes, sortiert nach einer Spalte
# es werden dabei nur die ersten uns letzten 5 Zeilen angezeigt

daten_normiert.sort_values('Erbwerbstätige (15-64)', ascending=False)

In [None]:
# Ausgabe der Gemeinde mit Maximum- oder Minimum-Werten in 
# einer gegebenen Spalte.

# Die Spalte kann beliebige ersetzt werden.
# für Maxima nutze den Befehl: argmax()
# und argmin() für Minima.

daten_normiert.iloc[daten_normiert['Alter'].argmax()]


In [None]:
# Ausgabe von Gemeinden mit bestimmtem Namen

# Ausgabe der gesäuberten Rohdaten (Datensatz "gemeindedaten")
# aber Suche in den normierten Daten ("daten_normiert").

gemeindedaten[daten_normiert['Name']=='Graz']

# Erklärung des Befehlsaufbaues:
# anzuzeigender_Datensatz[zu_durchsuchender_Datensatz['zu_durchsuchende_spalte']=='zu_suchender_inhalt']

# Klarerweise kann auch gemeindedaten[gemeindedaten['Einwohner']==67] gesucht werden.
# oder gemeindedaten[gemeindedaten['Einwohner']>=50000] für alle Gemeinden über 50.000 Einwohner

## Lessons learned

Siehe Folien im Logbuch für eine Einordnung der Datenfehler und was man dagegen tun kann.


# Datensatz verbessern

Dementsprechend wollen wir jetzt unseren Datensatz verbessern, indem wir ihn um eindeutige IDs für die Gemeinden erweitern. So einen Datensatz findet man zum Beispiel auf der Webseite der [Statistik Austria](http://www.statistik.at/web_de/klassifikationen/regionale_gliederungen/gemeinden/index.html).

In [None]:
# Einlesen des Datensatzes mit den Gemeindekennzahlen
gemeindekennzahlen = pd.read_csv('gemliste_knz.csv', sep=';')

# Visuelle Kontrolle des Inhaltes
gemeindekennzahlen.head()

In [None]:
# Sowie Kontrolle ob die Spalten korrekt erkannt worden sind
gemeindekennzahlen.dtypes

Inhalt und Datentypen scheinen zu passen.

* *Status* beschreibt ob eine Gemeinde Stadtrang oder Marktrecht hat
* *PLZ* und *weitere Polstleitzahlen* sind für uns nicht relevant.
* *Gemeindekennziffer* und *Gemeindecode* unterscheiden sich nur für die Wiener Bezirke: hier ist die Gemeindekennziffer für alle Bezirke gleich, während der Code eindeutig ist (wie der nächste Code-Block zeigt). Für uns ist also der Code interessanter.

In [None]:
# Die 23 Wiener Gemeindebezirke sind beginnen mit 9xxxx,
# sind also am Ende des Dataframes. Wir können sie daher,
# analog zu head() mit tail() ausgeben.

gemeindekennzahlen.tail(23)

Nun können wir ein weitere Stärken von Pandas (und den DataFrames) ausnützen: das Verbinden von Datensätzen!

Wir verbinden unseren Gemeindedatensatz (allerdings den normierten *daten_normiert*) mit dem frisch importierten *gemeindekennzahlen* über die Felder *Name* und *Gemeindename*.

Der DataFrame-Befehl dazu wird mit *join* aufgerufen


In [None]:
gemeinden_norm_kennz = gemeindekennzahlen.join(daten_normiert.set_index('Name'), on='Gemeindename')

gemeinden_norm_kennz.head()

## Umgang mit Datenfehlern

Nach wie vor haben wir das Problem, dass wir die fehlerhaften Zeilen der Doppelgemeinden im Datensatz haben.

Dieses Problem ist durch den Befehl *join* sogar noch größer geworden, wie wir uns mit folgendem Befehl ansehen können.

In [None]:
# Ausgabe aller Zeilen im neuen Datensatz gemeinden_norm_kenz
# in denen in der Spalte "Gemeindename" ein Eintrag aus der 
# Liste ["Warth", "Mühldorf", "Krumbach"] vorkommt.

gemeinden_norm_kennz[gemeinden_norm_kennz.Gemeindename.isin(["Warth", "Mühldorf", "Krumbach"])]

Statt der tatsächlichen 6 Gemeinden (je 3 mit gleichem Namen) haben wir durch die Verknüpfung mittels *join* eine Verdoppelung.

Wie im Logbuch beschrieben, entscheiden wir uns dafür die wenigen (bekannt) fehlerhaften Zeilen zu löschen, denn wir wollen im nächsten Schritt Machine Learning einsetzen. Und diese Technik ist per se nicht komplett genau.

In [None]:
# Wir erstellen eine Kopie unseres bisherigen Datensatzes
# "gemeinden_norm_kennz" mit dem Namen "gem_daten_sauber".
gem_daten_sauber = gemeinden_norm_kennz.copy()


# Finde alle Zeilen, wo der Inhalte von Spalte "Gemeindename" in der Liste
# ["Warth", "Mühldorf", "Krumbach"] ist
x = gem_daten_sauber.Gemeindename.isin(["Warth", "Mühldorf", "Krumbach"])

# ~x ist das Inverse von x. Also alle Zeilen die NICHT in x
# (also unsere 3 Gemeinden) sind.
# Und nur diese Zeilen wollen wir im sauberen Datensatz gespeichert haben

gem_daten_sauber = gem_daten_sauber[~x]

gem_daten_sauber.shape

In [None]:
# Speichern des Datensatzes für den Machine-Learning Teil

gem_daten_sauber.to_csv('gem_daten_sauber.csv')

# Machine Learning

Hier geht es weiter [zum Machine Learning Teil](https://mybinder.org/v2/gh/stemrich/SEVA_DA-Onboarding-Tool/master?filepath=index_ml.ipynb).