# Beispiel: Analyse eines Datensatzes

Anhand eines beispielhaften Datensatz soll im Folgenden eine explorative Datenanalyse in Python erläutert werden. 

Als Quelle dient ein Datensatz der Datenanalyse Plattform [Kaggle](www.kaggle.com). Auf dieser kostenlosen Webseite werden Datensätze bereitsgestellt, die von Nutzern in Python oder R analysiert und dann vorgestellt werden. Die Plattform ist also auch eine gute Anlaufstelle zum Erlernen von Datenanalysefähigkeiten. 

Der Datensatz besteht aus 537.577 Zeilen und 12 Spalten. Jede der `537.577` Zeilen ist eine Transaktion eines Kunden bei einer Handelskette am sogenannten **Black Friday**. Für jede Transaktion sind insgesamt 12 sogenannte Merkmale (die Spalten) festgehalten. 

`USER_ID` = ID des Käufers

`Produkt_ID` = ID des Produktes, welches gekauft wurde

`Gender` = Geschlecht des Käufers

`Age` = Alter des Käufers (in Alterskategorien)

`Occupation` = Beruf des Käufers

`City_Category` = Stadtkategorie, aus der der Käufer stammt (bzw. die Transaktion getätigt hat)

`Stay_In_Current_City_Year` = wie lange ist User bereits in der jeweiligen Stadt

`Marital_Status` = Ist der User verheiratet oder nicht

`Product_Category_1` = Kategorie des Produktes (Kategoriegruppe 1)

`Product_Category_2` = Kategorie des Produktes (Kategoriegruppe 2)

`Product_Category_3` = Kategorie des Produktes (Kategoriegruppe 3)

`Purchase` = Umsatz der Transaktion

## Importieren der relevanten Bibliotheken

Zu Beginn einer Analyse sollten zunächst die relevanten (d.h. die benötigten) Bibliotheken importiert werden. Auch wenn im Verlaufe der Analyse weitere Bibliotheken hinzukommen, sollten diese hier hinzugefügt werden. So ist sichergestellt, dass jeder Nutzer des Notebooks sofort nachvollziehen kann, welche Module zum Einsatz kommen und wie diese importiert wurden. 

In [None]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
#import seaborn as sns
%matplotlib inline 
plt.style.use("seaborn-notebook")

## Einlesen der Rohdaten

Nachdem die nötigen Bibliotheken importiert wurden, lesen wir den zu analysierenden Datensatz ein. In Realität kann es sich an dieser Stelle bereits um viele Datensätze handeln, die miteinander verknüpft werden müssen. In unserem Falle handelt es sich um eine Datenquelle (eine `csv` Datei).



In [None]:
# Nutzen Sie diese Zelle in Google Colab
#!wget -O "BlackFriday.csv" "https://www.dropbox.com/s/92nc0agp631mpx3/BlackFriday.csv?dl=0"
#fpath = "BlackFriday.csv"

In [None]:
# Nutzen Sie diese Zelle in MyBinder
fpath = "./data/BlackFriday.csv"

In [None]:
df = pd.read_csv(fpath)
df.head(10) # erste 10 Zeilen des Datensatzes ausgeben

In [None]:
df.shape # Datensatz hat 537.577 Zeilen und 12 Spalten

## Daten bereinigen und für Analyse vorbereiten

Bevor die eigentliche Analyse der Daten beginnt - die natürlich abhängig ist von der spezifischen Fragestellung, die man hat - muss der Datensatz meist zunächst vorbereitet werden. 

Die Vorbereitung des Datensatzes umfasst einige wichtige Schritte, die abhängig sind von der Art des Datensatzes. Typischerweise beinhaltet die Vorbereitung

- Umbenennung von Variablen


- Bereinigung von Daten

    - Datentypen identifizierne (kategorisch, numerisch etc.)
    
    - Identifikation von fehlenden Daten
    
    - Zusammenfügen von Datenquellen
    
    - Datensatz in das richtige Format bringen
    
Der vorbereitende Part der Datenanalyse umfasst oft 80% der gesamten Datenanalyse ([Dasu and Johnson (2003)](https://www.wiley.com/en-us/Exploratory+Data+Mining+and+Data+Cleaning-p-9780471268512)). Einen guter und oft zitierter Artikel zum Thema Vorbereitung der Daten finden Sie [hier](http://vita.had.co.nz/papers/tidy-data.pdf).

Im weiteren Verlauf werden einige typische Schritte der Vorbereitung dargestellt. In Summe hat der vorliegende Datensatz jedoch bereits relativ gute Datenqualität. Das ist in der Realität oft nicht der Fall (und auch einer der Hauptgründe, warum Datenanalyse mit Excel oft sehr schwierig ist).
    


### Umbenennen von Variablen

Oft ist es hilfreich die Namen von Variablen umzubenennen. Natürlich ist dies kein Muss, jedoch teilweise sehr hilfreich. 

- Variablen sollten selbsterklärend sein, da man ansonsten immer wieder nachschauen muss, was eine Variable inhaltlich aussagt  


- Variablen sollten ohne Leerzeichen definiert werden (d.h. "KäuferID" und nicht "Käufer ID"). Auch das ist kein Muss, jedoch für die Implementierung mit Pandas oft hilfreich  


- Variablen sollten dem Sprachgebrauch im Unternehmen entsprechen. Wenn das Unternehmen z.B. von Kunde spricht, ist es verwirrend, wenn die Variable AuftraggeberID heißt. 

In [None]:
df.columns # Namen der Variablen im Datensatz

In [None]:
neue_header = ["KäuferID","ProduktID","Geschlecht","Alter","Beruf","StadtKategory","JahreInStadt","Verheiratet",
               "ProduktKat1","ProduktKat2","ProduktKat3","Umsatz"]
df.columns = neue_header
df.head()

### Bereinigung des Datensatzes

#### Variablentypen

Für den Computer macht es einen Unterschied, ob es sich bei einer Variable um einen String oder um einen Float handelt. Insofern sollte man sich zunächst einen Überblick über die Datentypen machen. Oft sind durch das Einlesen numerische Wert in Strings umgewandelt etc. Ist dies der Fall muss man "händisch" eingreifen und die Typen der Variablen verändern. 

Auch sollte man analysieren, bei welchen Variablen es sich um Kategorien (hier z.b. Alter) handelt und bei welchen es sich um kontinuierliche Werte (hier z.B. Umsatz) handelt. 

In [None]:
df.info() # objekt = String. 

Die Variable "Alter" wird hier vom Typ "objekt" angegeben. Schauen wir uns an, warum das so ist und ob wir Alter nicht in eine Integer (Ganzzahl) umwandeln sollten. 

In [None]:
df["Alter"].head(10)

Wir sehen, dass "Alter" hier in Kategorien aufgeteilt wurde, es sich also nicht um das tatsächliche Alter des Kunden, sondern nur um eine Altersspanne handelt. Insofern macht es keinen Sinn (und ist auch nicht möglich) "Alter" in eine Integer umzuwandeln. 

Wieviel Kategorie für "Alter" gibt es denn?

In [None]:
alters_kategorien = df["Alter"].unique()
len(alters_kategorien), alters_kategorien

Es gibt also sieben Alterskategorien. 

Pandas kann mit den Alterskategorien vom Typ "String" arbeiten. So kann z.B. der durchschnittliche Umsatz nach Alterskategorie wiefolgt ermittelt werden. 

In [None]:
df.groupby(["Alter"]).agg({"Umsatz":"mean"})

Bei großen Datensätzen ist es jedoch oft hilfreich kategorische Daten in den Typ "category" umzuwandeln, da Berechnungen dann oft deutlich schneller durchgeführt werden können. 

Das Umwandeln eines Datentypen erfolgt wiefolgt:

In [None]:
df["Alter"] = df["Alter"].astype("category")
df.info()

Finden wir doch heraus, bei welchen Variablen es sich noch um kategorische Variablen handelt und wandeln diese ebenfalls um. Alle Variablen mit wenigen 

In [None]:
spalten = df.columns
print("Variable", " | ", "Anzahl an einzigartigen Werten")
print("===================================================")
for spalte in spalten:
    uniques = df[spalte].unique()
    print(spalte, ": ", len(uniques), ", Typ: ", df[spalte].dtype)

Bei den Variablen Geschlecht, Alter, Beruf, StadtKategory, JahreInStadt, Verheiratet sowie bei den Produktkategorien handelt es sich offensichtlich um kategorische Daten, da es zum einen nur eine begrenzte Zahl von einzigartigen Werten gibt und dies zum anderen auch inhaltlich Sinn macht. 

Hinweis: Bei z.B. "JahreInStadt" handelt es sich erst bei näherem Hinsehen um eine Kategorie, da der Wert "4+" nicht bestimmt ist. 

In [None]:
df["JahreInStadt"].unique()

In [None]:
kategorische_spalten = ["Geschlecht","Alter","Beruf", "StadtKategory","JahreInStadt","Verheiratet","ProduktKat1","ProduktKat2","ProduktKat3"]
df[kategorische_spalten] = df[kategorische_spalten].astype("category")
df.info()

Durch die Umwandlung der Variablen in "category" hat sich die Speichernutzung des Datensatzes von rund 45MB auf rund 17MB reduziert. Für diesen "kleinen" Datensatz war das nicht wirklich notwendig, jedoch ist es gut, sich von Anfang an Gedanken über die Art von Daten zu machen, mit denen man es zu tun hat. 

#### Identifikation von fehlenden Daten

In den meisten Datensätzen in der Praxis wird es fehlende Datenpunkte geben. Sei es, weil der Kunde bestimmte Angaben nicht gemacht hat oder ein Vertriebler Informationen nicht abgefragt hat. Neben fehlenden Daten muss auch auf "falsche" Daten geachtet werden, der z.B. durch einen Typo entstanden ist. 

Fehlende Daten können auf verschiedene Arten identifiziert werden. 

Schaut man sich den vorliegenden Datensatz an, so sieht man, dass bereits in den ersten Zeilen in den Spalten "ProduktKat2" und ProduktKat3" die Werte "NaN" auftauchen. "NaN" steht für "Not a Number" und ist ein Indikator für fehlende Daten. 

In der Praxis können aber auch einfach leere Zellen oder andere Identifikatoren auf fehlende Daten hinweisen. Oft merkt man erst im Verlaufe einer Analyse, dass bestimmte Daten fehlen.  

In [None]:
df.isna() # gibt für jede Zelle True zurück, wenn NaN. Ansonsten False.

Die Übersicht ist nur bedingt hilfreich. Wir sehen zwar, dass sich offensichtlich NaNs in zwei Spalten befinden, wissen aber nicht, ob sich nicht auch in anderen Spalten irgendwo (z.B. in Zeile 312.456...) verstecken. 

Insofern ist es hilfreich die Summe der NaNs je Spalte zu bestimmen.

In [None]:
df.isna().sum() # bestimmt, wieviel NaNs in den jeweiligen Spalten enthalten sind. 

Glück gehabt. In unserem Datensatz gibt es nur NaN in zwei der 12 Spalten. 

Im nächsten Schritt müssen wir entscheiden, wie wir damit umgehen. Dies hängt natürlich von der Fragestellung der Analyse ab. 

Lautet die Fragestellung z.B.: was ist der durchschnittliche Umsatz je ProduktKat3 nach Geschlecht, können wir die Zeilen mit fehlenden Werten für ProduktKat3 offensichtlich löschen (bzw. sicherstellen, dass es sich tatsächlich um "NaN" handelt, mit denen Pandas umgehen kann). 

In [None]:
df_clean = df.dropna(subset=["ProduktKat3"]) 
df_clean.head()

In [None]:
df_clean.shape

Der Datensatz ist jedoch jetzt deutlich kleiner. Ich sollte also keine Zeilen löschen, wenn sich die Fragestellung eigentlichc auf zB. ProduktKat1 bezieht, da ich ansonsten über 300.000 Zeilen an Daten unberücksichtigt lasse.

#### Berichtigen von Daten

Oft kann es auch vorkommen, dass Daten verändert, korrigiert oder berichtigt werden müssen.

Stellen wir uns in unserem Fall z.B. vor, dass die ProduktIDs falsch sein. Diese fangen alle mit einem "P" an. Es könnte z.B. sein, dass wir die Daten später weiterverarbeiten müssen und mit einem anderen Datensatz zusammenführen wollen. In diesem Datensatz beginnen die ProduktIDs alle mit "Z", obwohl es sich um die selben Produkte handelt (ein zugegeben etwas unsinniges Beispiel). 

In Realität kann sowas aber durchaus vorkommen, wenn Daten aus verschiedenen Datenquellen (Systemen) zusammgeführt werden müssen und dort Kunden leicht abweichende Namen haben oder es sich um Systeme aus unterschiedlichen Unternehmensteilen handelt etc. 




In [None]:
df["ProduktID"] = df["ProduktID"].str.replace("P","Z",1) # ersetzt den ersten Buchstaben "P" durch ein "Z"
df.head()

**Fazit**

Es ist deutlich geworden, dass mithilfe von Python und Pandas die Bereinigung von Daten sehr einfach und mit oft jeweils nur kurzen Befehlen möglich ist. 

Natürlich handelt es sich hier nur um eine sehr kurze Einführung in die wichtigen Schritte beim Vorbereiten eines Datensatz. Die tatsächlich notwendigen Schritte ergeben sich erst aus dem konkreten Datensatz und sind auch teilweise nicht von Anfang an ersichtlich, so dass es sich hier meist um einen iterativen Prozess handelt, bei dem man sich bereits im nächsten Schritt - der eigentliichen Datenanalyse - wähnt und dann aber doch feststellen muss, dass es noch Fehler in den Daten gibt oder weitere Daten hinzukommen etc. 

Gerade hier spielt die Einbettung von Python in ein Jupyter Notebook die großen Vorteile aus. 

## Datenanalyse

Nachdem man sich im vorangegangenen Schritt einen Überblick zum Datensatz gemacht hat, kann man mit der eigentlichen Datenanalyse beschäftigen. 

Diese hängt natürlich sehr von der spezifischen Fragestellung ab. 

### Beispiel: konkrete deskriptive Fragestellung

Ist diese sehr konkret, z.B. was ist der durchschnittliche Umsatz je Berufsgruppe nach Geschlecht, kann man diese spezifische Fragestellung analysieren.  

In [None]:
df.groupby(["Geschlecht"]).agg({"Umsatz":"sum"}).plot(kind="bar", title="Gesamtumsatz nach Geschlecht");

In [None]:
df.groupby(["Geschlecht"]).agg({"Umsatz":"mean"}).plot(kind="bar", title="Durchschnittlicher Umsatz nach Geschlecht");

In [None]:
df.groupby(["Beruf"]).agg({"Umsatz":"mean"}).plot(kind="bar", title="Durchschnittlicher Umsatz nach Beruf");

Es scheint keine signifikanten Unterschiede beim Umsatz nach Geschlecht und Beruf zu geben.

Im nächsten Schritt könnte man versuchen, die Ergebnisse zusammenzufassen und die Visualisierung etwas "aufzuhübschen". 

**Beispiel zur "Aufhübschung"**

In [None]:
import seaborn as sns

fig, axes = plt.subplots(ncols=2,nrows=2, sharey=True,figsize=(12,9))
axes = axes.flatten()
sns.despine()

# Erster Chart
x = [0,1]
y = df.groupby(["Geschlecht"]).agg({"Umsatz":"sum"})["Umsatz"] / 1000000

ax1 = axes[0]
ax1.bar(x,y)
ax1.set_xticks(x)
ax1.set_xticklabels(["Frau","Mann"])
ax1.set_title("Gesamtumsatz nach Geschlecht \n(in mio. EUR)");

# Zweiter Chart
x = [0,1]
y = df.groupby(["Geschlecht"]).agg({"Umsatz":"mean"})["Umsatz"]

ax2 = axes[1]
ax2.bar(x,y)
ax2.set_xticks(x)
ax2.set_xticklabels(["Frau","Mann"])
ax2.set_title("Gesamtumsatz nach Geschlecht \n (in EUR)");

# Dritter Chart
x = range(len(df["Beruf"].unique()))
y = df.groupby(["Beruf"]).agg({"Umsatz":"mean"})["Umsatz"]

ax3 = axes[2]
ax3.bar(x,y)
ax3.set_xticks(x)
ax3.set_xticklabels(x)
ax3.set_title("Durchschnittlicher Umsatz nach Beruf \n (in EUR)");


# Vierter Chart
ax4 = axes[3]
df.groupby(["Geschlecht","Beruf"]).agg({"Umsatz":"mean"}).unstack().T.plot.bar(stacked=True,
    title="Durschnittlicher Umsatz nach Geschlecht und Beruf \n(in EUR)", ax=ax4);
ax4.set_xticks(x)
ax4.set_xticklabels(x,rotation="horizontal")

plt.suptitle("Umsatzanalyse nach Geschlecht und Beruf",fontsize=21,y=1.05)
plt.tight_layout()
fig.savefig("Umsatzanalyse.png",dpi=200)

Es gäbe natürlich noch sehr viel weitere Möglichkeiten, die Analyse durchzuführen und die Darstellungen ansprechender zu machen. Dies soll an dieser Stelle nur ein Beispiel sein.

### Beispiel: explorative Analyse

In der Realität haben Unternehmen oft Unmengen an Daten und haben neben sehr konkreten Fragestellungen zusätzlich Interesse daran, neue Muster zu erkennen und diese für ökonomische Entscheidungen zu nutzen. 

Vielleicht fällt bei genauerer Betrachtung auf, dass Kunden, die bereits lange in der Stadt leben öfter Produkte mit hohen Gewinnmargen kaufen. Dies wäre ein Zusammenhang, den man vermutlich nicht konkret erfragen würde, sondern den man eher zufällig aus den Daten herausfiltern würde. Die neu gewonnen Information könnte man dann z.B. nutzen, um noch gezielter diese Art von Kunden anzusprechen etc. 

Diese Art von Informationen wird also gewonnen, in dem ein Datensatz (i) um so viel wie mögliche neue Variablen ergänzt wird (z.b. Wetter, Temperatur, Feiertag....) und (ii) frei analysiert wird, d.h. viele Kombinationen eruiert werden etc. 

Es wird also tatsächlich explorativ vorgegangen und systematisch nach neuen Zusammenhängen gesucht (die oft dann aber auch nicht gefunden werden). 

In [None]:
spalten = df.columns[2:-1] # alle Spalten außer KundenID, ProduktID und Umsatz

In [None]:
for spalte in spalten:
    df.groupby(spalte).agg({"Umsatz":"mean"}).plot(kind="bar")

Es gbit unzählige Möglichkeiten von hier weiter vorzugehen. Insbsondere kann man versuchen statistische Modelle aufzustellen, die Zusammenhänge überprüfen. Auch hier gibt es Bibliotheken (z.B. [`scikit`](https://scikit-learn.org/stable/)), die die hierfür notwendigen Schritte mit vielen Funktionalitäten unterstützen. Zunächst müssten bspw. kategorische Variablen so umgewandelt werden, dass mit diesen gerechnet werden kann. Die dann anschließende statistiche Analyse wird dann ebenfalls durch Modelle unterstützt.  

**Wichtig:** Im Rahmen dieses Seminars wird der Fokus auf der Einführung in die Datenanalyse gelegt, d.h. es sollen

- Grundlagen in Python (inkl. Numpy, Pandas und Matplotlib) erarbeitet werden  


- ein Datensatz mit Pandas deskriptiv vorbereitet, analysiert und vorgestellt werden

Es wird nicht erwartet, dass statistische Analyse durchgeführt werden. 

[<center><< zurück zu Module nutzen</center>](04_Module_nutzen.ipynb)[<center>weiter zur Aufgabenstellung >></center>](06_Aufgabenstellung.ipynb)