# Python für Excel Anwender

Python ist derzeit eine der angesagtesten Programmiersprachen und hat insbesondere durch Data Analytics und Data Science Bemühungen enorm an Relevenz hinzu gewonnen. 
Um auch weiteren IT affinen aber Entwickler Fremden einen Einblick in diese fastzinierende Programmiersprache zu geben habe ich mich für folgendes Tutorial entschieden:


**Ausgangslage:**  
Drei csv Dateien werden im Rahmen eines regelmäßigen Reportings von einem Mitarbeiter zusammengefügt, bearbeitet und anschließend in 10 Dateien gesplittet und z.B. an Vertriebsgesellschaften verteilt.
Als Dateien dienen uns folgende Muster Dateien:   
- files/kühlschrank.csv  
- files/herd.csv  
- files/spühlmaschine.csv  

## Bibliotheken

In [250]:
import os  # Zugriff auf das Filesystem unserer Betriebssystems
import pandas as pd  # Bibliothek für die Datenbearbeitung

## Dateien in Notebook laden

Als erstes nutzen wir das _os_ Modul um auf den Pfad der benötigten Dateien zuzugreifen.

In [251]:
os.listdir()  # Zeigt die Dateien in unserem derzeitigen Verzeichnis an.

['.ipynb_checkpoints', 'files', 'Python für Excel User.ipynb', 'reports']

Hier entdekcen wir den Ordner _files_. Dieser enthält die Dateien die wir einlesen wollen.

In [252]:
df = pd.read_csv("files/kühlschrank.csv")
df.head()

Unnamed: 0,Gesellschaft;Filiale;Mitarbeiter;Monat;Abschlüsse
0,Nord Amerika;Kanada;Mitarbeiter A;Jan 20;10
1,Europa;Spanien;Mitarbeiter P;Jan 20;1
2,Afrika;Südafrika;Mitarbeiter Ü;Jan 20;1
3,Europa;Polen;Mitarbeiter O;Jan 20;3
4,Nord Amerika;Kanada;Mitarbeiter A;Feb 20;8


mit ```pd.read_csv``` können wir csv Dateien einlesen. Das was wir dazu übergeben müssen ist ein Pfad zur entsprechenden Datein. Die Daten speichern wir dann in der Variablen ```df``` anschließend lassen wir uns mit ```df.head()``` die ersten fünf Zeilen anzeigen. 

Hier fällt uns auf, das die Anwendung die Trennzeichen nicht richtig erkannt hat und die Daten nicht korrekt in Tabellenform anzeigen. Dazu übergeben wir nun einen Parmeter zur separierung. In diesem Fall übernimmt pandas per Default ein `,` als Trennzeichen. Wir benötigen jedoch ein `;`.

In [253]:
df = pd.read_csv("files/kühlschrank.csv", sep=";")
df.head()

Unnamed: 0,Gesellschaft,Filiale,Mitarbeiter,Monat,Abschlüsse
0,Nord Amerika,Kanada,Mitarbeiter A,Jan 20,10
1,Europa,Spanien,Mitarbeiter P,Jan 20,1
2,Afrika,Südafrika,Mitarbeiter Ü,Jan 20,1
3,Europa,Polen,Mitarbeiter O,Jan 20,3
4,Nord Amerika,Kanada,Mitarbeiter A,Feb 20,8


Nun sehen die Daten schon besser aus.

Laden wir nun alle drei drei Dateien ein:

In [254]:
df_fridge = pd.read_csv("files/kühlschrank.csv", sep=";")
df_cleaner = pd.read_csv("files/spühlmaschine.csv", sep=";") 
df_stove = pd.read_csv("files/herd.csv", sep=";")

und schauen uns in der Vorschau an, ob die Dateien korrekt eingelesen wurden.

In [255]:
df_fridge.head()

Unnamed: 0,Gesellschaft,Filiale,Mitarbeiter,Monat,Abschlüsse
0,Nord Amerika,Kanada,Mitarbeiter A,Jan 20,10
1,Europa,Spanien,Mitarbeiter P,Jan 20,1
2,Afrika,Südafrika,Mitarbeiter Ü,Jan 20,1
3,Europa,Polen,Mitarbeiter O,Jan 20,3
4,Nord Amerika,Kanada,Mitarbeiter A,Feb 20,8


In [256]:
df_cleaner.head()

Unnamed: 0,Gesellschaft,Filiale,Mitarbeiter,Monat,Abschlüsse
0,Nord Amerika,Kanada,Mitarbeiter A,Jan 20,3
1,Afrika,Südafrika,Mitarbeiter Ü,Jan 20,9
2,Europa,Polen,Mitarbeiter O,Jan 20,2
3,Nord Amerika,Kanada,Mitarbeiter A,Feb 20,6
4,Afrika,Südafrika,Mitarbeiter Ü,Feb 20,8


In [257]:
df_stove.head()

Unnamed: 0,Gesellschaft,Filiale,Mitarbeiter,Monat,Abschlüsse
0,Nord Amerika,Kanada,Mitarbeiter A,Jan 20,5
1,Europa,Spanien,Mitarbeiter P,Jan 20,5
2,Asien,Indien,Mitarbeiter N,Jan 20,1
3,Afrika,Südafrika,Mitarbeiter Ü,Jan 20,10
4,Nord Amerika,Kanada,Mitarbeiter A,Feb 20,6


Das sieht soweit alles korrekt aus. 

Nun wollen wir die drei Auswertungen miteinander kombinieren. Dazu Schauen wor uns als erstes die Struktur der Dateien an. Dort erkennen wir, dass die Daten zu `Gesellschaft`, `Filiale`, `Mitarbeiter` in allen Tabellen gleich ist. Die können wir daher als Index für unser Daten nutzen.
Einen Index legen wir mit `pd.set_index`fest

In [258]:
df_stove.set_index(["Gesellschaft", "Filiale", "Mitarbeiter"]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Monat,Abschlüsse
Gesellschaft,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1
Nord Amerika,Kanada,Mitarbeiter A,Jan 20,5
Europa,Spanien,Mitarbeiter P,Jan 20,5
Asien,Indien,Mitarbeiter N,Jan 20,1
Afrika,Südafrika,Mitarbeiter Ü,Jan 20,10
Nord Amerika,Kanada,Mitarbeiter A,Feb 20,6


Wir sehen nun, dass das Dataframe drei Spalten als `Index` gepeichert hat. Diese Änderung speichern wir nun in den Variablen und übernehmen diese direkt für alle drei Tabellen.

In [259]:
df_stove = df_stove.set_index(["Gesellschaft", "Filiale", "Mitarbeiter"])
df_cleaner = df_cleaner.set_index(["Gesellschaft", "Filiale", "Mitarbeiter"])
df_fridge = df_fridge.set_index(["Gesellschaft", "Filiale", "Mitarbeiter"])

Nun können wir alle drei Tabellen miteinander verbinden. Damit die Werte jedoch korrekt zugeordnet werden haben wir im Schritt zuvor für alle Tabellen einen einheitlichen Index erstellt. 

In [260]:
pd.concat([df_stove, df_cleaner, df_fridge])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Monat,Abschlüsse
Gesellschaft,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1
Nord Amerika,Kanada,Mitarbeiter A,Jan 20,5
Europa,Spanien,Mitarbeiter P,Jan 20,5
Asien,Indien,Mitarbeiter N,Jan 20,1
Afrika,Südafrika,Mitarbeiter Ü,Jan 20,10
Nord Amerika,Kanada,Mitarbeiter A,Feb 20,6
Europa,Spanien,Mitarbeiter P,Feb 20,8
Asien,Indien,Mitarbeiter N,Feb 20,10
Afrika,Südafrika,Mitarbeiter Ü,Feb 20,1
Europa,Polen,Mitarbeiter O,Feb 20,9
Nord Amerika,Kanada,Mitarbeiter A,Jan 20,3


Nun haben wir eine lange Tabelle mit allen Werten, jedoch können wir nun nicht mehr unterscheiden, welcher Wert aus welcher Tabelle ursprünglich stammt. Daher benennen wir die Spalte Abschlüsse vorher noch um. Die verbunden Tabelle speichern wir in der variablen `df`.

In [261]:
df = pd.concat([
    df_stove.rename({"Abschlüsse": "Abschlüsse Ofen"}, axis=1),
    df_cleaner.rename({"Abschlüsse": "Abschlüsse Spühlmaschine"}, axis=1),
    df_fridge.rename({"Abschlüsse": "Abschlüsse Kühlschrank"}, axis=1)
    ], sort=False)

In [262]:
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Monat,Abschlüsse Ofen,Abschlüsse Spühlmaschine,Abschlüsse Kühlschrank
Gesellschaft,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Nord Amerika,Kanada,Mitarbeiter A,Jan 20,5.0,,
Europa,Spanien,Mitarbeiter P,Jan 20,5.0,,
Asien,Indien,Mitarbeiter N,Jan 20,1.0,,
Afrika,Südafrika,Mitarbeiter Ü,Jan 20,10.0,,
Nord Amerika,Kanada,Mitarbeiter A,Feb 20,6.0,,


Wir sehen nun, dass wir drei unterschiedliche Abschluss Werte haben. 

Diese Werte wollen wir nun nach Mitarbeitern Sortieren und in einer Zeitreihe anzeigen.

In [263]:
df_pivot = pd.pivot_table(
    data=df.reset_index(), 
    index= 'Monat', 
    columns=["Gesellschaft", "Filiale", "Mitarbeiter"], 
    values=["Abschlüsse Ofen", "Abschlüsse Kühlschrank", "Abschlüsse Spühlmaschine"]
).sort_index(ascending=False).transpose()
df_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Monat,Jan 20,Feb 20
Unnamed: 0_level_1,Gesellschaft,Filiale,Mitarbeiter,Unnamed: 4_level_1,Unnamed: 5_level_1
Abschlüsse Kühlschrank,Afrika,Südafrika,Mitarbeiter Ü,1.0,9.0
Abschlüsse Kühlschrank,Europa,Polen,Mitarbeiter O,3.0,4.0
Abschlüsse Kühlschrank,Europa,Spanien,Mitarbeiter P,1.0,4.0
Abschlüsse Kühlschrank,Nord Amerika,Kanada,Mitarbeiter A,10.0,8.0
Abschlüsse Ofen,Afrika,Südafrika,Mitarbeiter Ü,10.0,1.0
Abschlüsse Ofen,Asien,Indien,Mitarbeiter N,1.0,10.0
Abschlüsse Ofen,Europa,Polen,Mitarbeiter O,,9.0
Abschlüsse Ofen,Europa,Spanien,Mitarbeiter P,5.0,8.0
Abschlüsse Ofen,Nord Amerika,Kanada,Mitarbeiter A,5.0,6.0
Abschlüsse Spühlmaschine,Afrika,Südafrika,Mitarbeiter Ü,9.0,8.0


Was haben wir hier gemacht?

`pd` ist die übergeordnete Pandas Bibliothek, die wir oben importiert haben. Die Variable `df` enhält ein Unterobjekt von `pd`. Das Dataframe. In `df` ist also eine Instance von `pd.DataFrame` gepeichert. 

`pd` liefert mit `pivot_table` eine Funktion, die es uns, ähnlich wie in Excel ermöglicht auf Grundlage von Daten eine Pivot Tabelle zu erstellen, die Spalten Werte in Zeilen und Spalten Überschriften verwandelt. 

Der Funktionsaufruf hat folgenden Aufbau:  

Eine pd.DataFrame Instance:  
`data=df.reset_index(),` 


Die unterschiedlichen Monate aus der Spalte Monat wollen wir uns als Zeilenindex anzeigen lassen:  
`index='Monat',`


Als Spalten sollen uns die jeweilige Gesellschaft, die Filiale und der einzelne Mitarbeiter dienen:  
`columns=["Gesellschaft", "Filiale", "Mitarbeiter"]`

Anzahl der Abschlüsse je Produkt:  
`values = ["Abschlüsse Ofen", "Abschlüsse Kühlschrank", "Abschlüsse Spühlmaschine"]`

Die Monatszeilen (Index) sollen in aufsteigender Reihenfolge angezeigt werden:  
`.sort_index(ascending=False)`   

Die Zeilen und Spalten werden getauscht:  
`.transpose()`

# Auswertung je Mitarbeiter

Wollen wir uns nun die Daten für ein spezielles Produkt ansehen, z.B. `Abschlüsse Ofen` gehen wir wie folgt vor:

In [264]:
df_pivot.loc['Abschlüsse Ofen']

Unnamed: 0_level_0,Unnamed: 1_level_0,Monat,Jan 20,Feb 20
Gesellschaft,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1
Afrika,Südafrika,Mitarbeiter Ü,10.0,1.0
Asien,Indien,Mitarbeiter N,1.0,10.0
Europa,Polen,Mitarbeiter O,,9.0
Europa,Spanien,Mitarbeiter P,5.0,8.0
Nord Amerika,Kanada,Mitarbeiter A,5.0,6.0


Wollen wir eine spezielle Vertriebsgesellschaft identifizieren, zum Beispiel `Europa` gehen wir wie folgt vor:

In [265]:
df_pivot.loc[('Abschlüsse Ofen', 'Europa')]

Unnamed: 0_level_0,Monat,Jan 20,Feb 20
Filiale,Mitarbeiter,Unnamed: 2_level_1,Unnamed: 3_level_1
Polen,Mitarbeiter O,,9.0
Spanien,Mitarbeiter P,5.0,8.0


und für einen Speziellen Mitarbeiter:

In [266]:
df = df_pivot.T
df.xs('Mitarbeiter Ü', level='Mitarbeiter', axis=1).T

Unnamed: 0_level_0,Unnamed: 1_level_0,Monat,Jan 20,Feb 20
Unnamed: 0_level_1,Gesellschaft,Filiale,Unnamed: 3_level_1,Unnamed: 4_level_1
Abschlüsse Kühlschrank,Afrika,Südafrika,1.0,9.0
Abschlüsse Ofen,Afrika,Südafrika,10.0,1.0
Abschlüsse Spühlmaschine,Afrika,Südafrika,9.0,8.0


Nun wollen wir für einzelne Bericht erstellen, für jede Gesellschaft, für jede Filiale und für jeden Mitarbeiter. Diese Berichte sollen aber so aufgebaut sein, dass zum Beispiel die Gesellschaft `Europa` nur die Daten von `Polen` und `Spanien` sieht, nicht jedoch von `Indien`. Der Bericht der Filiale `Polen` soll keine Daten von `Spanien` sehen und die Mitarbeiter Berichte sollen nur die Daten des jeweiligen Mitarbeiters enthalten.

wir ermitteln als erstes alle Gesellschaften. 

In [267]:
gesellschaften = df_pivot.reset_index()["Gesellschaft"].unique()
gesellschaften

array(['Afrika', 'Europa', 'Nord Amerika', 'Asien'], dtype=object)

Nun iterieren wir mit einer Schleife über die Gesellschaften und erstellen die Berichte

In [268]:
df_pivot.T.xs('Afrika', level='Gesellschaft', axis=1).T

Unnamed: 0_level_0,Unnamed: 1_level_0,Monat,Jan 20,Feb 20
Unnamed: 0_level_1,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1
Abschlüsse Kühlschrank,Südafrika,Mitarbeiter Ü,1.0,9.0
Abschlüsse Ofen,Südafrika,Mitarbeiter Ü,10.0,1.0
Abschlüsse Spühlmaschine,Südafrika,Mitarbeiter Ü,9.0,8.0


Anstelle, dass wir diesen Befehl für jede Gesellschaft einzeln ausführen, iterieren wir über die Gesellschaften und speichern die daten in einer Liste Namens `export`

In [269]:
export = []
for gesellschaft in gesellschaften:
    export.append(df_pivot.T.xs(gesellschaft, level='Gesellschaft', axis=1).T)

Unsere Liste enhält nun vier Einträge

In [270]:
len(export)

4

Nun gehen wir für die Filialen ähnlich vor:

In [271]:
filialen = df_pivot.reset_index()["Filiale"].unique()

for filiale in filialen:
    export.append(df_pivot.T.xs(filiale, level='Filiale', axis=1).T)

Und zum Schluss für die Mitarbeiter:

In [272]:
mitarbeiter = df_pivot.reset_index()["Mitarbeiter"].unique()

for ma in mitarbeiter:
    export.append(df_pivot.T.xs(ma, level='Mitarbeiter', axis=1).T)
    

Unsere export Variable sollte nun 14 einträge haben. Gehen wir in die einzelnen Einträge, sehen wir die einzelne Tabelle

In [273]:
len(export)

14

In [274]:
export[13]

Unnamed: 0_level_0,Unnamed: 1_level_0,Monat,Jan 20,Feb 20
Unnamed: 0_level_1,Gesellschaft,Filiale,Unnamed: 3_level_1,Unnamed: 4_level_1
Abschlüsse Ofen,Asien,Indien,1.0,10.0


In [275]:
df_pivot.T.xs("Europa", level="Gesellschaft", axis=1)

Unnamed: 0_level_0,Abschlüsse Kühlschrank,Abschlüsse Kühlschrank,Abschlüsse Ofen,Abschlüsse Ofen,Abschlüsse Spühlmaschine
Filiale,Polen,Spanien,Polen,Spanien,Polen
Mitarbeiter,Mitarbeiter O,Mitarbeiter P,Mitarbeiter O,Mitarbeiter P,Mitarbeiter O
Monat,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Jan 20,3.0,1.0,,5.0,2.0
Feb 20,4.0,4.0,9.0,8.0,8.0


Anstelle den Code nun dreimal zu kopieren, können wir die Ausführung auch komprimieren.

In [276]:
df_pivot.reset_index()["Filiale"].unique()

array(['Südafrika', 'Polen', 'Spanien', 'Kanada', 'Indien'], dtype=object)

In [277]:
levels = ["Gesellschaft", "Filiale", "Mitarbeiter"]
export = []
for level in levels:    
    
    elems = df_pivot.reset_index()[level].unique()
    
    for elem in elems:
        
        # zu jeder Tabelle speichern wir nun zusätzlich ein paar Rahmenparameter
        result = {
            "level": level,
            "name": elem,
            "data": df_pivot.T.xs(elem, level=level, axis=1).T 
        }
        export.append(result)

unsere export variable sieht nun so aus

In [278]:
export[2]

{'level': 'Gesellschaft',
 'name': 'Nord Amerika',
 'data': Monat                                           Jan 20  Feb 20
                          Filiale Mitarbeiter                  
 Abschlüsse Kühlschrank   Kanada  Mitarbeiter A    10.0     8.0
 Abschlüsse Ofen          Kanada  Mitarbeiter A     5.0     6.0
 Abschlüsse Spühlmaschine Kanada  Mitarbeiter A     3.0     6.0}

gehe ich nun in das Feld `data` erscheint das Dataframe wieder

In [279]:
export[2]['data']

Unnamed: 0_level_0,Unnamed: 1_level_0,Monat,Jan 20,Feb 20
Unnamed: 0_level_1,Filiale,Mitarbeiter,Unnamed: 3_level_1,Unnamed: 4_level_1
Abschlüsse Kühlschrank,Kanada,Mitarbeiter A,10.0,8.0
Abschlüsse Ofen,Kanada,Mitarbeiter A,5.0,6.0
Abschlüsse Spühlmaschine,Kanada,Mitarbeiter A,3.0,6.0


Nun können wir die Berichte generieren

In [280]:
for report in export:
    # Kreiert einen Dateinamen
    filename = report['level'] + "_" + report["name"] + ".csv"
    
    # Erstellt den Unterordner Reports falls dieser nicht existiert
    if not os.path.exists("reports"):
            os.mkdir("reports") 
    
    # Speichert das Dataframe als .csv Datei im Reports Ordner ab
    report["data"].to_csv("reports/"+ filename)

### Vollständiges Script  
So sieht nun das vollständige Script aus:

In [281]:
import os
import pandas as pd

df_pivot = pd.pivot_table(
    data=pd.concat([
    pd.read_csv("files/kühlschrank.csv", sep=";").rename({"Abschlüsse": "Abschlüsse Ofen"}, axis=1),
    pd.read_csv("files/spühlmaschine.csv", sep=";") .rename({"Abschlüsse": "Abschlüsse Spühlmaschine"}, axis=1),
    pd.read_csv("files/herd.csv", sep=";").rename({"Abschlüsse": "Abschlüsse Kühlschrank"}, axis=1)
    ], sort=False), 
    index= 'Monat', 
    columns=["Gesellschaft", "Filiale", "Mitarbeiter"], 
    values=["Abschlüsse Ofen", "Abschlüsse Kühlschrank", "Abschlüsse Spühlmaschine"]
).sort_index(ascending=False).transpose()

levels = ["Gesellschaft", "Filiale", "Mitarbeiter"]

if not os.path.exists("reports"):
        os.mkdir("reports") 
            
[df_pivot.T.xs(elem, level=level, axis=1).T.to_csv("reports/"+ level + "_" + elem + ".csv")
    for level in levels 
 for elem in df_pivot.reset_index()[level].unique() ]

[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None]

## Abschluss 
Fertig.   
Wir haben aus drei Daten mit unterschiedlichen Daten, eine erstellt und diese anschließend in einzel Berichte geliedert und als `.csv` Dateien gespeichert.  
So lassen sich mit wenigen Code Zeilen langwierige und eintönige Excel Aufgaben automatisieren.

Ich hoffe der Beitrag hat euch die Vorteile von Python und Pandas etwas näher gebracht. Ich freue mich auf euere Kommentare und Claps.