![](https://www.kommunales-bildungsmonitoring.de/fileadmin/assets/kosmo-logo-kombi.png)


#### Tobias Vetterle, Koordinierungsstelle Bildungsmonitoring
# Datenaufbereitung mit Python - eine Einführung


Um einen ganzheitlichen Blick auf die Strukturen und  Herausforderungen einer kommunalen Bildungslandschaft zu gewinnen, arbeitet das Kommunale Bildungsmonitoring mit <a href="https://www.transferinitiative.de/media/content/DLR_Anwendungsleitfaden.pdf#page=39" target="_blank">  Daten aus einer Vielzahl von unterschiedlichen Quellen.</a> Aus diesem Umstand ergeben sich hohe Anforderungen an das Datenmanagement, denn idealerweise werden diese Daten nicht einfach bloß angehäuft, sondern so miteinander verknüpft, dass sie eine aussagekräftige und in sich kohärente Grundlage für die kommunale Bildungsgestaltung liefern. Datenbanklösungen wie <a href="https://www.transferinitiative.de/it-instrumentarium.php" target="_blank">  komBi</a> können dabei helfen, diese Integration technisch umzusetzen, indem sie einen zentralen Knotenpunkt bereitstellen, an dem sich große Mengen bildungsbezogener Daten nach einem einheitlichen Schema zusammenführen lassen. Die Voraussetzung dafür: Rohdaten, die ganz unterschiedlich formatiert und strukturiert vorliegen, müssen zuvor in ein genau definiertes Zielformat umgewandelt werden. Selbstentwickelte Tools wie das vorliegende Python-Skript können dabei helfen, den Zeitaufwand für diese Datenaufbereitung zu reduzieren und leisten somit einen wertvollen Beitrag zu einem effizienten Datenmanagement. Doch auch für Fachkräfte, die überwiegend mit Excel arbeiten und regelmäßig vor der Aufgabe stehen, aufwendig vorstrukturierte Tabellen in funktionierende Pivottabellen umzuwandeln, können passgenau entwickelte Skripte eine große Arbeitsentlastung darstellen. 

Wir werden dies im vorliegenden Beispiel anhand der <a href="https://statistik.arbeitsagentur.de/nn_1021940/SiteGlobals/Forms/Rubrikensuche/Rubrikensuche_Form.html?view=processForm&resourceId=210368&input_=&pageLocale=de&topicId=1023400&year_month=201910&year_month.GROUP=1&search=Suchen" target="_blank">Monatszahlen zu den Leistungsberechtigten mit Anspruch auf Leistungen zu Bildung und Teilhabe</a> veranschaulichen, welche die Bundesagentur für Arbeit  auf ihrem Online-Portal zum Download anbietet. Für ein kommunales Bildungsmonitoring, das sich für die sozialen Rahmenbedingungen der Bildungslandschaft vor Ort interessiert, liefert dieser Datensatz unter Umständen eine interessante Kennzahl. Möchte man diese nun in eine Datenbanksoftware wie komBi integrieren, stellt sich das Problem, dass die über das oben verlinkte Online-Portal abrufbaren Excel-Dateien sehr stark vorstrukturiert sind. Neben einer Reihe von Formatierungseinstellungen, Grafiken und Erläuterungstexten, die zur Umwandlung der Datei in eine Datenbanktabelle entfernt werden müssen, betrifft dies vor allem die Spaltenstruktur der Tabelle: Um unser Datenmaterial optimal für die Weiterverarbeitung in komBi aufzubereiten, wollen wir die quantitativen Daten - in der Ausgangstabelle nach Altersgruppen auf mehrere Spalten aufgeteilt - in einer einzigen Kennzahlenspalte zusammenführen:

![](https://i.ibb.co/KK3FrBx/Bild1.png)
*Abb. 1: Links die Ausgangstabelle der Statistik der Bundesagentur für Arbeit (https://statistik.arbeitsagentur.de/), rechts die Tabelle im Zielformat*

Hinzu kommt, dass die Daten über das oben verlinkte Online-Portal nur jeweils für einen einzelnen Erhebungsmonat bereitgestellt werden. Möchte man Daten aus mehreren Monaten zu einer Zeitreihe verknüpfen, steht man daher vor der Aufgabe, die entsprechenden Dateien einzeln herunterzuladen und in einem zeitaufwendigen (und fehleranfälligen) Prozess jeweils nach dem exakt gleichen Schema in eine Datenbanktabelle umzuformen. Wird dabei manuell vorgegangen, kann diese Aufgabe ab einer gewissen Anzahl von Tabellen durchaus mehrere Stunden Zeit in Anspruch nehmen - Zeit, die bei der Analyse der Daten wohl sinnvoller investiert wäre und die wir mit selbstentwickelten Skripten zu großen Teilen einsparen können.

**Mit *Jupyter Notebooks* Skripte für die Datenaufbereitung erstellen**

Für das Erstellen unseres Skripts nutzen wir in diesem Beispiel eine browserbasierte Open Source Software namens *Jupyter Notebook*. Das folgende Video leitet sie Schritt für Schritt durch den Installationsprozess und erklärt die grundlegenden Bedienungsfunktionen:

Das *Jupyter Notebook* ist eine interaktive Entwicklungsumgebung u.a. für die Programmiersprache Python, die aufgrund ihrer eingängigen Syntax in den vergangenen Jahren eine rasche Verbreitung in datenintensiven Tätigkeitsfeldern gefunden hat. <a href="https://towardsdatascience.com/a-beginners-guide-to-python-for-data-science-60ef022b7b67" target="_blank">(Quelle)</a> *Jupyter Notebooks* erlauben es dem Anwender, ihren Python-Code in interaktiven Notebooks zu schreiben, zu kommentieren und auszuführen. Das Besondere daran: Das Ergebnis jedes einzelnen Code-Bausteins - wir benutzen im weiteren Verlauf den Begriff *input*-Feld - wird dem Anwender unmittelbar nach der Ausführung in einem *output*-Feld angezeigt:

In [1]:
a = 1
b = 2
a + b

3

Diese intuitive und responsive Form der Befehlseingabe erleichtert insbesondere Nutzern ohne bisherige Programmiererfahrung den Einstieg in die Erstellung eigener Skripte. Ein weiterer Vorteil: Obwohl es sich um eine browserbasierte Software handelt, die auf jedem Endgerät installiert werden kann, werden die Notebooks als lokale Dateien mit der Endung ``.ipynb`` auf der Festplatte des Anwenders gespeichert. <a href="https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/What%20is%20the%20Jupyter%20Notebook.html" target="_blank">(Quelle)</a>

Alternative Entwicklungsumgebunden für Python, die sich ebenfalls für das Entwickeln von Datenaufbereitsskripten eignen, <a href="https://wiki.python.org/moin/IntegratedDevelopmentEnvironments" target="_blank">finden Sie unter diesem Link</a>.


# Daten laden und sichten

Nachdem wir die Software installiert und - wie im Video beschrieben - ein neues Notebook auf unserer lokalen Festplatte angelegt haben, können wir damit beginnen, unsere Daten in das Notebook zu laden. 

Doch bevor wir loslegen, importieren wir zunächst die Python-Bibliotheken, mit denen wir im weiteren Verlauf arbeiten werden: 
* Die Bibliothek `pandas` enthält alle notwendigen Werkzeuge zur Transformation unseres Datensatzes 
* Die Bibliothek `xlrd` ermöglicht uns den unkomplizierten Import von Excel-Dateien


In [1]:
import pandas
import xlrd

In einem ersten Schritt laden wir nun unsere Rohdaten in das Notebook. Wir haben schon im Vorfeld einen kurzen Blick in die Exceldatei geworfen und dabei bemerkt, dass es sich um eine Arbeitsmappe mit mehreren Datenblättern handelt. Wir benötigen für unsere Zwecke nur eines dieser Datenblätter und werden dies beim Import entsprechend berücksichtigen:

Über den Befehl `pandas.read_excel()` lesen wir das in der Excel-Datei `but-d-0-201909-xlsx.xlsx` enthaltene Datenblatt ``2 Leistungsarten`` aus und speichern es innerhalb unseres Notebooks als ein Tabellenobjekt mit dem Namen `tabelle`. 

Mit dem Ausdruck `na.values=['.','*']` sorgen wir außerdem dafür, dass alle Punkte und Sterne innerhalb der Tabelle schon beim Dateiimport mit dem Wert "NaN" (Pandas' Standardzeichen für fehlende Werte) ersetzt werden. Wenn wir die fertige Tabelle später als .csv-Datei speichern, werden die Zellen mit einem "NaN"-Wert automatisch in leere Zellen umgewandelt - genau so, wie sie für die Weiterverarbeitung mit komBi vorliegen müssen. Wenn die Unterscheidung in fehlende und anonymisierte Werte erhalten bleiben soll oder der Anwender anders mit ihnen verfahren möchte, kann der entsprechende Zusatz entfernt werden.

Wichtige Anmerkung für den Dateiimport: Unsere Excel-Datei und das Notebook, mit dem wir arbeiten, müssen sich in demselben Verzeichnis befinden. Andernfalls muss in den Klammern nicht bloß der Dateiname, sondern der genaue Dateipfad zur Exceldatei angegeben werden.

Zusammengefasst lautet der Befehl für den Datenimport in unserem Fall also folgendermaßen:

In [2]:
tabelle = pandas.read_excel("but-d-0-201909-xlsx.xlsx",sheet_name = "2 Leistungsarten", na_values = ["."',"*"])

Als nächstes möchten wir uns einen ersten Eindruck über die Struktur der importierten Daten verschaffen. Mit dem Befehl `tabelle.head(20)` lassen wir uns deshalb die ersten 20 Zeilen unserer Tabelle anzeigen:

In [4]:
tabelle.head(20)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
0,,,,,,,
1,Bestand Leistungsberechtigter (LB) mit Anspruc...,,,,,,
2,"Bund, Länder, Kreise",,,,,,
3,September 2019,,,,,,
4,,,,,,,
5,Hinweis: Aufgrund der niedrigen Fallzahlen wer...,,,,,,
6,Hinweis: Bei den grau hinterlegten Bundes- und...,,,,,,
7,Region,,Bestand Leistungsberechtigte SGB II unter 25 J...,darunter: Leistungsberechtigte mit Anspruch au...,,,
8,,,,Insgesamt,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
9,,,,,,,


Schon auf den ersten Blick sehen wir eine sehr unaufgeräumte Tabelle mit vielen leeren Zellen, Sonderzeichen, überflüssigen Zeilen, unbenannten Spaltenköpfen usw. Wir merken uns diese Beobachtungen genau, denn auf ihrer Grundlage werden wir später unsere Tabelle umwandeln. 

Dasselbe machen wir jetzt noch mit dem Tabellenende. Der Befehl `tabelle.tail(10)` zeigt uns die letzten 10 Zeilen der Tabelle an:

In [5]:
tabelle.tail(10)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
427,Saalfeld-Rudolstadt,16073000.0,1658.0,232.0,27.0,173.0,32
428,Saale-Holzland-Kreis,16074000.0,1062.0,100.0,15.0,70.0,15
429,Saale-Orla-Kreis,16075000.0,1416.0,539.0,194.0,302.0,43
430,Greiz,16076000.0,1318.0,436.0,203.0,222.0,11
431,Altenburger Land,16077000.0,2788.0,1071.0,433.0,564.0,74
432,"Zeichenlegende: "" ."" nicht verfügbar; ""x"" ...",,,,,,© Statistik der Bundesagentur für Arbeit
433,*Aus Datenschutzgründen und Gründen der statis...,,,,,,
434,rechnerisch auf einen solchen Zahlenwert gesch...,,,,,,
435,Grundlagen und fachlichen Regeln der statistis...,,,,,,
436,http://statistik.arbeitsagentur.de/Navigation/...,,,,,,


Auch am Tabellenende fallen uns fünf Zeilen auf, die für unsere finale Datenbanktabelle nicht benötigt werden und die wir ebenfalls werden entfernen müssen. 

Insgesamt haben wir nun ausreichend Informationen gesammelt, um unsere Tabelle im nächsten Abschnitt grob für die weitere Verarbeitung vorzubereiten.

# Grobe Aufräumarbeiten: Nicht benötigte Zeilen und Spalten löschen

In einem ersten Schritt zur Datenaufbereitung löschen wir nun zunächst eine Reihe überflüssiger Zeilen, um die Tabelle etwas übersichtlicher zu gestalten. Hierzu bietet Python zwei verschiedene Befehle an, die jeweils unterschiedlichen Zwecken dienen:

**Große Anzahl nicht benötigter Zeilen löschen**

Der Befehl `.iloc[]` wird verwendet, wenn eine Tabelle grob auf einen bestimmten Zeilenbereich "zugeschnitten" werden soll. In unserem Beispiel sind dies die Zeilen 7 bis 432, in denen unsere Messwerte enthalten sind. Die Informationen in den Zeilen davor und danach sind für unsere Zwecke überflüssig. Der Befehl `.iloc[7:432]` kann also gelesen werden als: "Nur den Zeilenbereich 7 bis 432 übernehmen".

Wie auch im weiteren Verlauf unseres Notebooks speichern wir das Ergebnis dieser Operation in einem neuen Tabellenobjekt (der `tabelle1`), damit unsere Ausgangstabelle nicht überschrieben wird:

In [3]:
tabelle1 = tabelle.iloc[7:432]
tabelle1

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
7,Region,,Bestand Leistungsberechtigte SGB II unter 25 J...,darunter: Leistungsberechtigte mit Anspruch au...,,,
8,,,,Insgesamt,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
9,,,,,,,
10,,,,,,,
11,,,1,2,3,4,5
...,...,...,...,...,...,...,...
427,Saalfeld-Rudolstadt,16073000.0,1658,232,27,173,32
428,Saale-Holzland-Kreis,16074000.0,1062,100,15,70,15
429,Saale-Orla-Kreis,16075000.0,1416,539,194,302,43
430,Greiz,16076000.0,1318,436,203,222,11


**Einzelne überflüssige Zeilen löschen**

Der Befehl `.drop()` hingegen wird für feinere Anpassungen verwendet, also für das Löschen einzelner Zeilen. In unserem Fall sind dies die Zeilen 9 und 10, die keinerlei Werte enthalten. Der Zusatz `axis=0` ist wichtig, da sich mit demselben Befehl auch ganze Spalten löschen lassen (nämlich mit dem Zusatz `axis=1`).

In [4]:
tabelle2 = tabelle1.drop([9,10], axis = 0)
tabelle2.head(15)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
7,Region,,Bestand Leistungsberechtigte SGB II unter 25 J...,darunter: Leistungsberechtigte mit Anspruch au...,,,
8,,,,Insgesamt,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
11,,,1,2,3,4,5
12,Deutschland,,2251546,592910,160696,359052,73162
13,Westdeutschland,,1739326,415205,111342,252049,51814
14,Ostdeutschland,,512220,177705,49354,107003,21348
15,Schleswig-Holstein,1.0,87574,34526,9604,19780,5142
16,Hamburg,2.0,73507,21007,1337,17471,2199
17,Niedersachsen,3.0,227873,46205,11418,28110,6677
18,Bremen,4.0,42508,2925,854,1619,452


Die Tabelle ist damit schon ein wenig übersichtlicher geworden, überflüssige Zeilen am Anfang und am Ende wurden entfernt.

**Nicht benötigte Spalten löschen**

Als nächstes nehmen wir uns die Spalten vor und löschen  in einem ersten Schritt all jene Spalten, die wir für unsere Zieltabelle nicht benötigen: 
- Die Spalte "Unnamed: 1" enthält einen Regionalcode, den wir nicht weiter benötigen (alternativ könnte auch der Regionalcode beibehalten und stattdessen die Spalte "Unnamed: 0" mit den ausgeschriebenen Regionsbezeichnungen gelöscht werden). 
- Die Spalte "Unnamed: 3" enthält die aggregierten Werte ohne Unterscheidung nach Altersgruppen. Diese würden in unserer Zieltabelle stören und werden deshalb ebenfalls entfernt. **Wichtig:** Auf diesem Wege landen wir im Ergebnis bei einer Zieltabelle, bei der (aufgrund fehlender oder anonymisierter Werte in einzelnen Zeilen) nicht für jede Gebietseinheit davon ausgegangen werden kann, dass sich die Anzahl der Leistungsberechtigten in den drei Altersgruppen zur Gesamtanzahl der tatsächlich Leistungsberechtigten summiert. Beim Laden der Daten in unsere Datenbank sollte diese Information unbedingt dokumentiert werden. Außerdem empfiehlt es sich, in den Einstellungsoptionen unserer Datenbanksoftware festzulegen, dass die Daten *nicht* über die Altersgruppen aggregiert werden können. **Ein leicht abgewandeltes Skript, das dieses Problem auf alternative Weise behebt, finden Sie ganz am Ende dieses Notebooks.**



Mit dem Befehl `.drop(columns = [])` löschen wir die genannten Spalten aus der Tabelle:

In [5]:
tabelle3 = tabelle2.drop(columns = ["Unnamed: 1", "Unnamed: 3"])
tabelle3.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 2,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
7,Region,Bestand Leistungsberechtigte SGB II unter 25 J...,,,
8,,,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
11,,1,3,4,5
12,Deutschland,2251546,160696,359052,73162
13,Westdeutschland,1739326,111342,252049,51814


Die groben Aufräumarbeiten sind damit abgeschlossen. Wir können uns nun daran begeben, unsere Daten in das gewünschte Zielformat umzuformen.

# Zieltabelle erstellen


An dieser Stelle muss nun der Anwender entscheiden, wie seine Tabelle im Ergebnis aufgebaut sein soll und welche Daten er in die fertige Tabelle übernehmen möchte. Wir entscheiden uns in diesem Beispiel dafür, die Daten zum "Bestand Leistungsberechtigte SGB II unter 25 Jahre" zu löschen und bloß die Daten zu den "Leistungsberechtigten mit Anspruch auf mindestens eine Leistung zu Bildung und Teilhabe" nach Altersgruppen zu übernehmen.

[Hier das fünfte Video einbetten]

**Weitere überflüssige Spalten löschen**

Mit dem schon bekannten Befehl `.drop()` löschen wir dazu als erstes die nicht länger benötigte Spalte "Unnamed: 2" :

In [6]:
zieltabelle = tabelle3.drop(columns = ["Unnamed: 2"])
zieltabelle.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 4,Unnamed: 5,Grundsicherung für Arbeitsuchende nach dem SGB II
7,Region,,,
8,,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
11,,3,4,5
12,Deutschland,160696,359052,73162
13,Westdeutschland,111342,252049,51814


**Benötigte Spalten umbenennen**

Mit dem Befehl `.rename()` können wir nun, nachdem wir uns über den Aufbau der Zieltabelle im Klaren sind, außerdem unsere Spaltenköpfe umbenennen. Die bestehenden Spaltentitel wurden beim Dateiimport automatisch vergeben und haben bislang eher als Platzhalter fungiert.

Um genau zu steuern, welche Spalten wie umbenannt werden, spezifizieren wir unseren Befehl `.rename()` mit einem sogenannten "Wörterbuch", also einer Reihe von Wortpaaren nach dem Schema `{"Alter Spaltenname":"Neuer Spaltenname",...}`:

In [7]:
zieltabelle1 = zieltabelle.rename(columns={"Unnamed: 0":"Region", "Unnamed: 4":"0_bis_5", "Unnamed: 5":"6_bis_14", "Grundsicherung für Arbeitsuchende nach dem SGB II":"15_bis_24"})
zieltabelle1.head()

Unnamed: 0,Region,0_bis_5,6_bis_14,15_bis_24
7,Region,,,
8,,unter 6 Jahren,6 bis unter 15 Jahren,15 Jahre und älter
11,,3,4,5
12,Deutschland,160696,359052,73162
13,Westdeutschland,111342,252049,51814


**Weitere überflüssige Zeilen löschen**

Nachdem wir nun die Information, welche Spalte die Daten zu welcher Altersgruppe enthält, in die Spaltenköpfe übernommen haben, werden die drei Zeilen an den Indexpositionen 7, 8 und 11 nicht länger benötigt und können mit dem  Befehl `.drop()` ebenfalls entfernt werden:

In [8]:
zieltabelle2 = zieltabelle1.drop([7,8,11], axis = 0)
zieltabelle2.head()

Unnamed: 0,Region,0_bis_5,6_bis_14,15_bis_24
12,Deutschland,160696,359052,73162
13,Westdeutschland,111342,252049,51814
14,Ostdeutschland,49354,107003,21348
15,Schleswig-Holstein,9604,19780,5142
16,Hamburg,1337,17471,2199


Das Ergebnis sieht bereits vielversprechend aus. Ein letzter Schritt, bevor wir uns an die Herstellung des gewünschten Zielformats begeben, besteht nun darin, unsere Daten mit einer Spalte für die Monatsangabe zu ergänzen. Denn wie eingangs gesagt, planen wir in diesem Beispielszenario, die fertig aufbereiteten Tabellen aus den einzelnen Monaten anschließend zu einer Zeitreihe zu verknüpfen.

**Daten anreichern: Spalte einfügen und automatisch füllen**

Da unsere Ausgangstabelle ohnehin nur Daten aus einem Monat enthielt, war darin keine gesonderte Spalte für den Erhebungsmonat vorgesehen. Mit dem Befehl `.insert()` können wir diese nachträglich einfügen und durchgehend mit dem Wert "09_2019" füllen. Die `1` in den Klammern hinter dem Befehl legt dabei fest, dass die neue Spalte an der Position 1 (also rechts neben der Spalte "Region" an der Position 0) eingefügt werden soll :

In [9]:
zieltabelle2.insert(1, "Monat", "09_2019")
zieltabelle2.head()

Unnamed: 0,Region,Monat,0_bis_5,6_bis_14,15_bis_24
12,Deutschland,09_2019,160696,359052,73162
13,Westdeutschland,09_2019,111342,252049,51814
14,Ostdeutschland,09_2019,49354,107003,21348
15,Schleswig-Holstein,09_2019,9604,19780,5142
16,Hamburg,09_2019,1337,17471,2199


**Umwandlung vom "breiten" ins "lange" Tabellenformat**


Jetzt wird es interessant, denn wir beginnen nun damit, unser Daten in das "lange" Tabellenformat umzuwandeln: Im Ergebnis möchten wir eine Spalte mit unseren Messwerten erhalten (die spätere Kennzahlenspalte) und je eine weitere Spalte für jedes Differenzierungsmerkmal, nach dem unsere Daten vorliegen (die späteren "Schlüsselspalten").

Die dazu notwendige Umwandlungsoperation lässt sich schematisch folgendermaßen darstellen: Aus einer "breiten" Ausgangstabelle mit einer Spalte je Altersgruppe...

| Region | Monat | 0_bis_5 | 6_bis_14 | 15_bis_24|
|------|------|------|------|------|
| Beispielregion | Beispielmonat | 20 | 30 | 40 |

...soll eine "lange" Zieltabelle hergestellt werden, welche die Ausprägungen des Merkmals "Altersgruppe" in einer Spalte zusammenfasst:


| Region | Monat | Altersgruppe | Kennzahl |
|------|------|------|------|
| Beispielregion | Beispielmonat | 0_bis_5 | 20 |
| Beispielregion | Beispielmonat | 6_bis_14 | 30 |
| Beispielregion | Beispielmonat | 15_bis_24 | 40 |

**Daten in das "lange" Tabellenformat überführen**

Manuell ist dieser Vorgang schon für eine Tabelle recht mühsam durchzuführen (von der Fehleranfälligkeit ganz abgesehen). Wenn aber, wie in unserem Beispiel, gleich mehrere Tabellen (nämlich eine pro Erhebungsjahr) einzeln nacheinander umgeformt werden müssen, kann dies schnell sehr viel Zeit beanspruchen - Zeit, welche die meisten Monitorer lieber für die gründliche Analyse ihrer Daten aufwenden würden.

Zum Glück lässt sich dieser Prozess mit Python sehr leicht automatisieren. Im Grunde genügen hierfür vier Zeilen Code:

1. In einem ersten Schritt erstellen wir eine Liste mit den Namen von all denjenigen Merkmalsspalten, die bereits im richtigen ("langen") Format vorliegen und von der folgenden Umformung *nicht* berührt werden sollen. In unserem Beispiel also die Spalten "Region" und "Monat":


In [10]:
liste = ["Region", "Monat"]

2. Mit dem Befehl ``set_index()`` werden die Spalten in dieser Liste  nun zum Tabellenindex erklärt und dienen uns fortan als "Anker" für die Umformung:


In [11]:
zieltabelle3 = zieltabelle2.set_index(liste)

3. In einem dritten Schritt werden mit dem Befehl ``.stack()`` die drei Spalten mit den Altersgruppen untereinander gestapelt (von englisch *to stack*: stapeln). Mit dem Zusatz `dropna=False` verhindern wir, dass dabei Zeilen mit fehlenden Werten standardmäßig gelöscht werden:



In [12]:
zieltabelle_gestapelt = zieltabelle3.stack(dropna = False)

4. Abschließend wird mittels ``.reset_index()`` der im zweiten Schritt erstellte Index wieder in einen normalen, numerierten Tabellenindex zurückgesetzt:

In [13]:
zieltabelle_gestapelt1 = zieltabelle_gestapelt.reset_index()
zieltabelle_gestapelt1.head()

Unnamed: 0,Region,Monat,level_2,0
0,Deutschland,09_2019,0_bis_5,160696
1,Deutschland,09_2019,6_bis_14,359052
2,Deutschland,09_2019,15_bis_24,73162
3,Westdeutschland,09_2019,0_bis_5,111342
4,Westdeutschland,09_2019,6_bis_14,252049


Fertig! Liegen diese vier Code-Bausteine einmal vorbereitet in der Schublade, brauchen Tabellenabschnitte nicht länger manuell in Excel hin- und hergeschoben werden, sondern können innerhalb von Sekunden automatisch in das "lange" Format gebracht werden.

Im Prinzip trennen uns jetzt bloß noch die falsch benannten Spaltenköpfe von der gewünschten Zieltabelle. Wir greifen erneut zu `.rename()` und erhalten im Ergebnis eine Tabelle, die so bereits als CSV-Datei exportiert werden könnte:

In [14]:
zieltabelle_gestapelt2 = zieltabelle_gestapelt1.rename(columns = {"level_2":"Altersgruppe",0:"Leistungsberechtigte_BuT"})
zieltabelle_gestapelt2.head()

Unnamed: 0,Region,Monat,Altersgruppe,Leistungsberechtigte_BuT
0,Deutschland,09_2019,0_bis_5,160696
1,Deutschland,09_2019,6_bis_14,359052
2,Deutschland,09_2019,15_bis_24,73162
3,Westdeutschland,09_2019,0_bis_5,111342
4,Westdeutschland,09_2019,6_bis_14,252049


# Ergebnistabelle für den Export vorbereiten und im .csv-Format speichern

[Hier das sechste Video einbetten]

**Sonderzeichen suchen und ersetzen**

In einem vorletzten Schritt ersetzen wir jetzt noch in der Spalte "Region" alle Umlaute wie "ä" oder "ü" durch zwei einfache Vokale und verhindern dadurch, dass es später Probleme bei der Dateispeicherung im .csv-Format geben wird. Wir nutzen hierzu erneut den Befehl `.replace()` in Kombination mit einem Wörterbuch, das die Wortpaare für die "Suchen-Ersetzen"-Operation enthält:

In [15]:
umlaute = {"ä":"ae", "Ä":"Ae", "ö":"oe", "Ö":"Oe", "Ü":"Ue", "ü":"ue", "ß":"ss"}

zieltabelle_gestapelt2["Region"].replace(umlaute, inplace = True, regex = True)

Um das Ergebnis zu überprüfen, lassen wir uns mittels `.unique()` die distinkten Einträge in der Spalte "Region" anzeigen:

In [16]:
zieltabelle_gestapelt2.Region.unique()

array(['Deutschland', 'Westdeutschland', 'Ostdeutschland',
       'Schleswig-Holstein', 'Hamburg', 'Niedersachsen', 'Bremen',
       'Nordrhein-Westfalen', 'Hessen', 'Rheinland-Pfalz',
       'Baden-Wuerttemberg', 'Bayern', 'Saarland', 'Berlin',
       'Brandenburg', 'Mecklenburg-Vorpommern', 'Sachsen',
       'Sachsen-Anhalt', 'Thueringen', 'Flensburg, Stadt',
       'Kiel, Landeshauptstadt', 'Luebeck, Hansestadt',
       'Neumuenster, Stadt', 'Dithmarschen', 'Herzogtum Lauenburg',
       'Nordfriesland', 'Ostholstein', 'Pinneberg', 'Ploen',
       'Rendsburg-Eckernfoerde', 'Schleswig-Flensburg', 'Segeberg',
       'Steinburg', 'Stormarn', 'Hamburg, Freie und Hansestadt',
       'Braunschweig, Stadt', 'Salzgitter, Stadt', 'Wolfsburg, Stadt',
       'Gifhorn', 'Goslar', 'Helmstedt', 'Northeim', 'Peine',
       'Wolfenbuettel', 'Goettingen', 'Region Hannover', 'Diepholz',
       'Hameln-Pyrmont', 'Hildesheim', 'Holzminden', 'Nienburg (Weser)',
       'Schaumburg', 'Celle', 'Cuxhaven', '

Als letzten Schritt vor dem Datei-Export gehen wir in unserem Beispiel davon aus, dass die fertige Datei nicht sämtliche Daten enthalten soll, sondern nur jene für die Kreise und kreisfreien Städte im Bundesland Rheinland-Pfalz. Kurz: Wir wollen wir Tabelle vor dem Speichern filtern.

Wenn sämtliche Daten in der Tabelle übernommen werden sollen, könnte dieser Schritt theoretisch entfallen. Für die Weiterverarbeitung der Daten in komBi sollte jedoch in jedem Fall darauf geachtet werden, dass die Daten in der fertigen Tabelle nur auf der niedrigsten verfügbaren Raumebene vorliegen.

**Tabelle nach bestimmten Werten filtern**

Python bietet eine Vielzahl von Methoden an, um Tabellen zu filtern - je nach dem, ob sehr komplexe oder eher allgemeine Filteranweisungen formuliert werden, ob die gefilterten Werte gelöscht oder bloß "ausgeblendet" werden sollen etc.

In unserem Beispiel möchten wir eine relativ große Anzahl an Werten (nämlich die Namen der 36 Kreise und kreisfreien Städte in Rheinland-Pfalz)  als Filterkriterien auf die Spalte "Region" anwenden. Wir entscheiden uns deshalb dafür, diese Werte zunächst in einer Liste namens `liste_rlp` zu speichern und mit dem Befehl `.isin()` anschließend den Abgleich zwischen der Liste und der Tabellenspalte "Region" zu vollziehen.

Im Ergebnis erhalten wir eine gefilterte Tabelle, die bloß noch die jene Zeilen enthält, bei denen es eine Übereinstimmung zwischen den Einträgen der `liste_rlp` und den Werten der Tabellenspalte "Region" gab:

In [17]:
liste_rlp = ['Koblenz, kreisfreie Stadt','Ahrweiler','Altenkirchen (Westerwald)','Bad Kreuznach','Birkenfeld','Cochem-Zell','Mayen-Koblenz','Neuwied','Rhein-Hunsrueck-Kreis','Rhein-Lahn-Kreis','Westerwaldkreis','Trier, kreisfreie Stadt','Bernkastel-Wittlich','Eifelkreis Bitburg-Pruem','Vulkaneifel','Trier-Saarburg','Frankenthal (Pfalz), kr.f. St.','Kaiserslautern, kreisfr. Stadt','Landau in der Pfalz, kr.f. St.','Ludwigshafen am Rhein, Stadt','Mainz, kreisfreie Stadt','Neustadt an der Weinstrasse,St.','Pirmasens, kreisfreie Stadt','Speyer, kreisfreie Stadt','Worms, kreisfreie Stadt','Zweibruecken, kreisfreie Stadt','Alzey-Worms','Bad Duerkheim','Donnersbergkreis','Germersheim','Kaiserslautern','Kusel','Suedliche Weinstraße','Rhein-Pfalz-Kreis','Mainz-Bingen','Suedwestpfalz']
but_rlp = zieltabelle_gestapelt2[zieltabelle_gestapelt2["Region"].isin(liste_rlp)]
but_rlp.head(10)

Unnamed: 0,Region,Monat,Altersgruppe,Leistungsberechtigte_BuT
483,"Koblenz, kreisfreie Stadt",09_2019,0_bis_5,191.0
484,"Koblenz, kreisfreie Stadt",09_2019,6_bis_14,385.0
485,"Koblenz, kreisfreie Stadt",09_2019,15_bis_24,45.0
486,Ahrweiler,09_2019,0_bis_5,
487,Ahrweiler,09_2019,6_bis_14,
488,Ahrweiler,09_2019,15_bis_24,
489,Altenkirchen (Westerwald),09_2019,0_bis_5,133.0
490,Altenkirchen (Westerwald),09_2019,6_bis_14,331.0
491,Altenkirchen (Westerwald),09_2019,15_bis_24,26.0
492,Bad Kreuznach,09_2019,0_bis_5,240.0


**Fertige Tabelle als csv-Datei exportieren**

Abschließend wird die fertige Tabelle mit dem Befehl `.to_csv()` exportiert. Der Zusatz `index=False` sorgt dafür, dass der nummerierte Tabellenindex nicht in die finale csv-Datei übernommen wird, während der Ausdruck `sep = ";"` das Semikolon als das Trennungszeichen für die Datenfelder der csv-Datei definiert.

Nach Ausführung des Befehls erscheint die Tabelle sofort als CSV-Datei mit dem Namen "but_2019.csv" in unserem Notebook-Verzeichnis:

In [18]:
but_rlp.to_csv("but_2019.csv", index = False, sep = ";")

# Skript als fertige Schablone zusammenfassen

Skripte werden vorrangig dann entwickelt, wenn es darum geht, ...
- eine große Anzahl nahezu identisch aufgebauter Tabellen auf einmal umzuwandeln
- die Aufbereitung eines Datensatzes zu automatisieren, der fortlaufend mit neuen Daten aktualisiert wird

In beiden Fällen rentiert sich der Zeitaufwand für die Skriptentwicklung dadurch, dass das Skript mehrfach und/oder fortlaufend verwendet wird. Um bei unserem Beispiel zu bleiben: Liegt das Skript erstmal vor, braucht man beim Erscheinen der aktuellen Monatszahlen zu den BuT-Leistungsberechtigen bloß noch minimale Änderungen am Skript vorzunehmen und kann die neue Datei anschließend innerhalb von Sekunden in das definierte Zielformat umwandeln.

[Hier das siebte Video einfügen]

Um dabei möglichst effizient vorzugehen, werden sich die meisten Anwender ihr Skript nicht in der oben dargelegten Form - mit ausführlicher Kommentierung und auf viele kurze Blöcke aufgeteilt - speichern, sondern in einer zusammengefassten Form, die bloß kurze Hinweise auf die anzupassenden Parameter enthält. Unten finden Sie deshalb den oben kleinteilig besprochenen Code (abzüglich der Befehle, die uns die Zwischenergebnisse anzeigen) nochmal in der Gesamtschau:

In [26]:
import pandas
import xlrd

# In der nächsten Zeile den Dateinamen anpassen
tabelle = pandas.read_excel("but-d-0-201909-xlsx.xlsx", sheet_name = "2 Leistungsarten", na_values = [".","*"])
tabelle1 = tabelle.iloc[7:432]
tabelle2 = tabelle1.drop([9,10], axis = 0)
tabelle3 = tabelle2.drop(columns=["Unnamed: 1", "Unnamed: 3"])
zieltabelle = tabelle3.drop(columns = ["Unnamed: 2"])
zieltabelle1 = zieltabelle.rename(columns = {"Unnamed: 0":"Region", "Unnamed: 4":"0_bis_5", "Unnamed: 5":"6_bis_14", "Grundsicherung für Arbeitsuchende nach dem SGB II":"15_bis_24"})
zieltabelle2 = zieltabelle1.drop([7,8,11], axis = 0)

# In der nächsten Zeile die Jahres- und Monatsangaben anpassen
zieltabelle2.insert(1, "Monat", "09_2019")
liste = ["Monat", "Region"]
zieltabelle3 = zieltabelle2.set_index(liste)
zieltabelle_gestapelt = zieltabelle3.stack(dropna=False)
zieltabelle_gestapelt1 = zieltabelle_gestapelt.reset_index()
zieltabelle_gestapelt2 = zieltabelle_gestapelt1.rename(columns={"level_2":"Altersgruppe",0:"Leistungsberechtigte_BuT"})
umlaute = {"ä":"ae", "Ä":"Ae", "ö":"oe", "Ö":"Oe", "Ü":"Ue", "ü":"ue", "ß":"ss"}
zieltabelle_gestapelt2["Region"].replace(umlaute, inplace = True, regex = True)
liste_rlp = ['Koblenz, kreisfreie Stadt','Ahrweiler','Altenkirchen (Westerwald)','Bad Kreuznach','Birkenfeld','Cochem-Zell','Mayen-Koblenz','Neuwied','Rhein-Hunsrueck-Kreis','Rhein-Lahn-Kreis','Westerwaldkreis','Trier, kreisfreie Stadt','Bernkastel-Wittlich','Eifelkreis Bitburg-Pruem','Vulkaneifel','Trier-Saarburg','Frankenthal (Pfalz), kr.f. St.','Kaiserslautern, kreisfr. Stadt','Landau in der Pfalz, kr.f. St.','Ludwigshafen am Rhein, Stadt','Mainz, kreisfreie Stadt','Neustadt an der Weinstrasse,St.','Pirmasens, kreisfreie Stadt','Speyer, kreisfreie Stadt','Worms, kreisfreie Stadt','Zweibruecken, kreisfreie Stadt','Alzey-Worms','Bad Duerkheim','Donnersbergkreis','Germersheim','Kaiserslautern','Kusel','Suedliche Weinstraße','Rhein-Pfalz-Kreis','Mainz-Bingen','Suedwestpfalz']
but_rlp = zieltabelle_gestapelt2[zieltabelle_gestapelt2["Region"].isin(liste_rlp)]

# In der nächsten Zeile den Dateinamen anpassen
but_rlp.to_csv("but_rlp_2019.csv", index = False, sep = ";")

Das oben zusammengefasste Skript kann nun verwendet werden, um die heruntergeladenen Excel-Dateien mit den Daten der einzelnen Jahrgänge rasch in das gewünschte, einheitliche Zielformat umzuwandeln. Die einzeln gespeicherten CSV-Dateien können anschließend in einer finalen Tabelle zusammengefasst und als Indikator in komBi angelegt werden.

# Anhang: Alternative Lösung zum Umgang mit den Missing Values

Im Abschnitt *Grobe Aufräumarbeiten: Nicht benötigte Zeilen und Spalten löschen* wurde auf das Problem hingewiesen, dass die fertige Tabelle aufgrund fehlender und/oder anonymisierter Werte in einigen Fällen keine zuverlässige Aggregation über die Altergsgruppen erlaubt: Die Summe der Leistungsberechtigten in den drei Altersgruppen ergibt nicht für jede Kommune die tatsächliche Gesamtzahl der Leistungsberechtigten. Bei der Weiterverarbeitung der Daten in komBi sollte dieser Hinweis unbedingt dokumentiert werden.

Eine alternative Lösung besteht darin, der Tabelle in der Spalte "Altersgruppen" eine künstliche Ausprägung namens "nz" (Abkürzung für "nicht zuzuordnen") hinzuzufügen, in der die Anzahl der fehlenden und anonymisierten Werte (also die Differenz zwischen der Gesamtzahl und der Summe der drei Altergruppen) berechnet wird. Die Summe dieser vier Ausprägungen (drei Altersgruppen + "keine_zuordnung") ergibt dann in jedem Fall die korrekte Gesamtzahl, was eine Aggregation über die Altersgruppen prinzipiell möglich macht.

Wir übernehmen dazu einfach den oben entwickelten Code bis zur Erstellung der "zieltabelle2" und achten darauf, in diesem Fall die Spalte mit den Gesamtwerten vorerst *nicht* zu entfernen:

In [27]:
tabelle = pandas.read_excel("but-d-0-201909-xlsx.xlsx", sheet_name = "2 Leistungsarten", na_values = [".","*"])
tabelle1 = tabelle.iloc[7:432]
tabelle2 = tabelle1.drop([9,10], axis = 0)
tabelle3 = tabelle2.drop(columns = ["Unnamed: 1"])
zieltabelle = tabelle3.drop(columns = ["Unnamed: 2"])
zieltabelle1 = zieltabelle.rename(columns = {"Unnamed: 3":"Insgesamt", "Unnamed: 0":"Region", "Unnamed: 4":"0_bis_5", "Unnamed: 5":"6_bis_14", "Grundsicherung für Arbeitsuchende nach dem SGB II":"15_bis_24"})
zieltabelle2 = zieltabelle1.drop([7,8,11], axis = 0)
zieltabelle2.head()

Unnamed: 0,Region,Insgesamt,0_bis_5,6_bis_14,15_bis_24
12,Deutschland,592910,160696,359052,73162
13,Westdeutschland,415205,111342,252049,51814
14,Ostdeutschland,177705,49354,107003,21348
15,Schleswig-Holstein,34526,9604,19780,5142
16,Hamburg,21007,1337,17471,2199


Noch bevor wir die Tabelle in das "lange" Zielformat umwandeln, erweitern wir dann unsere Tabelle um eine weitere Spalte, in der wir die Differenz zwischen der Spalte "Insgesamt" und den Spalten der drei Altersgruppen berechnen:

In [29]:
# Wir kopieren die Tabelle in ein neues Tabellenobjekt namens "tabelle_nan"
tabelle_nan = zieltabelle2

# Wir löschen all jene Zeilen, in denen noch nicht einmal die Gesamtwerte vorliegen:
tabelle_nan1 = tabelle_nan.dropna(axis = 0, subset = ["Insgesamt"])

# Die verbliebenen NaN-Werte in der Tabelle werden durch den Wert "0" ersetzt, damit anschließend mit ihnen gerechnet werden kann:
tabelle_nan2 = tabelle_nan1.fillna(0)

# Wir ergänzen eine neue Spalte namens "nz", welche die Differenz zwischen der "Insgesamt"-Spalte und der Summe der drei Altersgruppen-Spalten enthält:
tabelle_nan2["nz"] = tabelle_nan2["Insgesamt"] - tabelle_nan2["0_bis_5"] - tabelle_nan2["6_bis_14"] - tabelle_nan2["15_bis_24"] 

# Wir entfernen die Spalte mit den aggregierten Werten:
tabelle_nan3 = tabelle_nan2.drop(columns = ["Insgesamt"])
tabelle_nan3.tail()

Unnamed: 0,Region,0_bis_5,6_bis_14,15_bis_24,nz
427,Saalfeld-Rudolstadt,27,173,32,0
428,Saale-Holzland-Kreis,15,70,15,0
429,Saale-Orla-Kreis,194,302,43,0
430,Greiz,203,222,11,0
431,Altenburger Land,433,564,74,0


Anschließend fahren wir weitgehend genauso fort, wie mit der ursprünglichen Tabelle: Die Monatsspalte wird ergänzt, die Tabelle ins "lange" Zielformat umgewandelt und abschließend gefiltert:

In [30]:
tabelle_nan3.insert(1, "Monat", "09_2019")
liste = ["Monat", "Region"]
zieltabelle3 = tabelle_nan3.set_index(liste)
zieltabelle_gestapelt = zieltabelle3.stack(dropna = False)
zieltabelle_gestapelt1 = zieltabelle_gestapelt.reset_index()
zieltabelle_gestapelt2 = zieltabelle_gestapelt1.rename(columns = {"level_2":"Altersgruppe",0:"Leistungsberechtigte_BuT"})

# Mit der folgenden Zeile löschen wir alle Zeilen, bei denen in der Kennzahlenspalte der Wert "0" übrig geblieben ist:
zieltabelle_gestapelt3 = zieltabelle_gestapelt2[zieltabelle_gestapelt2.Leistungsberechtigte_BuT != 0]

# Anschließend fahren wir wie bei der ursprünglichen Variante fort:
umlaute = {"ä":"ae", "Ä":"Ae", "ö":"oe", "Ö":"Oe", "Ü":"Ue", "ü":"ue", "ß":"ss"}
zieltabelle_gestapelt4 = zieltabelle_gestapelt3.copy()
zieltabelle_gestapelt4["Region"].replace(umlaute, inplace = True, regex = True)
liste_rlp = ['Koblenz, kreisfreie Stadt','Ahrweiler','Altenkirchen (Westerwald)','Bad Kreuznach','Birkenfeld','Cochem-Zell','Mayen-Koblenz','Neuwied','Rhein-Hunsrueck-Kreis','Rhein-Lahn-Kreis','Westerwaldkreis','Trier, kreisfreie Stadt','Bernkastel-Wittlich','Eifelkreis Bitburg-Pruem','Vulkaneifel','Trier-Saarburg','Frankenthal (Pfalz), kr.f. St.','Kaiserslautern, kreisfr. Stadt','Landau in der Pfalz, kr.f. St.','Ludwigshafen am Rhein, Stadt','Mainz, kreisfreie Stadt','Neustadt an der Weinstrasse,St.','Pirmasens, kreisfreie Stadt','Speyer, kreisfreie Stadt','Worms, kreisfreie Stadt','Zweibruecken, kreisfreie Stadt','Alzey-Worms','Bad Duerkheim','Donnersbergkreis','Germersheim','Kaiserslautern','Kusel','Suedliche Weinstraße','Rhein-Pfalz-Kreis','Mainz-Bingen','Suedwestpfalz']
but_rlp = zieltabelle_gestapelt4[zieltabelle_gestapelt4["Region"].isin(liste_rlp)]
but_rlp.tail(30)

Unnamed: 0,Monat,Region,Altersgruppe,Leistungsberechtigte_BuT
717,09_2019,"Speyer, kreisfreie Stadt",6_bis_14,65
718,09_2019,"Speyer, kreisfreie Stadt",15_bis_24,21
720,09_2019,"Worms, kreisfreie Stadt",0_bis_5,146
721,09_2019,"Worms, kreisfreie Stadt",6_bis_14,443
722,09_2019,"Worms, kreisfreie Stadt",15_bis_24,28
727,09_2019,"Zweibruecken, kreisfreie Stadt",nz,107
728,09_2019,Alzey-Worms,0_bis_5,112
729,09_2019,Alzey-Worms,6_bis_14,442
730,09_2019,Alzey-Worms,15_bis_24,49
732,09_2019,Bad Duerkheim,0_bis_5,74


In [31]:
but_rlp.to_csv("but_rlp_2019.csv", index = False, sep = ";")

Das Ergebnis lässt sich im obigen Tabellenausschnitt am Beispiel der kreisfreien Stadt Zweibrücken überprüfen (Zeile 727): Während in der ersten Variante unserer Tabelle ersichtlich wurde, dass die Daten für diese Raumeinheit nicht nach Altersgruppen differenziert vorliegen, wird in dieser zweiten Tabellenvariante über den Schlüssel "nz" die Gesamtzahl der Leistungsberechtigten aufgeführt.

Auch diese alternative Variante unseres Skripts fassen wir abschließend in einer einzelnen Zelle zusammen:

In [33]:
import pandas
import xlrd

# In der nächsten Zeile den Dateinamen anpassen:
tabelle = pandas.read_excel("but-d-0-201909-xlsx.xlsx", sheet_name = "2 Leistungsarten", na_values = [".","*"])
tabelle1 = tabelle.iloc[7:432]
tabelle2 = tabelle1.drop([9,10], axis = 0)
tabelle3 = tabelle2.drop(columns = ["Unnamed: 1"])                         
zieltabelle = tabelle3.drop(columns = ["Unnamed: 2"])
zieltabelle1 = zieltabelle.rename(columns = {"Unnamed: 3":"Insgesamt", "Unnamed: 0":"Region", "Unnamed: 4":"0_bis_5", "Unnamed: 5":"6_bis_14", "Grundsicherung für Arbeitsuchende nach dem SGB II":"15_bis_24"})
zieltabelle2 = zieltabelle1.drop([7,8,11], axis = 0)
tabelle_nan = zieltabelle2
tabelle_nan1 = tabelle_nan.dropna(axis = 0, subset = ["Insgesamt"])
tabelle_nan2 = tabelle_nan1.fillna(0)
tabelle_nan2["nz"] = tabelle_nan2["Insgesamt"] - tabelle_nan2["0_bis_5"] - tabelle_nan2["6_bis_14"] - tabelle_nan2["15_bis_24"] 
tabelle_nan3 = tabelle_nan2.drop(columns = ["Insgesamt"])

# In der nächsten Zeile die Jahres- und Monatsangaben anpassen:
tabelle_nan3.insert(1, "Monat", "09_2019")
liste = ["Monat", "Region"]
zieltabelle3 = tabelle_nan3.set_index(liste)
zieltabelle_gestapelt = zieltabelle3.stack(dropna=False)
zieltabelle_gestapelt1 = zieltabelle_gestapelt.reset_index()
zieltabelle_gestapelt2 = zieltabelle_gestapelt1.rename(columns={"level_2":"Altersgruppe",0:"Leistungsberechtigte_BuT"})
zieltabelle_gestapelt3 = zieltabelle_gestapelt2[zieltabelle_gestapelt2.Leistungsberechtigte_BuT != 0]
umlaute = {"ä":"ae", "Ä":"Ae", "ö":"oe", "Ö":"Oe", "Ü":"Ue", "ü":"ue", "ß":"ss"}
zieltabelle_gestapelt4 = zieltabelle_gestapelt3.copy()
zieltabelle_gestapelt4["Region"].replace(umlaute, inplace=True, regex=True)
liste_rlp = ['Koblenz, kreisfreie Stadt','Ahrweiler','Altenkirchen (Westerwald)','Bad Kreuznach','Birkenfeld','Cochem-Zell','Mayen-Koblenz','Neuwied','Rhein-Hunsrueck-Kreis','Rhein-Lahn-Kreis','Westerwaldkreis','Trier, kreisfreie Stadt','Bernkastel-Wittlich','Eifelkreis Bitburg-Pruem','Vulkaneifel','Trier-Saarburg','Frankenthal (Pfalz), kr.f. St.','Kaiserslautern, kreisfr. Stadt','Landau in der Pfalz, kr.f. St.','Ludwigshafen am Rhein, Stadt','Mainz, kreisfreie Stadt','Neustadt an der Weinstrasse,St.','Pirmasens, kreisfreie Stadt','Speyer, kreisfreie Stadt','Worms, kreisfreie Stadt','Zweibruecken, kreisfreie Stadt','Alzey-Worms','Bad Duerkheim','Donnersbergkreis','Germersheim','Kaiserslautern','Kusel','Suedliche Weinstraße','Rhein-Pfalz-Kreis','Mainz-Bingen','Suedwestpfalz']
but_rlp = zieltabelle_gestapelt4[zieltabelle_gestapelt4["Region"].isin(liste_rlp)]

# In der nächsten Zeile den Dateinamen anpassen
but_rlp.to_csv("but_rlp_2019.csv", index = False, sep = ";")