In [7]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [8]:
path = "/content/drive/MyDrive/techlabs/Github/Wahlprogramme/"

In [9]:
##CSV Dateien der Wahlprogramme zusammenfügen

import pandas as pd
import glob

# Liste der Parteien & ihre Dateipfade
parteien = {
    "Grüne": path + "CSVs/gruene.csv",
    "Linke": path + "CSVs/die_linke.csv",
    "AFD": path + "CSVs/afd.csv",
    "SPD": path + "CSVs/spd.csv",
    "FDP": path + "CSVs/fdp.csv",
    "CDU": path + "CSVs/cdu_manuell_nachbearbeitet.csv"
}

# Leere Liste für die gesammelten Daten
data = []

# Durch die Wahlprogramme iterieren und Daten sammeln
for partei, dateipfad in parteien.items():
    # CSV laden, erste Spalte als "Abschnitt" benennen
    df = pd.read_csv(dateipfad, names=["Abschnitt"], usecols=[0], skiprows=1)
    df["Partei"] = partei  # Partei als zusätzliche Spalte hinzufügen
    data.append(df)

# Alle DataFrames zusammenfügen
df_gesamt = pd.concat(data, ignore_index=True)

# **Speicherung mit Semikolon statt Komma!**
df_gesamt.to_csv(path + "wahlprogramme_gesamt.csv", index=False, encoding="utf-8", sep=";")

# Speichern als Parquet (keine Trennzeichen-Probleme)
df_gesamt.to_parquet(path + "wahlprogramme_gesamt.parquet", index=False)

# Beispielhafte Ausgabe
print(df_gesamt.head())

                                           Abschnitt Partei
0  Bei den Bundestagswahlen am 23. Februar stehen...  Grüne
1  Es geht jetzt darum, diese Kraft als Zukunftsk...  Grüne
2  Die Menschen in Deutschland sind zu Recht stol...  Grüne
3  Unternehmen brauchen gute Wettbewerbsbedingung...  Grüne
4  Der Mangel an Arbeits und Fachkräften ist eine...  Grüne


In [None]:
## Parteinamen rausnehmen

def remove_substrings_replace(program, substrings, replacement):
    for substring in substrings:
        program = program.replace(substring, replacement)
    return program

substrings = ["FDP", "Freie Demokratische Partei",  "Freien Demokratischen Partei", "Freie-Demokratische Partei",  "Freien-Demokratischen Partei",
              "Freien Demokraten", "Freie Demokraten",  "Freie Demokratin", "Freier Demokrat", "Liberalen", "Liberaler", "Liberale",

              "SPD", "Sozialdemokratische Partei Deutschlands", "Sozialdemokratischen Partei Deutschlands",
              "Sozialdemokratische Partei", "Sozialdemokratischen Partei", "Sozial-Demokratische Partei", "Sozial-Demokratischen Partei",
               "Sozial-demokratische Partei", "Sozial-demokratischen Partei", "Sozialdemokraten", "Sozialdemokratin", "Sozialdemokrat",

              "CDU/CSU",
              "CDU", "Christlich Demokratische Union", "Christlich Demokratischen Union", "Christlich-Demokratische Union",
              "Christlich-Demokratischen Union", "Christlich-demokratische Union", "Christlich-demokratischen Union",

              "CSU", "Christlich-Soziale Union", "Christlich-Sozialen Union", "Christlich Soziale Union", "Christlich Sozialen Union",
              "Christlich-soziale Union", "Christlich-sozialen Union", "Union",
              "Christdemokraten" ,  "Christdemokratin" , "Christdemokrat",

              "Bündnis 90/Die Grünen", "Bündnis 90", "Grünen", "Grüner", "Grüne",

              "Linken", "Linker", "Linke",

              "AFD", "AfD",  "Alternativen für Deutschland", "Alternative für Deutschland"]

test = remove_substrings_replace("Wir, die Grünen, vom Bündnis 90/Die Grünen, lehnen natürlich jegliche Linke links von der AFD ab, und die liberalen Menschen von der Freien Demokratischen Partei auch, dafür sind wir freie Demokraten!",
                                 substrings = substrings, replacement = "Partei")
print(test)

df_gesamt['Abschnitt'] = df_gesamt['Abschnitt'].apply(lambda s: remove_substrings_replace(s, substrings = substrings, replacement = "Partei"))

Wir, die Partei, vom Partei, lehnen natürlich jegliche Partei links von der Partei ab, und die liberalen Menschen von der Partei auch, dafür sind wir freie Demokraten!


In [None]:
print(df_gesamt[:100])


                                            Abschnitt Partei
0   Bei den Bundestagswahlen am 23. Februar stehen...  Grüne
1   Es geht jetzt darum, diese Kraft als Zukunftsk...  Grüne
2   Die Menschen in Deutschland sind zu Recht stol...  Grüne
3   Unternehmen brauchen gute Wettbewerbsbedingung...  Grüne
4   Der Mangel an Arbeits und Fachkräften ist eine...  Grüne
..                                                ...    ...
95  Leerstand ist ein unterschätztes Problem. Deut...  Linke
96  Es gibt in Deutschland ungefähr 600 000 wohnun...  Linke
97  Die vergangenen Regierungen aus Partei, Partei...  Linke
98  ▪ Das Vermögen der etwa 250 Milliardäre in Deu...  Linke
99  Niedrige und mittlere Einkommen werden wir ent...  Linke

[100 rows x 2 columns]


In [None]:
# Speichern als Parquet (keine Trennzeichen-Probleme)
df_gesamt.to_parquet(path + "wahlprogramme_gesamt.parquet", index=False)