In [258]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import statsmodels.api as sm

In [260]:
# CSV-Dateien einlesen
# Strukturdaten
with open('bundesland_strukturdaten.csv', encoding='utf-8', errors='replace') as f:
    struktur_df = pd.read_csv(f)

# Wahldaten
with open('wahlergebnisse_with_general_data.csv', encoding='utf-8', errors='replace') as f:
    wahl_df = pd.read_csv(f)

In [262]:
wahl_df.rename(columns={
    'Gr�ne_Zweitstimmen_percent': 'Grüne_Zweitstimmen_percent',
    'Gr�ne_Erststimmen_percent': 'Grüne_Erststimmen_percent'
}, inplace=True)

In [264]:
wahl_df['Bundesland'] = wahl_df['Bundesland'].replace({
    'Baden-W�rttemberg': 'Baden-Württemberg',
    'Th�ringen': 'Thüringen'
})

In [266]:
struktur_df['Bundesland'] = struktur_df['Bundesland'].replace({
    'Baden_Wuerttemberg': 'Baden-Württemberg',
    'Nordrhein_Westfalen': 'Nordrhein-Westfalen',
    'Sachsen_Anhalt': 'Sachsen-Anhalt',
    'Schleswig_Holstein': 'Schleswig-Holstein',
    'Rheinland_Pfalz': 'Rheinland-Pfalz',
    'Mecklenburg_Vorpommern': 'Mecklenburg-Vorpommern',
    'Thueringen': 'Thüringen'
})

In [268]:
print(struktur_df.columns.tolist())
print(wahl_df.columns.tolist())

['Bundesland', 'Anzahl Gemeinden', 'Fl�che km2', 'Bev�lkerung in Tsd', 'davon Deutsche in Tsd', 'Ausl�nder*innenanteil', 'Bev�lkerungsdichte je km2', 'Geburtensaldo', 'Wanderungssaldo', 'Alter unter 16', 'Alter 16-17', 'Alter 18-24', 'Alter 25-34', 'Alter 35-59', 'Alter 60-74', 'Alter �ber 75', 'Bodenfl�che Siedlung und Verkehr', 'Bodenfl�che Vegetation & Gew�sser', 'Fertiggestellte Wohnungen 2021 je Tsd Einwohner*innen', 'Bestand an Wohnungen 2021 je Tsd Einwohner*innen', 'Wohnfl�che je Wohnnung 2021', 'Wohnfl�che 2021 je Tsd Einwohner*innen', 'PKW insgesamt je Tsd Einwohner*innen', 'PKW Elektro oder Hybrid', 'Unternehmen 2021 je Tsd Einwohner*innen', 'Handwerksunternehmen 2021 je Tsd Einwohner*innen', 'Schulabg�nger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen', 'Schulabg�nger*innen insgesamt ohne Externe je Tsd Einwohner*innen', 'Schulabg�nger*innen ohne Hauptschulabschluss', 'Schulabg�nger*innen mit Hauptschulabschluss', 'Schulabg�nger*innen mit Realschulabschluss', 'Schul

In [270]:
struktur_rename_map = {
    'Fl�che km2': 'Fläche km2',
    'Bev�lkerung in Tsd': 'Bevölkerung in Tsd',
    'Ausl�nder*innenanteil': 'Ausländer*innenanteil',
    'Bev�lkerungsdichte je km2': 'Bevölkerungsdichte je km2',
    'Alter �ber 75': 'Alter über 75',
    'Bodenfl�che Siedlung und Verkehr': 'Bodenfläche Siedlung und Verkehr',
    'Bodenfl�che Vegetation & Gew�sser': 'Bodenfläche Vegetation & Gewässer',
    'Wohnfl�che je Wohnnung 2021': 'Wohnfläche je Wohnung 2021',
    'Wohnfl�che 2021 je Tsd Einwohner*innen': 'Wohnfläche 2021 je Tsd Einwohner*innen',
    'Empf�nger*innen Leistungen SGB II je Tsd Einwohner*innen': 'Empfänger*innen Leistungen SGB II je Tsd Einwohner*innen',
    'Anteil SGB II Empf�nger*innen nichterwerbsf�hige Hilfebed�rftige': 'Anteil SGB II Empfänger*innen nichterwerbsfähige Hilfebedürftige',
    'Anteil SGB II Empf�nger*innen Ausl�nder*innen': 'Anteil SGB II Empfänger*innen Ausländer*innen',
    'Arbeitslosenquote M�nner': 'Arbeitslosenquote Männer',
    'Anteil Sozialversicherungspflichtige �ffentliche und private Dienstleister': 'Anteil Sozialversicherungspflichtige öffentliche und private Dienstleister',
    'Anteil Sozialversicherungspflichtige �brige Dienstleister': 'Anteil Sozialversicherungspflichtige übrige Dienstleister',
    'Schulabg�nger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen': 'Schulabgänger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen',
    'Schulabg�nger*innen insgesamt ohne Externe je Tsd Einwohner*innen': 'Schulabgänger*innen insgesamt ohne Externe je Tsd Einwohner*innen',
    'Schulabg�nger*innen ohne Hauptschulabschluss': 'Schulabgänger*innen ohne Hauptschulabschluss',
    'Schulabg�nger*innen mit Hauptschulabschluss': 'Schulabgänger*innen mit Hauptschulabschluss',
    'Schulabg�nger*innen mit Realschulabschluss': 'Schulabgänger*innen mit Realschulabschluss',
    'Schulabg�nger*innen mit allgemeiner und Fachhochschulreife': 'Schulabgänger*innen mit allgemeiner und Fachhochschulreife',
    'Verf�gbares Einkommen der privaten Haushalte 2021 EUR je Einwohner*in': 'Verfügbares Einkommen der privaten Haushalte 2021 EUR je Einwohner*in'
}

struktur_df.rename(columns=struktur_rename_map, inplace=True)

In [272]:
print(struktur_df.columns.tolist())
print(wahl_df.columns.tolist())

['Bundesland', 'Anzahl Gemeinden', 'Fläche km2', 'Bevölkerung in Tsd', 'davon Deutsche in Tsd', 'Ausländer*innenanteil', 'Bevölkerungsdichte je km2', 'Geburtensaldo', 'Wanderungssaldo', 'Alter unter 16', 'Alter 16-17', 'Alter 18-24', 'Alter 25-34', 'Alter 35-59', 'Alter 60-74', 'Alter über 75', 'Bodenfläche Siedlung und Verkehr', 'Bodenfläche Vegetation & Gewässer', 'Fertiggestellte Wohnungen 2021 je Tsd Einwohner*innen', 'Bestand an Wohnungen 2021 je Tsd Einwohner*innen', 'Wohnfläche je Wohnung 2021', 'Wohnfläche 2021 je Tsd Einwohner*innen', 'PKW insgesamt je Tsd Einwohner*innen', 'PKW Elektro oder Hybrid', 'Unternehmen 2021 je Tsd Einwohner*innen', 'Handwerksunternehmen 2021 je Tsd Einwohner*innen', 'Schulabgänger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen', 'Schulabgänger*innen insgesamt ohne Externe je Tsd Einwohner*innen', 'Schulabgänger*innen ohne Hauptschulabschluss', 'Schulabgänger*innen mit Hauptschulabschluss', 'Schulabgänger*innen mit Realschulabschluss', 'Schula

In [274]:
wahl_rename_map = {
    'W�hlende_total': 'Wählende_total',
    'W�hlende_percent': 'Wählende_percent',
    'Ung�ltige_Erststimmen_total': 'Ungültige_Erststimmen_total',
    'Ung�ltige_Erststimmen_percent': 'Ungültige_Erststimmen_percent',
    'Ung�ltige_Zweitstimmen_total': 'Ungültige_Zweitstimmen_total',
    'Ung�ltige_Zweitstimmen_percent': 'Ungültige_Zweitstimmen_percent',
    'G�ltige_Erststimmen_total': 'Gültige_Erststimmen_total',
    'G�ltige_Erststimmen_percent': 'Gültige_Erststimmen_percent',
    'G�ltige_Zweitstimmen_total': 'Gültige_Zweitstimmen_total',
    'G�ltige_Zweitstimmen_percent': 'Gültige_Zweitstimmen_percent',
    'Gr�ne_Erststimmen_total': 'Grüne_Erststimmen_total',
    'Gr�ne_Zweitstimmen_total': 'Grüne_Zweitstimmen_total'
}

wahl_df.rename(columns=wahl_rename_map, inplace=True)

In [276]:
print([col for col in wahl_df.columns if '�' in col])

[]


In [278]:
print(struktur_df['Bundesland'].unique())
print(wahl_df['Bundesland'].unique())

['Baden-W�rttemberg' 'Nordrhein-Westfalen' 'Sachsen-Anhalt' 'Berlin'
 'Schleswig-Holstein' 'Saarland' 'Hamburg' 'Bayern' 'Hessen'
 'Rheinland-Pfalz' 'Brandenburg' 'Bremen' 'Niedersachsen'
 'Mecklenburg-Vorpommern' 'Sachsen' 'Th�ringen']
['Baden-Württemberg' 'Nordrhein-Westfalen' 'Sachsen-Anhalt' 'Berlin'
 'Schleswig-Holstein' 'Saarland' 'Hamburg' 'Bayern' 'Hessen'
 'Rheinland-Pfalz' 'Brandenburg' 'Bremen' 'Niedersachsen'
 'Mecklenburg-Vorpommern' 'Sachsen' 'Thüringen']


In [280]:
merged_df = pd.merge(struktur_df, wahl_df, on='Bundesland')
print(merged_df.shape)  # Sollte (16, X) zurückgeben

(14, 89)


In [290]:
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
import pandas as pd

# Zielspalten (Zweitstimmen in %)
zielspalten = [
    'CDU/CSU_Zweitstimmen_percent',
    'SPD_Zweitstimmen_percent',
    'Grüne_Zweitstimmen_percent',
    'AfD_Zweitstimmen_percent',
    'Die Linke_Zweitstimmen_percent',
    'BSW_Zweitstimmen_percent',
    'FDP_Zweitstimmen_percent'
]

# Nur numerische Strukturmerkmale
strukturmerkmale = struktur_df.select_dtypes(include=[float, int]).columns

# Standardisiere die Strukturmerkmale (optional, aber sinnvoll)
scaler = StandardScaler()
struktur_df_scaled = struktur_df.copy()
struktur_df_scaled[strukturmerkmale] = scaler.fit_transform(struktur_df[strukturmerkmale])

# Ergebnisse speichern
alle_ergebnisse = []

# Univariate Regression für jede Kombination aus Strukturmerkmal & Partei
for faktor in strukturmerkmale:
    X = sm.add_constant(struktur_df_scaled[[faktor]])  # nur eine Variable + Intercept
    for spalte in zielspalten:
        if spalte in merged_df.columns:
            y = merged_df[spalte]
            model = sm.OLS(y, X).fit()

            # Nur speichern, wenn signifikant
            p_val = model.pvalues[faktor]
            if p_val < 0.05:
                ergebnis = {
                    'Partei': spalte.replace('_Zweitstimmen_percent', ''),
                    'Faktor': faktor,
                    'Koeffizient': model.params[faktor],
                    'p-Wert': p_val
                }
                alle_ergebnisse.append(ergebnis)

# In DataFrame umwandeln
signifikante_ergebnisse_df = pd.DataFrame(alle_ergebnisse)

# Exportieren
signifikante_ergebnisse_df.to_csv('univariate_signifikante_faktoren.csv', index=False)

# Vorschau
print(signifikante_ergebnisse_df.head())

ValueError: The indices for endog and exog are not aligned

In [None]:
signifikante_ergebnisse_df.info()

In [None]:
# Top-Merkmale aus univariater Analyse nehmen
top_faktoren = signifikante_ergebnisse_df['Faktor'].unique().tolist()

In [286]:
print(top_faktoren)

['Anzahl Gemeinden', 'Fläche km2', 'Bevölkerung in Tsd', 'davon Deutsche in Tsd', 'Ausländer*innenanteil', 'Bevölkerungsdichte je km2', 'Geburtensaldo', 'Wanderungssaldo', 'Alter unter 16', 'Alter 16-17', 'Alter 18-24', 'Alter 25-34', 'Alter 60-74', 'Alter über 75', 'Bodenfläche Siedlung und Verkehr', 'Bodenfläche Vegetation & Gewässer', 'Fertiggestellte Wohnungen 2021 je Tsd Einwohner*innen', 'Bestand an Wohnungen 2021 je Tsd Einwohner*innen', 'Wohnfläche je Wohnung 2021', 'Wohnfläche 2021 je Tsd Einwohner*innen', 'PKW insgesamt je Tsd Einwohner*innen', 'PKW Elektro oder Hybrid', 'Unternehmen 2021 je Tsd Einwohner*innen', 'Handwerksunternehmen 2021 je Tsd Einwohner*innen', 'Schulabgänger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen', 'Schulabgänger*innen insgesamt ohne Externe je Tsd Einwohner*innen', 'Schulabgänger*innen ohne Hauptschulabschluss', 'Schulabgänger*innen mit Hauptschulabschluss', 'Schulabgänger*innen mit Realschulabschluss', 'Schulabgänger*innen mit allgemeiner

In [288]:
# CSV mit signifikanten univariaten Ergebnissen laden (falls noch nicht vorhanden)
df = pd.read_csv('univariate_signifikante_faktoren.csv')

# Häufigkeit der Faktoren zählen
top_faktor_counts = df['Faktor'].value_counts()

# Anzeigen der Top-N
print(top_faktor_counts.head(10))

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8a in position 146: invalid start byte

In [207]:
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm
import pandas as pd

# Strukturmerkmale (alle numerischen Spalten)
X = struktur_df.select_dtypes(include=[np.number])

# Top-k Strukturmerkmale auswählen (z. B. die ersten 10 – oder spezifisch)
top_k = 10
selected_columns = X.columns[:top_k]  # Optional: z. B. ['BIP je Einwohner', 'Arbeitslosenquote ...']
X_reduced = X[selected_columns]

# Standardisieren
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_reduced)
X_const = sm.add_constant(X_scaled)

# Namen für spätere Zuordnung (Intercept + Strukturmerkmale)
faktornamen = ['Intercept'] + selected_columns.tolist()

In [209]:
# Zielvariablen (Zweitstimmen in %)
zielspalten = [
    'CDU/CSU_Zweitstimmen_percent',
    'SPD_Zweitstimmen_percent',
    'Grüne_Zweitstimmen_percent',
    'AfD_Zweitstimmen_percent',
    'Die Linke_Zweitstimmen_percent',
    'BSW_Zweitstimmen_percent',
    'FDP_Zweitstimmen_percent'
]

alle_ergebnisse = []

for spalte in zielspalten:
    if spalte in merged_df.columns:
        y = merged_df[spalte]
        model = sm.OLS(y, X_const).fit()

        # Erstelle DataFrame mit echten Namen
        df = pd.DataFrame({
            'Faktor': faktornamen,
            'Koeffizient': model.params.values,
            'p-Wert': model.pvalues.values,
        })
        df['Partei'] = spalte.replace('_Zweitstimmen_percent', '')
        alle_ergebnisse.append(df)
    else:
        print(f"Spalte nicht gefunden: {spalte}")

In [211]:
# Gesamttabelle erzeugen
ergebnisse_df = pd.concat(alle_ergebnisse, ignore_index=True)

# Export als CSV
ergebnisse_df.to_csv('wahlanalyse_regressionsergebnisse.csv', index=False)

# Optional: Anzeigen
print(ergebnisse_df.head())

                  Faktor  Koeffizient        p-Wert   Partei
0              Intercept    24.625000  6.264127e-07  CDU/CSU
1       Anzahl Gemeinden     2.547178  1.550889e-01  CDU/CSU
2             Fläche km2     0.993425  7.176272e-01  CDU/CSU
3     Bevölkerung in Tsd   -28.896386  6.744423e-01  CDU/CSU
4  davon Deutsche in Tsd    30.376064  6.634845e-01  CDU/CSU


In [213]:
# Nur Faktoren mit p-Wert < 0.05 und ohne Intercept
signifikant_df = ergebnisse_df[
    (ergebnisse_df['p-Wert'] < 0.05) &
    (ergebnisse_df['Faktor'] != 'Intercept')
]

In [198]:
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm
import pandas as pd

# Strukturmerkmale (alle numerischen Spalten)
X = struktur_df.select_dtypes(include=[np.number])

# Nur die ersten 10 Merkmale verwenden (du kannst später gezielt auswählen)
top_k = 10
selected_columns = X.columns[:top_k]  # oder manuell: ['Arbeitslosenquote', ...]
X_reduced = X[selected_columns]

# Standardisieren
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_reduced)
X_const = sm.add_constant(X_scaled)


# Liste der Zielvariablen (Zweitstimmen in %)
zielspalten = [
    'CDU/CSU_Zweitstimmen_percent',
    'SPD_Zweitstimmen_percent',
    'Grüne_Zweitstimmen_percent',
    'AfD_Zweitstimmen_percent',
    'Die Linke_Zweitstimmen_percent',
    'BSW_Zweitstimmen_percent',
    'FDP_Zweitstimmen_percent'
]

# Vor der Schleife
faktornamen = ['Intercept'] + selected_columns.tolist()


alle_ergebnisse = []

for spalte in zielspalten:
    if spalte in merged_df.columns:
        y = merged_df[spalte]
        model = sm.OLS(y, X_const).fit()

        print(f"Spalte: {spalte}")
        print("Anzahl Beobachtungen:", len(y))
        print("Anzahl Prädiktoren:", X_const.shape[1])
        print("P-Werte:", model.pvalues)

        
        # Erstelle DataFrame basierend auf den Indexen von model.params und model.pvalues
        df = pd.DataFrame({
            'Faktor': faktornamen,
            'Koeffizient': model.params.values,
            'p-Wert': model.pvalues.values,
        })
        df['Partei'] = spalte.replace('_Zweitstimmen_percent', '')
        alle_ergebnisse.append(df)
    else:
        print(f"Spalte nicht gefunden: {spalte}")

# Alle Ergebnisse zusammenfassen
ergebnisse_df = pd.concat(alle_ergebnisse, ignore_index=True)

# Export
ergebnisse_df.to_csv('wahlanalyse_regressionsergebnisse.csv', index=False)

Spalte: CDU/CSU_Zweitstimmen_percent
Anzahl Beobachtungen: 16
Anzahl Prädiktoren: 11
P-Werte: const    6.264127e-07
x1       1.550889e-01
x2       7.176272e-01
x3       6.744423e-01
x4       6.634845e-01
x5       4.933490e-01
x6       9.637116e-01
x7       7.529995e-01
x8       8.914656e-01
x9       3.944884e-01
x10      1.779523e-01
dtype: float64
Spalte: SPD_Zweitstimmen_percent
Anzahl Beobachtungen: 16
Anzahl Prädiktoren: 11
P-Werte: const    0.000016
x1       0.620192
x2       0.807718
x3       0.323784
x4       0.335785
x5       0.295124
x6       0.814921
x7       0.551814
x8       0.535296
x9       0.954166
x10      0.065528
dtype: float64
Spalte: Grüne_Zweitstimmen_percent
Anzahl Beobachtungen: 16
Anzahl Prädiktoren: 11
P-Werte: const    0.000002
x1       0.451125
x2       0.884885
x3       0.985581
x4       0.986345
x5       0.412335
x6       0.407901
x7       0.201145
x8       0.506904
x9       0.929359
x10      0.096386
dtype: float64
Spalte: AfD_Zweitstimmen_percent
Anzahl B

In [196]:
print(ergebnisse_df.head())
print(ergebnisse_df['p-Wert'].isna().sum())

  Faktor  Koeffizient        p-Wert   Partei
0  const    24.625000  6.264127e-07  CDU/CSU
1     x1     2.547178  1.550889e-01  CDU/CSU
2     x2     0.993425  7.176272e-01  CDU/CSU
3     x3   -28.896386  6.744423e-01  CDU/CSU
4     x4    30.376064  6.634845e-01  CDU/CSU
0


In [186]:
ergebnisse_df.head()

Unnamed: 0,Faktor,Koeffizient,p-Wert,Partei
0,const,24.625,,CDU/CSU
1,x1,0.875134,,CDU/CSU
2,x2,0.538621,,CDU/CSU
3,x3,0.859356,,CDU/CSU
4,x4,0.859499,,CDU/CSU


In [152]:
signifikant_df = ergebnisse_df[
    (ergebnisse_df['p-Wert'] < 0.05) & 
    (ergebnisse_df['Faktor'] != 'Intercept')

SyntaxError: incomplete input (3703630389.py, line 3)

In [None]:
print(signifikant_df.shape)
print(signifikant_df['Partei'].value_counts())

In [124]:
import matplotlib.pyplot as plt
import seaborn as sns

# Nur signifikante, nicht-intercept Faktoren
signifikant_df = ergebnisse_df[
    (ergebnisse_df['p-Wert'] < 0.05) & 
    (ergebnisse_df['Faktor'] != 'Intercept')
]

# Pivotieren: Zeilen = Faktoren, Spalten = Parteien, Werte = Koeffizienten
heatmap_df = signifikant_df.pivot_table(
    index='Faktor',
    columns='Partei',
    values='Koeffizient',
    aggfunc='first'  # falls doppelt vorhanden
)

# Plot
plt.figure(figsize=(12, 10))
sns.heatmap(heatmap_df, annot=True, cmap='coolwarm', center=0, linewidths=0.5, fmt=".2f")

# Verständliche Achsen & Titel
plt.title('Einfluss signifikanter Strukturmerkmale auf Wahlergebnisse der Parteien', fontsize=14)
plt.xlabel('Partei', fontsize=12)
plt.ylabel('Strukturfaktor', fontsize=12)
plt.tight_layout()
plt.show()

ValueError: zero-size array to reduction operation fmin which has no identity

<Figure size 1200x1000 with 0 Axes>

In [89]:
# Numerische Strukturmerkmale als Features (X)
X = struktur_df.select_dtypes(include=[np.number])
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_const = sm.add_constant(X_scaled)

# Liste der Zielvariablen (Prozentuale Zweitstimmen)
zielspalten = [
    'CDU/CSU_Zweitstimmen_percent',
    'SPD_Zweitstimmen_percent',
    'Grüne_Zweitstimmen_percent',
    'AfD_Zweitstimmen_percent',
    'Die Linke_Zweitstimmen_percent',
    'BSW_Zweitstimmen_percent',
    'FDP_Zweitstimmen_percent'
]

# Ergebnisse sammeln
alle_ergebnisse = []

for spalte in zielspalten:
    if spalte in wahl_df.columns:
        y = merged_df[spalte]
        model = sm.OLS(y, X_const).fit()
        df = pd.DataFrame({
            'Partei': spalte.replace('_Zweitstimmen_percent', ''),
            'Faktor': ['Intercept'] + list(X.columns),
            'Koeffizient': model.params,
            'p-Wert': model.pvalues
        })
        alle_ergebnisse.append(df)
    else:
        print(f"Spalte nicht gefunden: {spalte}")

# Gesamtergebnis zusammenführen und exportieren
ergebnisse_df = pd.concat(alle_ergebnisse)
ergebnisse_df.to_csv('wahlanalyse_regressionsergebnisse.csv', index=False)

Spalte nicht gefunden: Grüne_Zweitstimmen_percent


In [49]:
print(struktur_df.columns.tolist())
print(wahl_df.columns.tolist())

['Bundesland', 'Anzahl Gemeinden', 'FlŠche km2', 'Bevšlkerung in Tsd', 'davon Deutsche in Tsd', 'AuslŠnder*innenanteil', 'Bevšlkerungsdichte je km2', 'Geburtensaldo', 'Wanderungssaldo', 'Alter unter 16', 'Alter 16-17', 'Alter 18-24', 'Alter 25-34', 'Alter 35-59', 'Alter 60-74', 'Alter Ÿber 75', 'BodenflŠche Siedlung und Verkehr', 'BodenflŠche Vegetation & GewŠsser', 'Fertiggestellte Wohnungen 2021 je Tsd Einwohner*innen', 'Bestand an Wohnungen 2021 je Tsd Einwohner*innen', 'WohnflŠche je Wohnnung 2021', 'WohnflŠche 2021 je Tsd Einwohner*innen', 'PKW insgesamt je Tsd Einwohner*innen', 'PKW Elektro oder Hybrid', 'Unternehmen 2021 je Tsd Einwohner*innen', 'Handwerksunternehmen 2021 je Tsd Einwohner*innen', 'SchulabgŠnger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen', 'SchulabgŠnger*innen insgesamt ohne Externe je Tsd Einwohner*innen', 'SchulabgŠnger*innen ohne Hauptschulabschluss', 'SchulabgŠnger*innen mit Hauptschulabschluss', 'SchulabgŠnger*innen mit Realschulabschluss', 'Schul

In [21]:
struktur_df.head()

Unnamed: 0,Bundesland,Anzahl Gemeinden,Flche km2,Bevlkerung in Tsd,davon Deutsche in Tsd,Auslnder*innenanteil,Bevlkerungsdichte je km2,Geburtensaldo,Wanderungssaldo,Alter unter 16,...,Anteil Sozialversicherungspflichtige ffentliche und private Dienstleister,Anteil Sozialversicherungspflichtige brige Dienstleister,Empfnger*innen Leistungen SGB II je Tsd Einwohner*innen,Anteil SGB II Empfnger*innen nichterwerbsfhige Hilfebedrftige,Anteil SGB II Empfnger*innen Auslnder*innen,Arbeitslosenquote insgesamt,Arbeitslosenquote Mnner,Arbeitslosenquote Frauen,Arbeitslosenquote 15-24,Arbeitslosenquote 55-64
0,Baden_Wuerttemberg,1101,35747.8,11280.3,9268.0,17.8,315.6,1.8,15.8,15.4,...,20.0,25.1,45.3,28.1,55.6,3.9,3.9,3.9,3.1,4.4
1,Nordrhein_Westfalen,396,34112.5,18139.1,15310.7,15.6,531.7,3.8,15.6,15.3,...,22.0,30.0,90.9,27.5,47.5,7.2,7.3,7.1,5.6,7.2
2,Sachsen_Anhalt,218,20464.1,2186.6,2025.7,7.4,106.9,10.4,18.5,13.6,...,15.7,33.5,83.3,22.9,30.1,7.3,7.7,6.9,7.8,7.3
3,Berlin,1,891.1,3755.3,2920.9,22.2,4214.1,1.0,22.5,15.2,...,33.3,33.7,125.5,26.6,44.6,9.3,9.5,9.1,9.0,8.6
4,Schleswig_Holstein,1104,15804.3,2953.3,2653.5,10.2,186.9,5.7,16.5,14.6,...,17.2,32.1,69.5,27.0,42.5,5.4,5.7,5.1,5.1,5.3


In [25]:
# Spaltenüberschriften Strukturdaten ansehen
print(struktur_df.columns)

Index(['Bundesland', 'Anzahl Gemeinden', 'Flche km2', 'Bevlkerung in Tsd',
       'davon Deutsche in Tsd', 'Auslnder*innenanteil',
       'Bevlkerungsdichte je km2', 'Geburtensaldo', 'Wanderungssaldo',
       'Alter unter 16', 'Alter 16-17', 'Alter 18-24', 'Alter 25-34',
       'Alter 35-59', 'Alter 60-74', 'Alter ber 75',
       'Bodenflche Siedlung und Verkehr', 'Bodenflche Vegetation & Gewsser',
       'Fertiggestellte Wohnungen 2021 je Tsd Einwohner*innen',
       'Bestand an Wohnungen 2021 je Tsd Einwohner*innen',
       'Wohnflche je Wohnnung 2021', 'Wohnflche 2021 je Tsd Einwohner*innen',
       'PKW insgesamt je Tsd Einwohner*innen', 'PKW Elektro oder Hybrid',
       'Unternehmen 2021 je Tsd Einwohner*innen',
       'Handwerksunternehmen 2021 je Tsd Einwohner*innen',
       'Schulabgnger*innen beruflicher Schulen 2022 je Tsd Einwohner*innen',
       'Schulabgnger*innen insgesamt ohne Externe je Tsd Einwohner*innen',
       'Schulabgnger*innen ohne Hauptschulabschlu

In [23]:
# Spaltenüberschriften Wahlergebnisse ansehen
print(wahl_df.columns)

Index(['Bundesland', 'Wahlberechtigte', 'Whlende_total', 'Whlende_percent',
       'Ungltige_Erststimmen_total', 'Ungltige_Erststimmen_percent',
       'Ungltige_Zweitstimmen_total', 'Ungltige_Zweitstimmen_percent',
       'Gltige_Erststimmen_total', 'Gltige_Erststimmen_percent',
       'Gltige_Zweitstimmen_total', 'Gltige_Zweitstimmen_percent',
       'CDU/CSU_Erststimmen_total', 'CDU/CSU_Erststimmen_percent',
       'CDU/CSU_Zweitstimmen_total', 'CDU/CSU_Zweitstimmen_percent',
       'SPD_Erststimmen_total', 'SPD_Erststimmen_percent',
       'SPD_Zweitstimmen_total', 'SPD_Zweitstimmen_percent',
       'Grne_Erststimmen_total', 'Grne_Erststimmen_percent',
       'Grne_Zweitstimmen_total', 'Grne_Zweitstimmen_percent',
       'AfD_Erststimmen_total', 'AfD_Erststimmen_percent',
       'AfD_Zweitstimmen_total', 'AfD_Zweitstimmen_percent',
       'Die Linke_Erststimmen_total', 'Die Linke_Erststimmen_percent',
       'Die Linke_Zweitstimmen_total', 'Die Linke_Zweitstimmen_perc

In [27]:
wahl_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 40 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Bundesland                      16 non-null     object 
 1   Wahlberechtigte                 16 non-null     int64  
 2   Whlende_total                  16 non-null     int64  
 3   Whlende_percent                16 non-null     float64
 4   Ungltige_Erststimmen_total     16 non-null     int64  
 5   Ungltige_Erststimmen_percent   16 non-null     float64
 6   Ungltige_Zweitstimmen_total    16 non-null     int64  
 7   Ungltige_Zweitstimmen_percent  16 non-null     float64
 8   Gltige_Erststimmen_total       16 non-null     int64  
 9   Gltige_Erststimmen_percent     16 non-null     float64
 10  Gltige_Zweitstimmen_total      16 non-null     int64  
 11  Gltige_Zweitstimmen_percent    16 non-null     float64
 12  CDU/CSU_Erststimmen_total       16 non

In [29]:
zielspalten = [
    'CDU/CSU_Zweitstimmen_percent',
    'SPD_Zweitstimmen_percent',
    'Grüne_Zweitstimmen_percent',
    'AfD_Zweitstimmen_percent',
    'Die Linke_Zweitstimmen_percent',
    'BSW_Zweitstimmen_percent',
    'FDP_Zweitstimmen_percent'
]