In [1]:
%%capture
!pip install -r ../requirements.txt

In [2]:
import sys
import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from functools import reduce

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples
from sklearn.decomposition import PCA

SCRIPT_DIR = os.path.abspath(os.path.join(os.getcwd(), "../scripts"))
if SCRIPT_DIR not in sys.path:
    sys.path.append(SCRIPT_DIR)
from config import YEARS, RAW_PATH, PROCESSED_PATH, WDI_INDICATORS, VDEM_VARIABLES, VDEM_DOWNLOAD_URL, TARGET_VARIABLE, BARRO_LEE_FILENAME, VARIANCE_ANALYSIS, CLUSTERING_VARIABLES
from load_vdem import load_vdem_subset
from load_wdi import load_and_average_wdi_indicator
from load_barro_lee import load_barro_lee_subset

# 1 Datensatz erstellen

Im ersten Schritt werden die Daten aus den verschiedenen Quellen geladen und auf die für die Analyse relevanten Variablen und Jahre gefiltert. Dabei werden V-Dem-, Weltbank- und Barro-Lee-Daten jeweils separat verarbeitet.

## 1.1 V-Dem: Daten laden & filtern

In [3]:
vdem_df, vdem_variances_df = load_vdem_subset(
    years=YEARS,
    variables= VDEM_VARIABLES,
    download_url= VDEM_DOWNLOAD_URL,
    raw_path= RAW_PATH,
    processed_path= PROCESSED_PATH,
    save_as="vdem_subset_filtered.csv",
    compute_variance = VARIANCE_ANALYSIS
)

Lade V-Dem ZIP-Datei herunter ...
Entpacke ZIP-Datei ...
Lade und filtere CSV-Datei ...
Berechne Durchschnitt pro Land ...
V-Dem-Durchschnitt gespeichert unter: ../data/processed/vdem_subset_filtered.csv


## 1.2 WDI: Indikatoren laden

In [4]:
wdi_dfs = []
metadata_frames = []
wdi_variances_dfs = []
for wdi_code in WDI_INDICATORS:
    # Indikator laden + zugehörige Metadaten holen
    df, metadata, variance = load_and_average_wdi_indicator(
        wdi_code,
        years=YEARS,
        raw_path=RAW_PATH,
        processed_path=PROCESSED_PATH,
        compute_variance = VARIANCE_ANALYSIS
    )

    # Spalten umbenennen
    wdi_dfs.append(df)

    metadata_frames.append(metadata)
    wdi_variances_dfs.append(variance)

# Alle Metadaten zusammenführen
metadata_df = pd.concat(metadata_frames, ignore_index=True)
metadata_unique = metadata_df.drop_duplicates(subset=["Country Code"])

# Speichern
meta_path = os.path.join(PROCESSED_PATH, "Master_Metadata.csv")
metadata_unique.to_csv(meta_path, index=False)
print(f"Master-Metadaten gespeichert unter: {meta_path}")

AttributeError: 'list' object has no attribute 'items'

## 1.3. Barro-Lee: Durchschnittliche Schuljahre laden

In [None]:
barro_df = load_barro_lee_subset(target_year = 2010)

## 1.4. Varianzen berechnen
Hintergrund: Beobachtungszeitraum & Varianzbewertung
Ziel dieses Blocks ist es, einen geeigneten Beobachtungszeitraum (z. B. 5 oder 10 Jahre) festzulegen, der zwischen Datenverfügbarkeit und Aussagekraft eines Mittelwerts abwägt. Ein längerer Zeitraum liefert tendenziell vollständigere Daten, erhöht aber auch die Varianz innerhalb der Werte, wodurch der Mittelwert weniger repräsentativ werden kann.

Deshalb wird hier die durchschnittliche Varianz je Variable berechnet.
Die Konfiguration (YEARS) wurde dabei manuell angepasst, und das Notebook zweimal ausgeführt– einmal für 5 Jahre und einmal für 10 Jahre.
Die berechneten Varianzen dienten ausschließlich zur Einschätzung und Auswahl des Zeitraums, nicht für die weitere Analyse.

In [None]:
if VARIANCE_ANALYSIS:
    # Alle Varianz-DataFrames (WDI + V-Dem) zu einer Übersicht zusammenführen
    df_var_summary = pd.concat(wdi_variances_dfs + [vdem_variances_df], ignore_index=True)

    # Nach mittlerer Varianz über Länder sortieren
    df_var_summary = df_var_summary.sort_values("Median Varianz über Länder", ascending=True)

    # Ergebnis als CSV-Datei speichern
    filename = f"df_var_summary_{min(YEARS)}_{max(YEARS)}.csv"
    output_path = os.path.join(PROCESSED_PATH, filename)
    df_var_summary.to_csv(output_path, index=False)
    print(f"Varianz-Zusammenfassung gespeichert unter: {output_path}")

    # Berechnung und Ausgabe der Gesamt-Medianvarianz zur Einordnung
    gesamt_median = df_var_summary["Median Varianz über Länder"].median()
    print(f"Gesamter Mittelwert der Länder-Varianzen über alle Variablen: {gesamt_median:.4f}")


## 1.5 Datensätze mergen

In [None]:
# Country-Namen aus V-DEM-Frame extrahieren
country_names = vdem_df[["Country Code", "Country Name"]].drop_duplicates()

# WDI-Frames ohne "Country Name" vorbereiten, um Mergen zu erleichtern
wdi_clean = [df.drop(columns=["Country Name"], errors="ignore") for df in wdi_dfs]

# Weltbankdaten zu Hauptdatensatz mergen
df_master = reduce(lambda left, right: pd.merge(left, right, on="Country Code", how="outer"), wdi_clean)

# Barro-Lee vorbereiten 
barro_df_clean = barro_df.drop(columns=["Country Name"], errors="ignore")

# Barro-Lee in Hauptdatensatz mergen
df_master = pd.merge(df_master, barro_df_clean, on="Country Code", how="outer")

# Metadata vorbereiten 
metadata_df_clean = metadata_df.drop(columns=["TableName","SpecialNotes"], errors="ignore")

# Metadata in Hauptdatensatz mergen
df_master = pd.merge(df_master, metadata_df_clean, on="Country Code", how="outer")

# V-Dem vorbereiten 
vdem_df_clean = vdem_df.drop(columns=["Country Name"], errors="ignore")

# V-Dem in Hauptdatensatz mergen(hier werden nur Länder mit existierendem Wert für die Zielvariable verwendet)
vdem_valid = vdem_df_clean[vdem_df_clean["v2x_partipdem"].notna()]
df_master = pd.merge(df_master, vdem_valid, on="Country Code", how="inner")

# Country Name wieder anhängen
df_master = pd.merge(country_names, df_master, on="Country Code", how="right")

# Entferne leere "Unnamed"-Spalten
df_master = df_master.loc[:, ~df_master.columns.str.contains("^Unnamed")]
df_master = df_master.drop_duplicates(subset=["Country Code"])

# Ergebnis anzeigen
print(f"Finale Länderanzahl: {df_master.shape[0]}")
print(f"Spaltenanzahl: {df_master.shape[1]}")

# Speichern
output_path = os.path.join(PROCESSED_PATH, "merged_dataset.csv")
df_master.to_csv(output_path, index=False)
print(f"Master-Datensatz gespeichert unter: {output_path}")

# 2 Preprocessing der Daten

## 2.1 Analyse fehlender Werte und Datenabdeckung

In [None]:
# Anteil fehlender Werte je Variable
missing_per_variable = df_master.isna().mean().sort_values(ascending=False)
print(missing_per_variable)

# Anteil fehlener Werte je Land
df_tmp = df_master.set_index("Country Code")
missing_per_country = 1 - (df_tmp.notna().sum(axis=1) / df_tmp.shape[1])
missing_per_country = missing_per_country.sort_values(ascending=False)
print(missing_per_country.head(60))

## 2.2 Random Forest Imputation fehlender Daten

In [None]:
# Taiwan wurde aufgrund vollständig fehlender sozioökonomischer Kontextdaten (Weltbankindikatoren) aus der Analyse ausgeschlossen.
df_master = pd.read_csv("../data/processed/merged_dataset.csv")
df_master = df_master[df_master["Country Code"] != "TWN"] 

# Income Groupe von Venezuela Manuell zu Upper-middle-income setzen, da fehlend in Datensatz
df_master.loc[df_master["Country Code"] == "VEN", "IncomeGroup"] = "Upper-middle-income"

# Spalten mit fehlenden numerischen Werten finden
numerical_cols = df_master.select_dtypes(include=["float64", "int64"]).columns
cols_with_na = [col for col in numerical_cols if df_master[col].isna().sum() > 0]

# Imputer initialisieren 
imputer = IterativeImputer(
    estimator=RandomForestRegressor(n_estimators=100, random_state=0),
    max_iter=10,
    random_state=0
)

# Nur numerische Spalten mit NaNs imputieren
df_imputed_values = imputer.fit_transform(df_master[cols_with_na])

# In DataFrame umwandeln
df_imputed = pd.DataFrame(df_imputed_values, columns=cols_with_na, index=df_master.index)

# Original DataFrame aktualisieren
df_master.loc[:, cols_with_na] = df_imputed

# 5. Zwischenergebnis speichern
output_path = "../data/processed/merged_dataset_imputed.csv"
df_master.to_csv(output_path, index=False)
print(f"Imputation abgeschlossen und gespeichert unter: {output_path}")


## 2.3 Erneute Analyse fehlender Werte und Datenabdeckung

In [None]:
# Anteil fehlender Werte je Variable
missing_per_variable = df_master.isna().mean().sort_values(ascending=False)
print(missing_per_variable.head(10))

# Anteil fehlener Werte je Land
df_tmp = df_master.set_index("Country Code")
missing_per_country = 1 - (df_tmp.notna().sum(axis=1) / df_tmp.shape[1])
missing_per_country = missing_per_country.sort_values(ascending=False)
print(missing_per_country.head(10))

# 3 Analyse

## 3.1 Korrelationsanalyse 

Bevor ein Modell zur Bestimmung der Einflussfaktoren auf die partizipative Demokratie (Zielvariable: v2x_partipdem) erstellt wird, ist es wichtig zu prüfen, ob einige der potenziellen Prädiktoren stark miteinander korrelieren. Hohe Korrelationen zwischen erklärenden Variablen (Multikollinearität) können Modellverzerrungen verursachen und die Interpretation erschweren.

In diesem Schritt werden daher:
- alle numerischen Variablen außer der Zielvariable extrahiert,
- eine Korrelationsmatrix auf Basis der absoluten Pearson-Korrelation berechnet,
- stark korrelierte Paare (Schwellenwert: > 0.85) identifiziert und tabellarisch ausgegeben,
- eine visuelle Heatmap zur Übersicht aller Korrelationen dargestellt.


In [None]:
feature_cols = df_master.select_dtypes(include=["float64", "int64"]).columns
feature_cols = [col for col in feature_cols if col != TARGET_VARIABLE]
df_feat = df_master[feature_cols]

# Korrelationsmatrix erstellen
corr_matrix = df_feat.corr().abs()

# Korrelationsanalyse
high_corr_df = (
    corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
    .stack()
    .reset_index()
    .rename(columns={"level_0": "Feature 1", "level_1": "Feature 2", 0: "Korrelationskoeffizient"})
    .query("Korrelationskoeffizient > 0.85")
    .sort_values(by="Korrelationskoeffizient", ascending=False)
)

print("Stark korrelierte Variablenpaare:")
print(high_corr_df.to_string(index=False))

# Heatmap anzeigen 
plt.figure(figsize=(14, 10))
sns.heatmap(corr_matrix, cmap="coolwarm", annot=False, center=0)
plt.title("Korrelationsmatrix")
plt.show()

## 3.2 Globale Feature Importance Analyse 

In diesem Schritt wird ein Random-Forest-Modell verwendet, um die relative Bedeutung (Feature Importance) aller potenziellen Einflussfaktoren auf den Partizipationsindex (v2x_partipdem) zu bestimmen. Die Analyse erfolgt global, also über alle Länder hinweg. Die resultierenden Wichtigkeitswerte geben an, welche Merkmale den größten Beitrag zur Erklärung der Zielvariable leisten.
Basierend auf diesen Werten können irrelevante oder wenig aussagekräftige Variablen identifiziert und aus der weiteren Analyse ausgeschlossen werden.

In [None]:
# Eingabe-Features (X) und Zielvariable (y) definieren
X = df_master[feature_cols].copy()
y = df_master[TARGET_VARIABLE].copy()

# Random Forest Modell initialisieren und trainieren
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(X, y)

# Feature Importance berechnen und in DataFrame umwandeln
importances = pd.DataFrame({
    "Feature": feature_cols,
    "Importance": model.feature_importances_
}).sort_values("Importance", ascending=False)

print("\n Feature Importance (Random Forest für v2x_partipdem):")
print(importances.to_string(index=False))

In [None]:
# Diese vier Variablen werden wegen starker Korrelation mit andern Variablen und auf Basis der Feature Importance entfernt
vars_to_drop = ["v2x_rule", "v2x_corr", "v2dlconslt", "v2xlg_legcon"]

df_cleaned = df_master.drop(columns=vars_to_drop)
df_cleaned.to_csv("../data/processed/merged_dataset_cleaned.csv", index=False)
print("Datensatz ohne stark korrelierte Variablen gespeichert.")

## 3.3. Clustering

### 3.3.1 Skalieren

Um sicherzustellen, dass alle Einflussfaktoren im Clustering möglichst gleich gewichtet werden, werden die ausgewählten numerischen Variablen mittels Standardisierung (StandardScaler) auf Mittelwert = 0 und Standardabweichung = 1 gebracht. Dies verhindert, dass Variablen mit größeren Wertebereichen (z. B. BIP) den Clustering-Prozess dominieren. Die beiden Variablen Inflation und Bevölkerungszahl wurden vom Clustering ausgeschlossen, da sie sich als potenzielle Verzerrungsfaktoren erwiesen – etwa durch extreme Ausreißer (Inflation) oder enorm unterschiedliche Skalenniveaus (Bevölkerung), die selbst nach Standardisierung zu einer unangemessenen Gewichtung im Clustering führen könnten.

In [None]:
# Skalieren
scaler = StandardScaler()
scaled_values = scaler.fit_transform(df_cleaned[CLUSTERING_VARIABLES])
df_scaled = pd.DataFrame(scaled_values, columns=[f"{col}" for col in CLUSTERING_VARIABLES])

# Kontextspalten beibehalten 
context_cols = ["Country Code", "Country Name", "Region", "IncomeGroup"]
for col in context_cols:
    if col in df_cleaned.columns:
        df_scaled[col] = df_cleaned[col]
output_path = "../data/processed/cluster_input_scaled.csv"
df_scaled.to_csv(output_path, index=False)
print(f" Skalierte Variablen gespeichert unter: {output_path}")

### 3.3.2 Anzahl der Cluster bestimmen

Um eine geeignete Anzahl an Clustern für die anschließende Gruppierung der Länder zu finden, werden zwei gängige Metriken angewendet: die Elbow-Methode (Inertia) und der Silhouette Score. Beide helfen dabei abzuschätzen, bei welcher Clusteranzahl eine sinnvolle Balance zwischen Homogenität innerhalb der Cluster und Trennschärfe zwischen den Clustern erreicht wird.

In [None]:
# Feature-Auswahl (alle numerischen Spalten ohne Kontextspalten)
context_cols = ["Country Code", "Country Name", "Region", "IncomeGroup"]
feature_cols = [col for col in df_scaled.columns if col not in context_cols]

X = df_scaled[feature_cols]

# Cluster-Anzahl-Bereich
k_range = range(2, 11)

# Ergebnisse speichern
inertias = []
silhouette_scores = []

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init="auto")
    labels = kmeans.fit_predict(X)
    inertias.append(kmeans.inertia_)
    silhouette_scores.append(silhouette_score(X, labels))

# Visualisierung
fig, ax = plt.subplots(1, 2, figsize=(14, 5))

# Elbow Plot
ax[0].plot(k_range, inertias, marker="o")
ax[0].set_xlabel("Anzahl der Cluster (k)")
ax[0].set_ylabel("Inertia (Summe der quadrierten Distanzen)")
ax[0].set_title("Elbow-Methode")

# Silhouette Plot
ax[1].plot(k_range, silhouette_scores, marker="o", color="orange")
ax[1].set_xlabel("Anzahl der Cluster (k)")
ax[1].set_ylabel("Silhouette Score")
ax[1].set_title("Silhouette Scores")

plt.tight_layout()
plt.show()

### 3.3.3 Clustering durchführen

Basierend auf den Ergebnissen der Elbow-Methode und der Silhouette-Analyse wurde entschieden, drei Cluster zu bilden. Diese Konfiguration bietet einen guten Kompromiss zwischen interner Homogenität und externer Trennschärfe der Cluster. 

Die Zuordnung zu den Clustern erfolgt nun mittels des KMeans-Algorithmus basierend auf den skalierten sozioökonomischen Variablen.

In [None]:
# KMeans-Modell initialisieren und fitten
kmeans = KMeans(n_clusters=4, random_state=42, n_init="auto")
df_scaled["cluster"] = kmeans.fit_predict(df_scaled[CLUSTERING_VARIABLES])

# Ergebnis anzeigen
print("Cluster-Zuweisung abgeschlossen.")

# Abspeichern
output_path = "../data/processed/merged_dataset_clustered.csv"
df_scaled.to_csv(output_path, index=False)
print(f"Ergebnis gespeichert unter: {output_path}")


print("Anzahl der Länder pro Cluster:")
print(df_scaled["cluster"].value_counts(), "\n")

Bevor die einzelnen Cluster im Detail analysiert und interpretiert werden, erfolgt zunächst eine Visualisierung der Clusterstruktur. Hierzu wurde eine Hauptkomponentenanalyse (PCA) durchgeführt, um die hochdimensionalen Daten auf zwei Dimensionen zu reduzieren. Die folgende Darstellung zeigt die räumliche Verteilung der Länder im PCA-Raum, farblich differenziert nach ihrer jeweiligen Clusterzugehörigkeit.

In [None]:
# Hauptkomponentenanalyse (PCA) mit zwei Komponenten zur Visualisierung
pca = PCA(n_components=2)
components = pca.fit_transform(df_scaled[feature_cols])
df_scaled["PCA1"], df_scaled["PCA2"] = components[:,0], components[:,1]

# Scatter-Plot zur Darstellung der Cluster im zweidimensionalen PCA-Raum
plt.figure(figsize=(10, 6))
for cluster in sorted(df_scaled["cluster"].unique()):
    subset = df_scaled[df_scaled["cluster"] == cluster]
    plt.scatter(subset["PCA1"], subset["PCA2"], label=f"Cluster {cluster}")
plt.legend()
plt.title("Cluster-Verteilung in PCA-Raum")
plt.xlabel("PCA1")
plt.ylabel("PCA2")
plt.show()

Die PCA-Grafik zeigt eine insgesamt gute Trennung der Cluster, insbesondere Cluster 1 ist klar abgegrenzt. In Kombination mit den Ergebnissen der Elbow-Methode und der Silhouette-Analyse bestätigt dies die Wahl von drei Clustern als geeignete Grundlage für die weitere Analyse.

In [None]:
# Gesamter Silhouettenkoeffizient
sil_score = silhouette_score(df_scaled[CLUSTERING_VARIABLES], df_scaled["cluster"])
print(f"Silhouettenkoeffizient für k=3: {sil_score:.3f}")

# Optional: Silhouettenwerte für jedes Land
df_scaled["silhouette_score"] = silhouette_samples(df_scaled[CLUSTERING_VARIABLES], df_scaled["cluster"])

Zur Bewertung der internen Trennschärfe der Cluster wurde der durchschnittliche Silhouettenkoeffizient berechnet. Für die gewählte Clusteranzahl von k=3 ergibt sich ein Wert von 0.355. Dieser liegt im mittleren Bereich und deutet auf eine mäßig klare Abgrenzung der Cluster hin. 

Während der Wert keine sehr starke Strukturierung der Daten signalisiert, ist er für sozialwissenschaftliche Kontexte mit komplexen und überlappenden Merkmalen durchaus als akzeptabel zu bewerten – insbesondere bei explorativen Analysen mit heterogenen Ländern als Beobachtungseinheiten.


In [None]:
print("Cluster Zentren:")
print(pd.DataFrame(kmeans.cluster_centers_, columns=CLUSTERING_VARIABLES))

# Verteilung der Einkommensgruppen in den Clustern
print("Verteilung der Einkommensgruppen pro Cluster:")
print(pd.crosstab(df_scaled["cluster"], df_scaled["IncomeGroup"]), "\n")

# Verteilung der Weltregionen in den Clustern
print("Verteilung der Weltregionen pro Cluster:")
print(pd.crosstab(df_scaled["cluster"], df_scaled["Region"]))

Interpretation der Cluster


Cluster 0 vereint Länder mit mittleren sozioökonomischen Merkmalen. Sie zeigen moderate Werte bei BIP pro Kopf, Urbanisierung, Internetnutzung und Bildung. Die Gruppe enthält sowohl „High income“ als auch „Lower middle income“ und „Upper middle income“ Länder und ist regional stark in Europa, Lateinamerika und MENA vertreten. Die Heterogenität deutet auf einen strukturell gemischten Übergangscluster hin.

Cluster 1 zeigt sehr hohe Werte bei nahezu allen sozioökonomischen Indikatoren – insbesondere bei BIP pro Kopf, Internetnutzung, Urbanisierung und Bildungsniveau. Es handelt sich ausschließlich um Hochlohnländer, vorwiegend aus Europa, Nordamerika und Ostasien. Der Cluster repräsentiert damit klar die strukturell am weitesten entwickelten Staaten.

Cluster 2 bildet die sozioökonomisch schwächste Ländergruppe ab. Diese Länder weisen niedrige Werte bei Einkommen, Bildung und Infrastruktur auf. Der Cluster setzt sich fast ausschließlich aus „Low income“ und „Lower middle income“ Ländern zusammen, mit starker Präsenz in Subsahara-Afrika und Südasien. Er steht für Länder mit starkem strukturellem Entwicklungsbedarf.

## 3.4 Feature-Importance-Analyse innerhalb der Cluster

Zunächst wird ein Random-Forest-Modell auf dem Gesamtdatensatz trainiert, um die wichtigsten Einflussfaktoren auf die partizipative Demokratie zu identifizieren. Anschließend erfolgt dieselbe Analyse für jedes Cluster separat, um Unterschiede im Einfluss struktureller Merkmale zwischen Ländergruppen sichtbar zu machen.

In [None]:
df_final = df_cleaned.merge(df_scaled[["Country Code", "cluster"]], on="Country Code", how="left")

# Zielvariable & Kontext
cluster_col = "cluster"

# Features: alle numerischen Spalten außer der Zielvariable
exclude_cols = ["Country Code", "Country Name", "Region", "IncomeGroup", TARGET_VARIABLE, cluster_col]
feature_cols = [col for col in df_final.select_dtypes(include=["float64", "int64"]).columns if col not in exclude_cols]

# Globale Feature Importance (über alle Länder hinweg)
print("\n Globale Feature Importance – Gesamtdatensatz")
X_all = df_final[feature_cols]
y_all = df_final[TARGET_VARIABLE]

rf_global = RandomForestRegressor(n_estimators=100, random_state=0)
rf_global.fit(X_all, y_all)

global_importances = pd.DataFrame({
    "Feature": feature_cols,
    "Importance": rf_global.feature_importances_
}).sort_values(by="Importance", ascending=False)

# Plot
plt.figure(figsize=(10, 5))
sns.barplot(
    data=global_importances.head(15),
    x="Importance",
    y="Feature",
    hue="Feature",
    palette="viridis",
    legend=False
)
plt.title("Globale Feature Importance")
plt.tight_layout()
plt.show()


# Feature Importance für jeden Cluster
for cluster in sorted(df_final[cluster_col].dropna().unique()):
    print(f"\n Cluster {cluster} – Länderanzahl: {df_final[df_final[cluster_col] == cluster].shape[0]}")

    # Daten aus Cluster extrahieren
    df_cluster = df_final[df_final[cluster_col] == cluster]

    # X und y
    X = df_cluster[feature_cols]
    y = df_cluster[TARGET_VARIABLE]

    # Modell trainieren
    rf = RandomForestRegressor(n_estimators=100, random_state=0)
    rf.fit(X, y)

    # Feature Importance extrahieren
    importances = rf.feature_importances_
    fi_df = pd.DataFrame({
        "Feature": feature_cols,
        "Importance": importances
    }).sort_values(by="Importance", ascending=False)

    # Plot
    plt.figure(figsize=(10, 5))
    sns.barplot(
    data=fi_df.head(15),
    x="Importance",
    y="Feature",
    hue="Feature",
    palette="viridis",
    legend=False
)
    plt.title(f"Top Feature Importances – Cluster {cluster}")
    plt.tight_layout()
    plt.show()


Die Visualisierungen der Feature-Importance-Analyse zeigen, dass sich die wichtigsten Einflussgrößen auf partizipative Demokratie je nach Cluster deutlich unterscheiden.

In Cluster 0 stehen mit v2mecenefi (Effektivität der Medienfreiheit) und v2x_jucon (Unabhängigkeit der Justiz) zwei institutionelle Merkmale im Vordergrund, die besonders stark mit partizipativer Demokratie assoziiert sind.

In Cluster 1 hingegen sind v2xeg_eqaccess (Gleichberechtigter Zugang zu Bildung, Justiz und Arbeit), v2clsocgrp (Einbindung gesellschaftlicher Gruppen) und v2psplats (politischer Pluralismus auf lokaler Ebene) die wichtigsten Merkmale. Dies deutet darauf hin, dass in dieser Ländergruppe soziale Inklusion und gleichberechtigte Teilhabe eine stärkere Rolle spielen.

In Cluster 2 zeigt sich eine Mischung aus institutionellen (z. B. v2x_jucon, v2mecenefi) und infrastrukturellen Faktoren wie v2xeg_eqaccess und v2dlengage (öffentliche Deliberation). Dies spricht für ein intermediäres Profil, in dem sowohl staatliche Strukturen als auch gesellschaftliche Diskurse relevant sind.

Die Unterschiede in den Rangfolgen und den dominanten Einflussgrößen legen nahe, dass partizipative Demokratie in verschiedenen Kontexten durch unterschiedliche Faktoren gefördert oder gehemmt wird.