In [1]:
import pandas as pd
from src.prediction import config
from loguru import logger
data = pd.read_parquet(r"data\parquet\predicted_votes.parquet")
def vote_counts_to_result(votes: pd.Series) -> str:
    """Convert vote counts to a result string."""
    max_votes = votes[["yes", "no", "abstain"]].idxmax()
    if max_votes == "yes":
        return "zustimmung"
    elif max_votes == "no":
        return "ablehnung"
    elif max_votes == "abstain":
        return "enthaltung"
    else:
        logger.warning(f"Unexpected vote counts: {votes}")
        return None

for party in config.PARTIES:
    real_votes = pd.read_csv(f"data/csv/vote_counts/{party}.csv").rename(
        columns={"vote_id": "vote"}
    ).drop_duplicates(subset="vote")
    real_votes[f"{party}_ground_truth"] = real_votes.apply(vote_counts_to_result, axis=1)
    data = data.merge(real_votes[["vote", f"{party}_ground_truth"]], on="vote", how="left")
    data[f"{party}_prediction"] = data[f"{party}_decision"].str["decision"]


In [2]:
from src.utils.openai_utils import get_embedding
import os

if os.path.exists("data/parquet/kategorien.parquet"):
    categories = pd.read_parquet("data/parquet/kategorien.parquet")
else:
    categories = pd.DataFrame({
        "kategorie": [
        "Finanzen - Steuern, Staatsbudget, Haushalts- und Finanzpolitik",
        "Inneres & Migration - Innere Sicherheit, öffentliche Verwaltung, Migration, Staatsbürgerschaft",
        "Außenpolitik & Europäische Angelegenheiten - Diplomatie, internationale Beziehungen, EU-Politik",
        "Verteidigung & Sicherheit - Militär, Verteidigungsstrategie, Bundeswehr, Rüstung",
        "Wirtschaft & Energie - Industriepolitik, Mittelstand, Energieversorgung, Wirtschaftsordnungen",
        "Forschung & Technologie - Innovationsförderung, Raumfahrt, Forschungseinrichtungen, Technologietransfer",
        "Justiz & Verbraucherschutz - Rechtsprechung, Gesetzgebung, Verbraucherschutz, Datenschutz",
        "Bildung, Familie & Jugend - Schulen, Hochschulen, Familienförderung, Kinder- und Jugendpolitik",
        "Arbeit & Soziales - Arbeitsmarktpolitik, Sozialversicherung, Renten, Integration",
        "Digitalisierung & Modernisierung - E-Government, IT-Infrastruktur, digitale Verwaltung, Cybersecurity",
        "Verkehr & Infrastruktur - Straßen-, Schienen- und Luftverkehr, Mobilitätskonzepte, Infrastrukturprojekte",
        "Umwelt, Klima & Naturschutz - Umweltschutz, Klimapläne, Artenschutz, nukleare Sicherheit",
        "Gesundheit - Gesundheitssystem, Krankenversicherung, Arzneimittelregulierung, Pandemie- und Präventionspolitik",
        "Landwirtschaft & Ernährung - Agrarpolitik, Ernährungssicherheit, Ländliche Entwicklung",
        "Entwicklungszusammenarbeit - Entwicklungsprojekte, humanitäre Hilfe, internationale Zusammenarbeit",
        "Wohnen & Stadtentwicklung - Wohnungsbau, Städtebau, Bauordnung, Städtebauförderung"
    ]})
    categories["embedding"] = categories["kategorie"].apply(get_embedding)
    categories.to_parquet("data/parquet/kategorien.parquet", index=False)

In [3]:
import numpy as np
def get_closest_category(summary_embedding: np.array) -> str:
    distances = categories["embedding"].apply(
        lambda x: np.linalg.norm(np.array(x) - summary_embedding)
    )
    closest_index = distances.idxmin()
    return categories.iloc[closest_index]["kategorie"]


data["category"] = data["embedding"].apply(get_closest_category)

In [4]:
data

Unnamed: 0,vote,drucksache_id,beschlussempfehlung,title,type,content,summary,embedding,date,AfD_decision,...,DIE_GRÜNEN_prediction,DIE_LINKE_ground_truth,DIE_LINKE_prediction,FDP_ground_truth,FDP_prediction,SPD_ground_truth,SPD_prediction,Union_ground_truth,Union_prediction,category
0,20250130_4,20/14047,annehmen,Antrag der Bundesregierung Fortsetzung der Bet...,Antrag,Antrag der Bundesregierung Fortsetzung der Bet...,Es wird über die Fortsetzung der deutschen Bet...,"[-0.032250940799713135, 0.04619118571281433, 0...",2025-01-30,{'context': '- Außen- und Verteidigungspolitik...,...,zustimmung,ablehnung,ablehnung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,"Verteidigung & Sicherheit - Militär, Verteidig..."
1,20250130_3,20/14046,annehmen,Antrag der Bundesregierung Fortsetzung der Bet...,Antrag,Antrag der Bundesregierung Fortsetzung der Bet...,Der Bundestag stimmt über die Fortsetzung der ...,"[-0.023844607174396515, 0.07453092187643051, 0...",2025-01-30,{'context': '- Außen- und Verteidigungspolitik...,...,zustimmung,ablehnung,ablehnung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,"Verteidigung & Sicherheit - Militär, Verteidig..."
2,20250130_2,20/14045,annehmen,Antrag der Bundesregierung Fortsetzung der Bet...,Antrag,Antrag der Bundesregierung Fortsetzung der Bet...,Der Bundestag stimmt über die Fortsetzung der ...,"[-0.026726506650447845, 0.04273178055882454, 0...",2025-01-30,{'context': '- Außen- und Verteidigungspolitik...,...,zustimmung,ablehnung,ablehnung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,"Verteidigung & Sicherheit - Militär, Verteidig..."
3,20250130_1,20/14044,annehmen,Antrag der Bundesregierung Fortsetzung der Bet...,Antrag,Antrag der Bundesregierung Fortsetzung der Bet...,Der Bundestag stimmt über die Fortsetzung der ...,"[-0.03594012185931206, 0.025598490610718727, 0...",2025-01-30,{'context': '- Außen- und Verteidigungspolitik...,...,zustimmung,ablehnung,ablehnung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,"Verteidigung & Sicherheit - Militär, Verteidig..."
4,20241017_3,20/12893,annehmen,Antrag der Bundesregierung Fortsetzung des Ein...,Antrag,Antrag der Bundesregierung Fortsetzung des Ein...,Der Bundestag stimmt über die Fortsetzung des ...,"[-0.0020443603862076998, 0.058881428092718124,...",2024-10-17,{'context': '- Außen- und Verteidigungspolitik...,...,zustimmung,ablehnung,ablehnung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,zustimmung,"Verteidigung & Sicherheit - Militär, Verteidig..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
618,20121025_5,17/11196,,Änderungsantrag der Abgeordneten Volker Beck (...,Änderungsantrag,Deutscher Bundestag Drucksache 17/11196 17. Wa...,Der Antrag fordert die steuerrechtliche Gleich...,"[0.027212975546717644, 0.02205045148730278, 0....",2012-10-25,,...,zustimmung,zustimmung,zustimmung,ablehnung,zustimmung,zustimmung,zustimmung,ablehnung,zustimmung,"Arbeit & Soziales - Arbeitsmarktpolitik, Sozia..."
619,20121025_4,17/11193,,Änderungsantrag der Fraktion der SPD zu der zw...,Änderungsantrag,Deutscher Bundestag Drucksache 17/11193 17. Wa...,Es wird die Abschaffung des ermäßigten Umsatzs...,"[-0.007618354167789221, 0.011488755233585835, ...",2012-10-25,,...,ablehnung,zustimmung,ablehnung,ablehnung,ablehnung,zustimmung,ablehnung,ablehnung,ablehnung,"Finanzen - Steuern, Staatsbudget, Haushalts- u..."
620,20121025_3,17/11172,,Änderungsantrag der Abgeordneten Dr. Gerhard S...,Änderungsantrag,Deutscher Bundestag Drucksache 17/11172 17. Wa...,Es wird über eine Änderung des Wertpapierhande...,"[-0.010517100803554058, 0.019554799422621727, ...",2012-10-25,,...,zustimmung,zustimmung,zustimmung,ablehnung,zustimmung,enthaltung,zustimmung,ablehnung,zustimmung,"Justiz & Verbraucherschutz - Rechtsprechung, G..."
621,20121025_2,17/10059,,Gesetzentwurf der Bundesregierung Entwurf eine...,Gesetzentwurf,A. Problem und Ziel Die intensiven langjährige...,Es wird über ein Abkommen mit der Schweiz abge...,"[0.020592067390680313, 0.05659760162234306, 0....",2012-10-25,,...,zustimmung,ablehnung,zustimmung,zustimmung,zustimmung,ablehnung,zustimmung,zustimmung,zustimmung,"Finanzen - Steuern, Staatsbudget, Haushalts- u..."


In [5]:
percentage_partyline = {}

for party in config.PARTIES:
    party_votes = data[data[f"{party}_ground_truth"].notna()]
    partyline_correct = (party_votes[f"{party}_ground_truth"] == party_votes[f"{party}_prediction"]).sum() / len(party_votes)
    percentage_partyline[party] = round(partyline_correct * 100)

In [8]:
import plotly.graph_objects as go

percentage_partyline = {
    'AfD': 55,
    'DIE_GRÜNEN': 58,
    'DIE_LINKE': 59,
    'FDP': 65,
    'SPD': 70,
    'Union': 67
}

colors = {
    'AfD': '#009EE0',
    'DIE_GRÜNEN': '#00A65A',
    'DIE_LINKE': '#BE3075',
    'FDP': '#FFD700',
    'SPD': '#E3000F',
    'Union': '#000000'
}

fig = go.Figure(go.Bar(
    x=list(percentage_partyline.keys()),
    y=list(percentage_partyline.values()),
    marker_color=[colors[party] for party in percentage_partyline],
    width=0.4
))

fig.update_layout(
    title='Percentage of Party-Line Agreement',
    xaxis_title='Political Party',
    yaxis_title='Agreement (%)',
    yaxis=dict(range=[0, 100]),
    template='plotly_dark'
)

fig.update_traces(text=list(percentage_partyline.values()), textposition='auto')

fig.show()


In [15]:
percentage_partyline_by_category = {}

for party in config.PARTIES:
    party_votes = data[data[f"{party}_ground_truth"].notna()].copy()
    party_votes["partyline_correct"] = (party_votes[f"{party}_ground_truth"] == party_votes[f"{party}_prediction"])
    party_votes.groupby("category")["partyline_correct"].mean().reset_index()
    percentage_partyline_by_category[party] = party_votes.groupby("category")["partyline_correct"].mean().reset_index().to_dict(orient="records")

In [17]:
import pandas as pd
import plotly.express as px

# build a DataFrame: rows = parties, columns = categories
df = pd.DataFrame({
    party: {item['category']: item['partyline_correct'] for item in entries}
    for party, entries in percentage_partyline_by_category.items()
}).T

# reshape to long form for px.bar
df_long = df.reset_index().melt(
    id_vars='index',
    var_name='Category',
    value_name='Correctness'
)
df_long.rename(columns={'index': 'Party'}, inplace=True)

fig = px.bar(
    df_long,
    x='Party',
    y='Correctness',
    color='Category',
    barmode='group'
)

fig.update_layout(
    xaxis_title='Party',
    yaxis_title='Partyline Correctness',
    legend_title_text='Category'
)

fig.show()


In [19]:
data["category"].value_counts()

category
Verteidigung & Sicherheit - Militär, Verteidigungsstrategie, Bundeswehr, Rüstung                                  156
Finanzen - Steuern, Staatsbudget, Haushalts- und Finanzpolitik                                                     80
Inneres & Migration - Innere Sicherheit, öffentliche Verwaltung, Migration, Staatsbürgerschaft                     64
Gesundheit - Gesundheitssystem, Krankenversicherung, Arzneimittelregulierung, Pandemie- und Präventionspolitik     51
Arbeit & Soziales - Arbeitsmarktpolitik, Sozialversicherung, Renten, Integration                                   51
Justiz & Verbraucherschutz - Rechtsprechung, Gesetzgebung, Verbraucherschutz, Datenschutz                          51
Umwelt, Klima & Naturschutz - Umweltschutz, Klimapläne, Artenschutz, nukleare Sicherheit                           48
Wirtschaft & Energie - Industriepolitik, Mittelstand, Energieversorgung, Wirtschaftsordnungen                      22
Entwicklungszusammenarbeit - Entwicklungsprojek