## Setup

### Imports

In [2]:
import os
from pathlib import Path

from dotenv import load_dotenv
from loguru import logger
from mistralai import Mistral

import pandas as pd
from langchain_core.documents import Document
from langchain_text_splitters import (MarkdownHeaderTextSplitter,
                                      RecursiveCharacterTextSplitter)

### Config

In [3]:
load_dotenv()

mistral_client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

party = "50PLUS"

markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=[
        ("#", "Hoofdstuk"),
        ("##", "Sectie"),
        ("###", "Subsectie"),
    ],
    strip_headers=True,
)

recursive_splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=50,
    separators=["\n\n", ".\n", "\n", ".", " ", ""],
    keep_separator="end",
)

## Process PDF with Mistral OCR

### Upload PDF to Mistral

In [4]:
pdf_filename = f"Verkiezingsprogramma {party}.pdf"
pdf_filepath = Path.cwd().parent / "data" / "pdfs" / pdf_filename

if not pdf_filepath.exists():
    raise ValueError(f"The file {pdf_filepath} does not exist.")

logger.info(f"Uploading {pdf_filename} to Mistral...")
uploaded_pdf = mistral_client.files.upload(
    file={
        "file_name": pdf_filename,
        "content": open(pdf_filepath, "rb"),
    },
    purpose="ocr"
)
document_url = mistral_client.files.get_signed_url(file_id=uploaded_pdf.id)

[32m2025-09-21 22:55:47.767[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m7[0m - [1mUploading Verkiezingsprogramma 50PLUS.pdf to Mistral...[0m


### Process uploaded document

In [5]:
logger.info(f"Running OCR on document {document_url}...")
ocr_result = mistral_client.ocr.process(
    model="mistral-ocr-latest",
    document={
        "type": "document_url",
        "document_url": document_url.url,
    },
    include_image_base64=False
)

[32m2025-09-21 22:55:49.425[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m1[0m - [1mRunning OCR on document url='https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/f8cb6264-0e00-4357-9f2d-687713d1ae0d/b858bf61-30f8-4434-8417-5fbc3e5bf35c/eaa07f4fe4e84f8cbd5983a26f8782cd.pdf?se=2025-09-22T20%3A55%3A48Z&sp=r&sv=2025-01-05&sr=b&sig=oadj6F5ZdPwolDifSrTAVmvyMfFT1TMJOs947ipTxsA%3D'...[0m


### Extract markdown from results

In [6]:
response_markdown = '\n\n'.join([page.markdown for page in ocr_result.pages])
print(response_markdown)

![img-0.jpeg](img-0.jpeg)

# Verkiezingsprogramma 2025 - 2029

## CONCEPT

# Wij doen mee. 

50PLUS let in het bijzonder op de belangen van mensen in de leeftijdsfase 50+. Dat is een leeftijdsfase, die we allemaal in goede lichamelijke en financiële gezondheid hopen te bereiken en te mogen beleven.

50PLUS gaat over je toekomst, als jeugdige, als volwassene, als ouder, als senior en als hoogbejaarde. We zijn een partij die zich met name richt op het leven van 50+-ers, 60+-ers en nog ouderen, zeg maar voor mensen in de derde levensfase.

50PLUS denkt vandaag goed na over wat belangrijk is voor jou en voor ieders toekomst straks.

50PLUS wil bereiken dat jongeren zich geen onnodige zorgen hoeven maken over de toekomst van hun ouders, over hun eigen toekomst als senior en over de toekomst van hun eigen kinderen en kleinkinderen.

We houden dat voor ogen bij alle thema's die voor iedereen van belang zijn.

# Inhoudsopgave 

## VOORAF

- 50PLUS. De stem die gehoord moet worden
- Onze vier b

## Markdown Cleanup (do manually)
The OCR response is pretty accurate, but can still make errors which result in typos or formatting errors.
Especially markdown headers are often not structured correctly, so we need to correct it manually.
Below, we load the "cleaned" and shortened version of the markdown file; this only contains the main chapters, without introductions or summaries.

## Chunking

### Split markdown file

In [10]:
short_markdown_file = Path.cwd().parent / "data" / "markdown_short" / f"{party}_short.md"

with open(short_markdown_file, 'r', encoding='utf-8') as file:
    markdown_string = file.read()

# Step 1: Split the markdown text by headers
md_header_splits = markdown_splitter.split_text(markdown_string)

# Step 2: Recursively split the header chunks into smaller chunks
chunks = recursive_splitter.split_documents(md_header_splits)

example_chunk = chunks[20]
example_chunk

Document(metadata={'Hoofdstuk': '3 Gezondheids- & ouderenzorg', 'Sectie': 'GEZONDHEIDS- EN OUDERENZORG'}, page_content='Preventie, leefstijl en vroege signalering zijn centrale pijlers binnen het zorgbeleid. We gaan ons inzetten voor behoud en uitbreiding van kleinschalige zorgvoorzieningen in de regio, zodat ouderen langer in hun vertrouwde omgeving blijven wonen met passende zorg dichtbij huis. We pleiten voor de invoering van een Ouderenzorgwet, waarin aan ouderen vergelijkbare rechten worden toegekend met de rechten van jongeren volgens de Jeugdzorgwet.  \nHier maken we ons ook hard voor:')

### Chunks visualization

In [33]:
def chunks_to_dataframe(chunks: list[Document]) -> pd.DataFrame:
    """
    Converts a list of LangChain Document objects into a pandas DataFrame,
    extracting specified metadata fields.
    """
    data = []
    
    for chunk in chunks:
        metadata = chunk.metadata
        page_content = chunk.page_content

        # Extract metadata fields with a default value of None or an empty string
        hoofdstuk = metadata.get('Hoofdstuk', "")
        sectie = metadata.get('Sectie', "")
        subsectie = metadata.get('Subsectie', "")

        data.append({
            'Partij': party,
            'Hoofdstuk': hoofdstuk,
            'Sectie': sectie,
            'Subsectie': subsectie,
            'Text': page_content,
        })
        
    return pd.DataFrame(data)

In [34]:
vector_db = chunks_to_dataframe(chunks)[:50]
vector_db

Unnamed: 0,Partij,Hoofdstuk,Sectie,Subsectie,Text
0,50PLUS,1 Inkomen & koopkracht,AOW,,De AOW is het onaantastbare fundament van onze...
1,50PLUS,1 Inkomen & koopkracht,AOW,,- Recht op vervroegde uitkering (AOW-light) vo...
2,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,Wet- en regelgeving inzake pensioenen en maats...
3,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Pensioenfondsen sturen verplicht op koopkrac...
4,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Het hoorrecht en de zeggenschap van gepensio...
5,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Indexatie van de pensioenen krijgt een hoger...
6,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- De wetgeving pensioen bij scheiding wordt zo...
7,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,Gepensioneerden worden nu nog te vaak gezien a...
8,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,- De schenk- en erfbelasting wordt afgeschaft....
9,50PLUS,1 Inkomen & koopkracht,ARBEIDSMARKT,,Bestaanszekerheid is een grondrecht en geen gu...


## Embedding

### Process document chunks for embedding

In [35]:
def format_embedding_content(chunk: Document) -> str:
    metadata = chunk.metadata
    page_content = chunk.page_content

    chapter_title = metadata.get("Hoofdstuk")
    if not chapter_title:
        raise ValueError("No chapter title found")

    section_title = metadata.get("Sectie", "")
    subsection_title = metadata.get("Subsectie", "")

    embedding_content = f"{chapter_title}\n{section_title}\n{subsection_title}\n{page_content}"

    return embedding_content

In [36]:
embedding_content = format_embedding_content(example_chunk)

print(embedding_content)

3 Gezondheids- & ouderenzorg
GEZONDHEIDS- EN OUDERENZORG

Preventie, leefstijl en vroege signalering zijn centrale pijlers binnen het zorgbeleid. We gaan ons inzetten voor behoud en uitbreiding van kleinschalige zorgvoorzieningen in de regio, zodat ouderen langer in hun vertrouwde omgeving blijven wonen met passende zorg dichtbij huis. We pleiten voor de invoering van een Ouderenzorgwet, waarin aan ouderen vergelijkbare rechten worden toegekend met de rechten van jongeren volgens de Jeugdzorgwet.  
Hier maken we ons ook hard voor:


In [37]:
vector_db["embedding_content"] = vector_db["Hoofdstuk"] + '\n' + vector_db["Sectie"] + '\n' + vector_db["Subsectie"] + '\n' + vector_db["Text"]
vector_db

Unnamed: 0,Partij,Hoofdstuk,Sectie,Subsectie,Text,embedding_content
0,50PLUS,1 Inkomen & koopkracht,AOW,,De AOW is het onaantastbare fundament van onze...,1 Inkomen & koopkracht\nAOW\n\nDe AOW is het o...
1,50PLUS,1 Inkomen & koopkracht,AOW,,- Recht op vervroegde uitkering (AOW-light) vo...,1 Inkomen & koopkracht\nAOW\n\n- Recht op verv...
2,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,Wet- en regelgeving inzake pensioenen en maats...,1 Inkomen & koopkracht\nPENSIOENEN\n\nWet- en ...
3,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Pensioenfondsen sturen verplicht op koopkrac...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Pensio...
4,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Het hoorrecht en de zeggenschap van gepensio...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Het ho...
5,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Indexatie van de pensioenen krijgt een hoger...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Indexa...
6,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- De wetgeving pensioen bij scheiding wordt zo...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- De wet...
7,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,Gepensioneerden worden nu nog te vaak gezien a...,1 Inkomen & koopkracht\nBELASTINGEN\n\nGepensi...
8,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,- De schenk- en erfbelasting wordt afgeschaft....,1 Inkomen & koopkracht\nBELASTINGEN\n\n- De sc...
9,50PLUS,1 Inkomen & koopkracht,ARBEIDSMARKT,,Bestaanszekerheid is een grondrecht en geen gu...,1 Inkomen & koopkracht\nARBEIDSMARKT\n\nBestaa...


### Embed content

In [None]:
from google import genai
from google.genai import types


client = genai.Client()

embedding_result = client.models.embed_content(
        model="gemini-embedding-001",
        contents=list(vector_db["embedding_content"])
        )

In [39]:
embedding_list = [item.values for item in embedding_result.embeddings]
vector_db['embeddings'] = embedding_list
display(vector_db)

Unnamed: 0,Partij,Hoofdstuk,Sectie,Subsectie,Text,embedding_content,embeddings
0,50PLUS,1 Inkomen & koopkracht,AOW,,De AOW is het onaantastbare fundament van onze...,1 Inkomen & koopkracht\nAOW\n\nDe AOW is het o...,"[0.014406031, 0.019407043, 0.024848232, -0.049..."
1,50PLUS,1 Inkomen & koopkracht,AOW,,- Recht op vervroegde uitkering (AOW-light) vo...,1 Inkomen & koopkracht\nAOW\n\n- Recht op verv...,"[0.024198234, 0.010256901, 0.015961373, -0.040..."
2,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,Wet- en regelgeving inzake pensioenen en maats...,1 Inkomen & koopkracht\nPENSIOENEN\n\nWet- en ...,"[0.010196683, 4.5567587e-05, 0.018948717, -0.0..."
3,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Pensioenfondsen sturen verplicht op koopkrac...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Pensio...,"[0.010309596, 0.013631718, 0.014025682, -0.046..."
4,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Het hoorrecht en de zeggenschap van gepensio...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Het ho...,"[0.011773454, 0.0114800455, 0.001841675, -0.03..."
5,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- Indexatie van de pensioenen krijgt een hoger...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- Indexa...,"[0.024917714, 0.006757692, 0.0043389406, -0.04..."
6,50PLUS,1 Inkomen & koopkracht,PENSIOENEN,,- De wetgeving pensioen bij scheiding wordt zo...,1 Inkomen & koopkracht\nPENSIOENEN\n\n- De wet...,"[0.02238875, 0.002703832, 0.014353852, -0.0352..."
7,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,Gepensioneerden worden nu nog te vaak gezien a...,1 Inkomen & koopkracht\nBELASTINGEN\n\nGepensi...,"[0.022994634, 0.01755786, 0.016076164, -0.0398..."
8,50PLUS,1 Inkomen & koopkracht,BELASTINGEN,,- De schenk- en erfbelasting wordt afgeschaft....,1 Inkomen & koopkracht\nBELASTINGEN\n\n- De sc...,"[0.039536085, 0.020780178, 0.030583933, -0.041..."
9,50PLUS,1 Inkomen & koopkracht,ARBEIDSMARKT,,Bestaanszekerheid is een grondrecht en geen gu...,1 Inkomen & koopkracht\nARBEIDSMARKT\n\nBestaa...,"[-0.00493572, 0.019702358, 0.018474435, -0.059..."


### Process db query

In [54]:
import numpy as np

def find_best_passage(query, dataframe, num_results: int = 3, threshold: float = 0):
  """
  Compute the distances between the query and each document in the dataframe
  using the dot product.
  """
  query_embedding = client.models.embed_content(
      model="gemini-embedding-001",
      contents=query,
      config=types.EmbedContentConfig(
          task_type="retrieval_query",
          )
  )

  dot_products = np.dot(
      np.stack(dataframe['embeddings']),
      query_embedding.embeddings[0].values
  )
  dataframe["dot_product"] = dot_products
  index_ranking = np.argsort(dot_products)
  top_indices = index_ranking[-num_results:][::-1]
  return dataframe.iloc[top_indices] # Return text from index with max value

In [63]:
query = "Wat vind de partij van kunstmatige intelligentie?"

top_df = find_best_passage(query, vector_db, num_results=3, threshold=0.6)
display(top_df)

Unnamed: 0,Partij,Hoofdstuk,Sectie,Subsectie,Text,embedding_content,embeddings,dot_product
47,50PLUS,7 Economie & ecologie,ECONOMIE EN ECOLOGIE,,- Een Nederlands landbouwbeleid dat niet stren...,7 Economie & ecologie\nECONOMIE EN ECOLOGIE\n\...,"[0.030716386, -0.0078112506, 0.00288507, -0.06...",0.675846
27,50PLUS,4 Veiligheid & digitale weerbaarheid,VEILIGHEID EN DIGITALE WEERBAARHEID,,Digitale veiligheid heeft grote urgentie. Er k...,4 Veiligheid & digitale weerbaarheid\nVEILIGHE...,"[-0.008726086, -0.00026722692, 0.015869021, -0...",0.6536
32,50PLUS,4 Veiligheid & digitale weerbaarheid,VEILIGHEID EN DIGITALE WEERBAARHEID,,- Digitale cursussen voor ouderen om hun vaard...,4 Veiligheid & digitale weerbaarheid\nVEILIGHE...,"[0.0006802272, 0.00046586123, 0.011744117, -0....",0.642089


In [64]:
for i, result in top_df.iterrows():
    display(result["embedding_content"])

'7 Economie & ecologie\nECONOMIE EN ECOLOGIE\n\n- Een Nederlands landbouwbeleid dat niet strenger is dan dat van onze buurlanden.  \nMeer elektriciteit opwekken is nodig als Nederland wil meedoen met de revolutie van high-tech en artificiële intelligentie. Door het oplossen van knelpunten kunnen we grote bedrijven behouden en aantrekken.  \nWe kiezen voor:'

'4 Veiligheid & digitale weerbaarheid\nVEILIGHEID EN DIGITALE WEERBAARHEID\n\nDigitale veiligheid heeft grote urgentie. Er komen digitaal steeds sneller en meer bedreigingen op ons af. We willen dat er extra geïnvesteerd wordt in de veiligheid van onze systemen om onafhankelijk te worden van commerciële en buitenlandse partijen. Brede automatisering met behulp van de modernste technische hulpmiddelen kan leiden tot betere dienstverlening en een prettige gebruikservaring voor patiënten en bewoners.'

'4 Veiligheid & digitale weerbaarheid\nVEILIGHEID EN DIGITALE WEERBAARHEID\n\n- Digitale cursussen voor ouderen om hun vaardigheden te verbeteren, met specifieke aandacht voor internetgebruik, online bankieren en sociale media door lokale gemeenschappen, bibliotheken en seniorenverenigingen\n- Digitale zaken en Al-implementatie worden door de overheid beter gecoördineerd.'

## Question answering

In [None]:
import textwrap

def make_prompt(query, relevant_passage):
  escaped = (
      relevant_passage
      .replace("'", "")
      .replace('"', "")
      .replace("\n", " ")
  )
  prompt = textwrap.dedent("""
    You are a helpful and informative bot that answers questions using text
    from the reference passage included below. Be sure to respond in a
    complete sentence, being comprehensive, including all relevant
    background information.

    However, you are talking to a non-technical audience, so be sure to
    break down complicated concepts and strike a friendly and conversational
    tone. If the passage is irrelevant to the answer, you may ignore it.

    QUESTION: '{query}'
                           
    PASSAGES: '{relevant_passage}'

    ANSWER:
  """).format(query=query, relevant_passage=escaped)


  return prompt

In [45]:
prompt = make_prompt(query, passage)

In [46]:
answer = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=prompt,
)
print(answer.text)

De partij ziet artificiële intelligentie, ofwel kunstmatige intelligentie, als een belangrijk onderdeel van een 'revolutie' waar Nederland zeker aan moet meedoen. Om ervoor te zorgen dat Nederland hier goed in kan participeren en mee kan doen met deze vooruitgang, vindt de partij het nodig dat er meer elektriciteit wordt opgewekt.
