In [1]:
import pandas as pd

In [2]:
# Load data from PDF: extract text and tables
import pdfplumber
from pathlib import Path

pdf_path = Path('data/Test.pdf')
assert pdf_path.exists(), f"PDF not found at {pdf_path.resolve()}"

texts = []
tables = []
with pdfplumber.open(pdf_path) as pdf:
    for page in pdf.pages:
        # Extract text
        page_text = page.extract_text() or ''
        if page_text.strip():
            texts.append(page_text)
        # Extract tables
        page_tables = page.extract_tables()
        for t in page_tables:
            tables.append(t)

# Show first 500 chars of text
print('\n--- TEXT PREVIEW ---\n')
print(('\n'.join(texts))[:500])

text = '\n'.join(texts)




--- TEXT PREVIEW ---

L E I S T U N G S V E R Z E I C H N I S
Projekt: DKFZ, Heidelberg - FER
Forschungs- u. Entwicklungszentrum f. Radiopharmazeutische Chemie
Bauherr:
Gewerk: Labortechnik
Fachplanung: dr. heinekamp Labor- und Institutsplanung GmbH Gaußstr. 12 85757
Karlsfeld
Aufgestellt: 12 Februar 2025
Inhaltsverzeichnis
DKFZ, Heidelberg - FER
Seite
Vorbemerkungen Gewerk Labortechnik
Allgemeine Vorbemerkungen VOB/C 1
Zusätzliche Technische Vertragsbedingungen nach BNB 15
Baubeschreibung Labortechnik 19
Ergänzung d


In [3]:
print(len(texts))

533


## Extract the Vorbemerkungen

In [4]:
json_schema = """
{
  "type": "object",
  "properties": {
    "vorbemerkungen": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "title": { "type": "string" },
          "page_from": { "type": ["integer", "null"] },
          "page_to": { "type": ["integer", "null"] },
          "text": { "type": "string" }
        },
        "required": ["title", "page_from", "page_to", "text"]
      }
    }
  },
  "required": ["vorbemerkungen"]
}
"""

In [5]:
prompt = """
Task: Extract the Vorbemerkungen from the German LV-Liste text.
Output: Return only JSON that matches the schema below—no prose.

Input format: You will receive raw text from a PDF (German), possibly with page numbers.

Your job:
1.	Find the Vorbemerkungen.
2.	Extract the title, page range, and text for each Vorbemerkung.
3.	Normalize trivial whitespace; keep German umlauts.

Return only JSON matching the schema below.
"""

prompt_with_json_schema = f"""
{prompt}

JSON schema (validate strictly)

{json_schema}
"""

prompt_with_json_and_text = f"""
{prompt_with_json_schema}

Input:
{text}
"""


In [6]:
# Call OpenAI API
from openai import OpenAI
import os

client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

response = client.responses.create(
    model="gpt-5",
    input=prompt_with_json_and_text
)

print(response.output_text)

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
{
  "vorbemerkungen": [
    {
      "title": "Allgemeine Vorbemerkungen VOB/C",
      "page_from": 1,
      "page_to": 14,
      "text": "Allgemeine Informationen, Kalkulations- und Ausführungshinweise ergänzend zu 18299 Allgemeine Regelungen für Bauarbeiten ATV VOB/C 1. Allgemeines 1.1 Angaben zur Baustelle 1.1.1 Lage der Baustelle, Umgebungsbedingungen, Zufahrtsmöglichkeiten und Beschaffenheit der Zufahrt sowie etwaige Einschränkungen bei ihrer Benutzung. Die Erschließung des Geländes erfolgt über die westliche Seite des Baufelds. Die Straße östlich des Baufelds ist während der gesamten Bauphase für den Zufahrtsverkehr zum Wirtschaftshof freizuhalten. 1.1.2 Besondere Belastungen aus Immissionen sowie besondere klimatische oder betriebliche Bedingungen. Die Baustelle befindet sich auf einem Universitätsklinikgelände. Arbei

## Extract the Product Groups

In [10]:
group_extraction_prompt = """
Task: Extract the Product Groups from the German LV-Liste text.
Output: Return only JSON that matches the schema below—no prose.

Input format: You will receive raw text from a PDF (German), possibly with page numbers.

Your job:
1.	Find the Product Groups.
2.	Extract the title, page range, and product group number.
3.	Normalize trivial whitespace; keep German umlauts.

Return only JSON matching the schema below.

{
  "type": "object",
  "properties": {
    "document_title": { "type": ["string", "null"] },
    "groups": {
      "type": "array",
      "items": {
        "type": "object",
        "properties": {
          "group_no": { "type": ["string", "null"] },
          "title": { "type": "string" },
          "page_from": { "type": ["integer", "null"] },
          "page_to": { "type": ["integer", "null"] },
        },
        "required": ["title", "page_from", "page_to"]
      }
    }
  },
  "required": ["groups"]
}
"""

group_extraction_prompt = f"""
{group_extraction_prompt}

Input:
{text}
"""


In [11]:
# Call OpenAI API

group_extraction_response = client.responses.create(
    model="gpt-5",
    input=group_extraction_prompt
)

print(group_extraction_response.output_text)

{
  "document_title": "DKFZ, Heidelberg - FER – Gewerk Labortechnik",
  "groups": [
    { "group_no": "01.01", "title": "Trennwandsystem", "page_from": 45, "page_to": 45 },
    { "group_no": "01.02", "title": "Abzüge", "page_from": 46, "page_to": 79 },
    { "group_no": "01.03", "title": "Lüftungsbauelemente", "page_from": 80, "page_to": 82 },
    { "group_no": "01.04", "title": "Abzugshauben", "page_from": 83, "page_to": 83 },
    { "group_no": "01.05", "title": "Lüftungsgerät", "page_from": 84, "page_to": 84 },
    { "group_no": "01.06", "title": "Medienversorgungseinheiten", "page_from": 85, "page_to": 123 },
    { "group_no": "01.07", "title": "Elektroinstallation", "page_from": 124, "page_to": 126 },
    { "group_no": "01.08", "title": "Elektrotechnische Sonderbauteile", "page_from": 127, "page_to": 137 },
    { "group_no": "01.09", "title": "Labormöbelverblendungen", "page_from": 138, "page_to": 143 },
    { "group_no": "01.10", "title": "Handwaschbeckenelement", "page_from": 144

## Save the json Files

In [12]:
with open('data/product_groups.json', 'w') as f:
    f.write(group_extraction_response.output_text)
with open('data/vorbemerkungen.json', 'w') as f:
    f.write(response.output_text)

## Get the page offset with a regex

In [None]:
## Chec if text includes the word "Seite" followed by a colon immediately and followed by a number. The number may be preceded by a space.

import re

for i in range(len(texts)):
    if re.search(r'Seite\s*:\s*\d+', texts[i]):
        page_offset = i
        print(i)
        break


21


## Extract Product Variants

In [40]:
def get_product_variants_prompt(prod_group_nr, prod_group_title):
    json_schema = """
    {
    "type": "object",
    "properties": {
        "variants": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "variant_no": { "type": ["string", "null"] },
                    "title": { "type": "string" },
                    "page_from": { "type": ["integer", "null"] },
                    "page_to": { "type": ["integer", "null"] },
                    "text": { "type": "string" }
                    },
                "required": ["title", "page_from", "page_to"^]
            }
        }
    }
    """
    return f"""
    Task: Extract the Product Variants for the product group {prod_group_nr} {prod_group_title} from the German LV-Liste text.
    Output: Return only JSON that matches the schema below—no prose.

    Input format: You will receive raw text from a PDF (German) with the necessary information.

    Your job:
    1.	Find the Product Variants.
    2.	Extract the title, page range, product variant number, and text. The title (kurztext) is a short description of the product variant and the text is the product variant description (langtext).
    3.	Normalize trivial whitespace; keep German umlauts.

    Return only JSON matching the schema below.

    {json_schema}
    """

def get_product_variants(prod_group_nr, prod_group_title, page_from, page_to, page_offset, texts, client):
    prompt = get_product_variants_prompt(prod_group_nr, prod_group_title)
    pages = texts[page_offset + page_from - 1:page_offset + page_to + 1]
    text = "\n".join(pages)
    input_prompt = prompt + "\n\n" + text
    response = client.responses.create(
        model="gpt-5",
        input=input_prompt
    )
    return response.output_text



In [None]:
import json

with open('data/product_groups.json', 'r') as f:
    product_groups = json.load(f)

group_1 = product_groups["groups"][1]
print(group_1)
group_1_variants = get_product_variants(group_1["group_no"], group_1["title"], group_1["page_from"], group_1["page_to"], page_offset, texts, client)
print(group_1_variants)

{'group_no': '01.02', 'title': 'Abzüge', 'page_from': 46, 'page_to': 79}
{
  "variants": [
    {
      "variant_no": "01.02.0001",
      "title": "Abzug Abfallbehälter 20mm Pb",
      "page_from": 56,
      "page_to": 57,
      "text": "Erweiterte Ausstattung abgeschirmte Abfallbehälter für Radionuklidabzug. Fest eingebauter Abfallbehälter mit 20 mm Bleiabschirmung unterhalb des Abzugs (Abwurfprinzip). Die Abfalleinheit ist statisch unabhängig von dem Abzug untergebaut, damit diese bei Bedarf gegen eine größere Einheit ausgetauscht werden kann. Eine Einschränkung durch Verblendungen darf nicht gegeben sein. Diese müssen zum Ausbau der Abfalleinheit leicht demontierbar sein. Unterbaustahlschrank, mit frontseitiger Drehtür abschließbar und innerer Edelstahlverkleidung. Mit eingestellten Edelstahl-Abfallbehälter. Der Abfallbehälter ist in das Abluftsystem des Abzugs einzubinden, so dass beim Abwurf freigesetzte Aktivitäten über das zentrale Filtersystem geführt und zurückgehalten werden, 

In [42]:
# Save the product variants
with open('data/product_variants.json', 'w') as f:
    f.write(group_1_variants)


## Extract the required Components from the Product Group

In [43]:
def get_required_components_prompt(prod_group_nr, prod_group_title):
    json_schema = """
    {
    "type": "object",
    "properties": {
        "components": {
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "component_description": { "type": "string" },
                    "variant_nos": { "type": "array", "items": { "type": "string" } }
                },
                "required": ["component_description", "variant_nos"]
            }
        }
    }
    """

    variants = json.load(open('data/product_variants.json'))
    variants = variants["variants"]
    variants_str = "\n".join([f"{v['variant_no']}: {v['title']} text: {v['text']}" for v in variants])


    return f"""
    Task: Extract the required components for the product group {prod_group_nr} {prod_group_title} from the German LV-Liste text. 
    The components are the parts that are required to assemble the product. Severals variants can require the same component. 
    Output: Return only JSON that matches the schema below—no prose.

    Input format: You will receive the product variants for the product group from a PDF (German) with the necessary information.

    Your job:
    1.	Find the required components.
    2.	Extract the title, page range, and text for each required component.
    3.	Normalize trivial whitespace; keep German umlauts.

    Return only JSON matching the schema below.

    {json_schema}

    Product variants:
    {variants_str}
    """
    
def get_required_components(prod_group_nr, prod_group_title, page_from, page_to, page_offset, texts, client):
    prompt = get_required_components_prompt(prod_group_nr, prod_group_title)
    response = client.responses.create(
        model="gpt-5",
        input=prompt
    )
    return response.output_text

group_1_required_components = get_required_components(group_1["group_no"], group_1["title"], group_1["page_from"], group_1["page_to"], page_offset, texts, client)
print(group_1_required_components)



{
  "components": [
    {
      "component_description": "Unterbaustahlschrank, frontseitig abschließbare Drehtür, innere Edelstahlverkleidung, statisch unabhängig untergebaut",
      "variant_nos": ["01.02.0001", "01.02.0002"]
    },
    {
      "component_description": "Edelstahl-Abfallbehälter ca. 350 x 350 x 350 mm, in das Abluftsystem des Abzugs einzubinden",
      "variant_nos": ["01.02.0001", "01.02.0002"]
    },
    {
      "component_description": "Abnehmbarer Edelstahldeckel für Abwurföffnung d=150 mm mit 20 mm Blei",
      "variant_nos": ["01.02.0001"]
    },
    {
      "component_description": "Abnehmbarer Edelstahldeckel für Abwurföffnung d=150 mm mit 50 mm Blei",
      "variant_nos": ["01.02.0002"]
    },
    {
      "component_description": "Einsatz mit Deckel zur Verkleinerung des Abwurfs auf 70–75 mm",
      "variant_nos": ["01.02.0001", "01.02.0002"]
    },
    {
      "component_description": "Abgeschirmte Durchführung zur Abfalleinheit d=150 mm mit Deckel",
      "

In [44]:
# Save the required components
with open('data/required_components.json', 'w') as f:
    f.write(group_1_required_components)
