# Initialisierung LLM, Embedding, DB

#### LLM

#### Embedding

In [None]:
from langchain_nomic import NomicEmbeddings

embeddings = NomicEmbeddings(model="nomic-embed-text-v1.5")

#### DB

In [None]:
from langchain_postgres import PGVector

vector_store = PGVector(
    embeddings=embeddings,
    collection_name="embeddings_fwdv",
    connection="postgresql+psycopg://postgres:abc1234@localhost:5432/postgres",
)

# Einträge DB

In [None]:
import psycopg2

# 2.1 Verbindung aufbauen
conn = psycopg2.connect(
    "postgresql://postgres:abc1234@localhost:5432/postgres"
)
cur = conn.cursor()

# 2.2 Alle Einträge abfragen
cur.execute("SELECT id, content, metadata FROM embeddings_fwdv;")
rows = cur.fetchall()

# 2.3 Ausgabe
for id, content, metadata in rows:
    print(f"ID: {id}")
    print("Content:", content[:100], "…")
    print("Metadata:", metadata)
    print("-" * 40)

# 2.4 Aufräumen
cur.close()
conn.close()


# Parsing 

## unstructured

##### Installation validieren

In [None]:
#!pip install "unstructured[all-docs]"

In [None]:
from unstructured.partition.auto import partition
elements = partition(filename="fake-email.eml")

In [None]:
from unstructured.partition.auto import partition
elements = partition("layout-parser-paper.pdf")

In [None]:
elements

In [None]:
from unstructured.partition.image import partition_image
# … dein Code …

# Returns a List[Element] present in the pages of the parsed image document
elements = partition_image("layout-parser-paper-fast.jpg")


In [None]:
from unstructured.cleaners.core import clean_ordered_bullets

# Returns "This is a very important point"
clean_ordered_bullets("1.1 This is a very important point")

# Returns "This is a very important point ●"
clean_ordered_bullets("a.b This is a very important point ●")

##### FWDV verarbeiten mit unstructured

In [None]:
############# Alle Dokumente
# elements_fwdv_1 = partition("Dokumente/fwdv_1.pdf")
# elements_fwdv_2 = partition("Dokumente/fwdv_2.pdf")
# elements_fwdv_3 = partition("Dokumente/fwdv_3.pdf")
# elements_fwdv_7 = partition("Dokumente/fwdv_7.pdf")
# elements_fwdv_8 = partition("Dokumente/fwdv_8.pdf")
# elements_fwdv_10_AFKzV = partition("Dokumente/fwdv_10_AFKzV.pdf")
# elements_fwdv_100 = partition("Dokumente/fwdv_100.pdf")
# elements_fwdv_500 = partition("Dokumente/fwdv_500.pdf")
# elements_FwDV_DV_810 = partition("Dokumente/FwDV_DV_810.pdf")



In [None]:
from unstructured.partition.pdf import partition_pdf
from unstructured.chunking.basic import chunk_elements
from unstructured.documents.elements import Image, Header, Title
from itertools import groupby
import os

In [None]:
# partitionierung Bilder und Text
filename = "Dokumente/fwdv_3.pdf"
elements = partition_pdf(
    filename=filename,
    strategy="hi_res",                     # High‑Res‑Modus für Bilder
    extract_image_block_types=["Image"],   # nur Image‑Blöcke extrahieren
)

In [None]:
from unstructured.partition.pdf import partition_pdf

elements = partition_pdf(
    filename="Dokumente/fwdv_3.pdf",                 # mandatory
    strategy="hi_res",                                     # mandatory to use ``hi_res`` strategy
    extract_images_in_pdf=True,                            # mandatory to set as ``True``
    extract_image_block_types=["Image", "Table"],          # optional
    extract_image_block_to_payload=False,                  # optional
    extract_image_block_output_dir="Dokumente/images",  # optional - only works when ``extract_image_block_to_payload=False``
    )


In [None]:
from unstructured.chunking.title import chunk_by_title

chunks = chunk_by_title(
    elements = elements,
    combine_text_under_n_chars = 2000,
    max_characters = 2000,
    overlap = 400,
    )

In [None]:
len(chunks)

##### Chunking

In [None]:
for chunk in chunks:
    print(chunk)
    print("\n\n" + "-"*80)

#### Meta Daten hinzufügen

In [None]:
import re

# Compile zum Matching
main_re = re.compile(main_chapter_re)
sub_re  = re.compile(sub_chapter_re)

current_main = None
chunks_with_meta = []

for idx, chunk in enumerate(chunks):
    heading = chunk.metadata. or ""
    page    = chunk.metadata.page_number
    source  = os.path.basename("Dokumente/fwdv_1.pdf")

    # 3. Parent-Logik
    if main_re.match(heading):
        # neues Hauptkapitel
        current_main = heading.strip()
        parent = None
    elif sub_re.match(heading):
        # Unterkapitel bekommt das letze Hauptkapitel als Parent
        parent = current_main
    else:
        # kein Header-Chunk, gehört weiter zum aktuellen Kapitel
        parent = current_main

    chunks_with_meta.append({
        "content": chunk.text,
        "metadata": {
            "source": source,
            "page": page,
            "heading": heading.strip(),
            "parent_chapter": parent,    # None oder z.B. „2 Methoden“
            "chunk_index": idx,
        }
    })


In [None]:
# Nach Seiten gruppieren
elements_sorted = sorted(elements, key=lambda el: el.metadata.page_number or 0)
pages = groupby(elements_sorted, key=lambda el: el.metadata.page_number or 0)

chunks_with_meta = []

for page_num, page_elems in pages:
    page_list = list(page_elems)

    # Überschrift suchen: erst Title, dann Header
    heading = None
    for el in page_list:
        if isinstance(el, Title):
            heading = el.text
            break
        if isinstance(el, Header):
            heading = el.text
            break

    # # Semantisch chunken
    # page_chunks = chunk_elements(
    #     page_list,
    #     max_characters=1000,
    #     new_after_n_chars=800,
    # )
    chunks = partition_pdf(
    filename="Dokumente/fwdv_1.pdf",
    chunking_strategy="by_title",             # nutzt Überschriften als Boundaries
    chunking_kwargs={
        "max_characters": 1000,               # harte Obergrenze
        "new_after_n_chars": 800,             # weiche Obergrenze
        "combine_text_under_n_chars": 200,    # kleine Elemente an den aktuellen Chunk anhängen
    },
)

    # for idx, chunk in enumerate(chunks):
    #     # Bilder im Chunk sammeln
    #     images = [el for el in chunk.elements if isinstance(el, Image)]
    #     chunks_with_meta.append({
    #         "content": chunk.text,
    #         "images": images,
    #         "metadata": {
    #             "source": os.path.basename(filename),
    #             "page": page_num,
    #             "heading": heading,
    #             "chunk_index": idx,
    #         },
    #     })

In [None]:
for idx, chunk in enumerate(chunks):
    # Bilder im Chunk sammeln
    filename="Dokumente/fwdv_1.pdf"
    images = [el for el in chunk.metadata.orig_elements if isinstance(el, Image)]
    chunks_with_meta.append({
        "content": chunk.text,
        "images": images,
        "metadata": {
            "source": os.path.basename(filename),
            "page": page_num,
            "heading": heading,
            "chunk_index": idx,
        },
    })

In [None]:
chunks_with_meta

In [None]:
from unstructured.partition.pdf import partition_pdf

elements = partition_pdf(filename="Dokumente/fwdv_1.pdf")
# Access metadata for each element
for element in elements:
    page = element.metadata.page_number

In [None]:
elements

In [None]:
import os
from unstructured.partition.pdf import partition_pdf
from unstructured.chunking.basic import chunk_elements

# Pfad zum PDF
filename = "Dokumente/fwdv_3.pdf"

# 1. PDF in Elemente zerlegen (hi_res für Bilder und Layout)
elements = partition_pdf(
    filename=filename,
    strategy="hi_res",
    extract_image_block_types=["Image"],   # optional, für Bild-Erkennung
)

# 2. Semantisches Chunking der Elemente
chunks = chunk_elements(
    elements,
    max_characters=1000,      # harte Obergrenze pro Chunk
    new_after_n_chars=800,    # weiche Obergrenze, danach neuer Chunk
)

# 3. Chunks mit Metadaten versehen
chunks_with_meta = []
for idx, chunk in enumerate(chunks):
    chunks_with_meta.append({
        "content": chunk.text,                             # reiner Text
        "metadata": {
            "source": os.path.basename(filename),          # Dateiname
            "page": chunk.metadata.page_number,            # Seitenzahl
            "chunk_index": idx,                            # Position im Dokument
        }
    })

# Ergebnis: Liste von dicts mit 'content' und 'metadata'
for item in chunks_with_meta:
    print(item["metadata"], item["content"][:100], "…")


In [None]:
import os
from unstructured.partition.pdf import partition_pdf

# 1. Definiere deine Header-Patterns (Kapitel & Unterkapitel)
main_chapter_re = r'^\d+\s+'       # z. B. "1 Einleitung"
sub_chapter_re  = r'^\d+\.\d+\s+'  # z. B. "2.3 Methodik"

# Pfad zum PDF
filename = "Dokumente/fwdv_3.pdf"

# 2. PDF in Chunks zerlegen, auf Basis der Überschriften
chunks = partition_pdf(
    filename=filename,
    strategy="hi_res",              # Hol dir auch Bilder/Layout
    extract_image_block_types=["Image", "Table"],
    extract_image_block_output_dir="Dokumente/images",
    chunking_strategy="basic",   # Chunk-Kicks bei Title-Matches
    chunking_kwargs={
        "chunking_headers": [main_chapter_re, sub_chapter_re],
        "max_characters": 2000,
        "new_after_n_chars": 1800,
        "combine_text_under_n_chars": 400,
    },
)

# 3. Chunks mit den gewünschten Metadaten anreichern
chunks_with_meta = []
for idx, chunk in enumerate(chunks):
    chunks_with_meta.append({
        "content": chunk.text,                       # reiner Text
        "metadata": {
            "source": os.path.basename(filename),    # Dateiname
            "page": chunk.metadata.page_number,      # echte Seitenzahl
#            "heading": chunk.metadata.title ,       # die Zeile, die gestartet hat
            "chunk_index": idx,                      # fortlaufender Index
        }
    })

    # 6. Metadaten zu jedem Chunk sammeln
    for idx, chunk in enumerate(chunks):
        # Sammele Bild-/Tabellen-Dateinamen aus orig_elements
        media_files = []
        for el in getattr(chunk.metadata, "orig_elements", []):
            fn = getattr(el.metadata, "filename", None)
            if fn:
                media_files.append(fn)
        
        chunks_with_meta.append({
            "content": chunk.text,
            "metadata": {
                "source": fname,
                "page": chunk.metadata.page_number,
                "chunk_index": idx,
                "media_files": media_files,
            }
        })

  from .autonotebook import tqdm as notebook_tqdm
The PDF <_io.BufferedReader name='Dokumente/fwdv_3.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case
The PDF <_io.BufferedReader name='Dokumente/fwdv_3.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case


##### Image exctraction
1. Bilder extrahieren -> möglichkeit die Bilder den Chunks der jeweiligen Dokumente zuzuordnen
    - wenn vorhanden Abbindungsbeschreibung in seperaten Chunk speichern und metadata um verbindung zwischen VectorDB und MongoDB herstellen zu können beim retrieven
2. Abbildungen ohne Beschreibung in GUI öffnen und beschreibung hinzufügen
????? sind beide Möglichkeiten für das retrieven notwenig? Wenn im zugehörigen Chunk enthalten wird es ja eigentlich mit ausgegeben?

In [7]:
import os
from unstructured.partition.pdf import partition_pdf

# 1. Definiere deine Header-Patterns (Kapitel & Unterkapitel)
main_chapter_re = r'^\d+\s+'       # z. B. "1 Einleitung"
sub_chapter_re  = r'^\d+\.\d+\s+'  # z. B. "2.3 Methodik"

# 2. Pfade konfigurieren
base_dir = "Dokumente"
images_base_dir = os.path.join(base_dir, "images")

# Sicherstellen, dass das Basis-Images-Verzeichnis existiert
os.makedirs(images_base_dir, exist_ok=True)

# List für alle Chunks aller PDFs
chunks_with_meta = []

# 3. Schleife über alle PDFs im base_dir
for fname in sorted(os.listdir(base_dir)):
    if not fname.lower().endswith(".pdf"):
        continue
    pdf_path = os.path.join(base_dir, fname)
    pdf_name = os.path.splitext(fname)[0]
    
    # 4. Eigene Unterordner für Bilder/Tables je PDF
    output_dir = os.path.join(images_base_dir, pdf_name)
    os.makedirs(output_dir, exist_ok=True)
    
    print(f"Verarbeite {fname} – Bildverzeichnis: {output_dir}")
    
    # 5. Partitionieren und Chunking
    chunks = partition_pdf(
        filename=pdf_path,
        strategy="hi_res",
        extract_image_block_types=["Image", "Table"],
        extract_image_block_output_dir=output_dir,
        chunking_strategy="basic",
        chunking_kwargs={
            "chunking_headers": [main_chapter_re, sub_chapter_re],
            "max_characters": 2000,
            "new_after_n_chars": 1800,
            "combine_text_under_n_chars": 400,
        },
    )
    
    # 6. Metadaten zu jedem Chunk sammeln
    for idx, chunk in enumerate(chunks):
        # Sammele Bild-/Tabellen-Dateinamen aus orig_elements
        media_files = []
        for el in getattr(chunk.metadata, "orig_elements", []):
            fn = getattr(el.metadata, "filename", None)
            if fn:
                media_files.append(fn)
        
        chunks_with_meta.append({
            "content": chunk.text,
            "metadata": {
                "source": fname,
                "page": chunk.metadata.page_number,
                "chunk_index": idx,
                "media_files": media_files,
            }
        })

# 7. Erste Chunks anzeigen
print(f"Insgesamt Chunks: {len(chunks_with_meta)}")
for chunk in chunks_with_meta[:3]:
    print(chunk["metadata"])
    print(chunk["content"][:200], "…\n")


Verarbeite FwDV_10.pdf – Bildverzeichnis: Dokumente\images\FwDV_10
Verarbeite FwDV_100.pdf – Bildverzeichnis: Dokumente\images\FwDV_100
Verarbeite FwDV_500.pdf – Bildverzeichnis: Dokumente\images\FwDV_500
Verarbeite FwDV_8.pdf – Bildverzeichnis: Dokumente\images\FwDV_8
Verarbeite FwDV_DV_810.pdf – Bildverzeichnis: Dokumente\images\FwDV_DV_810


The PDF <_io.BufferedReader name='Dokumente\\fwdv_1.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case


Verarbeite fwdv_1.pdf – Bildverzeichnis: Dokumente\images\fwdv_1


The PDF <_io.BufferedReader name='Dokumente\\fwdv_1.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case


Verarbeite fwdv_2.pdf – Bildverzeichnis: Dokumente\images\fwdv_2


Image Extraction Error: Skipping the failed image
Traceback (most recent call last):
  File "c:\Users\lueck\iCloudDrive\Master\4_Semester\NLP\NLP_RAG\Lib\site-packages\unstructured\partition\pdf_image\pdf_image_utils.py", line 221, in save_elements
    write_image(cropped_image, output_f_path)
  File "c:\Users\lueck\iCloudDrive\Master\4_Semester\NLP\NLP_RAG\Lib\site-packages\unstructured\partition\pdf_image\pdf_image_utils.py", line 48, in write_image
    image.save(output_image_path)
  File "c:\Users\lueck\iCloudDrive\Master\4_Semester\NLP\NLP_RAG\Lib\site-packages\PIL\Image.py", line 2568, in save
    save_handler(self, fp, filename)
  File "c:\Users\lueck\iCloudDrive\Master\4_Semester\NLP\NLP_RAG\Lib\site-packages\PIL\JpegImagePlugin.py", line 636, in _save
    raise ValueError(msg)
ValueError: cannot write empty image as JPEG
Image Extraction Error: Skipping the failed image
Traceback (most recent call last):
  File "c:\Users\lueck\iCloudDrive\Master\4_Semester\NLP\NLP_RAG\Lib\site

Verarbeite fwdv_3.pdf – Bildverzeichnis: Dokumente\images\fwdv_3


The PDF <_io.BufferedReader name='Dokumente\\fwdv_3.pdf'> contains a metadata field indicating that it should not allow text extraction. Ignoring this field and proceeding. Use the check_extractable if you want to raise an error in this case


Verarbeite fwdv_7.pdf – Bildverzeichnis: Dokumente\images\fwdv_7
Insgesamt Chunks: 1752
{'source': 'FwDV_10.pdf', 'page': 1, 'chunk_index': 0, 'media_files': []}
FwDV 10

Feuerwehr- Dienstvorschrift 10

Stand November 2019

Die tragbaren Leitern

Diese Dienstvorschrift wurde vom Ausschuss „Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidigung“ ( …

{'source': 'FwDV_10.pdf', 'page': 2, 'chunk_index': 1, 'media_files': []}
Druck mit freundlicher Genehmigung des Ausschusses „Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidigung“ (AFKzV).

2

Inhaltsverzeichnis …

{'source': 'FwDV_10.pdf', 'page': 3, 'chunk_index': 2, 'media_files': []}
7.1 VORNAHME DURCH DREI FEUERWEHRANGEHÖRIGE ............................. 11 7.2 VORNAHME DURCH ZWEI TRUPPS ...................................................... 15 7.3 VORNAHME DURCH EINSTECKEN AM L …



In [9]:
len(chunks_with_meta)

1752

In [3]:
for chunk in chunks_with_meta:
    print(chunk)
    print("\n\n" + "-"*80)

{'content': 'Feuerwehr-Dienstvorschrift FwDV 3 „Einheiten im Lösch- und Hilfeleistungseinsatz“\n\nStand Februar 2008\n\nSeite 1\n\nFwDV 3\n\nFeuerwehr-\n\nDienstvorschrift 3\n\nStand: Februar 2008\n\nEinheiten im Lösch- und Hilfeleistungseinsatz\n\nFeuerwehr-Dienstvorschrift FwDV 3 „Einheiten im Lösch- und Hilfeleistungseinsatz“\n\nStand Februar 2008\n\nSeite 2', 'metadata': {'source': 'fwdv_3.pdf', 'page': 1, 'chunk_index': 0}}


--------------------------------------------------------------------------------
{'content': 'Diese Dienstvorschrift wurde vom Ausschuss Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidigung (AFKzV) auf der 21. Sitzung am 20. und 21.02.2008 in Kassel genehmigt und den Ländern zur Einführung empfohlen.\n\n(Bei einem Nachdruck ist zuvor die Zustimmung des AFKzV einzuholen. Es ist dann folgender Text auf der Innenseite der Umschlagseite abzudrucken.)\n\nDruck mit freundlicher Genehmigung des Ausschusses Feuerwehrangelegenheiten, Katastrophenschutz

In [4]:
chunks_with_meta

[{'content': 'FwDV 10\n\nFeuerwehr- Dienstvorschrift 10\n\nStand November 2019\n\nDie tragbaren Leitern\n\nDiese Dienstvorschrift wurde vom Ausschuss „Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidigung“ (AFKzV) per Umlaufbeschluss am 8. Juli 2020 genehmigt und den Ländern zur Einführung empfohlen.\n\n(Bei Nachdruck ist die Zustimmung des AFKzV einzuholen. Es ist dann folgender Text auf der Innenseite der Umschlagseite abzudrucken.)',
  'metadata': {'source': 'FwDV_10.pdf',
   'page': 1,
   'chunk_index': 0,
   'media_files': []}},
 {'content': 'Druck mit freundlicher Genehmigung des Ausschusses „Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidigung“ (AFKzV).\n\n2\n\nInhaltsverzeichnis',
  'metadata': {'source': 'FwDV_10.pdf',
   'page': 2,
   'chunk_index': 1,
   'media_files': []}},
 {'content': '7.1 VORNAHME DURCH DREI FEUERWEHRANGEHÖRIGE ............................. 11 7.2 VORNAHME DURCH ZWEI TRUPPS ..................................................

In [None]:
import json

# Speichern
with open("chunks_with_meta.json", "w", encoding="utf-8") as f:
    json.dump(chunks_with_meta, f, ensure_ascii=False, indent=2)

# … Kernel neu starten …




In [2]:
import json
# Wieder einladen
with open("chunks_with_meta.json", "r", encoding="utf-8") as f:
    chunks_with_meta = json.load(f)

In [14]:
type(chunks_with_meta)

list

embedding mit Langraph
Speichern der bilder in Mongodb mit verweis auf das dokument --> auf verbindung zum Chunk achten

In [3]:
import os, json
import psycopg2
import pymongo
from nomic import embed
from bson import Binary

# --- 1) Vorarbeit: Embeddings erzeugen (512-dim mit nomic-embed-text-v1.5) ---
texts = [chunk["content"] for chunk in chunks_with_meta]
resp = embed.text(
    texts=texts,
    model="nomic-embed-text-v1.5",
    task_type="search_document",
    dimensionality=512,
)
embeddings = resp["results"]  # Liste von 512-dim Listen

# --- 2) Postgres-Verbindung & Tabelle anlegen ---
pg_conn = psycopg2.connect(
    "postgresql://postgres:example@localhost:5432/postgres"
)
pg_cur = pg_conn.cursor()
pg_cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
pg_cur.execute("""
CREATE TABLE IF NOT EXISTS fwdv_chunks (
  id          SERIAL PRIMARY KEY,
  content     TEXT NOT NULL,
  embedding   VECTOR(512) NOT NULL,
  metadata    JSONB       NOT NULL
);
""")
pg_conn.commit()

# --- 3) MongoDB-Verbindung (Media-DB) ---
mongo_client = pymongo.MongoClient("mongodb://localhost:8081")
media_db = mongo_client["fwdv_media"]
images_col = media_db["images"]

# --- 4) Einfügen aller Chunks + Medien ---
for idx, (chunk, emb) in enumerate(zip(chunks_with_meta, embeddings)):
    # a) Postgres: Text + Embedding + Metadaten
    pg_cur.execute(
        "INSERT INTO fwdv_chunks (content, embedding, metadata) VALUES (%s, %s, %s) RETURNING id;",
        (chunk["content"], emb, json.dumps(chunk["metadata"]))
    )
    inserted_id = pg_cur.fetchone()[0]
    
    # b) Medien: aus orig_elements die Dateipfade holen
    #    (ersetze hier eventl. .metadata.orig_elements durch deine Struktur)
    for el in chunk.get("orig_elements", []):
        path = el.metadata.filename  # z.B. "Dokumente/images/page_3_block_7.png"
        if os.path.exists(path):
            if path.lower().endswith((".png",".jpg",".jpeg")):
                data = open(path, "rb").read()
                images_col.insert_one({
                    "chunk_db_id": inserted_id,
                    "filename": os.path.basename(path),
                    "page": chunk["metadata"]["page"],
                    "data": Binary(data),
                })


pg_conn.commit()
pg_cur.close()
pg_conn.close()


ValueError: You have not configured your Nomic API token. Run `nomic login` to configure.

In [1]:
import pymongo
from bson import SON, timestamp, tz_util
print("SON, Timestamp und tz_util sind da:", SON, timestamp.Timestamp, tz_util.utc)


SON, Timestamp und tz_util sind da: <class 'bson.son.SON'> <class 'bson.timestamp.Timestamp'> FixedOffset(datetime.timedelta(0), 'UTC')


In [4]:
from langchain_community.document_loaders import UnstructuredPDFLoader

file_path = "Dokumente/fwdv_3.pdf"
loader = UnstructuredPDFLoader(file_path)

In [17]:
from langchain_unstructured import UnstructuredLoader

loader = UnstructuredLoader(
    file_path=file_path,
    strategy="hi_res",
    partition_via_api=False,
    unstructured_kwargs={
        "extract_image_block_types": ["Image", "Table"],
        "extract_image_block_output_dir": "Dokumente/images",
    },
)
docs = list(loader.lazy_load())

INFO: Reading PDF for file: Dokumente/fwdv_3.pdf ...


In [18]:
print(len(docs))

589


In [19]:
first_page_docs = [doc for doc in docs if doc.metadata.get("page_number") == 4]

for doc in first_page_docs:
    print(doc.page_content)

Feuerwehr-Dienstvorschrift FwDV 3 „Einheiten im Lösch- und Hilfeleistungseinsatz“
Stand Februar 2008
Seite 4
1 Allgemeines
Die Feuerwehr-Dienstvorschriften gelten für den Einsatz und für die Aus- und Fortbildung. Neben den Feuerwehr-Dienstvorschriften sind insbesondere die Unfallverhütungsvorschrift „Feuerwehren“ sowie die hierzu ergangenen Durchführungsanweisungen zu beachten.
Die Feuerwehr-Dienstvorschrift (FwDV) 3 regelt, wie die taktischen Einheiten Selbstständiger Trupp, Staffel, Gruppe und Zug im Lösch- und Hilfeleistungseinsatz arbeiten. Die hier festgelegte Gliederung der taktischen Einheiten gilt darüber hinaus auch für alle anderen Einsatzarten.
Der Löscheinsatz im Sinne dieser Vorschrift ist jede Tätigkeit der Feuerwehr, bei der Strahlrohre vorgenommen werden; beispielsweise der Löschangriff bei einem Brandeinsatz, das Schützen gefährdeter Menschen oder das Schützen gefährdeter Objekte durch Abriegeln, sowie das Niederschlagen, Abdrängen oder Verwirbeln gefährlicher Dämpfe u