# 01 — Parsing the EU AI Act

Parse the official EU AI Act XHTML into structured `Provision` objects (articles, recitals, annexes) and save as JSON for downstream processing.

Supports both German (default) and English.

**Source**: [Regulation (EU) 2024/1689](https://eur-lex.europa.eu/eli/reg/2024/1689/oj)

In [1]:
import sys
sys.path.insert(0, "..")

from src.parsing import parse_eu_ai_act, save_provisions

LANG = "de"  # change to "en" for English

## Parse XHTML

In [2]:
provisions = parse_eu_ai_act(lang=LANG)

articles = [p for p in provisions if p.type == "article"]
recitals = [p for p in provisions if p.type == "recital"]
annexes  = [p for p in provisions if p.type == "annex"]

print(f"Language: {LANG}")
print(f"Articles: {len(articles)}")
print(f"Recitals: {len(recitals)}")
print(f"Annexes:  {len(annexes)}")
print(f"Total:    {len(provisions)}")

Language: de
Articles: 113
Recitals: 180
Annexes:  13
Total:    306


## Inspect sample provisions

In [3]:
# Article 5 — Prohibited AI Practices (key for compliance classification)
art5 = next(a for a in articles if a.number == "5")
print(f"{art5.title}")
print(f"Chapter: {art5.chapter} — {art5.chapter_title}")
print(f"Paragraphs: {len(art5.paragraphs)}")
print(f"Text length: {len(art5.text)} chars")
print(f"\nFirst 500 chars:\n{art5.text[:500]}")

Artikel 5 — Verbotene Praktiken im KI-Bereich
Chapter: II — VERBOTENE PRAKTIKEN IM KI-BEREICH
Paragraphs: 8
Text length: 12264 chars

First 500 chars:
(1) Folgende Praktiken im KI-Bereich sind verboten: a) das Inverkehrbringen, die Inbetriebnahme oder die Verwendung eines KI-Systems, das Techniken der unterschwelligen Beeinflussung außerhalb des Bewusstseins einer Person oder absichtlich manipulative oder täuschende Techniken mit dem Ziel oder der Wirkung einsetzt, das Verhalten einer Person oder einer Gruppe von Personen wesentlich zu verändern, indem ihre Fähigkeit, eine fundierte Entscheidung zu treffen, deutlich beeinträchtigt wird, wodurc


In [4]:
# Article 6 — Classification rules for high-risk AI systems
art6 = next(a for a in articles if a.number == "6")
print(f"{art6.title}")
print(f"Paragraphs: {len(art6.paragraphs)}")
for p in art6.paragraphs[:3]:
    print(f"  {p['id']}: {p['text'][:100]}...")

Artikel 6 — Einstufungsvorschriften für Hochrisiko-KI-Systeme
Paragraphs: 8
  006.001: (1) Ungeachtet dessen, ob ein KI-System unabhängig von den unter den Buchstaben a und b genannten Pr...
  006.002: (2) Zusätzlich zu den in Absatz 1 genannten Hochrisiko-KI-Systemen gelten die in Anhang III genannte...
  006.003: (3) Abweichend von Absatz 2 gilt ein in Anhang III genanntes KI-System nicht als hochriskant, wenn e...


In [None]:
# Chapter distribution
from collections import Counter
chapter_counts = Counter(a.chapter for a in articles)
chapter_order = list(dict.fromkeys(a.chapter for a in articles))
for ch in chapter_order:
    count = chapter_counts[ch]
    title = next(a.chapter_title for a in articles if a.chapter == ch)
    print(f"Chapter {ch:>5}: {count:>3} articles — {title}")

In [6]:
# Sample recital
print(f"{recitals[0].title}")
print(recitals[0].text[:300])

Erwägungsgrund 1
Zweck dieser Verordnung ist es, das Funktionieren des Binnenmarkts zu verbessern, indem ein einheitlicher Rechtsrahmen insbesondere für die Entwicklung, das Inverkehrbringen, die Inbetriebnahme und die Verwendung von Systemen künstlicher Intelligenz (KI-Systeme) in der Union im Einklang mit den Wert


In [7]:
# Annex III — High-risk AI systems (referenced by Art. 6)
anx3 = next(a for a in annexes if a.number == "III")
print(f"{anx3.title}")
print(f"Text length: {len(anx3.text)} chars")
print(f"\nFirst 500 chars:\n{anx3.text[:500]}")

ANHANG III — Hochrisiko-KI-Systeme gemäß Artikel 6 Absatz 2
Text length: 8721 chars

First 500 chars:
ANHANG III Hochrisiko-KI-Systeme gemäß Artikel 6 Absatz 2 Als Hochrisiko-KI-Systeme gemäß Artikel 6 Absatz 2 gelten die in folgenden Bereichen aufgeführten KI-Systeme: 1. Biometrie, soweit ihr Einsatz nach einschlägigem Unionsrecht oder nationalem Recht zugelassen ist: a) biometrische Fernidentifizierungssysteme. Dazu gehören nicht KI-Systeme, die bestimmungsgemäß für die biometrische Verifizierung, deren einziger Zweck darin besteht, zu bestätigen, dass eine bestimmte natürliche Person die Pers


## Save to JSON

In [8]:
save_provisions(provisions, f"../data/chunks/provisions_{LANG}.json")
print(f"Saved provisions to data/chunks/provisions_{LANG}.json")

Saved provisions to data/chunks/provisions_de.json
