## XML (Extensible Markup Language)

**XML** (Extensible Markup Language) ist ein flexibles Textformat/Markup-Sprache, das zur Darstellung von strukturierten Daten in einer menschenlesbaren und maschinenverarbeitbaren Form verwendet wird. Es ist nicht auf ein bestimmtes Anwendungsgebiet festgelegt, sondern kann für eine Vielzahl von Datenstrukturen verwendet werden – von Konfigurationsdateien bis hin zu komplexen Datensätzen.<br>
Eine **Markup-Sprache** ist eine Art von Sprache, die verwendet wird, um die Struktur und das Layout von Texten, Daten oder Inhalten zu beschreiben. Sie verwendet Tags (oder Markierungen), die um den Inhalt platziert werden, um anzugeben, wie dieser Inhalt interpretiert oder dargestellt werden soll. Diese Tags sind in der Regel textuelle Zeichenfolgen, die den Text umschließen und ihm Bedeutung oder Struktur verleihen.
Markup-Sprachen beschreiben lediglich die Struktur und Formatierung von Inhalten, ohne Logik auszuführen. Programmiersprachen hingegen führen Berechnungen durch und ermöglichen komplexe Anweisungen und Interaktionen zwischen verschiedenen Systemen und Komponenten.

#### Eigenschaften von XML:
- **Struktur**: XML-Dokumente bestehen aus verschachtelten Elementen (Tags), die die Daten umschließen. Diese Tags können benutzerdefiniert werden, was bedeutet, dass XML eine "erweiterbare" Markup-Sprache ist.
- **Lesbarkeit**: XML ist sowohl für Menschen als auch für Maschinen lesbar, was es für die Datenübertragung zwischen verschiedenen Systemen und Anwendungen nützlich macht.
- **Hierarchie**: XML-Daten sind hierarchisch organisiert, was es einfach macht, komplexe Beziehungen zu modellieren.

### Grundstruktur eines XML-Dokuments:
```xml
<?xml version="1.0" encoding="UTF-8"?>
<library>
    <book>
        <title>XML for Beginners</title>
        <author>John Doe</author>
        <year>2021</year>
    </book>
    <book>
        <title>Advanced XML Techniques</title>
        <author>Jane Smith</author>
        <year>2020</year>
    </book>
</library>
```

#### Wichtige Merkmale:
1. **Deklaration**: Ein XML-Dokument beginnt häufig mit einer optionalen XML-Deklaration, z. B. `<?xml version="1.0" encoding="UTF-8"?>`, die die Version und das verwendete Zeichencodierungssystem festlegt.
2. **Tags**: Tags wie `<book>`, `<title>`, und `<author>` umschließen die tatsächlichen Daten.
3. **Elemente**: Ein Element kann aus einem Tag und dem darin enthaltenen Inhalt bestehen, z. B. `<title>XML for Beginners</title>`.
4. **Verschachtelung**: XML-Elemente können andere XML-Elemente enthalten, was zu einer Baumstruktur führt.
5. **Attribute**: Tags können Attribute enthalten, die zusätzliche Informationen zu einem Element bereitstellen, z. B. `<book id="1">`.

---

### Detaillierte Erklärung der XML-Elemente

#### 1. **XML-Deklaration**
Die XML-Deklaration am Anfang eines Dokuments gibt an, welche XML-Version und welche Zeichencodierung verwendet wird:
```xml
<?xml version="1.0" encoding="UTF-8"?>
```
- `version="1.0"`: Gibt die XML-Version an. In den meisten Fällen ist dies "1.0".
- `encoding="UTF-8"`: Gibt die Zeichencodierung an, die für das Dokument verwendet wird. UTF-8 ist der Standard und stellt sicher, dass alle Zeichen korrekt dargestellt werden.

#### 2. **Tags und Elemente**
- **Tags**: Tags bestehen aus einem öffnenden Tag (`<tag>`) und einem schließenden Tag (`</tag>`). Der Inhalt des Tags ist die Information, die gespeichert wird.
    - Beispiel: `<title>XML for Beginners</title>`
- **Verschachtelte Elemente**: Elemente können andere Elemente enthalten, was eine hierarchische Struktur erzeugt. 
    - Beispiel: `<book><title>XML for Beginners</title><author>John Doe</author></book>`

### 3. **Regeln für Elementnamen**
   - **Erlaubte Zeichen:** Der Elementname muss mit einem Buchstaben oder einem Unterstrich `_` beginnen, gefolgt von beliebigen Kombinationen aus Buchstaben, Zahlen, Bindestrichen und Punkten.
     - Gültige Beispiele:
       - `<name>`, `<age>`, `<person_1>`
     - Ungültige Beispiele:
       - `<1name>`, `<-age>`, `<.person>`
   - **Keine Leerzeichen:** Der Name eines Elements darf keine Leerzeichen enthalten.
   - **Begrenzte Zeichen:** XML-Namen dürfen keine Zeichen wie `<`, `>`, `/`, `&`, `"` und `'` enthalten, da diese für die XML-Syntax reserviert sind.

### 4. **Kurzschreibweise (Empty Elements)**
   - Wenn ein Element keinen Inhalt hat, kann es in einer einzigen Zeile geschrieben werden:
     - **Kurzschreibweise:** `<element />`
   - Dies ist eine verkürzte Form des folgenden regulären Formats:
     - **Vollständiges Format:** `<element></element>`
   - Beispiel:
     ```xml
     <empty />
     ```

### 5. **Wurzelelement (Root Element)**
   - **Es muss ein einziges Wurzelelement (Root Element) in einem XML-Dokument vorhanden sein.**
   - Alle anderen Elemente müssen innerhalb des Wurzelelements verschachtelt sein.
   - Ein XML-Dokument kann nur ein Wurzelelement haben:
     - Gültig:
       ```xml
       <catalog>
           <book>...</book>
           <book>...</book>
       </catalog>
       ```
     - Ungültig:
       ```xml
       <catalog>...</catalog>
       <books>...</books>
       ```

### 6. **Attribute**
   - **Attribute** liefern zusätzliche Informationen zu einem Element und werden innerhalb des öffnenden Tags eines Elements definiert:
     - Beispiel:
       ```xml
       <person age="30" gender="female">Alice</person>
       ```
   - **Regeln für Attribute:**
     - **Wert:** Der Wert eines Attributs muss in Anführungszeichen (`" "` oder `' '`) gesetzt werden.
     - **Mehrere Attribute:** Ein Element kann mehrere Attribute haben:
       ```xml
       <person age="30" gender="female" country="Germany">Alice</person>
       ```
   - **Attribute und Elemente:** Ein Element kann sowohl Attribute als auch untergeordnete Elemente haben:
     ```xml
     <book title="XML Tutorial">
         <author>John Doe</author>
     </book>
     ```

#### 7. **Kommentare**
Kommentare in XML beginnen mit `<!--` und enden mit `-->`. Sie sind für den menschlichen Leser bestimmt und werden von der XML-Parser ignoriert.
```xml
<!-- Dies ist ein Kommentar -->
<book>
    <title>XML for Beginners</title>
</book>
```

#### 8. **Leerzeichen und Einrückungen**
XML ist relativ flexibel hinsichtlich der Formatierung. Du kannst Leerzeichen und Einrückungen verwenden, um die Lesbarkeit zu erhöhen, aber sie sind nicht notwendig für die Funktionalität des XML-Dokuments.
```xml
<book>
    <title>XML for Beginners</title>
    <author>John Doe</author>
</book>
```
Die Einrückungen und Zeilenumbrüche dienen nur der Klarheit und Struktur.

#### 9. **PCDATA (Parsed Character Data)**
   - **PCDATA** bezeichnet normalen Textinhalt innerhalb eines Elements, der von XML geparsed und verarbeitet wird.
   - Dieser Text kann Zeichen wie Buchstaben, Zahlen und Symbole enthalten, aber keine Markup-Tags oder spezielle Zeichen wie `<`, `>`, `&`, etc. ohne Escaping.
     - Beispiel:
       ```xml
       <name>Alice</name>
       ```
   - Um spezielle Zeichen wie `<`, `>`, und `&` darzustellen, müssen sie als Escape-Zeichen kodiert werden:
     - `<` → `&lt;`
     - `>` → `&gt;`
     - `&` → `&amp;`

#### 10. **CDATA (Character Data)**
   - **CDATA** wird verwendet, um Zeichenfolgen zu markieren, die keine XML-Verarbeitung erfordern, wie zum Beispiel Text mit speziellen Zeichen.
   - Innerhalb eines CDATA-Abschnitts wird der Text nicht geparst, was bedeutet, dass Sie auch XML-spezifische Zeichen verwenden können, ohne diese zu escapen.
   - Ein CDATA-Abschnitt wird durch `<![CDATA[ ... ]]>` gekennzeichnet:
     - Beispiel:
       ```xml
       <description><![CDATA[Dies ist ein Text mit <Tag> und & Zeichen.]]></description>
       

### Beispiel eines vollständigen XML-Dokuments
```xml
<?xml version="1.0" encoding="UTF-8"?>
<catalog>
    <book id="1" genre="fiction">
        <title lang="en">XML for Beginners</title>
        <author>John Doe</author>
        <price>29.99</price>
        <publish_date>2024-01-01</publish_date>
        <description><![CDATA[This is a <b>beginner</b> guide to XML.]]></description>
    </book>
    <book id="2" genre="non-fiction">
        <title lang="en">Advanced XML</title>
        <author>Jane Smith</author>
        <price>39.99</price>
        <publish_date>2023-11-15</publish_date>
        <description>Learn advanced XML techniques.</description>
    </book>
</catalog>
```

### DTD - Document Type Definition
Eine **DTD** definiert die Struktur, die Elemente, Attribute und deren Beziehungen in einem XML-Dokument. Sie legt die „Regeln“ für den Aufbau des XML-Dokuments fest und hilft dabei, sicherzustellen, dass das Dokument den vorgegebenen Spezifikationen entspricht, also **wohlgeformt** und **gültig** ist.

Die DTD ist optional und wird nach der XML-Deklaration angegeben,entweder im Dokument oder in einer speraten Datei.<br>
Beispiel mit externer DTD:
```xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE note SYSTEM "note.dtd">
```
### Hauptaspekte einer DTD

1. **Elemente definieren**
   Die DTD legt fest, welche Elemente (Tags) in einem XML-Dokument vorhanden sein dürfen und wie diese hierarchisch strukturiert sind. Dies wird mithilfe von `<!ELEMENT>`-Anweisungen gemacht.

   ```xml
   <!ELEMENT note (to, from, heading, body)>
   <!ELEMENT to (#PCDATA)>
   <!ELEMENT from (#PCDATA)>
   <!ELEMENT heading (#PCDATA)>
   <!ELEMENT body (#PCDATA)>
   ```
   **#PCDATA** steht für "Parsed Character Data" und bedeutet, dass das Element Text enthalten kann.

2. **Attribute definieren**
   Mit `<!ATTLIST>` werden die möglichen Attribute für Elemente definiert, sowie die Art der Attribute und mögliche Standardwerte.

   ```xml
   <!ATTLIST note date CDATA #IMPLIED>
   ```
   - `CDATA`: Zeichen, die als reine Daten interpretiert werden.
   - `#IMPLIED`: Das Attribut ist optional.
   - `#REQUIRED`: Das Attribut muss vorhanden sein.
   - `#FIXED`: Das Attribut hat einen festgelegten Wert.

3. **Hierarchien und Reihenfolgen festlegen**
   Die DTD legt die Struktur der Elemente fest:
   - `(a, b)`: Elemente müssen in der Reihenfolge `a` und dann `b` erscheinen.
   - `(a | b)`: Eines der Elemente `a` oder `b` muss erscheinen.
   - `(a*)`: Element `a` kann beliebig oft auftreten.
   - `(a+)`: Element `a` muss mindestens einmal auftreten.
   - `(a?)`: Element `a` ist optional.

4. **Interne und externe DTDs**
   - **Interne DTD**: Die DTD ist direkt im XML-Dokument enthalten.
   - **Externe DTD**: Die DTD wird in einer separaten Datei gespeichert und im XML-Dokument referenziert.

   Beispiel für eine externe DTD-Verlinkung:

   ```xml
   <!DOCTYPE note SYSTEM "note.dtd">
   ```

### Beispiel einer vollständigen DTD

Angenommen, wir haben eine DTD für eine Notiz mit `to`, `from`, `heading` und `body`:

```xml
<!DOCTYPE note [
   <!ELEMENT note (to, from, heading, body)>
   <!ELEMENT to (#PCDATA)>
   <!ELEMENT from (#PCDATA)>
   <!ELEMENT heading (#PCDATA)>
   <!ELEMENT body (#PCDATA)>
   <!ATTLIST note date CDATA #IMPLIED>
]>
```

### Warum DTDs verwenden?
- **Validierung**: Mit einer DTD lässt sich prüfen, ob das XML-Dokument korrekt aufgebaut ist und alle erforderlichen Elemente und Attribute enthält.
- **Standardisierung**: Eine DTD bietet eine klare Strukturdefinition und sorgt dafür, dass XML-Daten von verschiedenen Anwendungen auf die gleiche Weise verarbeitet werden.

DTD bietet somit eine grundlegende Struktur für XML-Dokumente, ist aber in neueren Anwendungen oft durch XML Schema abgelöst worden, da dieses detailliertere Typendefinitionen und Validierungen ermöglicht.

### **Wohlgeformt** und **gültig**
Wohlgeformt/Well-Formed und gültig/valid sind wichtige Konzepte im Zusammenhang mit XML-Dokumenten, die beide die Integrität und Lesbarkeit des XML sicherstellen, jedoch auf unterschiedliche Weise:

#### Wohlgeformt
Ein XML-Dokument ist **wohlgeformt**, wenn es den grundlegenden Syntaxregeln von XML folgt. Dies bedeutet:
- **Alle Elemente müssen korrekt geöffnet und geschlossen** werden. Tags dürfen sich nicht überschneiden.
   ```xml
   <!-- Wohlgeformt -->
   <note><to>Alice</to><from>Bob</from></note>
   
   <!-- Nicht wohlgeformt -->
   <note><to>Alice<from>Bob</note>
   ```
- **Elemente müssen korrekt geschachtelt** sein (keine Überlappungen):
   ```xml
   <!-- Wohlgeformt -->
   <greeting><to>Alice</to></greeting>
   
   <!-- Nicht wohlgeformt -->
   <greeting><to>Alice</greeting></to>
   ```
- **Alle Attributwerte müssen in Anführungszeichen** stehen:
   ```xml
   <!-- Wohlgeformt -->
   <note date="2023-11-12">Message</note>
   
   <!-- Nicht wohlgeformt -->
   <note date=2023-11-12>Message</note>
   ```
   
**Ein wohlgeformtes XML-Dokument** lässt sich einlesen und verarbeiten, da es die grundlegenden XML-Syntaxregeln einhält.

#### Gültig
Ein XML-Dokument ist **gültig**, wenn es zusätzlich zu den Wohlgeformtheitskriterien auch den Regeln entspricht, die durch eine **DTD** (Document Type Definition) oder ein **Schema** festgelegt sind. Ein gültiges XML-Dokument:
- **Erfüllt die Strukturvorgaben** der DTD oder des Schemas: Es enthält alle geforderten Elemente und Attribute und in der richtigen Reihenfolge und Hierarchie.
- **Attribute und Elemente entsprechen dem angegebenen Datentyp** und erlaubten Werten (wenn z. B. ein Attribut als `#REQUIRED` deklariert ist, muss es vorhanden sein).

Beispiel für ein **gültiges XML-Dokument** im Vergleich zur zugehörigen DTD:
```xml
<!DOCTYPE note [
   <!ELEMENT note (to, from, heading, body)>
   <!ELEMENT to (#PCDATA)>
   <!ELEMENT from (#PCDATA)>
   <!ELEMENT heading (#PCDATA)>
   <!ELEMENT body (#PCDATA)>
   <!ATTLIST note date CDATA #REQUIRED>
]>
<note date="2023-11-12">
   <to>Alice</to>
   <from>Bob</from>
   <heading>Hello</heading>
   <body>Welcome to XML!</body>
</note>
```
Das Dokument ist **wohlgeformt** und **gültig** (es folgt der DTD und enthält alle geforderten Elemente und Attribute).

### Zusammenfassung
- **Wohlgeformt**: Einhält die Syntaxregeln von XML, sodass es korrekt geparst werden kann.
- **Gültig**: Einhält zusätzlich eine definierte DTD oder ein XML-Schema, das die Struktur und Datentypen für Elemente und Attribute festlegt. 

Ein Dokument kann wohlgeformt, aber nicht gültig sein, wenn es keine DTD/Schemadefinition erfüllt.

### XML Parsen 
Das **Parsen eines XML-Dokuments** bedeutet, das XML-Dokument in eine Struktur zu zerlegen, die für die Verarbeitung durch eine Anwendung verständlich ist. Der XML-Parser überprüft die Syntax, liest die Daten und wandelt das XML in eine Datenstruktur wie ein DOM-Objekt (Document Object Model) um. Diese Struktur macht die einzelnen Elemente, Attribute und Inhalte des XML-Dokuments programmatisch zugänglich.

#### Schritte des XML-Parsens
1. **Wohlgeformtheitsprüfung**:
   Der Parser prüft, ob das Dokument **wohlgeformt** ist, also den grundlegenden XML-Syntaxregeln entspricht. Wenn es nicht wohlgeformt ist, gibt der Parser einen Fehler aus und das Parsen wird abgebrochen.

2. **Optionale Validierung**:
   Wenn eine **DTD** (Document Type Definition) oder ein **XML-Schema** vorhanden ist, überprüft der Parser, ob das Dokument den Strukturanforderungen entspricht und ob es **gültig** ist. Bei einer erfolgreichen Validierung ist sichergestellt, dass die Struktur des XML-Dokuments den Vorgaben entspricht.

3. **Erstellen der Datenstruktur**:
   Der Parser generiert eine Struktur, die das XML-Dokument in einer Weise darstellt, dass Programme es leicht durchsuchen und ändern können. Dies erfolgt oft durch die Erzeugung eines **Baum-Diagramms** (DOM), in dem jeder XML-Knoten (Element, Attribut oder Text) als Knoten im Baum dargestellt wird.

#### Arten von XML-Parsers
Es gibt verschiedene Ansätze, um ein XML-Dokument zu parsen:

- **DOM (Document Object Model)**:
  - Der Parser liest das gesamte XML-Dokument und erstellt einen **kompletten Baum** im Speicher, der das gesamte Dokument repräsentiert.
  - Geeignet, wenn die Daten mehrmals durchsucht oder bearbeitet werden sollen.
  - Nachteil: Hoher Speicherverbrauch bei großen XML-Dateien.
  
- **SAX (Simple API for XML)**:
  - Ein **ereignisgesteuerter Parser**, der das Dokument beim Lesen sequenziell verarbeitet und Ereignisse auslöst, wenn bestimmte Tags, Attribute oder Textelemente gefunden werden.
  - Effizienter Speicherverbrauch, da der Parser nicht das gesamte Dokument auf einmal lädt.
  - Geeignet für das **sequentielle Auslesen** und die Verarbeitung großer XML-Dateien.

- **StAX (Streaming API for XML)**:
  - Ein **Streaming-Parser**, der in einigen Programmiersprachen (z. B. Java) verfügbar ist und es ermöglicht, das XML-Dokument beim Lesen zu verarbeiten und in der gewünschten Reihenfolge darauf zuzugreifen.
  - Kombination aus den Vorteilen von DOM und SAX: Speicher effizient und flexibler Zugriff.

#### Beispiel in Python mit `ElementTree`
In Python ist das Parsen eines XML-Dokuments einfach mit der Bibliothek `xml.etree.ElementTree` möglich:

```python
import xml.etree.ElementTree as ET

# XML-Dokument laden und parsen
tree = ET.parse('example.xml')  # Öffnet und parst die Datei
root = tree.getroot()  # Wurzelelement des XML-Dokuments erhalten

# Zugriff auf die Daten
for child in root:
    print(f"Element: {child.tag}, Attribute: {child.attrib}")
    for subchild in child:
        print(f"  Unterelement: {subchild.tag}, Text: {subchild.text}")
```

Hier wird das XML-Dokument in eine Baumstruktur umgewandelt, wodurch alle Knoten und Werte des Dokuments zugänglich werden.