# Schema: Document Type Definition (DTD)

Die Document Type Definition ermöglicht die Spezifikation von XML Dokumente und somit das Validieren solcher Dokumente. Man kann mit der DTD Schemas für XML Dokumente entwickeln. So kann man sich unter mehreren Parteien auf ein gemeinsames Vokabular einigen, und die Interoperabilität zwischen entwickelten Systeme ermöglichen oder erhöhen. In dieser Übung schauen wir uns die DTD etwas genauer in der Praxis an. Führen Sie zuerst den folgenden Codeblock aus und machen Sie dann der Reihe nach weiter. Beantworten Sie die Fragen (falls zutreffend). Zum Schluss, schreiben Sie eine eigene DTD und ein exemplarisches XML Dokument dafür. Stellen Sie sicher, dass das XML Dokument wohlgeformt und gültig ist.

In [1]:
import io
from lxml import etree as et

def isvalid(dtd, doc):
    print(et.DTD(io.StringIO(dtd)).validate(et.fromstring(doc)))
    
def exp(doc, path):
    print(et.fromstring(doc).xpath(path))

## Elemente

In [2]:
isvalid('<!ELEMENT discography EMPTY>', '<discography/>')

True


In [3]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil bei dem Output zwei mal False ausgegeben wurde. Außerdem ist es nicht Wohlgeformt.
# Bei Albums muss Null oder Mehrmals also * stehen.
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

False
True
False


In [4]:
dtd = """
<!ELEMENT discography (albums*)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: Weil im Output alles True ist. Da es gültig ist, ist dieses Dokument auch Wohlgeformt.
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>             
""")

True
True
True


In [5]:
dtd = """
<!ELEMENT discography (albums?)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil das Dokument nicht Wohlgeformt ist, es muss das 
# Element null oder mehrmals * besitzen. Außerdem muss True, True, True im Output entstehen.
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

True
True
False


In [6]:
dtd = """
<!ELEMENT discography (albums+)>
<!ELEMENT albums EMPTY>
"""

# Warum ist dieses XML Dokument nicht gültig? Antwort: Da die Zahl null nicht gewählt wird. Besser wäre dieses Element *.
# Somit ist dieses Dokument ungültig und nicht Wohlgeformt. Da: 1x False.
isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

False
True
True


In [7]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True


In [8]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title, label)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Es ist nicht Wohlgeformt. Weil Title und lable vertauscht wurden.
# Somit ist die Reihenfolge nicht richtig. Und das Dokument ist ungültig.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <label>Harvest, EMI</label>
      <title>The Dark Side of the Moon</title> 
    </album>
  </albums>
</discography>
""")

True
False


In [9]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title, label)>
<!ELEMENT title (#PCDATA)>
"""

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil bei dem dtd Dokument ein Element vergessen wurde. 
# Label wurde nicht aufgeschrieben, deshalb erkennt die Software es nicht und somit ist das Dokument nicht Wohlgeformt und ungültig.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

False


In [10]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (#PCDATA | title)*>
<!ELEMENT title (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>The Dark Side of the Moon</album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
True


In [11]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title | label)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil in album zwei Elemente enthalten sind, es kann jedoch nur eins vorhanden sein.
# es ist somit nicht Wohlgeformt und ungültig.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

True
True
False


In [12]:
isvalid("""
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title, label, released)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
<!ELEMENT released (day, month, year)>
<!ELEMENT day (#PCDATA)>
<!ELEMENT month (#PCDATA)>
<!ELEMENT year (#PCDATA)>
""", """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

True


In [13]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title, label, released?)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
<!ELEMENT released ((day, month)?, year)>
<!ELEMENT day (#PCDATA)>
<!ELEMENT month (#PCDATA)>
<!ELEMENT year (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")


isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
    <album>
      <title>The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <year>1979</year> 
      </released>
    </album>
  </albums>
</discography>
""")

True
True
True
True


## Attribute

In [14]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA "1973">
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

True
True


In [15]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Es befindet sich im title kein Attribut, in dem oberen Dokument wird jedoch bekonnt gegeben, dass im title ein Attribut vorhanden ist.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
False


In [16]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: Weil das Attribut optional ist, es ist nicht zwingend.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
True


In [17]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #FIXED "1973">
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Hier ist dasAttribut also der Wert festgelegt, das Jahr ist in dem zweiten
#jedoch 1979 es muss aber 1973 sein.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Wall</title>
    </album>
  </albums>
</discography>
""")

True
False
True


In [18]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released (1973 | 1979) #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: Weileins von den Attributen zwingend aufgeschrieben sein muss.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1982">The Wall</title>
    </album>
  </albums>
</discography>
""")

True
True
False


In [19]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title identifier ID #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title identifier="p1">The Dark Side of the Moon</title>
    </album>
    <album>
      <title identifier="p2">The Wall</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil die ID p1 zweimal vorhanden ist.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title identifier="p1">The Dark Side of the Moon</title>
    </album>
    <album>
      <title identifier="p1">The Wall</title>
    </album>
  </albums>
</discography>
""")

True
False


In [20]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album EMPTY>
<!ATTLIST album title CDATA #REQUIRED>
<!ATTLIST album released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon" released="1973"/>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon"/>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Weil kein title Attribut vorhanden ist ?
isvalid(dtd, """
<discography>
  <albums>
    <album released="1973"/>
  </albums>
</discography>
""")

True
True
False


In [28]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album EMPTY>
<!ATTLIST album title CDATA #REQUIRED
                released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon" released="1973"/>
  </albums>
</discography>
""")

True


## Entitäten

In [22]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (#PCDATA)>
"""

doc = """
<!DOCTYPE discography [
<!ENTITY waters "Roger Waters">
]>
<discography>
  <albums>
    <album>&waters;</album>
  </albums>
</discography>
"""

isvalid(dtd, doc)

# Warum ergibt dies 'Roger Waters'? Antwort: Entitäten werden mit ENTITY deklariert.
exp(doc, '/discography/albums/album/text()')

True
['Roger Waters']


## Namensräume

In [23]:
dtd = """
<!ELEMENT disc:discography (albs:albums)>
<!ELEMENT albs:albums (albs:album*)>
<!ELEMENT albs:album EMPTY>
<!ATTLIST disc:discography xmlns:disc CDATA #FIXED "http://discography.org">
<!ATTLIST disc:discography xmlns:albs CDATA #FIXED "http://albums.org">
<!ATTLIST albs:album title CDATA #REQUIRED>
<!ATTLIST albs:album released CDATA #REQUIRED>
"""

doc = """
<disc:discography xmlns:disc="http://discography.org" xmlns:albs="http://albums.org">
<albs:albums>
<albs:album title="The Dark Side of the Moon" released="1973"/>
</albs:albums>
</disc:discography>
"""

isvalid(dtd, doc)

True


Denken Sie sich nun ein eigenes XML Dokument aus und erstellen Sie dafür eine DTD.

In [30]:
dtd = """
<!ELEMENT Mensch (Organe)>
<!ELEMENT Organe (Magen*)>
<!ELEMENT Magen EMPTY>
<!ATTLIST Magen Inhalt CDATA #REQUIRED>
"""

isvalid(dtd, """
<Mensch>
  <Organe>
    <Magen Inhalt="Liebe geht durch den Magen"/>
  </Organe>
</Mensch>
""")

True
