# Schema: Document Type Definition (DTD)

Die Document Type Definition ermöglicht die Spezifikation von XML Dokumente und somit das Validieren solcher Dokumente. Man kann mit der DTD Schemas für XML Dokumente entwickeln. So kann man sich unter mehreren Parteien auf ein gemeinsames Vokabular einigen, und die Interoperabilität zwischen entwickelten Systeme ermöglichen oder erhöhen. In dieser Übung schauen wir uns die DTD etwas genauer in der Praxis an. Führen Sie zuerst den folgenden Codeblock aus und machen Sie dann der Reihe nach weiter. Beantworten Sie die Fragen (falls zutreffend). Zum Schluss, schreiben Sie eine eigene DTD und ein exemplarisches XML Dokument dafür. Stellen Sie sicher, dass das XML Dokument wohlgeformt und gültig ist.

In [22]:
import io
from lxml import etreeas et

def isvalid(dtd, doc):
    print(et.DTD(io.StringIO(dtd)).validate(et.fromstring(doc)))
    
def exp(doc, path):
    print(et.fromstring(doc).xpath(path))

SyntaxError: invalid syntax (<ipython-input-22-6fd9cc250b04>, line 2)

## Elemente

In [3]:
isvalid('<!ELEMENT discography EMPTY>', '<discography/>')

True


In [8]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Im dtd wird definiert, dass das child - Element "albums" nur genau einmal vorkommt.
# Hier kommt es aber zwei mal vor.
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

False
True
False


In [6]:
dtd = """
<!ELEMENT discography (albums*)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: Im dtd wird definiert, dass das child - Element "albums" null oder mehmals vorkommt
# Hier kommt es zwei Mal vor, also genau im definierten Bereich.
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

True
True
True


In [9]:
dtd = """
<!ELEMENT discography (albums?)>
<!ELEMENT albums EMPTY>
"""

isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Im dtd wird definiert, dass das child - Element "albums" null oder einmal 
# vorkommt, hier kommt es aber zweimal vor. 
isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

True
True
False


In [10]:
dtd = """
<!ELEMENT discography (albums+)>
<!ELEMENT albums EMPTY>
"""

# Warum ist dieses XML Dokument nicht gültig? Antwort: Im dtd wird definiert, dass das child - Element ein oder mehrmals vorkommt 
# Hier kommt es aber null mal vor.
isvalid(dtd, """
<discography/>
""")

isvalid(dtd, """
<discography>
  <albums/>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums/>
  <albums/>
</discography>
""")

False
True
True


In [None]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

In [11]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title, label)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Im dtd ist definiert, dass das child - ELement "album" die zwei child - 
# Elemente "title" und "label" besitzt. Aber auch genau in der Reihenfolge, hier sind die zwei Elemente aber verkehrt herum!

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <label>Harvest, EMI</label>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
False


In [12]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title, label)>
<!ELEMENT title (#PCDATA)>
"""

# Warum ist dieses XML Dokument nicht gültig? Antwort: Das Element "label" wurde nicht in der dtd - Datei definiert, somit ist die
# gesamte Datei ungültig!
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

False


In [None]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (#PCDATA | title)*>
<!ELEMENT title (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>The Dark Side of the Moon</album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

In [13]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title | label)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Im dtd wurde definiert, dass das child -  ELement "album" nur eines der
# folgenden child - Elemente besitzen darf ("title" ODER "label")
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")

True
True
False


In [None]:
isvalid("""
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title, label, released)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
<!ELEMENT released (day, month, year)>
<!ELEMENT day (#PCDATA)>
<!ELEMENT month (#PCDATA)>
<!ELEMENT year (#PCDATA)>
""", """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

In [None]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title, label, released?)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT label (#PCDATA)>
<!ELEMENT released ((day, month)?, year)>
<!ELEMENT day (#PCDATA)>
<!ELEMENT month (#PCDATA)>
<!ELEMENT year (#PCDATA)>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <day>16</day>
        <month>03</month>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
  </albums>
</discography>
""")


isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
      <released>
        <year>1973</year>
      </released>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
      <label>Harvest, EMI</label>
    </album>
    <album>
      <title>The Wall</title>
      <label>Harvest, EMI</label>
      <released>
        <year>1979</year> 
      </released>
    </album>
  </albums>
</discography>
""")

## Attribute

In [None]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA "1973">
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

In [14]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: Im dtd ist definiert, dass das child - ELement "title" zwingend das Attribut
# "released" besitzen muss! Tut es hier nicht
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
False


In [15]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: In der dtd ist definiert, dass das child - Element "title" optional ein Attribut
# mit dem Namen "released" besitzen kann!
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

True
True


In [16]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released CDATA #FIXED "1973">
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: 
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title>The Wall</title>
    </album>
  </albums>
</discography>
""")

True
False
True


In [17]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title released (1973 | 1979) #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument gültig? Antwort: Im dtd ist definiert, dass das child - Element "title" ein Attribut mit einem
# Wert der folgenden besitzen muss (entweder "1973" ODER "1979"). Das untere ist dementsprechend nicht gültig da, das Attribut
# einen Wert besitzt der nicht in der dtd definiert wurde.
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1973">The Dark Side of the Moon</title>
    </album>
    <album>
      <title released="1979">The Wall</title>
    </album>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title released="1982">The Wall</title>
    </album>
  </albums>
</discography>
""")

True
True
False


In [18]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (title)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST title identifier ID #REQUIRED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title identifier="p1">The Dark Side of the Moon</title>
    </album>
    <album>
      <title identifier="p2">The Wall</title>
    </album>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: In der dtd ist definiert, dass das Element "title" eine EINDEUTIGE ID 
# besitzen muss. Hier aber besitzen zwei "title" - Elemente die gleiche ID was fehlerhaft ist!
isvalid(dtd, """
<discography>
  <albums>
    <album>
      <title identifier="p1">The Dark Side of the Moon</title>
    </album>
    <album>
      <title identifier="p1">The Wall</title>
    </album>
  </albums>
</discography>
""")

True
False


In [19]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album EMPTY>
<!ATTLIST album title CDATA #REQUIRED>
<!ATTLIST album released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon" released="1973"/>
  </albums>
</discography>
""")

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon"/>
  </albums>
</discography>
""")

# Warum ist dieses XML Dokument nicht gültig? Antwort: In der dtd ist definiert, dass das "title" - ELement ein Wert für das Attribut
# "title" besitzen muss, und der Wert für das Attribut "released" ist optional! Hier aber fehlt er "title".
isvalid(dtd, """
<discography>
  <albums>
    <album released="1973"/>
  </albums>
</discography>
""")

True
True
False


In [None]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album EMPTY>
<!ATTLIST album title CDATA #REQUIRED
                released CDATA #IMPLIED>
"""

isvalid(dtd, """
<discography>
  <albums>
    <album title="The Dark Side of the Moon" released="1973"/>
  </albums>
</discography>
""")

## Entitäten

In [20]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album*)>
<!ELEMENT album (#PCDATA)>
"""

doc = """
<!DOCTYPE discography [
<!ENTITY waters "Roger Waters">
]>
<discography>
  <albums>
    <album>&waters;</album>
  </albums>
</discography>
"""

isvalid(dtd, doc)

# Warum ergibt dies 'Roger Waters'? Antwort: Weil in der doc bereits die Entität "waters" mit dem Wert "Roger Waters" definiert wurde.
exp(doc, '/discography/albums/album/text()')

True
['Roger Waters']


## Namensräume

In [None]:
dtd = """
<!ELEMENT disc:discography (albs:albums)>
<!ELEMENT albs:albums (albs:album*)>
<!ELEMENT albs:album EMPTY>
<!ATTLIST disc:discography xmlns:disc CDATA #FIXED "http://discography.org">
<!ATTLIST disc:discography xmlns:albs CDATA #FIXED "http://albums.org">
<!ATTLIST albs:album title CDATA #REQUIRED>
<!ATTLIST albs:album released CDATA #REQUIRED>
"""

doc = """
<disc:discography xmlns:disc="http://discography.org" xmlns:albs="http://albums.org">
<albs:albums>
<albs:album title="The Dark Side of the Moon" released="1973"/>
</albs:albums>
</disc:discography>
"""

isvalid(dtd, doc)

Denken Sie sich nun ein eigenes XML Dokument aus und erstellen Sie dafür eine DTD.

In [34]:
dtd = """
<!ELEMENT discography (albums)>
<!ELEMENT albums (album+)>
<!ELEMENT album (title, released)>
<!ELEMENT title (#PCDATA)>
<!ATTLIST released year CDATA #REQUIRED>
<!ELEMENT released (month | day)>
<!ELEMENT month (#PCDATA)>
"""


isvalid(dtd, """
<discography>
    <albums>
        <album>
            <title>
                The Dark Side of the Moon
            </title>
            <released year="1973">
                <month>
                    March 
                </month>
            </released>
        </album>
    </albums>
</discography>
""")

True
