# <center>MOD 8.4 - Représentation et manipulation de données structurées - BE 1</center>

## <center style="color: #66d">Développement d'une application XML munie d'une DTD - Visualisation, Validation.</center>

### 1. Déroulement de la séance

Ce travail s'effectue par binômes. Merci de vous organiser et de prendre les coordonnées de votre binôme pour pouvoir finir si nécessaire le travail après la séance.

Les livrables qui vous seront demandés pour ce BE devront faire l'objet d'un UNIQUE fichier zippé (.zip, .gz, .tgz, .tar, .7z - les formats exotiques non listés ici ne seront pas pris en compte) et déposés sur le serveur moodle dans la zone "Bureaux d'Etudes".

Le compte-rendu est à déposer par l'un OU l'autre membre du binôme sur le serveur http://moodle.ec-lyon.fr/ dans la rubrique <i>Bureaux d'Etudes</i> du cours <i>S9, MOD 8.4 - Représentation et manipulation de données structurées</i>.

Au moment du dépôt, merci de bien vouloir rédiger le champ Titre sous la forme :

          CR <nom eleve 1> - <nom eleve 2>        

### 2. Conception d'une application XML

Avec le sujet, vous avez trouvé un fichier de données nommé <tt>ponctualite-mensuelle-transilien.csv</tt> contenant des informations sur la ponctualité des trains de banlieue parisiens entre janvier 2013 et août 2015.

__Q2. Observer les données :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Ouvrir le fichier avec votre tableur préféré, ou à défaut avec un éditeur de texte pour observer la nature et la structure des informations qu'il contient.
</div>

Il vous est maintenant demandé de concevoir une _application XML_ permettant de stocker ces mêmes données, en évitant au maximum la redondance d'information.

__Q3. Concevoir une application XML :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Décrire le vocabulaire _(nom des éléments et des attributs)_ et la structure _(position des éléments et des attributs)_ d'une application XML répondant au cahier des charges.
</div>

<div>
    <h4>Structure choisie</h4>
    La structure que nous avons choisi est la suivante :
    <ul>
        <li>Services</li>
        <ul>
            <li>Service</li>
            <ul>
                <li>Nom</li>
                <li>Lignes</li>
                <ul>
                    <li>Ligne</li>
                    <ul>
                        <li>ID</li>
                        <li>Nom</li>
                        <li>Train</li>
                    </ul>
                </ul>
            </ul>
        </ul>
    </ul>
    Services est la racine, qui a plusiers $\lt$Service$\gt$. Pour sa part, chaque $\lt$Service$\gt$ a un $\lt$Nom$\gt$ et des $\lt$Lignes$\gt$. Chaque $\lt$Lignes$\gt$ a plusieres $\lt$Ligne$\gt$, et chaque $\lt$Ligne$\gt$ a un $\lt$ID$\gt$, un $\lt$Nom$\gt$ et un $\lt$Train$\gt$.
</div>

__Q4. Anticiper les problèmes :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Sachant qu'il vous sera demandé de créer un document XML conforme à la syntaxe que vous avez imaginée, à partir des données du fichier fourni, et que l'on vous demandera d'afficher ce document mis en page dans un navigateur à l'aide d'une feuille de style CSS, modifier éventuellement la syntaxe que vous proposez.
</div>

### 3. Création d'un document XML

On désire maintenant créer un document XML que l'on nommera <tt>ponctualite-mensuelle-transilien.xml</tt> conforme à la syntaxe qui vient d'être conçue, et contenant les données du fichier CSV éponyme. Pour information, le fichier CSV est codé en ISO-8859-1.

__Q5. Importer les données :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
En vous reportant au mode d'emploi du module python nommé <a href="https://docs.python.org/3/library/csv.html">csv</a> pour la lecture du fichier, et <a href="http://lxml.de/tutorial.html">lxml.etree</a> pour le traitement XML, écrire un programme python permettant de créer un document XML conforme à l'application conçue précédemment et contenant les données du fichier CSV fourni. Créer ce document.
</div>

In [2]:
# votre code ici
import csv
from lxml import etree

with open("ponctualite-mensuelle-transilien.csv", encoding="ISO-8859-1") as file:
    reader = csv.reader(file, delimiter=';')
    headers = next(reader)
    content = [{headers[nb] : x[nb] for nb in range(len(headers))} for x in reader]

xml_header = '<?xml version="1.0" encoding="ISO-8859-1"?>'
xml_style = ''
# xml_style = '<?xml-stylesheet href="ponctualite-mensuelle-transilien.css" type="text/css"?>' Pour ajouter 
# la feuille de style

root = etree.Element("Services")
for line in content:
    service = [x for x in root if line["Service"] in [y.text for y in x]]
    if len(service) == 0:
        service = etree.SubElement(root, "Service")
        service_nom = etree.SubElement(service, "Nom")
        service_nom.text = line["Service"]
        service_lignes = etree.SubElement(service, "Lignes")
    else:
        service = service[0]
        service_lignes = [x for x in service if x.tag == "Lignes"][0]

    ligne = [x for x in service_lignes if line["Ligne"] in [y.text for y in x]]
    if len(ligne) == 0:
        ligne = etree.SubElement(service_lignes, "Ligne")
        ligne_id = etree.SubElement(ligne, "ID")
        ligne_id.text = line["Ligne"]
        ligne_nom = etree.SubElement(ligne, "Nom")
        ligne_nom.text = line["Nom de la ligne"]
        ligne_train = etree.SubElement(ligne, "Train")
        train_id = etree.SubElement(ligne_train, "ID")
        train_id.text = line["ID"]
        train_punctualities = etree.SubElement(ligne_train, "Ponctualites")
        punctuality_headers = etree.SubElement(train_punctualities, "Entete")
        header_date = etree.SubElement(punctuality_headers, "Date")
        header_date.text = "Date"
        header_taux = etree.SubElement(punctuality_headers, "Taux")
        header_taux.text = "Taux de ponctualité"
        header_atTime = etree.SubElement(punctuality_headers, "PonctuelParRetard")
        header_atTime.text = "Nombre de voyageurs à l'heure pour un voyageur en retard"
        train_punctuality = etree.SubElement(train_punctualities, "Ponctualite")
        punctuality_date = etree.SubElement(train_punctuality, "Date")
        punctuality_date.text = line["Date"]
        punctuality_taux = etree.SubElement(train_punctuality, "Taux")
        punctuality_taux.text = line["Taux de ponctualité"]
        punctuality_atTime = etree.SubElement(train_punctuality, "PonctuelParRetard")
        punctuality_atTime.text = line["Nombre de voyageurs à l'heure pour un voyageur en retard"]
    else:
        ligne = ligne[0]
        ligne_train = [x for x in ligne if line["ID"] in [y.text for y in x]][0]
        train_punctualities = [x for x in ligne_train if x.tag == "Ponctualites"][0]
        train_punctuality = etree.SubElement(train_punctualities, "Ponctualite")
        punctuality_date = etree.SubElement(train_punctuality, "Date")
        punctuality_date.text = line["Date"]
        punctuality_taux = etree.SubElement(train_punctuality, "Taux")
        punctuality_taux.text = line["Taux de ponctualité"]
        punctuality_atTime = etree.SubElement(train_punctuality, "PonctuelParRetard")
        punctuality_atTime.text = line["Nombre de voyageurs à l'heure pour un voyageur en retard"]


xml_file = etree.tostring(root, encoding="ISO-8859-1",
                            xml_declaration=True, doctype=xml_style)

with open('ponctualite-mensuelle-transilien.xml', 'wb') as file:
    file.write(xml_file)

In [3]:
%pycat ponctualite-mensuelle-transilien.xml

### 4. Affichage d'un document XML

On désire maintenant afficher le document XML qui vient d'être créé, mis en forme dans un navigateur à l'aide d'une feuille de style CSS.

__Q6. Afficher le document XML :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Afin de ne pas l'écraser par inadvertance en réexécutant le programme python, créer une copie du document XML précédent comportant une référence à une feuille de style CSS permettant de l'afficher de manière pertinente dans un navigateur.
</div>

<a href="ponctualite-mensuelle-transilien-2.xml">Voir le document</a>

In [4]:
%pycat ponctualite-mensuelle-transilien.css

### 5. Validation d'un document XML

__Q7. &Eacute;crire une DTD décrivant la syntaxe du document XML :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Inclure au document précédent une DTD décrivant sa syntaxe, sous forme de DTD interne. Le nouveau document pourra être nommé <tt>ponctualite-mensuelle-transilien-3.xml</tt>.
</div>

__Q8. Valider le document XML en ligne :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Vérifier la validité du document, c'est-à-dire sa conformité avec la DTD, en le soumettant à un <a href="https://www.google.com/search?q=validate+xml">validateur en ligne</a>.
</div>
<div>
    Nous avons réalisé la validation avec <a href="https://www.xmlvalidation.com/index.php?id=1&L=0">cette</a> validateur en ligne, et nous avons obtenue le résultat suivant : 
    <img src="Validation.png">
    Nous concluons alors que le document XML est valide et bien formé.
</div>

__Q9. Développer un validateur :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Valider le document à l'aide d'un programme python que vous développerez à l'aide du module <a href="http://lxml.de/validation.html">lxml</a>.
</div>

In [7]:
# votre code ici
from lxml import etree
from io import StringIO

#Constants
file_name = "ponctualite-mensuelle-transilien-3.xml"
dtd_included = True
dtd_file = "external_dtd.dtd"
encoding_dtd = "UTF-8"

#File opened and stored in memory
with open(file_name, 'rb') as file:
    data = file.read()

#Validate file
if dtd_included:
    parser = etree.XMLParser(dtd_validation=True)
    try:
        root = etree.fromstring(data, parser)
        print("File well formed and validated from internal dtd")
    except etree.XMLSyntaxError as err:
        print("We've found the following error on this file:")
        print(err)
else:
    with open(dtd_file, 'r', encoding=encoding_dtd) as file:
        dtd_data = file.read()
    try:
        root = etree.fromstring(data)

        #Getting content of doctype
        start_limit = dtd_data.find("[") + 1
        end_limit = dtd_data.find("]")
        dtd_data = dtd_data[start_limit : end_limit]
        dtd_data = StringIO(dtd_data)
        dtd = etree.DTD(dtd_data)

        if dtd.validate(root):
            print("File well formed and validated from external dtd")
        else:
            print("We've found the following error on this file:")
            print(dtd.error_log.filter_from_errors()[0])
    except etree.DTDParseError as err:
        print("DTD file not valid")
    except etree.XMLSyntaxError as err:
        print("We've found the following error on this file:")
        print(err)

File well formed and validated from internal dtd


__Q10. Challenge pour les plus acharnés :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Ecrire un schéma XML, puis l'utiliser pour valider le document <tt>ponctualite-mensuelle-transilien-3.xml</tt> qui y fera référence. Pour cela le plus simple sera encore une fois d'utiliser les possibilités de <a href="https://lxml.de/validation.html#xmlschema">validation via le module lxml</a> depuis un programme python.
</div>

In [5]:
%pycat ponctualite-mensuelle-transilien.xsd

In [6]:
# votre code ici

__Q11. De plus en plus fort :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
 Agir sur les facettes des types simples pour, tout en restant pertinent, restreindre au maximum la syntaxe autorisée pour les informations présentes dans le document. Le schéma et le document y faisant référence pourront être nommés <tt>ponctualite-mensuelle-transilien-2.xsd</tt> et <tt>ponctualite-mensuelle-transilien-4.xml</tt>.
</div>

In [7]:
%pycat ponctualite-mensuelle-transilien-2.xsd

In [8]:
# votre code ici