# <center>MOD 8.4 - Représentation et manipulation de données structurées - BE 3</center>

## <center style="color: #66d">Transformation XSLT, format XSL-FO, et document pdf.</center>

### 1. Informations générales

#### 1.1 Déroulement de la séance

Comme pour les séances précédentes, ce travail est à effectuer par binômes. Les binômes peuvent être les mêmes que pour l'un des BE précédents ou être recomposés pour l'occasion. Dans ce cas, merci de signaler s'il faut créer des groupes supplémentaires sur la plateforme pédagogique pour inscrire votre nouveau binôme.

Les livrables qui vous seront demandés pour ce BE devront encore une fois être zippés _(format zip uniquement - toujours pas de formats de compression exotiques)_ et déposés sur la plateforme pédagogique dans la zone Travaux, dans l'espace réservé au BE n°3.

#### 1.2 Compte-rendu

Le compte-rendu sera fait comme d'habitude au format jupyter notebook.
Il devra évidemment comporter tous les liens nécessaires pour consulter les documents réalisés _(cf. questions suivantes)_ sous tous les aspects pertinents _(code source, validation, transformation...)_. Seuls les documents accessibles sous forme de liens depuis le compte-rendu seront pris en compte lors de la correction.

#### 1.3 Forme des documents produits.

Le degré de finition des documents demandés devra correspondre à des standards professionnels.

### 2. Prise en main de XSL-FO et installation de Apache fop

Le travail demandé au cours de ce BE consiste à transformer les documents XML fournis pour obtenir d'abord un document XSL-FO à l'aide d'une feuille de style XSLT, puis un rapport papier au format <tt>pdf</tt> à l'aide de l'outil "fop" (Apache Formatting Objects Processor).

#### 2.1 Prise en main de XSL-FO.

Consulter le <a href="http://dmolinarius.github.io/demofiles/mod-84/xslfo.pdf">cours sur XSL-FO</a>, puis :

__Q1. Développer une première feuille de style XSL-FO :__
<div style="background-color:#d8d8ff;padding:10px;border-radius:3px">
Créer une feuille de style XSLT nommée <a href="question-1.xsl"><tt>question-1.xsl</tt></a> qui transforme n'importe quel document XML en un document XSL-FO (toujours le même, quel que soit le contenu du document XML transformé) contenant le message "hello, world".
</div>

<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Première feuille de style XSL-FO</h3>
    
Pour cette première feuille de style XSL-FO, nous avons créé le document plus simple possible, et donc celui qui a les éléments minimaux qui sont nécessaires pour la syntaxe XSL-FO. Alors, la feuille développé consiste en :
<ol>
    <li>La racine <b><i>root</i></b> du document</li>
    <li>L'élément <b><i>layout-master-set</i></b> avec le modèle de la page défini par <b><i>simple-page-master</i></b> et <b><i>region-body</i></b></li>
    <li>L'élément <b><i>page-sequence</i></b> qui fait référence au modèle et qui a le message <b><i>Hello World!</i></b> demandé</li>
</ol>
</div>


__Q2. Créer un premier document XSL-FO :__
<div style="background-color:#d8d8ff;padding:10px;border-radius:3px">
Implémenter la transformation XSLT d'un document XML via votre feuille de style, à l'aide d'un programme de votre choix (suggestion : python via le présent notebook) et admirer le résultat obtenu dans un fichier qui sera nommé <a href="question-1.fo"><tt>question-1.fo</tt></a>
</div>

<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Création d'un premier document XSL-FO</h3>
Tout d'abord, pour rendre plus facile la création des fichiers XSL-FO, nous avons créé la fonction Python <b><i>xml2xslfo</i></b> définie dans la celule suivante. En utilisant la bibliothèque <b><i>lxml</i></b>, nous faisons la transformation du fichier <b><i>xml_file</i></b> par la feuille de style <b><i>xsl_file</i></b> pour obtenir le document <b><i>output_name</i></b>. Cette fonction sera utilisé au cours du BE pour obtenir les fichiers XSL-FO demandés. Pour les cas où il est utile de donner des paramètres au moteur XSLT, nous avons ajouté à <b><i>xml2xslfo</i></b> le paramètre optionnel <b>params</b>, qui est un dictionnaire qui sera utilisé au moment de la transformation.
</div>

In [77]:
from datetime import datetime
from lxml import etree

def xml2xslfo(xml_file, xsl_file, output_name="", params={}):
    '''
        Fonction pour transformer le fichier XML "xml_file" dans
        le fichier XML "output_name" avec du code XSL-FO en utilisant
        la feuille de style XSL "xsl_file". La fonction n'est pas faite
        pour gerer des erreurs. Elle est utilisee dans le cadre d'un
        BE et alors nous attendons des inputs correctes selon le
        contexte.
    '''

    #creation d'un nom par defaut pour le fichier de sortie
    if output_name == "":
        ext_pos = xml_file.rfind(".")
        if ext_pos != -1:
            output_name = xml_file[:ext_pos] + ".fo"
        else:
            output_name = xml_file + ".fo"
            
    #transformation en utilisant les outils du module lxml
    original_xml = etree.parse(xml_filename)
    xsl = etree.parse(xsl_filename)
    transform = etree.XSLT(xsl)
    if len(params) > 0:
        new_xml = transform(original_xml, **params)
    else:
        new_xml = transform(original_xml)

    #arbre XML a ecrire
    output_xml = etree.tostring(new_xml, encoding="utf-8")

    # ecriture du fichier html
    with open(output_name, 'wb') as file:
        file.write(output_xml)


<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
Maintenant, nous utilisons la fonction pour obtenir le fichier <a href="question-1.fo"><tt>question-1.fo</tt></a> provenant du document XML <a href="regularite-mensuelle-tgv.xml"><tt>regularite-mensuelle-tgv.xml</tt></a> et de la feuille de style minimale <a href="question-1.xsl"><tt>question-1.xsl</tt></a>
</div>

In [15]:
# définition des noms des fichiers
xml_filename = 'regularite-mensuelle-tgv.xml'
xsl_filename = 'question-1.xsl'

#appel de la fonction
xml2xslfo(xml_filename, xsl_filename, "question-1.fo")

#### 2.2 Installation et utilisation de Apache FOP.

__Q3. Obtenir un document pdf :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Installer <a href="https://xmlgraphics.apache.org/fop/">Apache FOP</a> et transformer le document <tt>question-1.fo</tt> pour obtenir <a href="question-1.pdf"><tt>question-1.pdf</tt></a>.
</div>

Exemple de fonction réalisant la transformation depuis le notebook :

In [9]:
# fonction pour lancer la transformation fop
def run_fop(filename):
    import sys
    import os.path
    import subprocess

    # nom des fichiers
    fo = "{}.fo".format(filename)
    pdf ="{}.pdf".format(filename)

    # le fichier .fo n'existe pas
    if not os.path.isfile(fo):
        print("Could not find {}".format(fo))
        return None

    # appel de fop (ajuster éventuellement le chemin d'accès à l'exécutable et au fichier de configuration)
    args = ["fop", "-c", "C:\Program Files (x86)\\fop-2.2\\fop\\conf\\fop.xconf", fo, pdf]
    '''
        Nous avons essayé d'adapter cette fonction pour l'utiliser sur la machine Ubuntu
        où nous avons travaillé. La définition des arguments ci-dessous semble d'être
        pertinente, cependant, la fonction n'a pas marché de toute manière
    '''
    #args = ["fop", "-fo", fo, "-pdf", pdf]
    return subprocess.run(args,shell=True,stderr=subprocess.PIPE)
    
# On effectue la transformation
r = run_fop('question-1')
print(r.stderr.decode('iso-8859-1'))




In [13]:
# Méthode alternative pour lancer fop
!fop -fo question-1.fo -pdf question-1.pdf

[INFO] FOUserAgent - Rendered page #1.


<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Obtention d'un document PDF provenant d'un document XSL-FO</h3>
Une fois installé l'outil FOP, nous souhaitons de obtenir le document PDF <a href="question-1.pdf"><tt>question-1.pdf</tt></a> selon la définition du fichier XSL-FO <a href="question-1.fo"><tt>question-1.fo</tt></a> que nous venons de créer. Nous avons testé la fonction Python fournie <b><i>run_fop</i></b>, et même essayé de la modifier compte tenu de notre système d'exploitation Ubuntu 18.04. Cependant, le résultat a été toujours une erreur provenant de la JVM. Dans un deuxième approche et compte tenu que nous avons réussi à utiliser FOP directement dans la console de commandes de notre ordinateur, nous avons essayé d'utiliser la commande proposée dans le BE (celulle ci-dessus) qui va précisément vers la console de commandes. Si bien nous avons reçu également le message d'erreur de la JVM, cette fois le fichier PDF a été bien créé. Nous ne sommes pas arrivés à trouver les motifs de ce comportement, mais notre hypothèse est que le notebook a un problème de droits sur Ubuntu. De toute manière, la partie importante ici est que le fichier PDF a été créé de manière satisfaisante.
</div>

### 3. Création d'un rapport

Maintenant que la chaîne de production est maîtrisée, l'objectif sera de créer un rapport au format <tt>pdf</tt>, à partir 
du document <a href="regularite-mensuelle-tgv.xml"><tt>regularite-mensuelle-tgv.xml</tt></a> fourni avec le sujet, dont la structure générale est la suivante :

__Q4. Liste des axes :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Développer une feuille de style XSL qui transforme ce document de manière à obtenir un document <tt>pdf</tt> listant le nom des axes sous forme de titres.
</div>

On nommera respectivement les documents demandés
<a href="question-4.xsl"><tt>question-4.xsl</tt></a>,
<a href="question-4.fo"><tt>question-4.fo</tt></a> et
<a href="question-4.pdf"><tt>question-4.pdf</tt></a>.

<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Liste des axes</h3>
Dans ce cas-là, nous avons commencé a générer ce qui correspondra à la fin à un rapport. Cette première partie consiste en faire une liste des axes qui apparaissent dans le document XML <b>regularite-mensuelle-tgv.xml</b> que nous allons utiliser. La structure du document est encore assez simple : nous utilisons la même mise en page de l'exercice antérieur (feuille A4, marges definis), mais à la place du messsage <b>Hello World!</b> nous utilisons XSLT et XPath pour obtenir les noms des axes et remplir le document. Les deux cellules suivantes sont le code à utiliser pour obtenir le fichier XSL-FO <a href="question-4.fo"><tt>question-4.fo</tt></a> et le PDF <a href="question-4.pdf"><tt>question-4.pdf</tt></a> correspondants à partir de la feuille de style <a href="question-4.xsl"><tt>question-4.xsl</tt></a>.
</div>

In [27]:
# définition des noms des fichiers
xml_filename = 'regularite-mensuelle-tgv.xml'
xsl_filename = 'question-4.xsl'

#appel de la fonction xml2xslfo précédement développée
xml2xslfo(xml_filename, xsl_filename, "question-4.fo")

In [28]:
# création du PDF en utilisant la console de commandes
!fop -fo question-4.fo -pdf question-4.pdf

[INFO] FOUserAgent - Rendered page #1.


__Q5. Page de titre :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Ajouter une page de titre. En profiter pour mentionner vos noms. Noter qu'il est en général possible de passer des variables au moteur XSLT
(cf. <a href="http://lxml.de/xpathxslt.html#stylesheet-parameters">lxml</a>),
ce qui peut faciliter entre autres l'affichage de la date d'impression.
</div>

Les documents demandés seront nommés
<a href="question-5.xsl"><tt>question-5.xsl</tt></a>,
<a href="question-5.fo"><tt>question-5.fo</tt></a> et
<a href="question-5.pdf"><tt>question-5.pdf</tt></a>.

<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Page de titre</h3>
Tout rapport contient une page différente au début qui contient le titre du rapport ainsi que des autres details comme les noms des auteurs. Du fait que normalement ce type de page a des caractéristiques uniques par rapport aux pages de contenu, nous avons créé un nouveu modèle du type <b>simple-page-master</b> appelé <b>title-page</b>. Ce modèle a des petits différences, comme par exemple la définition de la region <b>region-after</b>. D'un autre côté, le modèle défini pour le contenu dans la question 4 a été modifié : maintenant nous utilisons la region <b>region-before</b> pour ajouter un en-tête avec le titre du rapport et les noms des autors. En ce qui concerne le contenu des pages, pour la page de titre nous avons ajouté une image SVG du TGV que nous avons trouvé dans l'Internet : <a href="https://upload.wikimedia.org/wikipedia/commons/8/8d/Logo_TGV.svg">Icon TGV</a>. Cependant, nous l'avons modifié un peu selon nos intérêt de style. Les deux cellules suivantes sont le code à utiliser pour obtenir le fichier XSL-FO <a href="question-5.fo"><tt>question-5.fo</tt></a> et le PDF <a href="question-5.pdf"><tt>question-5.pdf</tt></a> correspondants à partir de la feuille de style <a href="question-5.xsl"><tt>question-5.xsl</tt></a>.
</div>

In [103]:
# définition des noms des fichiers
xml_filename = 'regularite-mensuelle-tgv.xml'
xsl_filename = 'question-5.xsl'

#current date
datetime_val = datetime.now()
current_date = f"{datetime_val.day}-{datetime_val.month}-{datetime_val.year}"
#string pour éviter la reste des valeurs jour - mois - an
current_date = etree.XSLT.strparam(current_date)

'''
    Appel de la fonction xml2xslfo précédement développée.
    On utilise l'option params de la fonction pour donner
    la date de modification.
'''
xml2xslfo(xml_filename, xsl_filename, "question-5.fo", {"date" : current_date})

# création du PDF en utilisant la console de commandes
!fop -fo question-5.fo -pdf question-5.pdf

[INFO] FOUserAgent - Rendered page #1.
[INFO] FOUserAgent - Rendered page #2.


__Q6. Statistiques :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Pour chacun des couples gare de départ / gare d'arrivée, créer un tableau avec les statistiques de la ligne, en évitant que les tableaux puissent être coupés par un saut de page. Ne pas oublier d'afficher les statistiques dans l'ordre du calendrier, et non pas dans l'ordre du document source...
</div>

Les documents demandés seront nommés
<a href="question-6.xsl"><tt>question-6.xsl</tt></a>,
<a href="question-6.fo"><tt>question-6.fo</tt></a> et
<a href="question-6.pdf"><tt>question-6.pdf</tt></a>.

<div style="background-color:#c7ffd6;padding:10px;border-radius:3px">
    <h3>Tableaux des statistiques</h3>
Une fois la page de titre faite, il faut remplir le rapport avec son contenu. Pour pouvoir montrer les statistiques, nous avons utilisé la balise <b>fo:table</b> fournie par XSL-FO. Évidemment, les tableaux doivent avoir certaines caractéristiques de style pour être affichés de manière plus lisible. Nous avons décidé de faire les bords en noir et les cellules des en-têtes en rouge pour les différencier du contenu. Alors, pour éviter que les tableaux soient coupés en différentes pages, nous avons utilisé l'attribut <b>page-break-inside</b> avec la valeur <b>"avoid"</b> dans chaque bloc contenant un titre avec le couple "gare de départ - gare d'arrivée" et son respectif tableau. De cette manière nous empêchons que le titre d'un tableau soit dans une page différente du tableau. Finalement, un dernier détail que nous avons ajouté est que chaque axe doit commencer dans une nouvelle page et pas à la moitié d'une autre. Si bien cela n'est pas demandé, nous avons pensé que pour un sujet d'ordre et de style du rapport. Les deux cellules suivantes sont le code à utiliser pour obtenir le fichier XSL-FO <a href="question-6.fo"><tt>question-6.fo</tt></a> et le PDF <a href="question-6.pdf"><tt>question-6.pdf</tt></a> correspondants à partir de la feuille de style <a href="question-6.xsl"><tt>question-6.xsl</tt></a>.<br>
Un petit détail concernant le code (et pas l'apparence du document final) : nous avons utilisé des templates només pour améliorer la visibilité du code. Par exemple, le template appelé <b>row4table</b> contient le code pour faire une <b>fo:table-row</b> les paramétre fournis. Si bien à niveau de quantité de code est presque égal à mettre la même information directement à l'intérieur du <b>xsl:for-each</b>, normalement la division du code en modules permet une majeure lisibilité.
</div>

In [106]:
# définition des noms des fichiers
xml_filename = 'regularite-mensuelle-tgv.xml'
xsl_filename = 'question-6.xsl'

#current date
datetime_val = datetime.now()
current_date = f"{datetime_val.day}-{datetime_val.month}-{datetime_val.year}"
#string pour éviter la reste des valeurs jour - mois - an
current_date = etree.XSLT.strparam(current_date)

'''
    Appel de la fonction xml2xslfo précédement développée.
    On utilise l'option params de la fonction pour donner
    la date de modification.
'''
xml2xslfo(xml_filename, xsl_filename, "question-6.fo", {"date" : current_date})

# création du PDF en utilisant la console de commandes
!fop -fo question-6.fo -pdf question-6.pdf

[INFO] FOUserAgent - Rendered page #1.
[INFO] FOUserAgent - Rendered page #2.
[INFO] FOUserAgent - Rendered page #3.
[INFO] FOUserAgent - Rendered page #4.
[INFO] FOUserAgent - Rendered page #5.
[INFO] FOUserAgent - Rendered page #6.
[INFO] FOUserAgent - Rendered page #7.
[INFO] FOUserAgent - Rendered page #8.
[INFO] FOUserAgent - Rendered page #9.
[INFO] FOUserAgent - Rendered page #10.
[INFO] FOUserAgent - Rendered page #11.
[INFO] FOUserAgent - Rendered page #12.
[INFO] FOUserAgent - Rendered page #13.
[INFO] FOUserAgent - Rendered page #14.
[INFO] FOUserAgent - Rendered page #15.
[INFO] FOUserAgent - Rendered page #16.
[INFO] FOUserAgent - Rendered page #17.
[INFO] FOUserAgent - Rendered page #18.
[INFO] FOUserAgent - Rendered page #19.
[INFO] FOUserAgent - Rendered page #20.
[INFO] FOUserAgent - Rendered page #21.
[INFO] FOUserAgent - Rendered page #22.
[INFO] FOUserAgent - Rendered page #23.
[INFO] FOUserAgent - Rendered page #24.
[INFO] FOUserAgent - Rendered page #25.
[INFO] FO

__Q7. Commentaires :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Faire figurer les commentaires non vides là aussi dans l'ordre du calendrier.
</div>

Les documents demandés seront nommés
<a href="question-7.xsl"><tt>question-7.xsl</tt></a>,
<a href="question-7.fo"><tt>question-7.fo</tt></a> et
<a href="question-7.pdf"><tt>question-7.pdf</tt></a>.

In [115]:
# définition des noms des fichiers
xml_filename = 'regularite-mensuelle-tgv.xml'
xsl_filename = 'question-7.xsl'

#current date
datetime_val = datetime.now()
current_date = f"{datetime_val.day}-{datetime_val.month}-{datetime_val.year}"
#string pour éviter la reste des valeurs jour - mois - an
current_date = etree.XSLT.strparam(current_date)

'''
    Appel de la fonction xml2xslfo précédement développée.
    On utilise l'option params de la fonction pour donner
    la date de modification.
'''
xml2xslfo(xml_filename, xsl_filename, "question-7.fo", {"date" : current_date})

# création du PDF en utilisant la console de commandes
!fop -fo question-7.fo -pdf question-7.pdf

[INFO] FOUserAgent - Rendered page #1.
[INFO] FOUserAgent - Rendered page #2.
[INFO] FOUserAgent - Rendered page #3.
[INFO] FOUserAgent - Rendered page #4.
[INFO] FOUserAgent - Rendered page #5.
[INFO] FOUserAgent - Rendered page #6.
[INFO] FOUserAgent - Rendered page #7.
[INFO] FOUserAgent - Rendered page #8.
[INFO] FOUserAgent - Rendered page #9.
[INFO] FOUserAgent - Rendered page #10.
[INFO] FOUserAgent - Rendered page #11.
[INFO] FOUserAgent - Rendered page #12.
[INFO] FOUserAgent - Rendered page #13.
[INFO] FOUserAgent - Rendered page #14.
[INFO] FOUserAgent - Rendered page #15.
[INFO] FOUserAgent - Rendered page #16.
[INFO] FOUserAgent - Rendered page #17.
[INFO] FOUserAgent - Rendered page #18.
[INFO] FOUserAgent - Rendered page #19.
[INFO] FOUserAgent - Rendered page #20.
[INFO] FOUserAgent - Rendered page #21.
[INFO] FOUserAgent - Rendered page #22.
[INFO] FOUserAgent - Rendered page #23.
[INFO] FOUserAgent - Rendered page #24.
[INFO] FOUserAgent - Rendered page #25.
[INFO] FO

__Q8. Améliorer <i>ad libitum</i> :__
<div style="background-color:#eef;padding:10px;border-radius:3px">
Numéroter les pages, ajouter un graphique SVG par couple gare de départ / gare d'arrivée,
créer un sommaire cliquable renvoyant directement à la page concernée...
</div>

Les documents demandés seront nommés
<a href="question-8.xsl"><tt>question-8.xsl</tt></a>,
<a href="question-8.fo"><tt>question-8.fo</tt></a> et
<a href="question-8.pdf"><tt>question-8.pdf</tt></a>.

In [8]:
# votre code ici