# <center>Informatique tc3 (Projet Web) - TD1</center>

## <center style="color: #66d">Base de données SQLite, Firefox et SQLite manager, utilisation via Python</center>

### 1. Préambule

Dans le cadre de ce TD vous serez amenés à créer une base de données, à l'alimenter à partir de données ouvertes (Open Data) librement disponibles sur l'internet, et à développer quelques programmes Python pour utiliser ces données, en extraire divers résultats, et en obtenir facilement des représentations graphiques.

Les données dont vous aurez besoin se trouvent sur le serveur pédagogique. Vous devrez :
    <ul style="margin-top: 0">
    <li> créer un répertoire sur votre machine pour les fichiers relatifs à ce TD,
    <li> récupérer sur le serveur pédagogique le sujet <i>(fichier .ipynb)</i> et les fichiers csv, et les placer dans le répertoire que vous venez de créer
    <li> démarrer un serveur de notebook dans ce même répertoire avec la commande <tt>ipython notebook</tt> ou toute méthode que vous jugerez utile pour consulter le présent sujet,
    <li> effectuer au fur et à mesure le travail demandé, qui consiste en général à remplir les cellules du présent notebook avec du code Python répondant à la question.
    </ul>
    

### 2. Lecture d'un fichier de données

L'objectif de cette question est récupérer les données qui se trouvent dans le fichier <tt>regularite-mensuelle-tgv.csv</tt>.
<p>Ce fichier est au format <a href="https://fr.wikipedia.org/wiki/Comma-separated_values">CSV</a>. Il s'agit d'un fichier contenant du texte (qui peut à ce titre être ouvert et consulté à l'aide du bloc-notes) qui représente un tableau de  données, dont chaque ligne contient une liste de valeurs séparées par des virgules (ou tout autre <i>caractère séparateur</i>).
<p>Le contenu du fichier est constitué de données séparées par le caractère ; <i>point-virgule</i>. Lorsqu'une valeur contient elle-même le caractère séparateur, cette valeur est délimitée par des " <i>guillemets doubles</i>.
<p>Il est encodé en <a href="https://fr.wikipedia.org/wiki/UTF-8">UTF-8</a>. C'est la convention choisie pour représenter les caractères alphabétiques et autres, par un code numérique sur le disque et/ou dans la mémoire de l'ordinateur.

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>2.1 -</b>
En vous aidant de la <a href="https://docs.python.org/3/library/csv.html">doc python</a> pour lire un fichier csv, reproduisez le premier exemple de programme du § 14.1.1 en l'adaptant pour lire le fichier <tt>regularite-mensuelle-tgv.csv</tt>. N'oubliez pas de préciser le caractère séparateur <i>(delimiter)</i> et celui servant à délimiter les valeurs <i>(quotechar)</i>. Si vous observez des caractères bizarres dans le résultat, consultez la <a href="https://docs.python.org/3.4/howto/unicode.html#reading-and-writing-unicode-data">doc python</a> et spécifiez le format du fichier dans l'instruction <tt>open</tt>.
<p>
Vous devriez observer un résultat similaire à celui-ci :
    <img src="Q2-1.png">
    <p><b>N.B.</b> Une fois la liste obtenue, si elle vous paraît trop longue vous pouvez cliquer dans la colonne de gauche pour la replier et éviter d'encombrer la fenêtre du sujet...

In [1]:
import csv
with open('eggs.csv', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
    for row in spamreader:
        print(', '.join(row))

### 3. Création d'une base SQL

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>3.1 -</b>
En vous aidant du premier exemple de code de la <a href="https://docs.python.org/3.4/library/sqlite3.html">doc python</a> sur l'utilisation de bases de données SQLite, créez une base de données nommée <tt>sncf.sqlite</tt> et observez dans le répertoire du TD l'appartion du fichier correspondant après exécution du code.
<br>
<img src="Q3-1.png">

In [2]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>3.2 -</b>
Toujours en vous basant sur la <a href="https://docs.python.org/3.4/library/sqlite3.html">doc python</a>, ainsi que sur la <a href="https://sqlite.org/lang.html">syntaxe SQL</a> supportée par la base SQLite, créez une table nommée <tt>regularite_tgv</tt> avec les champs suivants :
<pre style="background-color: transparent">
  id           // type entier, clé primaire
  annee        // type entier
  mois         // type entier
  axe          // type texte
  depart       // type texte
  arrivee      // type texte
  nb_prevus    // type entier
  nb_trains    // type entier
  nb_annules   // type entier
  nb_retards   // type entier
  regularite   // type réel
  commentaire  // type texte
</pre>
<p><b>N.B.</b> Pour permettre l'exécution répétée de votre cellule de code, ajoutez une instruction SQL pour supprimer la table si elle existe, avant de la recréer...

In [3]:
# votre code ici

Autant le succès du programme de création de la base de données (question 3.1) peut s'observer par l'apparition du fichier <tt>sncf.sqlite</tt>, autant nous sommes aveugles pour vérifier la bonne exécution du programme de création de la table.
<p>
Qu'à cela ne tienne : il nous faut un logiciel nous permettant d'observer le contenu d'une base de données SQLite. Ou mieux : à observer et à interagir avec une base de données SQLIte <i>(créer, supprimer ou modifier des tables et des enregistrements, effectuer des requêtes SQL...)</i>.
<p>
Un tel outil existe : il s'appelle SQLite Manager et se présente sous la forme d'un add-on pour le navigateur Web Firefox. Firefox possède lui-même l'insigne avantage de pouvoir s'installer aussi bien sous Windows, que Mac ou Linux.

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>3.3 -</b>
Téléchargez et installez Firefox si vous ne l'avez pas déjà, puis installez l'add-on SQLite Manager.
<p>
Démarrez SQLite Manager et ouvrez la base de données <tt>sncf.sqlite</tt> pour constater l'existence de la table <tt>regularite_tgv</tt>. Si tel n'est pas le cas, corrigez votre programme de la question 3.2 jusqu'à y arriver.
<br>
<img src="Q3-3.png">

### 4. Remplissage de la table de régularité des TGV

Il est maintenant temps de passer aux choses sérieuses et de transférer les données depuis le fichier CSV dans la base de données, et plus particulièrement dans la table que nous venons de créer.

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>4.1 -</b>
A partir du code de la question 2.1 permettant de lire le fichier CSV, créez un programme permettant d'insérer les données dans la table <tt>regularite_tgv</tt>.
Attention au format de la date : il s'agit d'une chaîne de caractères dans le fichier CSV, et de deux entiers respectivement pour le mois et l'année dans la base de données.
<p>
<b>N.B.</b> Lors de l'écriture d'un enregistrement dans la table, si on met le champ <tt>id</tt> à <tt>NULL</tt>, il sera automatiquement géré par SQLite pour éviter tout doublon. C'est la magie du type entier, clé primaire.
<p>
Vérifiez l'apparition des données et la bonne exécution de votre programme à l'aide de SQLite Manager :
<br>
<img src="Q4-1.png">

In [4]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>4.2 -</b>
Comme il est peu probable que vous y arriviez du premier coup, il sera nécessaire de rejouer le programme de remplissage plusieurs fois sans pour autant créer de doublons dans la table.
<p>
Ajoutez une instruction pour vider la table avant de la remplir.

In [5]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>4.3 -</b>
Vous l'aurez noté, le remplissage de la table n'est pas instantané... En vous référant à <a href="https://docs.python.org/3.4/library/time.html">la doc python</a>, encadrez la boucle de remplissage de la table, des instructions nécessaires pour afficher le temps d'exécution de cette portion de code.
<br>
<img src="Q4-3.png">

In [6]:
# votre code ici

### 5. Exploitation de la table de régularité des TGV

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.1 -</b>
Ecrivez un programme Python qui affiche le nombre d'enregistrements dans la table.

In [7]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.2 -</b>
Ecrivez un programme Python qui affiche le nombre d'axes TGV cités dans la base ?

In [8]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.3 -</b>
Ecrivez un programme Python qui affiche la liste des axes TGV cités dans la base.

In [9]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.4 -</b>
Ecrivez un programme Python qui affiche le nombre et la liste des gares de départ sur l'axe Sud-Est.

In [10]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.5 -</b>
Ecrivez un programme Python qui affiche le nombre de trains au départ de Paris Gare de Lyon en 2014.

In [11]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.6 -</b>
Ecrivez un programme Python qui affiche le nombre de trains partis de Paris Gare de Lyon en 2014 et arrivés avec du retard.

In [12]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.7 -</b>
Ecrivez un programme Python qui affiche le nombre de trains annulés au départ de Paris Gare de Lyon en 2014.

In [13]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.8 -</b>
Ecrivez un programme Python qui affiche le contenu de la table <tt>regularite_tgv</tt> mois par mois, dans l'ordre, au départ de Paris Gare de Lyon, vers Lyon Part Dieu.

In [14]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.9 -</b>
En vous référant au <a href="http://matplotlib.org/users/pyplot_tutorial.html">tutoriel pyplot</a>, tracez la courbe de régularité correspondant à ces données.
<br>
<img src="Q5-9.png">

In [15]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.10 -</b>
Consultez <a href="http://matplotlib.org/users/pyplot_tutorial.html">le tutoriel</a> et <a href="http://matplotlib.org/api/axis_api.html">la doc</a>, puis retracez ce graphique avec un titre et un axe des abscisses correctement annoté (mois et années).
<br>
<img src="Q5-10.png">

In [16]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.11 -</b>
Le résultat n'étant pas très esthétique, pourquoi ne pas essayer d'afficher les points de mesure superposés à une courbe dérivable ? Voyez <a href="http://docs.scipy.org/doc/scipy/reference/tutorial/interpolate.html">la doc</a> puis retracez cette courbe en interpolant une dizaine de points entre deux points de mesure à l'aide d'une fonction spline.
<br>
<img src="Q5-11.png">

In [17]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.12 -</b>
Affichez l'ensemble des commentaires (dernier champ de la table) pour les TVG concernés par cette courbe.

In [18]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>5.13 -</b>
Affichez les commentaires pour l'ensemble des destinations au départ de Paris Gare de Lyon, en évitant les doublons.

In [19]:
# votre code ici

### 6. Nouvelles données

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>6.1 -</b>
Créez une table <tt>ponctualite_transilien</tt> :
<pre style="background-color: transparent">
  id           // type entier, clé primaire
  annee        // type entier
  mois         // type entier
  id_ligne     // type texte
  type_ligne   // type texte
  code_ligne   // type texte
  nom_ligne    // type texte
  ponctualite  // type réel
</pre>
et chargez-la avec les données du fichier <tt>ponctualite-mensuelle-transilien.csv</tt>.

In [20]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>6.2 -</b>
Affichez le nombre de lignes (de train) répertoriées dans cette table, et  leur liste avec id, type, code et nom correctement formattés.

In [21]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>6.3 -</b>
Créez une table <tt>couleur_transilien</tt> :
<pre style="background-color: transparent">
  id           // type entier, clé primaire
  id_ligne     // type texte
  couleur      // type texte
  rouge        // type entier
  vert         // type entier
  bleu         // type entier
  hexadecimal  // type texte
</pre>
    et remplissez-la avec les informations du fichier <tt>code-couleur-transilien.csv</tt> en calculant les valeurs du champ <tt>code_ligne</tt> à partir des informations du fichier, de manière à ce que les valeurs obtenues soient cohérentes avec celles du champ éponyme de la table <tt>ponctualite_transilien</tt> <i>(clé étrangère)</i>.

In [22]:
# votre code ici

<div style="background-color:#eef;padding:10px;border-radius:3px">
<b>6.4 -</b>
Tracez un graphique supperposant les courbes de ponctualité des lignes de RER en respectant les couleurs.

<p>
Attention à corriger au mieux l'absence d'information <i>(il y a une valeur de ponctualité manquante pour le RER B)</i>.
<p>
Exemple de résultat :
<br>
<img src="Q6-4.png">

In [23]:
# votre code ici

In [24]:
# votre code ici