<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">Chapitre 22 : Systèmes de Gestion de Bases de Données</h1>

Après l'étape de modélisation des données, utilisant le modèle relationnel, vient l'étape de la mise en pratique.  
Le système d'information repose sur un programme essentiel, le **système de gestion de bases de données relationnel**.  
Ce dernier est un logiciel permettant :
* de créer des bases de données, c'est-à-dire des ensembles de tables
* de créer des tables en spécifiant leurs schémas
* de spécifier des contraintes d'intégrité, telles que les clés primaires et étrangères ou encore des contraintes de domaine ou des contraintes utilisateur
* d'ajouter des données à des tables, mais uniquement si ces entités respectent les contraintes
* de mettre à jour ou de supprimer des données dans des tables et de supprimer des tables
* d'interroger les données grâce à des programmes écrits dans un **langage de requêtes**
* d'assurer la sûreté des données, par exemple en garantissant que même en cas de problème matériel (coupure de courant, défaut sur un disque dur, etc.) les données sont récupérables.

De plus, le SGBD devant permettre des accès simultanés aux données de la part de plusieurs utilisateurs, il est souvent architecturé sur un modèle client-serveur.  
* le serveur est le programme qui a effectivement accès aux données
* les clients sont des programmes émettant des ordres (requête, mise à jour, etc.) et affichant les résultats de ces derniers.  

Dans ce contexte multi-utilisateur, le SGBD permet, de plus, de définir des droits d'accès différents aux données selon les utilisateurs.  
Ainsi, un SBGD possède des utilisateurs munis d'identifiants et de mots de passe (comme un système d'exploitation).  
Les utilisateurs ont des droits différents (consultation simple de tables, mise à jour de leurs tables ou droits d'administration permettant de configurer le SGBD).

<div style="text-align: center">
   <img src="Images/SGBD.png" alt="SGBD">
</div>

Un aspect fondamental des SGBD modernes et du langage SQL est que le programmeur de bases de données ne spécifie **jamais** comment récupérer les données. Il ne programme aucun algorithme, ne spécifie jamais de structure de données.  
Certaines structures de données fixées sont connues des SGBD : arbres, table de hachage.  
Le programmeur avancé peut guider le SGBD dans le choix initial de représentation, mais il est la plupart du temps fait automatiquement.  
Au moment d'écrire sa requête, le programmeur n'indiquera jamais qu'il souhaite utiliser un tri fusion par exemple, mais simplement qu'il souhaite obtenir les données dans un certain ordre.  
Le système fera alors le meilleur choix possible d'algorithme en fonction des informations à sa disposition (statistiques sur les données des tables, tailles de ces dernières, caractéristiques du système d'exploitation et du matériel sur lequel il s'exécute).  

Dans ce contexte, SQL est parfois qualifié de **langage déclaratif**, c'est-à-dire un langage dans lequel on indique (on *déclare*) les résultats qu'on souhaite obtenir, pas la manière dont on souhaite les calculer.


## Historique
Avant les années 1960, le principal moyen de stockage pour les ordinateurs était la bande magnétique.  
Le traitement de données était donc réalisé en lots (*batch* en anglais), c'est-à-dire qu'une partie des données était rapatriée depuis la bande magnétique jusqu'en mémoire principale, traitée, puis les résultats affichés ou restockés sur bande.  
Puis le lot suivant de données était lu, traité et affiché, et ainsi de suite. 

L'arrivée des systèmes à accès direct (comme les disquettes et disques durs) a changé la façon d'accéder aux données et les traitements que l'on pouvait espérer en faire.  

En premier lieu, le modèle **hiérarchique** est proposé.  
Il reproduit, sur disque, les structures de données en mémoire.  
* Dans ce modèle, les données sont organisées en structures ou **enregistrements** (qui associent des clés à des données, comme les dictionnaires de Python).  
Une particularité est que les enregistrements sont liés entre eux au moyen de pointeurs, de façon à former des listes chaînées ou des arbres (d'où le nom de système hiérarchique). 
* Les **requêtes** de l'époque sont donc semblables aux algorithmes de recherche dans ces structures de données.

Edgar F. Codd [introduit en 1970 le modèle **relationnel**](Ressources/codd.pdf).  
Apparaissent, à partir de cette époque, des SGBD relationnels, comme [System R](https://www.sigmod.org/publications/dblp/db/systems/r.html) d'IBM, le premier à proposer une implémentation du langage SQL.  
System R n'est cependant qu'un projet de recherche utilisé chez quelques industriels comme cas d'étude.  

Le premier SGBD commercial est [Oracle](https://www.oracle.com/fr/database/what-is-a-relational-database/), commercialisé par la société Relational Software en 1979 (devenue depuis Oracle Corporation).  
Les logiciels propriétaires tels qu'Oracle, mais aussi [DB/2](https://www.ibm.com/fr-fr/products/db2-database) d'IBM ou [Sybase](https://www.sap.com/france/products/sybase-ase.html) (maintenant SAP ASE), sont pendant des années la seule alternative viable pour les entreprises.  

Avec le développement du Web au milieu des années 1990, le besoin de solutions logicielles moins onéreuses et plus ouvertes augmente.  
En effet, les SGBD propriétaires étaient, non seulement, coûteux, mais aussi conçus pour fonctionner sur des serveurs aux architectures spécifiques, hors de portée des particuliers, des associations et des petites entreprises. 

C'est dans ce contexte que naissent des alternatives telles que [MySQL](https://www.mysql.com/fr/) (maintenant [MariaDB](https://mariadb.org/)) en 1995 puis [PostgreSQL](https://www.postgresql.org/) en 1996.  
Ces dernières sont devenues au cours des 25 dernières années des logiciels robustes, capables de concurrencer dans de
nombreux cas les alternatives propriétaires.

En parallèle de l'évolution des systèmes, le langage SQL a lui aussi évolué.  
Cette évolution s'est faite de manière anarchique, de nombreux éditeurs de logiciels rajoutant leur propres extensions non standardisées.  
Ce phénomène d'**enfermement** (*vendor lock-in* en anglais) est toujours d'actualité et rend difficile la présentation du langage SQL.  
Certaines opérations basiques doivent êtres déclinées selon tous les dialectes de SQL utilisés par les différents systèmes.  
Une des raisons est le peu d'intérêt qu'ont les éditeurs de systèmes commerciaux à faciliter la migration de leurs clients chez des systèmes concurrents.

## Transactions
Une action du monde réel (on parle parfois de **processus métier**) peut être modélisée par des ordres SQL donnés à un SGBD.  

Reprenons notre base de données de la [médiathèque](Fichiers/mediatheque.db) :

<div style="text-align: center">
   <img src="Images/Base2.png" alt="BDD Médiathèque">
</div>

Si Alice (dont la carte a le code barre `'19833284474405'`) emprunte le livre `Ravage` (dont l'ISBN est `'978-2072534911'`) le 1er février 2020, la borne d'emprunt (qui exécute un programme graphique permettant de scanner les cartes et livres) effectuera l'ordre SQL suivant :

```sql
INSERT INTO emprunt 
VALUES ('19833284474405', '978-2072534911', '2020-02-15');
```

On voit ici que l'action d'emprunter se traduit par un seul ordre SQL.  
Nous avons déjà vu qu'il est inutile de vérifier avant l'emprunt que le livre a effectivement été rendu (et pas juste redéposé en rayon sans passer par la borne).  
En effet, si l'ISBN du livre est toujours dans la table `emprunt`, alors la contrainte d'intégrité faisant de l'attribut `isbn` une clé primaire sera violée et le SGBD renverra une erreur.  
Le programme s'exécutant sur la borne pourra alors afficher un message d'erreur à l'usager.

Considérons maintenant une action plus complexe, consistant à sortir un livre de l'inventaire, par exemple s'il est en trop mauvais état pour être emprunté.  
Ce processus d'apparence simple cache de nombreuses subtilités.  
* En effet, retirer une entrée de la table `livre` viole la contrainte de clé étrangère sur l'attribut `isbn` dans la table `auteur_de`.  
Il faut donc d'abord retirer les lignes correspondantes dans cette table.  
Il peut y en avoir plusieurs si un livre a plusieurs auteurs.  
* De plus, il peut être souhaitable, si on a supprimé le dernier livre d'un auteur, de supprimer aussi cet auteur de la base.  
Ce processus peut s'exprimer par plusieurs ordres SQL.  

Supposons que l'on veuille supprimer le livre *Les Aventures de Huckleberry Finn* d'ISBN `'978-2081509511'`.

```sql
DELETE FROM auteur_de 
WHERE isbn = '978-2081509511';

DELETE FROM auteur 
WHERE a_id NOT IN (SELECT a_id 
                   FROM auteur_de);

DELETE FROM livre 
WHERE isbn = '978-2081509511';
```


* Le premier ordre supprime la référence au livre dans la table `auteur_de`.  
* Le deuxième ordre supprime de la table `auteur` tous les auteurs dont l'identifiant (attribut `a_id`) n'apparaît pas dans la table `auteur_de` grâce à une requête imbriquée dans la clause `WHERE`.  
* Enfin, le livre est supprimé de la table `livre` par le troisième ordre.  

Ces trois ordres forment un tout qu'on ne doit pas dissocier.  

En effet, considérons maintenant la situation suivante : un usager a reposé le livre en rayon sans passer par une borne pour le rendre.  
Il reste donc dans la table `emprunt` une référence vers l'ISBN de ce livre (contrainte de clé étrangère) et le dernier ordre et seulement celui-ci va échouer.  

Ajoutons une telle entrée dans la table `emprunt` :

```sql
INSERT INTO emprunt 
VALUES ('934701281931582', '978-2081509511', '2020-02-01');
```



et regardons ce qui se produit :

```sql
DELETE FROM auteur_de 
WHERE isbn = '978-2081509511';

DELETE FROM auteur 
WHERE a_id NOT IN (SELECT a_id 
                   FROM auteur_de);

DELETE FROM livre 
WHERE isbn = '978-2081509511';

```

```
Result: FOREIGN KEY constraint failed
At line 4:
DELETE FROM livre WHERE isbn = '978-2081509511';
```

Puis

```sql
SELECT * 
FROM auteur 
WHERE nom = 'Twain';
```
```
Result: 0 enregistrements ramenés en 2ms
```


Nos données sont dans un état incohérent, car les deux premiers ordres `DELETE` sont exécutés sans problème, retirant de la base l'auteur du livre et la relation entre ce dernier et le livre, alors que le livre est toujours présent dans la base (la dernière requête `SELECT` ne renvoie aucun résultat).  
On souhaite donc que, si l'un des trois ordres échoue, les trois ordres soient annulés.

Cette notion fondamentale des SGBD s'appelle une **transaction**.  
Une transaction est une séquence d'instructions SQL (requêtes, mises à jour) qui forment un tout et doivent soit toutes réussir, soit toutes être annulées, afin de laisser la base dans un état cohérent.  
Le langage SQL supporte, bien évidemment, les transactions.  
* Pour déclarer qu'une suite d'ordres est une transaction, il suffit de la faire précéder de `BEGIN TRANSACTION` (syntaxe pour SQlite).  
* On pourra alors la conclure par l'instruction `COMMIT` afin de valider la transaction.  
* L'instruction `ROLLBACK` permet de manuellement annuler la transaction. 

Il est à noter que si une erreur se produit lors d'une transaction, alors toutes les tables sont remises dans leur état d'avant la transaction au moment du `COMMIT` ou du `ROLLBACK` (qui ont alors le même effet).

```sql
INSERT INTO emprunt 
VALUES ('934701281931582', '978-2081509511', '2020-02-01');
```


Puis on commence la transaction :

```sql
BEGIN TRANSACTION;

    DELETE FROM auteur_de 
    WHERE isbn = '978-2081509511';

    DELETE FROM auteur 
    WHERE a_id NOT IN (SELECT a_id 
                       FROM auteur_de);

    DELETE FROM livre 
    WHERE isbn = '978-2081509511';

```

```
Result: FOREIGN KEY constraint failed
At line 6:
DELETE FROM livre WHERE isbn = '978-2081509511';
```

On peut alors récupérer l'état initial :

```sql
ROLLBACK;

SELECT * 
FROM auteur 
WHERE nom = 'Twain';

```

| a_id |  nom  | prenom |
|:----|:-----|:------|
| 0    | Twain | Mark   |

```
Result: 1 enregistrements ramenés en 4ms
```

Comme on le voit, à l'issue de la transaction, c'est-à-dire après l'exécution de l'ordre `ROLLBACK`, la table `auteur` a été restaurée dans son état d'avant la transaction.

Mettons en œuvre une transaction plus complexe maintenant, permettant d'ajouter l'auteur Mark Twain s'il n'est pas déjà dans la table `auteur` 


```sql
BEGIN TRANSACTION;
    CREATE TABLE mark_present AS SELECT * FROM auteur
    WHERE nom = 'Twain' AND prenom = 'Mark';
    
    CREATE TABLE max_a_id AS SELECT MAX(a_id) AS m FROM auteur
    WHERE (SELECT COUNT(*) FROM mark_present) = 0;
    
    INSERT INTO auteur 
        SELECT m + 1, 'Twain', 'Mark' 
        FROM max_a_id 
        WHERE m IS NOT NULL;
    
    DROP TABLE mark_present;
    DROP TABLE max_a_id;
COMMIT;

```



* La première requête sélectionne toutes les lignes de la table `auteur` pour lesquelles le nom et le prénom sont ceux de Mark Twain et sauve ce résultat dans la table `mark_present`.  
    * Si Mark Twain est bien présent, alors (au moins) une ligne sera copiée dans cette table.  
    * Si Mark Twain n'est pas présent, alors la table `mark_present` sera vide.

* La deuxième requête est plus subtile.  
Elle sélectionne les plus grands `a_id` de la table `auteur` pour lesquels la table temporaire `mark_present` est vide (son `COUNT` vaut `0`).  
On peut remarquer que cette condition est indépendante de la ligne que l'on considère.  

* Ainsi, si la table `mark_present` est vide, alors la condition est toujours vraie.  
La requête va donc renvoyer le maximum de tous les `a_id` de la table, car toutes les lignes sont sélectionnées.  
    
* À l'inverse, si `mark_present` est non vide, alors la condition est toujours fausse et aucun `a_id` n'est sélectionné.  
Dans ce cas, la fonction d'agrégation renvoie la valeur spéciale `NULL`.  

Pour résumer, les deux premiers ordres, ensemble, ont pour effet de mettre dans une colonne `m` d'une table temporaire `max_a_id` le plus grand identifiant présent dans la table `auteur` si Mark Twain en est absent et `NULL` s'il est présent.

* Le dernier ordre utilise enfin un `INSERT` avec `SELECT`.  
    * Le `SELECT` imbriqué renvoie le triplet `(m + 1, 'Twain', ' Mark')` si la colonne `m` de la table `max_a_id` est non `NULL`.  
    Comme dans ce cas-ci `m` contient le plus grand `a_id` de la table auteur, `m + 1` est un nouvel identifiant et est donc bien une clé primaire valide.  
    * Si `m` est `NULL`, aucune insertion n'est faite (car Mark Twain est déjà présent).  
    
* Les deux derniers ordres `DROP` détruisent les tables temporaires créées dans cette transaction.  

Notons que si un problème survient durant la transaction, l'ordre `ROLLBACK` aura aussi pour effet de supprimer les tables temporaires créées pendant la transaction.

### Propriétés ACID
Les propriétés ACID sont quatre garanties offertes par les SGBD relationnels concernant les transactions.  
L'acronyme ACID est constitué des initiales des quatre propriétés : **Atomicité**, **Cohérence**, **Isolation**, **Durabilité**.

#### Atomicité
Par ce terme, on désigne le fait qu'une transaction est *tout ou rien*.  
Soit la transaction est arrivée à son terme, et les données sont alors modifiées, soit elle a échoué, et toutes les modifications sont annulées pour restaurer la base de données dans l'état où elle était avant la transaction.

#### Cohérence
Les transactions doivent faire passer la base d'un état cohérent à un autre état cohérent.  
À l'issue d'une transaction, en particulier, toutes les contraintes d'intégrité doivent être vérifiées.


#### Isolation
Si deux transactions s'exécutent simultanément, alors leur exécution doit produire le même effet que si on les avait exécutées l'une après l'autre (une transaction ne peut en particulier pas observer un état intermédiaire où certaines modifications n'ont pas été validées par un `COMMIT`).

#### Durabilité
Une transaction validée par un `COMMIT` est valide *pour de bon*.  
Le système s'assure donc que, quels que soient les problèmes logiciels ou matériels qui pourraient survenir (défaillance de disque dur, panne de courant, etc.), les mises à jour d'une transaction validée ne sont jamais perdues.

Nous illustrons la propriété d'isolation avec l'exemple suivant.  
Supposons que l'on tente d'exécuter de manière simultanée deux copies de la transaction *ajout de Mark Twain si absent* décrite plus haut.  
Une manière simple de procéder consiste à ouvrir deux connexions à la base de données et de rentrer les deux séries d'ordres dans chacune de ces connexions.

* Connexion 1

```sql
BEGIN TRANSACTION;
    CREATE TABLE mark_present AS SELECT * FROM auteur
    WHERE nom = 'Twain' AND prenom = 'Mark';
    
    CREATE TABLE max_a_id AS SELECT MAX(a_id) AS m FROM auteur
    WHERE (SELECT COUNT(*) FROM mark_present) = 0;
    
    INSERT INTO auteur 
        SELECT m + 1, 'Twain', 'Mark' 
        FROM max_a_id 
        WHERE m IS NOT NULL;
    
    DROP TABLE mark_present;
    DROP TABLE max_a_id;
COMMIT;

```



* Connexion 2


```sql
BEGIN TRANSACTION;
    CREATE TABLE mark_present AS SELECT * FROM auteur
    WHERE nom = 'Twain' AND prenom = 'Mark';
    
    CREATE TABLE max_a_id AS SELECT MAX(a_id) AS m FROM auteur
    WHERE (SELECT COUNT(*) FROM mark_present) = 0;
    
    INSERT INTO auteur 
        SELECT m + 1, 'Twain', 'Mark' 
        FROM max_a_id 
        WHERE m IS NOT NULL;
    
    DROP TABLE mark_present;
    DROP TABLE max_a_id;
COMMIT;

```

Supposons que ces deux transactions soient envoyées au même moment au SGBD (par exemple parce que deux documentalistes souhaitent ajouter Mark Twain).  
Si ces deux transactions sont exécutées l'une après l'autre:
* la première ajoute Mark Twain dans la base
* la seconde, trouvant Mark Twain dans la base, ne fait rien

Si ces deux transactions étaient exécutées en parallèle de façon naïve, leurs ordres pourraient s'entremêler de la façon suivante:
* la 1ere transaction recherche Mark Twain et ne le trouve pas
* la 2eme transaction recherche Mark Twain et ne le trouve pas non plus
* la 1ere transaction détermine un certain identifiant et ajoute Mark Twain;
* la 1ere transaction est validée par son `COMMIT`
* la 2eme transaction détermine le même identifiant (car elle travaille sur la version de la table telle qu'elle était en début de transaction) et tente d'ajouter Mark Twain, mais viole alors la contrainte de clé primaire.

Le modèle ACID interdit un tel comportement, car le résultat de l'exécution séquentielle (tout se passe bien car la deuxième transaction ne fait rien) est différent de l'exécution en parallèle des deux transactions.  
Un système dans lequel cela serait possible ne posséderait pas la propriété d'isolation.  

En pratique, les SGBD modernes évitent cette situation en bloquant la deuxième transaction dès qu'elle accède à une table en cours d'utilisation par une autre transaction.  
Dans notre scénario, la 2eme transaction serait **bloquée** sur sa première instruction (qui détermine si Mark Twain est présent), tant que la 1ere transaction n'a pas exécuté son `COMMIT`.  
Elle sera alors débloquée et ne fera rien, car la première instruction trouvera Mark Twain dans la table.

## Interaction entre un SGBD et un programme

Nous pouvons également utiliser un SGBD depuis un langage de programmation.  
Nous utilisons Python, mais les concepts présentés ici sont facilement transposables dans d'autres langages (tels que PHP pour la création d'un site web riche).  
L'une des difficultés d'une telle présentation repose sur le fait que, pour chaque SGBD existant, certaines lignes spécifiques propres à ce SGBD sont nécessaires.  
Ainsi, ces lignes seront différentes selon que l'on se connecte à PostgreSQL, MariaDB ou encore Oracle.

Un programme (simple) interagissant avec un SGBD effectue généralement les actions suivantes :

1 . Connexion au SGBD.  
C'est lors de cette phase que l'on spécifie où se trouve le SGBD (par exemple en donnant son adresse IP), le nom d'utilisateur et le mot de passe, ainsi que d'autres paramètres système.

2 . Envoi d'ordres au SGDB.  
On crée (le plus souvent dans des chaînes de caractères) des ordres SQL.

3 . On récupère les données correspondant aux résultats dans des structures de données du langage (par exemple dans des tableaux Python).

4 . On peut ensuite exécuter du code Python sur les données récupérées.


Le programme suivant importe en premier lieu le module [`sqlite3`](https://docs.python.org/fr/3/library/sqlite3.html), qui permet de se connecter au SGBD SQLite.  
Si l'on souhaite se connecter à un autre SGBD, il faudra changer cette ligne pour charger le bon module.  


In [None]:
import sqlite3 as sgbd

connexion = sgbd.connect("Fichiers/mediatheque.db")
curseur = connexion.cursor()
curseur.execute("SELECT * FROM livre WHERE annee < 1990")

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()

Un aspect important du langage Python est que ces concepteurs ont défini une interface unifiée d'accès aux bases de données.  
Ainsi, même si les SGBD visés sont différents, les méthodes Python utilisées seront toujours les mêmes, ce qui rend le code facilement portable d'un SGBD à un autre.  
Nous avons choisi d'importer le module `sqlite3` sous le nom générique `sgbd` ce qui évitera de devoir changer de nom dans la suite du programme si on change de SGBD.

Le programme établit ensuite une connexion vers le SGBD. Il utilise pour cela la fonction [`connect`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.connect) du module.  
Le résultat de cet appel est un objet représentant la **connexion** à la base de données (une exception est levée si jamais la connexion échoue).  
L'objet `connexion` est celui qui est utilisé dans toute la suite pour communiquer avec le SGBD.  
La première chose à faire est la création d'un **curseur** (variable `curseur`) au moyen de la méthode [`cursor`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.cursor) de l'objet de connexion.  
Un curseur représente essentiellement un ordre SQL.  

Les deux principales méthodes que nous présentons sur les curseurs sont les suivantes:
* [`execute(s, p)`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.execute) permet d'exécuter un ordre SQL `s`.  
Ce dernier est simplement représenté par une chaîne de caractères Python, pouvant contenir une succession d'ordres séparés par des `;`.  
Le paramètre `p` est optionnel et est un tableau de valeurs Python dont l'utilisation sera détaillée dans la suite.  
Notons que cette méthode ne renvoie aucun résultat.  
Elle transmet juste l'ordre SQL au SGBD, qui va calculer un résultat.
* [`fetchall()`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Cursor.fetchall) renvoie tous les résultats du dernier ordre passé, sous la forme d'un tableau de $n$-uplets de valeurs Python.  
Chaque $n$-uplet représente une ligne de résultat de la requête.  
Les valeurs sont ordonnées comme pour le résultat d'un `SELECT`.  
Un appel à `fetchall()` *réinitialise* le curseur.  
Si on appelle `fetchall()` deux fois, le deuxième appel renverra un tableau vide.  
Il faut réexécuter une requête pour obtenir de nouveau un résultat.  

Dans le programme, on exécute une requête renvoyant tous les livres dont l'année est inférieure à 1990.  
Le résultat de cette requête est un tableau de $n$-uplets comme celui-ci :

```python
[('Berlin Alexanderplatz', 'Editions Gallimard', 1933, '978-2070219292'), 
 ("Le Carnet d'or", 'Le Livre de poche', 1980, '978-2253025320'), 
 ('1984', 'Houghton Mifflin Harcourt', 1983, '978-0547249643'), 
 ('Vermilion Sands', 'Carroll & Graf Pub', 1988, '978-0881844221'), 
 ('La Promenade au phare', 'LGF/Le Livre de Poche', 1983, '978-2253031536'), 
 ('Le Bruit et la Fureur', 'Gallimard Education', 1972, '978-2070361625'), 
 ("Mémoires d'Hadrien", 'Gallimard Education', 1974, '978-2070369218'), 
 ("Contes de l'absurde", 'Presses Pocket', 1978, '978-2266006095'), 
 ('Seconde Fondation', 'adsaa', 1979, '000-0000000097'), 
 ("Les Jeux de l'esprit", 'FeniXX', 1971, '978-2402281775'), 
 ('Fictions', 'Gallimard Education', 1974, '978-2070366149'), 
 ('Pedro Páramo', 'New York : Grove Press', 1959, '000-0000000069'), 
 ("Le monde s'effondre", 'Editions Présence Africaine', 1972, '978-2708701915'), 
 ('La Plaie', 'FeniXX', 1967, '978-2402255462'), 
 ('Astérix chez les Belges', 'Dargaud', 1979, '978-2012101562'), 
 ('Le Rouge et le Noir', "Les Éditions de l'Ebook malin", 1971, '978-2367881171')]
```


Comme on le voit, les valeurs ont été automatiquement traduites : 
* les chaînes de caractères SQL (type `VARCHAR`) sont représentées par des chaînes de caractères Python. 
* Les entiers (type `INTEGER`) sont devenus des entiers Python.  

Le programme parcourt cette liste au moyen d'une boucle `for` et n'affiche que le titre et l'année.  
Pour cela, il accède aux éléments d'indices `0` et `2` de chaque $n$-uplet.  
Enfin, le programme se termine en fermant la connexion vers le SGBD.  
La méthode [`close`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.close) est similaire à celle utilisée sur les **descripteurs de fichiers** et permet de libérer les ressources associées à la connexion (côté Python et côté SGBD).

### Ordres paramétrés
Une fonctionnalité importante est la possibilité de pouvoir insérer dans des ordres SQL des valeurs venant du monde Python, par exemple saisies par l'utilisateur.  
Nous illustrons cela avec le programme suivant :

In [None]:
import sqlite3 as sgbd

connexion = sgbd.connect("mediatheque.db")
curseur = connexion.cursor()

texte = input("Texte à rechercher dans le titre : ")
motif = f"%{texte}%"

curseur.execute("SELECT * FROM livre WHERE titre LIKE ?", (motif,))

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()

Dans ce dernier, on demande à l'utilisateur de saisir une chaîne de caractères.  
On veut ensuite exécuter la requête :

```sql
SELECT * FROM livre WHERE titre LIKE '%s%';
```


où `s` est la chaîne saisie par l'utilisateur.  
Nous utilisons ici la facilité fournie par la méthode [`execute`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.execute).  
Ainsi, si l'utilisateur saisit la chaîne `Ast`, alors la variable motif contiendra la chaîne `'%Ast%'`.  
La requête envoyée au SGBD sera alors la suivante :

```sql
SELECT * FROM livre WHERE titre LIKE '%Ast%';
```

Il serait tentant de créer la requête directement en Python au moyen de concaténations.  
On pourrait ainsi écrire directement :

```python
curseur.execute(f"SELECT * FROM livre WHERE titre LIKE '{motif}'")
```

**Cette approche est à proscrire et ne doit en aucun cas être utilisée**.  
En effet, le code ci-dessus est particulièrement fragile et peut être subverti par un utilisateur mal intentionné.  
Ce dernier pourraît par exemple saisir comme texte :

```
'; DROP TABLE emprunt; SELECT * FROM livre WHERE titre = '
```

La requête formée et envoyée au SGBD serait alors :

```sql
SELECT * FROM livre WHERE titre LIKE '%';
DROP TABLE emprunt;
SELECT * FROM livre WHERE titre = '%';
```


Le SGBD exécutera alors les ordres en séquence et en particulier le deuxième lui indiquant de supprimer la table `emprunt`.  
Une telle subversion s'appelle une **injection de code SQL**.  
 
De nombreuses **failles de sécurité** des sites web sont en fait basées sur des injections de code SQL.  
Une telle faille n'est pas présente dans le programme.  
En effet, ce dernier laisse le soin à la méthode [`execute`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.execute) d'insérer le texte.  
Cette dernière va donc correctement échapper la chaîne de caractères et le programme effectuera la requête inoffensive :

```sql
SELECT * FROM livre WHERE titre LIKE '%'';DROP TABLE emprunt; SELECT * FROM livre WHERE titre = ''%';
```



où toute la partie, entre les guillemets simples, fait partie de la chaîne de caractères recherchée.  
Cette requête essaye de trouver un livre dont le titre est, littéralement : 

```
'; DROP TABLE emprunt; SELECT * FROM livre WHERE titre = '
```

Remarque : le module `sqlite3` offre des mécanismes de protection contre ce type d'attaque.  
Dans le cas de notre exemple, l'instruction lève une exception :

```python
sqlite3.Warning: You can only execute one statement at a time.
```

### Syntaxe des ordres paramétrés
Pour parer au risque d'injection de code, il existe une syntaxe recommandée pour effectuer des requêtes paramétrées : 

In [None]:
import sqlite3 as sgbd

connexion = sgbd.connect("mediatheque.db")
curseur = connexion.cursor()

texte = input("Texte à rechercher dans le titre : ")
motif = f"%{texte}%"

curseur.execute("SELECT * FROM livre WHERE titre LIKE ?", (motif,))

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()

La méthode [`execute`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Connection.execute) prend 2 paramètres :
* une requête paramétrée (des `?` signalent les zones paramétrées)
* un tuple correspondant aux paramètres

La requête est exécutée en remplaçant le i-ème point d'interrogation par la i-ème composante du tuple.

Par exemple : 

In [None]:
import sqlite3 as sgbd

connexion = sgbd.connect("mediatheque.db")
curseur = connexion.cursor()

texte = input("Texte à rechercher dans le titre : ")
motif = f"%{texte}%"
an = input("A partir de quelle année ? : ")

curseur.execute("SELECT * FROM livre WHERE titre LIKE ? AND annee >= ?", (motif, an))

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()

Lorsqu'on désire exécuter plusieurs instructions (donc effectuer une transaction), on peut utiliser avantageusement la méthode [`executemany`](https://docs.python.org/fr/3/library/sqlite3.html#sqlite3.Cursor.executemany).

Celle-ci prend 2 paramètres :
* une requête paramétrée (des `?` signalent les zones paramétrées)
* une liste de tuples

La requête est exécutée pour chaque tuple de la liste.

Par exemple :

In [None]:
import sqlite3 as sgbd

connexion = sgbd.connect("mediatheque.db")
curseur = connexion.cursor()

liste_auteurs = [
    (119, 'Toriyama', 'Akira'),
    (120, 'Rousseau', 'Jean-Jacques')
    ]
curseur.executemany("INSERT INTO auteur VALUES(?, ?, ?);", liste_auteurs)

connexion.commit() # nécessaire pour valider la transaction
connexion.close()

## Exercices
### Exercice 1
Pour chacun des scénarios suivant dire laquelle des quatre Propriétés ACID est mise en jeu.

1 . Une transaction tente d'insérer 20 lignes dans une table.  
L'insertion de la 19e ligne échoue, à cause d'une contrainte de clé primaire.  
La transaction est annulée et aucune des lignes ne se retrouve dans la table.

2 . Une table $T_2$ contient des clés étrangères, référençant les clés d'une table $T_1$.  
On exécute une transaction arbitraire qui modifie $T_2$. 
Après la transaction, $T_2$ contient toujours des clés étrangères.

3 . On exécute intégralement une transaction, validée par un `COMMIT`.  
La machine exécutant le SGBD subit une panne de courant.  
Au redémarrage, l'effet de la transaction a bien été pris en compte.

4 . Sur une table $T$ contenant une colonne `n` de type `INTEGER`, on exécute deux transactions, *en même temps*.  
La première ajoute 1 à toutes les cases de la colonne `n` et la seconde retire 1 à ces même cases.  
Le contenu de la table $T$ après exécution (sans erreur) est le même.

### Exercice 2
On considère la [base de données de la médiathèque](Fichiers/mediatheque.db).  
On suppose qu'un utilisateur a perdu sa carte, dont le code barre est `'11111111111111'`.  
Un employé lui crée une nouvelle carte, dont le code barre est `'222222222222222'`.  
Donner une transaction permettant de réaliser le processus de *remplacement de carte*.

### Exercice 3
Sur un site web de réservation de billets de trains, un usager peut consulter la liste des billets qui répondent à certains critères (destination, date, prix, etc.). Lorsqu'il trouve un billet à sa convenance, il peut le sélectionner puis l'acheter.

On suppose que la base de données du site stocke tous les billets disponibles dans une unique table `billet_a_vendre` où les billets possèdent un attribut `id INTEGER PRIMARY KEY` et d'autres attributs que l'on ne précise pas.  
Les billets vendus sont stockés dans une table `billet_vendu`, ayant le même schéma que `billet_a_ vendre`.  
On suppose enfin que la recherche se fait par un simple :

```sql
SELECT id 
FROM BILLET_A_VENDRE 
WHERE ...;
```

où les critères sont ceux cochés sur le site.

1. Étant donné un identifiant $i$ de billet, donner le code SQL de la transaction qui permet de réaliser l'achat de ce billet.
2. Expliquer pourquoi il est possible que quelqu'un trouve un billet à sa convenance, mais qu'au moment de l'achat le billet ne soit plus disponible.
3. Pour *corriger* le problème précédant, on décide de mettre la recherche et l'achat dans la même transaction.  
Quel nouveau problème (bien plus grave) est causé par cette approche?

### Exercice 4
Considérons une table:

```sql
CREATE TABLE T (
    id INTEGER PRIMARY KEY, 
    jour DATE, 
    heure TIME, 
    tmp DECIMAL(5,2)
);
```

Cette table permet d'enregistrer des relevés de température faits par une sonde.  
Chaque relevé possède un identifiant unique, le jour du relevé, l'heure du relevé et la température relevée.  

Supposons données trois valeurs $j$ (un jour), $h$ (une heure) et $t$ une température.  
Écrire une transaction qui ajoute la nouvelle entrée en choisissant automatiquement un nouvel identifiant.  
On pourra, dans un premier temps, considérer qu'il y a des données dans la table `T`, puis complexifier la transaction pour gérer le cas de la table vide.

### Exercice 5
Considérons la table `T` des relevés de température de l'exercice précédent.  
On considère deux ordres exécutés en parallèle :

*  
```sql
SELECT MIN (jour) 
FROM T 
WHERE tmp >= 40; 
```
qui renvoie le jour la plus ancien pour lequel la température a dépassé 40°.
*  
```sql
UPDATE T 
SET tmp = tmp * 1.8 + 32; 
```
qui convertit toutes les températures en degrés Farenheit.

Est-ce que la propriété ACID d'isolation garantit que la requête `SELECT MIN ...`, renvoie toujours le même résultat quel que soit l'ordre d'exécution des deux requêtes?

### Exercice 6
En s'inspirant du programme 

```python
import sqlite3 as sgbd

connexion = sgbd.connect("Fichiers/mediatheque.db")
curseur = connexion.cursor()
curseur.execute("SELECT * FROM livre WHERE annee < 1990")

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()
```

écrire un programme Python qui sauvegarde l'intégralité de la table usager dans un fichier CSV nommé `usager.csv`.  
On pourra utiliser le module Python [`csv`](https://docs.python.org/fr/3/library/csv.html).

### Exercice 7
En s'inspirant du programme 

```python
import sqlite3 as sgbd

connexion = sgbd.connect("Fichiers/mediatheque.db")

texte = input ("Texte à rechercher dans le titre : ")

curseur = connexion.cursor()
motif = '%' + texte + '%'
curseur.execute(f"SELECT * FROM livre WHERE titre LIKE '{motif}'")

for ligne in curseur.fetchall():
    print(ligne[0], ligne[2])

connexion.close()
```

écrire un programme Python qui demande à l'utilisateur de saisir deux années, recherche tous les livres publiés entre ces deux années et crée un fichier HTML contenant une table présentant les résultats.

## Liens :
* [A relational model of data for large shared data banks](Ressources/codd.pdf) - Codd (1970)
* [1981 Turing Award Lecture – Relational Database: A Practical Foundation for Productivity](Ressources/Codd_1981.pdf) - Codd (1981)
* [SQLite](https://www.sqlite.org/index.html)
* [DB Browser for SQLite](https://sqlitebrowser.org/)
* [Atomic Commit In SQLite](https://sqlite.org/atomiccommit.html)
* Base de données de la médiatèque : [mediatheque.sql](Fichiers/mediatheque.sql) et [mediatheque.db](Fichiers/mediatheque.db)
* [FLOT/MOOC : Bases de données relationnelles](http://flot.sillages.info/?portfolio=bases-de-donnees-relationnelles)