Pour exporter en slides, lancer :
`jupyter nbconvert Bases\ de\ données.ipynb --to slides --post serve`

In [1]:
-- connection: dbname=cours user=cours

# Bases de données
### Master Humanités Numériques 2017 — université de Rouen

## Bertrand Bordage de NoriPyt
- Développeur, musicien & dirigeant
- Membre de l’équipe de développement du CMS Wagtail
- Créateur de Dezède avec l’université de Rouen
- Créateur de nombreux projets open source

# Introduction

Un peu de mise en contexte et explications avant de commencer.

## Qu’entend-on par « base de données » ?

- En sciences humaines, une application (web, de bureau ou mobile) permettant d’accéder facilement à des données stockées dans un SGBD.<br />
  ⇒ Terme abusif, à éviter
- Tout système informatique de stockage de données<br />
  ⇒ « Système de Gestion de Bases de Données », soit SGBD ou DBMS en anglais
- Un ensemble de données structuré par un SGBD

Dans le cadre de ce cours, on se concentrera sur les SGBD.

## Exemples d’utilisations abusives du terme « base de données »

- Dezède
- SUDOC
- Data BNF
- Gallica

Pourquoi éviter ce terme abusif ?<br />
Au même titre, Twitter, les services Google, et presque tout l’Internet moderne pourrait être nommé « base de données ».

Même un tableur type Excel ou une feuille de papier peuvent être appelés abusivement « base de données ».

Pas faux en soit, mais peu précis.

## Redéfinissions « base de données »

une base de données ≠ un Système de Gestion de Base de Données

un **SGBD** = logiciel<br/>
une **base de données** = contenu

Dans l’ordre d’utilisation, on :
- **créé la structure** de la base de données
- **ajoute des données** à la base de données
- **effectue des requêtes** sur ces données
- ajoute des données
- effectue des requêtes
- …

## Pourquoi Excel, Gallica et papier pas SGBD ?

**Excel** : non structuré, ne permet pas de faire de requêtes au-delà de filtrages basiques

**Gallica** : contient une base de données mais n’est pas un SGBD (pas de création de nouvelle base de données au sein de Gallica)

**Papier** : non structuré, ne permet pas de faire de requêtes.

En plus de devoir **gérer les actions listées précédemment**, un SGBD doit permettre de réaliser toutes ces tâches sous forme de **code informatique**, et être ainsi totalement automatisables. Cela permet d’intégrer les données dans n’importe quel programme : application web, de bureau, mobile.

## Termes courants à connaître

Une **base de données** (ou **database**, **DB**, **BDD**) est composée de **tables** stockant des **lignes** suivant plusieurs **colonnes**.

Chaque **table** contient les données structurées suivant les mêmes colonnes.<br />
Par exemple, la base de données « bibliothèque » contient les tables « livres », « auteurs », « genres », « collections », « éditeurs », etc.

Une **ligne** correspond à un ensemble de **données**.<br />
Par exemple « Le Horla de Maupassant ».

Une **colonne** correspond à un champ. Par exemple « année de publication ».

Une **valeur** est la **donnée** élémentaire contenue dans une **cellule**, c’est-à-dire l’intersection d’une ligne et d’une colonne. Par exemple, l’année de publication du Horla de Maupassant est « 1886 ».

Ensuite, on **lancer une requête** (sans lance-requêtes) pour demander à la base de données d’extraire des informations. Par exemple, on peut demander tous les livres de Maupassant, ou le nombre de livres fantastiques publiés entre 1880 et 1890.

## Principaux types de bases de données
- relationnelle
- non relationnelle
- SQL (« siquoueul »)
- noSQL (« nosiquoueul »)

La plupart du temps :
- bases de données **relationnelles** en **SQL**
- bases de données **non relationnelles** en **noSQL**

Le type de base de données indispensable, vu dans ce cours :<br />
les bases de données relationnelles en SQL

## SQL, c’est quoi ?

_Structured Query Language_ (= Langage de requêtes structurées)

Langage informatique créé en 1974 ayant abouti à une norme internationale

Un langage pour décrire la forme du résultat que l’on souhaite obtenir, et non le raisonnement.

SQL ≠ SGBD<br />
SQL = langage<br />
SGBD = logiciel pouvant être utilisé à l’aide d’un langage comme SQL

Célèbres SGBD où les requêtes s’écrivent en SQL :

Nom     | Prononciation idéale | Prononciation à la française
------- | -------------------- | ----------------------------
MySQL   | maï-siquoueul    | maï-escuèl
SQLite  | siquoueulaïte    | escuèlite
Oracle  | owreuqueulle     | oracle
Microsoft SQL server | maïcrossoft siquoueul seurveur | microssoft escuèl serveur
PostgreSQL | poste-graisse-kyou-elle | poste-greu-escuèl

Ce tableau est précieux, tout le monde se trompe sur ces prononciations.

## Quel SGBD choisir ?

![db](mysql.png)

**++** le plus répandu<br />
**+-** gratuit mais dirigé par Oracle, et sous licence partiellement open source<br />
**--** structure laxiste aboutissant à des pertes de données

## Quel SGBD choisir ?

![db](sqlite.png)

**++** le plus léger, il est partout (navigateurs, smartphones, …)<br />
**++** open source<br />
**--** sournois, car ne respecte aucune des structures pourtant obligatoires à déclarer

## Quel SGBD choisir ?

![db](oracle.png)

**++** le plus complet<br />
**--** coûte 17 500 € la licence (oui)

## Quel SGBD choisir ?

![db](ms-sql.jpg)

**++** coûte moins cher qu’Oracle<br />
**--** n’a aucun intérêt par rapport à PostgreSQL

## Quel SGBD choisir ?

![db](postgresql.png)

**++** le plus complet et fiable des SGBD open source, quasiment aussi complet qu’Oracle<br />
**--** configuration des accès un peu complexe (mais pour une excellente sécurité)

## Au menu du jour

**PostgreSQL** !

Parfait pour toutes les types de base de données jusqu’à des millards de données, ce qui suffira toute votre vie.

Nous n’aurons pas de problème de configuration des accès car nous passons par un service en ligne gérant ça pour nous.

# Passons à la pratique !

## Procédure de travail

Ouvrez un onglet de navigateur web sur SQLFiddle : http://sqlfiddle.com

Sélectionnez en type de base de données la dernière version de PostgreSQL :
![](sqlfiddle-postgresql.png)

Trois panneaux :
- à gauche : commandes SQL structurant la base de données
- à droite : commandes SQL pour effectuer des requêtes
- en bas : résultat des requêtes SQL

**À chaque modification** puis lancement, l’URL du SQLFiddle change : conservez chaque nouvelle URL pour chaque étape que vous souhaitez sauvegardez ! Créez un document que vous **sauvegardez régulièrement** contenant à chaque fois modification un **descriptif** de ce que vous venez de faire + l’**URL** du SQLFiddle.

## Notre projet pour cet ensemble de cours

Créer une **base de données de livres**, ceux que vous adorez plus ou moins.

Au fur et à mesure de l’avancée du cours, on va rencontrer des problèmes nécessitant d’**affiner la structure** de la base de données.

Nous allons tous **collaborer** à un fichier Google Drive servant de source à cette base de données :<br />
https://docs.google.com/spreadsheets/d/1vSk2zLwmlfeGtzCRUV7MVYyl-QzDYFm2eNQA2bOihWI/edit?usp=sharing

Utiliser ce fichier de source collaboratif permettra de vous faire voir les problématiques de formatage des données, **le problème numéro un auquel vous ferez face**.

## Création d’une table

Création de la structure de la table :

In [2]:
CREATE TABLE books (id int, title text, author text,
                    pages int, is_author_alive boolean);

Types de données élémentaires :

Type SQL | Exemple de donnée | Traduction
-------- | ----------------- | ----------
`boolean` | `true` ou `false` | Booléen, soit vrai ou faux
`int` | `-723` | Nombre entier
`float` | `3.1415` | Nombre à virgule avec précision incertaine (inadapté pour des prix)
`text` | `'bonjour'` | Texte libre
`varchar[57]` | `'salut'` | Texte libre, jusqu’à 57 caractères
`date` | `DATE '2017-10-16'` | Une date
`time` | `TIME '10:08:27'` | Une heure
`timestamp` | `TIMESTAMP '2017-10-16 10:08:27'`| Un moment dans l’histoire, donc une combinaison de date et heure

## Ajout de données

Ajout sans préciser les colonnes :

In [3]:
INSERT INTO books
VALUES (1, 'Alice au pays des merveilles', 'Lewis Carroll', 196, false),
       (2, 'Les Piliers de la terre', 'Ken Follett', 1050, true);

Ajout en précisant les colonnes :

In [4]:
INSERT INTO books (id, title, author)
VALUES (3, 'De l’autre côté du miroir', 'Lewis Carroll'),
       (4, 'Un Monde sans fin', 'Ken Follett');

### Exercice 1

Insérez au moins 3 de vos livres préférés dans la table `books`.

Ajouter ensuite ces livres dans le tableur Google Drive.

### Exercice 2

À partir du tableur Google Drive, exporter en CSV pour importer toutes les données dans SQLFiddle.

## Sélection de données

Sélection de toutes les colonnes de toutes les lignes :

In [5]:
SELECT * FROM books;

id,title,author,pages,is_author_alive
1,Alice au pays des merveilles,Lewis Carroll,196.0,0.0
2,Les Piliers de la terre,Ken Follett,1050.0,1.0
3,De l’autre côté du miroir,Lewis Carroll,,
4,Un Monde sans fin,Ken Follett,,


Sélection de deux colonnes :

In [6]:
SELECT title, author FROM books;

title,author
Alice au pays des merveilles,Lewis Carroll
Les Piliers de la terre,Ken Follett
De l’autre côté du miroir,Lewis Carroll
Un Monde sans fin,Ken Follett


### Exercice 3

Écrire une requête récupérant le titre et le nombre de pages de tous les livres

## Alias de colonnes

In [7]:
SELECT title AS titre, author AS auteur FROM books;

titre,auteur
Alice au pays des merveilles,Lewis Carroll
Les Piliers de la terre,Ken Follett
De l’autre côté du miroir,Lewis Carroll
Un Monde sans fin,Ken Follett


### Exercice 4

Écrire une requête récupérant le nom du livre et le nombre de pages, avec les noms de colonne `nom` et `nombre_de_pages`.

## Limiter le nombre de données récupérées

La plupart des bases de données sont volumineuses, il est inutile d’aller chercher systématiquement la totalité des données.

Pour limiter le nombre de résultats :

In [8]:
SELECT * FROM books LIMIT 3;

id,title,author,pages,is_author_alive
1,Alice au pays des merveilles,Lewis Carroll,196.0,0.0
2,Les Piliers de la terre,Ken Follett,1050.0,1.0
3,De l’autre côté du miroir,Lewis Carroll,,


Pour sauter les premiers résultats :

In [9]:
SELECT * FROM books OFFSET 2;

id,title,author,pages,is_author_alive
3,De l’autre côté du miroir,Lewis Carroll,,
4,Un Monde sans fin,Ken Follett,,


### Exercice 5

Dans un site Internet, on affiche plusieurs pages de résultats.

Chaque page fait 4 résultats.

Écrire la requête listant les résultats de la page 2.

## Filtrer les données

Sélection de tous les livres écrits par Lewis Carroll :

In [10]:
SELECT * FROM books WHERE author = 'Lewis Carroll';

id,title,author,pages,is_author_alive
1,Alice au pays des merveilles,Lewis Carroll,196.0,0.0
3,De l’autre côté du miroir,Lewis Carroll,,


Sélection de tous les livres écrits par Ken Follett de plus de 1100 pages :

In [11]:
SELECT * FROM books WHERE author = 'Ken Follett' AND pages < 1100;

id,title,author,pages,is_author_alive
2,Les Piliers de la terre,Ken Follett,1050,1


### Exercice 6

Écrire une requête récupérant les livres de votre auteur préféré.

## Comparaisons

Exemple   | Traduction
--------- | ---------
`a = b`     | `a` est égal à `b`
`a != b`        | `a` est différent de `b`
`a > b` | `a` est supérieur à `b`
`a < b` | `a` est inférieur à `b`
`a >= b` | `a` est supérieur ou égal à `b`
`a <= b` | `a` est inférieur ou égal à `b`
`a IS NULL` | `a` n’a pas été rempli (tout type sauf texte)
`a IN (1, 2, 3)` | `a` est parmi les valeurs `1`, `2` ou `3`
`a LIKE '%feuill__'` | `a` vaut `'feuillue'` ou `'portefeuilles'`

Combinaison de comparaisons :

Exemple | Traduction
------- | ----------
`a AND b` | `true` si à la fois `a` et `b` sont `true`
`a OR b` | `true` si soit `a` ou `b` est `true`, ou les deux
`NOT a` | `true` si `a` est `false`

### Exercice 7

Écrire une requête récupérant les livres dont le titre commence par « Le ».

### Exercice 8

Écrire une requête récupérant les livres dont l’auteur est toujours vivant et a un nom contenant un « e ».

### Exercice 9

Écrire une requête récupérant les livres dont l’un des deux champs suivants (ou les deux) n’est pas défini : `pages` ou `is_author_alive`

## Mise à jour de données

Encore un ajout de données :

In [12]:
INSERT INTO books (title) VALUES ('La Chute des géants');

Oups, j’ai oublié quelques infos !

In [13]:
UPDATE books
SET id = 5, author = 'Ken Follett'
WHERE title = 'La Chute des géants';

Est-ce que ça a marché ?

In [14]:
SELECT * FROM books WHERE author = 'Ken Follett';

id,title,author,pages,is_author_alive
2,Les Piliers de la terre,Ken Follett,1050.0,1.0
4,Un Monde sans fin,Ken Follett,,
5,La Chute des géants,Ken Follett,,


Oui !

### Exercice 10

Remplir automatiquement le champ `is_author_alive` de tous les livres où il n’est pas défini. Remplir par défaut la valeur `false`.

## Modification de la structure

Dans la vie professionnelle, on ne supprime pas les tables pour les recréer à chaque fois comme on fait aujourd’hui ensemble.

À la place, on fait **migrer** la base de données en modifiant sa structure.

Si on souhaite ajouter un champ :

In [15]:
ALTER TABLE books ADD COLUMN publication_year int;

Mettre une valeur par défaut :

In [16]:
ALTER TABLE books ALTER COLUMN title SET DEFAULT '[Titre inconnu]';

Mais ce qui nous intéresse, c’est de rendre des champs obligatoires :

In [17]:
ALTER TABLE books ALTER COLUMN title SET NOT NULL,
                  ALTER COLUMN author SET NOT NULL;

Impossible désormais de ne pas remplir les champs titre et auteur !

Liste complète des possibilités de modification de structure :
https://www.postgresql.org/docs/10/static/sql-altertable.html

### Exercice 11

Rendre obligatoire l’identifiant.

### Exercice 12

Modifier la structure pour qu’on considère qu’un auteur soit décédé par défaut.

## Suppression de données

In [18]:
INSERT INTO books (title, author)
VALUES ('Alice in Wonderland', 'Lewis Carroll');

Oups, un doublon !

Retirons-le :

In [19]:
DELETE FROM books
WHERE title = 'Alice in Wonderland';

Et si le titre avait été le même ?

### Exercice 13

Supprimer tous les livres d’un auteur que vous n’aimez pas.

(C’est le seul type d’autodafé qu’il est convenable de faire dans sa vie.)

## Les identifiants automatiques, indispensables

Définir des identifiants soi-même, tâche rébarbative et source d’erreurs.

Les **identifiants auto-incrémentés**, ou numéros de série, sont là pour ça.

À chaque nouvel ajout dans la base de données, nouvel identifiant créé.

**Très important !** L’identifiant d’une donnée supprimée n’est jamais réutilisé.

Pour créer un identifiant auto-incrémenté, on dispose du type `serial`.

### Exercice 14

Transformer l’identifiant de `books` en un identifiant auto-incrémenté.

## Aggréger les données

Sélection du nombre de livres :

In [20]:
SELECT count(*) FROM books;

count
5


Sélection du nombre total de pages dans la table :

In [21]:
SELECT sum(pages) FROM books;

sum
1246


### Exercice 15

Écrire une requête récupérant le nombre de livres écrits par votre auteur préféré.

### Exercice 16

Écrire une requête récupérant le nombre de livres contenant la syllabe `tion` dans le titre.

### Exercice 17

Écrire une requête calculant le pourcentage de livres écrits par des auteurs vivants.

## Ordonner les données

Ordonner les livres par ordre alphabétique croissant de titre :

In [22]:
SELECT * FROM books ORDER BY title;

id,title,author,pages,is_author_alive,publication_year
1,Alice au pays des merveilles,Lewis Carroll,196.0,0.0,
3,De l’autre côté du miroir,Lewis Carroll,,,
5,La Chute des géants,Ken Follett,,,
2,Les Piliers de la terre,Ken Follett,1050.0,1.0,
4,Un Monde sans fin,Ken Follett,,,


Ordonner les livres par ordre alphabétique croissant d’auteur, puis par ordre décroissant de titre :

In [23]:
SELECT * FROM books ORDER BY author ASC, title DESC;

id,title,author,pages,is_author_alive,publication_year
4,Un Monde sans fin,Ken Follett,,,
2,Les Piliers de la terre,Ken Follett,1050.0,1.0,
5,La Chute des géants,Ken Follett,,,
3,De l’autre côté du miroir,Lewis Carroll,,,
1,Alice au pays des merveilles,Lewis Carroll,196.0,0.0,


### Exercice 18

Écrire une requête affichant les deux livres de votre auteur préféré possédant le plus de pages.

In [24]:
DROP TABLE books;

## Problème : ordres inattendus

« Ken Follett » devrait être après « Lewis Carroll », car F > C

Solution : séparer nom et prénom

« Les Piliers de la terre » devrait être après « Un Monde sans fin », car P > M

Solution : séparer l’article du titre