In [None]:
%LOAD sqlite3 db=./pokedex.sqlite timeout=20 shared_cache=true

# Base de données - SQL

# Syntaxe du SQL
Les requêtes SQL peuvent comprendre un retour à la ligne à tout endroit où un espace pourrait être utilisé, mais aucun retour à la ligne n'est syntaxiquement nécessaire. On pourra utiliser ces retours à la ligne pour la clareté de la présentation.

## Requête simple de sélection

Le langage SQL est le langage le plus répandu pour la formulation des requêtes sur les bases de données. On ne s'intéresse qu'aux requêtes permettant de consulter les entrées de la table, et non celles permettant de les y insérer, ou de les modifier. La syntaxe basique d'une requête de projection et sélection sur la table `table1` d'une base de données est :
```sql
	SELECT champs                               -- projection
	FROM table1                                 -- tables
	WHERE condition sur les champs              -- sélection
```
Les champs sont séparés par des virgules et peuvent être remplacés par le caractère * pour désigner tous les champs (pas de projection). Les conditions peuvent être composées avec les opérateurs booléens `OR`, `AND`, et `NOT` et les opérateurs de comparaisons `<`, `<=`, `>`, `>=`, `=`, `!=`. S'il n'y a pas de sélection à faire sur les entrées de la table, on omet la clause `WHERE`.
En lieu et place d'un champ, on peut également utiliser une expression sur les champs de la table en utilisant les opérateurs arithmétiques usuels.
Lors de la projection, les champs demandés peuvent être renommés grâce au mot clef `AS` (Exemple : 
`SELECT age/100 AS reduction FROM clients` )
**Exemple:**

In [None]:
-- 1. Numéros des jeux sortis sur PS4

In [None]:
-- 2. Nom du jeu dont le numéro est 1

In [None]:
-- 3. Nom des reviewers

In [None]:
-- 4. Numéros des jeux enregistrés qui ne sont pas encore sortis

In [None]:
-- 5. Numéro du jeu Fortnite

## Produit cartésien et jointures

Il est également possible de faire une requête sur le \emph{produit cartésien} de deux tables (ou plus).
```sql
	SELECT champs
	FROM table1, table2
	WHERE condition sur les champs
```
Une partie de la condition consiste alors souvent à faire correspondre des champs de `table1` et de `table2`. Lorsqu'il y a ambiguité entre deux noms de champs, on peut préfixer le nom du champ par le nom de la table suivi d'un point. **Exemple**:  `SELECT * FROM table1, table2 WHERE table1.champ = table2.champ`
Dans ce cas, on pourra également plus simplement utiliser, en lieu et place du produit cartésien, une \emph{jointure} dite {symétrique} :

**Exemple**:  `SELECT * FROM table1 JOIN table2 ON table1.champ = table2.champ` 

Afin de simplifier l'écriture des préfixes lors des jointures ou produits cartésiens, on définit souvent des alias aux différentes tables, grâce à la syntaxe `table AS t`, le mot `AS` peut même être omis. On l'utilise nécessairement si une même table apparaît deux fois dans une jointure.

L'auto jointure est un cas particulier de jointure symétrique simple où l'on joint une table avec elle-même.

**Exemple:**

In [None]:
-- 6. Noms des jeux sortis sur Switch

In [None]:
-- 7. Console et dates de sortie pour le jeu Mortal Kombat 11

In [None]:
-- 8. Noms des reviewers ayant testés le jeu Fifa 2019

In [None]:
-- 9. Noms et prénoms des followers de Laurent Jospin

In [None]:
-- 10. Couples de numéros d'utilisateurs qui se suivent mutuellement (et pour 3?)

## Opérations ensemblistes
Lorsque les tables ont la même structure (mêmes champs et mêmes types), il est possible d'effectuer les opérations ensemblistes usuelles : `UNION`, `INTERSECT` et `EXCEPT` (différence) (ou `MINUS` suivant les versions).

**Exemple**:  `SELECT * FROM table1 UNION table2`

**Remarque**:
`EXCEPT` n'est pas implémanté dans certaines versions de SQL. On le remplacera alors par le test d'appartenance `IN` ou de non appartenance ici `NOT IN`.

**Exemple:**

In [None]:
-- 11. Numéro des jeux pour lequels aucune sortie n'a été annoncée 

In [None]:
-- 12. Reviewers répertoriés qui n'ont pas fait de review 

In [None]:
-- 13. Numéro des jeux qui sont déjà sortis et ont été testés 

## Agrégation
L'agrégation est utilisée pour regrouper des entrées d'une même table qui ont la même valeur sur un champ ou une clé, et permet d'évaluer sur les autres champs de ces entrées des fonctions d'agrégation : le comptage `COUNT`, le minimum `MIN`, le maximum `MAX`, la somme `SUM` et la moyenne `AVG`.

La syntaxe est ainsi 
```sql
	SELECT -- champ ayant servi à l'agrégation, fonctions d'agrégations sur les autres champs
	FROM -- table
	WHERE -- condition sur les champs sélectionné pour former l'agrégation
	GROUP BY --champ servant à l'agrégation
```

In [None]:
-- 14. Note minimale, moyenne, et maximale attribuées par chaque reviewer

In [None]:
-- 15. Ecart-type des notes attribuées par chaque reviewer

In [None]:
-- 16. Nombre de jeu ayant reçu une note supérieure à 5

On peut ajouter une sélection en aval qui porte sur le résultat des fonctions d'agrégation grâce au mot clef `HAVING`:

**Exemples:**

In [None]:
-- 17. Numéros des jeux dont la note moyenne est supérieure à 5\vspace{2.5em}

In [None]:
-- 18. Numéros des jeux sortis sur PS4 et ayant été testé au moins 3 fois \vspace{2.5em}

In [None]:
-- 19. Noms des influencers ayant au moins 10 followers\vspace{2.5em} 

**Remarques:**
- Quelque soit l'argument qu'on donne à la fonction d'agrégation `COUNT`, on compte simplement le nombre d'entrées, usuellement, on utilise `COUNT(*)`  ou  `COUNT(1)` plutôt que de mettre un champ particulier. Si l'on souhaite compter le nombre de valeurs distinctes d'un champ particulier `champ1`, on pourra utiliser le mot-clef `DISTINCT` :  `COUNT(DISTINCT champ1)`.
- Lorsqu'on réalise une agrégation, la projection doit se faire sur le résultat de fonctions d'agrégation, ou sur les champs utilisés pour l'agrégation. L'utilisation d'un autre champ est illicite dans certaines implémentations et renvoie une valeur quelconque dans d'autres.

## Résultats ordonnés
Les résultats ont souvent besoin d'être ordonnés pour l'application. Dans de nombreux cas, il est préférable que le tri se fasse par l'application plutôt que par le serveur de base de données qui a souvent une charge très importante et qui constitue dans de nombreux cas le facteur limitant de l'application. On utilise dans ce cas les algorithmes de tris usuels à l'intérieur de l'application.

Les moteurs de base de données intégrent cependant des fonctions de tris efficaces (en particulier sur les champs indexés), la syntaxe consiste alors à ajouter à la fin de la requête :

```sql
ORDER BY champ1 [ASC/DESC], champ2 [ASC/DESC], ... -- les crochets ne font pas partie de la syntaxe, ils signifient que le mot-clef est optionnel
```

afin de spécifier le champ ou la clé et l'ordre à utiliser (croissant ou décroissant), ainsi que la possibilité de spécifier d'autres champs à utiliser pour ordonner lorsque les deux entrées ont la même valeur pour le premier champ. L'ordre se place en toute fin de requête. Il porte sur des champs demandés dans le `SELECT` ou des champs présents dans la table ou même des expressions dépendant de ces champs.


## Requêtes imbriquées
Le résultat d'une requête est une table, il est donc possible d'utiliser une requête en lieu et place d'un nom de table dans une autre requête. Il convient alors de nommer cette table avec le mot `AS`. On parle de requêtes imbriquées. En particulier, lorsqu'une requête produit une seule entrée contenant une seule valeur, cette requête peut être utilisée en lieu et place d'une valeur dans une autre requête. Dans les deux cas, la rédaction sera plus claire en introduisant, par une phrase, un nom pour la requête imbriquée.

Dans de nombreux cas les requêtes imbriquées peuvent être évitées et remplacées par des jointures ou des agrégations. L'utilisation de requêtes imbriquées doit être très limitée, d'autant plus qu'elles sont en pratique généralement très lentes.

**Exemple:**

In [None]:
-- 20. Jeux ayant reçus une note supérieure à la moyenne

In [None]:
-- 21. Nom du jeu ayant reçu la note minimale

In [None]:
-- 22. Nom et prénom de l'influencer ayant le plus de followers

In [None]:
-- 23. Nom des jeux dont tous les tests ont donnés une note inférieure à la moyenne des notes attribuées par le reviewer

## Syntaxe générale d'une requête SQL
```sql
SELECT ... FROM ... WHERE ... GROUP BY ... HAVING ... ORDER BY ...
```

**Remarque :**
Il existe de nombreux mots-clefs en SQL, dont certains peuvent simplifier l'écriture de certaines requêtes mais qui ne se traduisent pas directement dans l'algèbre relationnelle et qui ne sont normalement pas nécessaires dans le cadre du cours d'informatique pour tous. En voici quelques uns :

- `ORDER BY ... LIMIT offset, nombre` qui permet d'obtenir uniquement le nombre d'entrées demandé en commençant au $\text{offset}^\text{ème}$ dans l'ordre choisi
- `COUNT(DISTINCT champ1)` qu'il faut sinon écrire à l'aide d'une requete imbriquée réalisant une agrégation puis compter les résultats de cette requête : `SELECT COUNT(*) FROM (SELECT 1  FROM ... GROUP BY champ1)`
- `EXISTS (...)` qui permet de tester si une requête renvoie des résultats qu'il faut sinon écrire avec une requête imbriquée `(SELECT COUNT(*) FROM (...)) = 0`