# Introduction aux requ√™tes SQL

[üá¨üáß Read in English](intro-sql-en.ipynb)

Bienvenue dans ce cours d'introduction au SQL ! Si vous √™tes √† l'aise avec les tableurs comme Excel ou Google Sheets, vous avez d√©j√† fait la moiti√© du chemin. Ce notebook vous apprendra √† travailler avec des bases de donn√©es en utilisant le SQL (Structured Query Language).

## Qu'est-ce qu'une base de donn√©es ?

Imaginez une **base de donn√©es** comme un ensemble de feuilles de calcul qui peuvent communiquer entre elles.
On peut comparer le fichier tableur entier √† la base de donn√©es, tandis que les onglets ou feuilles individuels correspondraient aux **tables** de la base de donn√©es.

Il y a quelques restrictions suppl√©mentaires sur les tables pour que la comparaison soit pertinente.
Les tables de base de donn√©es ne contiennent que des donn√©es brutes, organis√©es en **colonnes** ou **champs**.
Une colonne repr√©sente une information sp√©cifique √† stocker, et chaque **ligne** ou **enregistrement** est une observation ind√©pendante.
Il n'y a pas de notion de formatage (couleurs, lignes vides, commentaires *etc.*), pas de cellules agr√©g√©es, pas de lignes h√©t√©rog√®nes *etc*.

Quand un tableur typique peut ressembler √† ceci

<table >
<tbody>
  <tr>
    <td style="background-color: #e6d8ac; color: black; text-align:center;" colspan="2">Participants</th>
    <td></td>
    <td style="background-color: #e6d8ac; color: black; text-align:center;" colspan="3">D√©penses</th>
  </tr></thead>
  <tr>
    <td style="background-color: #ACBAE6; color: black; text-align:center;">Pr√©nom</td>
    <td style="background-color: #ADD8E6; color: black; text-align:center;">Ville</td>
    <td></td>
    <td style="background-color: #ACBAE6; color: black; text-align:center;">Cat√©gorie</td>
    <td style="background-color: #ADD8E6; color: black; text-align:center;">Date</td>
    <td style="background-color: #ACBAE6; color: black; text-align:center;">Prix</td>
  </tr>
  <tr>
    <td>Paul</td>
    <td>Paris</td>
    <td></td>
    <td>Transport</td>
    <td>2026-01-01</td>
    <td>57,89 ‚Ç¨</td>
  </tr>
  <tr>
    <td>Maria</td>
    <td></td>
    <td></td>
    <td>Courses</td>
    <td>2025-12-30</td>
    <td>128,45 ‚Ç¨</td>
  </tr>
  <tr>
    <td>Louis</td>
    <td>Londres</td>
    <td></td>
    <td>Restaurant</td>
    <td>2025-12-31</td>
    <td>110,50 ‚Ç¨</td>
  </tr>
  <tr>
    <td></td>
    <td></td>
    <td></td>
    <td>H√¥tel</td>
    <td>2025-12-30</td>
    <td>534,00 ‚Ç¨</td>
  </tr>
  <tr>
    <td></td>
    <td></td>
    <td></td>
    <td></td>
    <td></td>
    <td></td>
  </tr>
  <tr>
    <td style="background-color: #e5bbac; color: black;">Total</td>
    <td style="background-color: #e5bbac; color: black;">3</td>
    <td></td>
    <td style="background-color: #e5bbac; color: black;" colspan="2">Total</td>
    <td style="background-color: #e5bbac; color: black;">830,84 ‚Ç¨</td>
  </tr>
  <tr>
    <td style="background-color: #e5bbac; color: black;" colspan="5">Prix par personne</td>
    <td style="background-color: #e5bbac; color: black;">276,95 ‚Ç¨</td>
  </tr>
</tbody></table>

On le structurerait plut√¥t en deux tables homog√®nes distinctes, *Participants* et *D√©penses*, contenant uniquement des donn√©es brutes.
Certaines entr√©es peuvent √™tre manquantes, g√©n√©ralement d√©sign√©es par le symbole sp√©cial `NULL`.

<div style="display: flex; justify-content: space-evenly;">
  <table>
    <thead>
      <tr>
        <th colspan="2">Participants</th>
      </tr>
      <tr>
        <td>Pr√©nom</td>
        <td>Ville</td>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Paul</td>
        <td>Paris</td>
      </tr>
      <tr>
        <td>Maria</td>
        <td>NULL</td>
      </tr>
      <tr>
        <td>Louis</td>
        <td>Londres</td>
      </tr>
    </tbody>
  </table>

  <table>
    <thead>
      <tr>
        <th colspan="3">D√©penses</th>
      </tr>
      <tr>
        <td>Cat√©gorie</td>
        <td>Date</td>
        <td>Prix</td>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td>Transport</td>
        <td>2026-01-01</td>
        <td>57,89 ‚Ç¨</td>
      </tr>
      <tr>
        <td>Courses</td>
        <td>2025-12-30</td>
        <td>128,45 ‚Ç¨</td>
      </tr>
      <tr>
        <td>Restaurant</td>
        <td>2025-12-31</td>
        <td>110,50 ‚Ç¨</td>
      </tr>
      <tr>
        <td>H√¥tel</td>
        <td>2025-12-30</td>
        <td>534,00 ‚Ç¨</td>
      </tr>
    </tbody>
  </table>
</div>


Chaque table a un **nom** et un ensemble strict de **colonnes**, chacune avec un **nom** et un type de donn√©es, tel que du texte (aussi appel√© **string** en programmation), nombre (**integer** ou **float**), euros *etc.*
On appelle le tout **sch√©ma** de la table.
Il d√©crit le type d'information qui peut √™tre stock√© dans une table.
Dans cet exemple, les sch√©mas (simplifi√©s) ressembleraient √† ceci :

<div style="display: flex; justify-content: space-evenly;">

```yaml
name: "Participants"
columns:
  - name: "Pr√©nom"
    type: string
  - name: "Ville"
    type: string
```

```yaml
name: "D√©penses"
columns:
  - name: "Cat√©gorie"
    type: string
  - name: "Date"
    type: date
  - name: "Prix"
    type: euros
```

</div>

Notez que nous ne stockons nulle part l'information sur les totaux.
Ce n'est pas une information que nous avons collect√©e, mais plut√¥t que nous avons calcul√©e √† partir des donn√©es brutes, via les fonctions `SUM`, `COUNT`, *etc.* dans le tableur.

Avec les base de donn√©es, nous √©crirons plut√¥t une **requ√™te** pour avoir cette information. Celle-cis peuvent √™tre utili√©es pour demander des donn√©es sp√©cifiques, filtr√©es, agr√©g√©es *etc.*.
Cette introduction vous apprendra √† √©crire de telles requ√™tes.

## Pourquoi utiliser une base de donn√©es plut√¥t qu'un tableur ?

Les bases de donn√©es sont faciles √† utiliser quand on √©crit des programmes.
Elles sont beaucoup plus puissantes pour extraire des informations sp√©cifiques de toutes les donn√©es brutes.
Leur gestion stricte des donn√©es les rend fiables et pr√©serve l'int√©grit√© des donn√©es sur le long terme.
Elles passent aussi beaucoup mieux √† l'√©chelle qu'un tableur.
Avec des millions de lignes, une seule base de donn√©es peut servir efficacement des milliers de requ√™tes par seconde.

Quand vous vous connectez √† un site web, toutes les informations que vous voyez (votre email, vos messages, vos pr√©f√©rences *etc.*) sont stock√©es dans une base de donn√©es. Des requ√™tes sont ex√©cut√©es sur le serveur du site pour retourner exactement ce qu'il faut.

En revanche, les bases de donn√©es peuvent √™tre difficiles √† prendre en main pour les d√©butants.
Ins√©rer de nouvelles donn√©es et r√©cup√©rer des informations n'est pas imm√©diat.
Quand on travaille sur de petits ensembles de donn√©es entre quelques personnes, un tableur est moins complexe.

## Qu'est-ce que le SQL ?

**SQL** signifie **Structured Query Language** (langage de requ√™tes structur√©es). C'est le langage que nous utilisons pour poser des questions et apporter des modifications √† une base de donn√©es, via ce qu'on appelle des **requ√™tes**.

Au lieu de cr√©er des cellules interm√©diaires avec des fonctions, il peut directement r√©pondre √† des questions comme :
- ¬´ *Montre-moi tous les participants de Paris.* ¬ª
- ¬´ *Quelle est la plus grosse d√©pense ?* ¬ª
- ¬´ *Quel est le co√ªt par participant ?* ¬ª

Ce sont des requ√™tes en **lecture seule**, elles donnent des informations sur les donn√©es sans les modifier.
Il est courant que de nombreuses personnes dans une entreprise, comme les analystes m√©tier et scientifques des donn√©es, aient la permission d'ex√©cuter des requ√™tes en lecture seule. C'est donc sur cela que nous nous concentrerons principalement ici.
Dans ce cours, les r√©sultats des requ√™tes sont affich√©s sous forme de table, mais dans un programme, le r√©sultat est lu et int√©gr√© au reste de l'ex√©cution, par exemple pour afficher un message de bienvenue ¬´ *Bonjour Paul* ¬ª, ou lister les articles d'actualit√© du jour.

Il existe aussi des requ√™tes en **√©criture** qui peuvent modifier les donn√©es, ins√©rer de nouvelles entr√©es, cr√©er de nouvelles tables.
Il n'est pas rare que seuls les programmes (*par ex.* le site web) aient la permission de modifier les donn√©es.

C'est parti ! Mais avant de pouvoir √©crire des requ√™tes, nous devons en savoir un peu plus sur la base de donn√©es que nous utiliserons dans ce cours.

## Les diff√©rentes impl√©mentations SQL

Il existe de nombreuses bases de donn√©es diff√©rentes, commerciales comme open source.
Les bases de donn√©es qui peuvent interagir avec des tables en utilisant le langage SQL sont appel√©es... **bases de donn√©es SQL**.
Malheureusement, chacune ajoute souvent de petites extensions au SQL, ce qui donne lieu √† de nombreux **dialectes SQL**.
Tout ce que nous verrons ici devrait √™tre standard, nous mentionnerons si nous utilisons une extension particuli√®re.

Typiquement, une base de donn√©es est un programme complet, tournant quasiment seul sur un serveur, cr√©ant de nombreux fichiers pour sauvegarder les donn√©es et optimiser les requ√™tes fr√©quentes.
Une base de donn√©es qui a pris une autre direction est *SQLite*.
C'est une petite base de donn√©es qui peut √™tre embarqu√©e dans d'autres programmes et stocke toutes ses donn√©es dans un seul fichier.

## Le jeu de donn√©es Chinook

Enfin, nous devons connecter le programme dans lesquels nous √©crivons les requ√™tes √† la base de donn√©es r√©elle (serveur).
Cela implique typiquement une URL, un nom d'utilisateur et un mot de passe.
Avec SQLite cependant, il suffit de pointer vers un fichier.
Dans la configuration de ce cours, nous devons ex√©cuter le code non-SQL suivant.

<div style="padding: 15px; background-color: #d1ecf1; color: #17a2b8; border: 1px solid #17a2b8; margin: 10px 0;">
    <strong>‚ÑπÔ∏è Note :</strong>
    La cellule de code suivante peut √™tre modifi√©e librement et ex√©cut√©e en appuyant sur <code>Shift-Entr√©e</code> √† l'int√©rieur.
</div>

In [None]:
%LOAD chinook.sqlite

Le jeu de donn√©es s'appelle **Chinook**.
Il contient des donn√©es sur un magasin de musique fictif (artistes, albums, morceaux, clients et ventes).

Dans chaque fichier SQLite, il existe une table sp√©ciale nomm√©e `sqlite_master` qui liste les informations sur les autres tables cr√©√©es par l'utilisateur.
Nous l'interrogeons avec SQL pour lister les tables disponibles dans notre fichier Chinook.
Vous n'avez pas besoin de comprendre la requ√™te √† ce stade, nous voulons seulement conna√Ætre le nom des tables pour avoir un point de d√©part.
√Ä la fin de ce cours, vous serez capable d'√©crire des requ√™tes bien plus complexes.

In [None]:
SELECT name FROM sqlite_master WHERE type="table" ORDER BY name;

# Partie 1 : Votre premi√®re requ√™te avec `SELECT`

La commande SQL la plus basique est `SELECT`. Elle r√©cup√®re des donn√©es d'une table.
Regardons la table des employ√©s.

In [None]:
SELECT * FROM Employee;

### Syntaxe

La syntaxe g√©n√©rale est la suivante.
```sql
SELECT colonne1, colonne2 FROM nom_table;
```

Toutes les requ√™tes doivent se terminer par un point-virgule `;` pour marquer explicitement la fin.
Comme les requ√™tes se terminent par `;`, nous pouvons les √©crire sur plusieurs lignes pour plus de lisibilit√©.
Pr√©c√©demment, nous avons utilis√© `*` pour demander toutes les colonnes.
Si une table a beaucoup de lignes, nous pouvons aussi vouloir r√©duire le nombre de lignes retourn√©es avec le mot-cl√© `LIMIT`.

```sql
SELECT colonne1, colonne2 FROM nom_table LIMIT nombre_max_lignes;
```

### Exemple 1 : S√©lectionner des colonnes sp√©cifiques

In [None]:
SELECT FirstName, LastName FROM Employee;

### Exemple 2 : Limiter les r√©sultats

Nous ne savons pas combien de lignes contient la table `Artist`, par pr√©caution, nous ajoutons une limite de dix lignes maximum.
C'est une bonne habitude √† prendre.
Sinon, comme les bases de donn√©es peuvent avoir des millions de lignes, on risque de la surcharger.
On peut augmenter progressivement la limite ensuite.

In [None]:
SELECT * FROM Artist LIMIT 10;

### Exemple 3 : S√©lectionner des valeurs uniques

Parfois une colonne contient des valeurs en double. `DISTINCT` supprime les doublons, en affichant chaque valeur une seule fois (comme ¬´ Supprimer les doublons ¬ª dans un tableur) :

De quels pays viennent nos clients ?

In [None]:
SELECT DISTINCT Country FROM Customer LIMIT 5;

Prenez le temps de modifier ces requ√™tes pour vous  y familiariser. Changer la limite, les colones, enlever `DISTINCT` *etc*.

# Partie 2 : Filtrer les donn√©es avec `WHERE`

Dans un tableur, on utiliserait des filtres pour n'afficher que certaines lignes. En SQL, nous utilisons la clause `WHERE`.

### Syntaxe
```sql
SELECT colonnes FROM nom_table WHERE une_condition;
```

### Exemple 1 : Filtrer exactement

Trouvons tous les clients de France :

In [None]:
SELECT FirstName, LastName, City, Country 
FROM Customer 
WHERE Country = "France";

### Exemple 2 : Filtrer avec des op√©rateurs de comparaison

Trouver tous les morceaux de plus de 5 minutes :

In [None]:
SELECT Name, Milliseconds, Milliseconds/1000.0/60.0 AS Minutes
FROM Track
WHERE Minutes >= 5
LIMIT 10;

**Nouveau concept** : `AS` - Nous avons utilis√© `AS Minutes` pour donner un nom lisible √† une colonne calcul√©e (comme nommer une colonne de formule dans un tableur).

### Op√©rateurs de comparaison
| Op√©rateur | Signification |
|----------|----------|
| = | √âgal √† |
| != ou <> | Diff√©rent de |
| > | Sup√©rieur √† |
| < | Inf√©rieur √† |
| >= | Sup√©rieur ou √©gal |
| <= | Inf√©rieur ou √©gal |

### Exemple 3 : Combiner des conditions avec `AND` / `OR`

Trouver les morceaux de genre Rock (`GenreId` = 1) et d'une dur√©e sup√©rieure √† 4 minutes.
Remarquez que nous pouvons aussi √©crire des expressions dans la clause `WHERE`.

In [None]:
SELECT Name, Milliseconds
FROM Track 
WHERE GenreId = 1 AND Milliseconds/1000/60.0 >= 4
LIMIT 10;

Trouver les clients des √âtats-Unis OU du Canada :

In [None]:
SELECT FirstName, LastName, Country 
FROM Customer
WHERE Country = 'USA' OR Country = 'Canada';

### Exemple 4 : Utiliser `IN` pour plusieurs valeurs

Une fa√ßon plus propre de v√©rifier plusieurs valeurs :

In [None]:
SELECT FirstName, LastName, Country 
FROM Customer 
WHERE Country IN ('France', 'Canada', 'Brazil');

### Exemple 5 : G√©rer les donn√©es manquantes avec `NULL`

Dans les tableurs, les cellules vides sont simplement vides. Dans les bases de donn√©es, les donn√©es manquantes sont repr√©sent√©es par une valeur sp√©ciale appel√©e `NULL`.

<div style="padding: 15px; background-color: #fff3cd; color: #ffc107; border: 1px solid #ffc107; margin: 10px 0;">
    <strong>‚ö†Ô∏è Attention :</strong>
    Vous ne pouvez pas utiliser <code>= NULL</code> ou <code>!= NULL</code>.
    Utilisez plut√¥t <code>IS NULL</code> et <code>IS NOT NULL</code>.
    <br/>
    Bien que <code>NULL</code> est parfois affich√© comme vide (pas de text), une entr√©e <code>NULL</code> est aussi diff√©rente d'un text vide <code>""</code>.
</div>

Trouver les clients qui n'ont pas d'entreprise renseign√©e :

In [None]:
SELECT FirstName, LastName, Company
FROM Customer
WHERE Company IS NULL
LIMIT 10;

# Partie 3 : Recherche approximative avec `LIKE`

Parfois on ne conna√Æt pas la valeur exacte. `LIKE` permet de chercher des approximations.

| Symbole | Signification |
|--------|----------|
| % | N'importe quelle s√©quence de caract√®res |
| _ | N'importe quel caract√®re unique |

### Exemple 1 : Trouver les artistes dont le nom commence par "The"

In [None]:
SELECT Name FROM Artist 
WHERE Name LIKE 'The %'
LIMIT 10;

### Exemple 2 : Trouver les morceaux contenant "love" n'importe o√π dans le nom :

In [None]:
SELECT Name FROM Track 
WHERE Name LIKE '%love%'
LIMIT 15;

# Partie 4 : Trier les r√©sultats avec `ORDER BY`

Tout comme on trie les colonnes dans un tableur, nous pouvons trier nos r√©sultats.

### Syntaxe
```sql
SELECT colonnes FROM nom_table ORDER BY nom_colonne ASC|DESC;
```
- `ASC` = Ascendant ou croissant (A-Z, du plus petit au plus grand) - c'est le comportement par d√©faut
- `DESC` = Descendant ou d√©croissant (Z-A, du plus grand au plus petit)

### Exemple 1 : Trier les clients par ordre alphab√©tique de nom de famille

In [None]:
SELECT FirstName, LastName, Country 
FROM Customer 
ORDER BY LastName ASC
LIMIT 10;

On peut utiliser `||` pour concat√©ner du texte (les coller ensemble).
Ici, affiche le pr√©nom, un espace, et le nom de famille comme `Name`, tout en triant par nom de famille.

In [None]:
SELECT FirstName || " " || LastName AS Name, Country 
FROM Customer 
ORDER BY LastName ASC
LIMIT 10;

### Exemple 2 : Trouver le nom de morceau le plus long (ordre descendant)

Ici nous utilisons la fonction SQL `LENGTH` qui calcule la longueur d'une string (entr√©e texte).
Il existe de nombreuses fonctions de ce type pour les strings, les dates, les nombres *etc.*, tout comme il existe de nombreuses fonctions dans les tableurs.
Comme les autres expressions, elles peuvent √™tre utilis√©es dans `SELECT`, `WHERE`, `ORDER`, et plus encore !
Certaines fonctions SQL sont courantes, tandis que d'autres font partie de dialectes SQL sp√©cifiques.

In [None]:
SELECT Name
FROM Track 
ORDER BY LENGTH(NAME) DESC
LIMIT 10;

### Exemple 3 : Trier par plusieurs colonnes

Trier les clients par pays, puis par nom de famille au sein de chaque pays :

In [None]:
SELECT FirstName, LastName, Country 
FROM Customer 
ORDER BY Country, LastName
LIMIT 5;

# Partie 5 : Agr√©ger les donn√©es (`COUNT`, `SUM`, `AVG`, `MIN`, `MAX`)

Tout comme les fonctions de tableur (`COUNT`, `SUM`, `AVERAGE`), SQL dispose de **fonctions d'agr√©gation** qui calculent des valeurs sur plusieurs lignes.

### Exemple 1 : Compter combien de morceaux nous avons :

In [None]:
SELECT COUNT(*) AS TotalTracks FROM Track;

Cela compte toutes les lignes de la table `Track`.
On peut aussi compter toutes les cellules de pays dans la table `Customer`.
La requ√™te suivante compte combien de lignes seraient retourn√©es par la requ√™te :
```sql
SELECT Country FROM Customer;
```

In [None]:
SELECT COUNT(Country) FROM Customer;

Cependant, nous pourrions √™tre plus int√©ress√©s par le nombre de pays diff√©rents dans lesquels vivent nos clients.
Nous pouvons le faire avec `DISTINCT` √† nouveau.

<div style="padding: 15px; background-color: #fff3cd; color: #ffc107; border: 1px solid #ffc107; margin: 10px 0;">
    <strong>‚ö†Ô∏è Attention :</strong>
    <code>COUNT</code> ne d√©doublonne pas les valeurs.
</div>

In [None]:
SELECT COUNT(DISTINCT Country) FROM Customer;

### Exemple 2 : Trouver la dur√©e moyenne, minimale et maximale des morceaux

In [None]:
SELECT 
    AVG(Milliseconds)/1000.0/60.0 AS AvgMinutes,
    MIN(Milliseconds)/1000.0/60.0 AS ShortestMinutes,
    MAX(Milliseconds)/1000.0/60.0 AS LongestMinutes
FROM Track;

### Exemple 3 : Calculer le total des ventes

In [None]:
SELECT 
    COUNT(*) AS NumberInvoices,
    SUM(Total) AS TotalRevenue,
    AVG(Total) AS AvgInvoiceAmount
FROM Invoice;

# Partie 6 : Regrouper les donn√©es avec `GROUP BY`

C'est comme cr√©er un tableau crois√© dynamique dans un tableur !
`GROUP BY` permet d'agr√©ger les donn√©es au sein de diff√©rents groupes, comme une cat√©gorie, un pays de r√©sidence, mais aussi l'activit√© d'un individu.

### Exemple 1 : Les 5 pays o√π vivent le plus de clients

In [None]:
SELECT Country, COUNT(*) AS CustomerCount
FROM Customer
GROUP BY Country
ORDER BY CustomerCount DESC
LIMIT 5;

### Exemple 2 : Les 10 pays avec le plus de ventes

In [None]:
SELECT
    BillingCountry, 
    COUNT(*) AS NumberOfSales,
    ROUND(SUM(Total), 2) AS TotalRevenue
FROM Invoice
GROUP BY BillingCountry
ORDER BY TotalRevenue DESC
LIMIT 10;

### Exemple 3 : Trouver les compositeurs qui √©crivent le plus sur l'amour

Le filtre `WHERE` supprime les lignes individuelles *avant* qu'elles ne soient utilis√©es dans l'agr√©gation.

In [None]:
SELECT Name, Composer, SUM(Milliseconds)/1000.0/60.0 AS TotalMinutes
FROM Track
WHERE Name LIKE "%love%" AND Composer IS NOT NULL
GROUP BY Composer
ORDER BY TotalMinutes DESC
LIMIT 10;

### Filtrer les groupes avec `HAVING`

Pr√©c√©demment nous avons utilis√© `WHERE` pour filtrer les lignes individuelles.
Avec `HAVING` nous pouvons filtrer les groupes (apr√®s agr√©gation).

Trouvons les villes o√π il y a un nombre de clients moyen, ni trop faible ni trop √©lev√©.
Comme nous ne cherchons pas un maximum ou un minimum, `ORDER BY` ne suffira pas.

In [None]:
SELECT City, COUNT(*) AS CustomerCount
FROM Customer
GROUP BY Country
HAVING CustomerCount >= 2 AND CustomerCount <= 5 
ORDER BY CustomerCount DESC;

# Partie 7 : Connecter les tables avec `JOIN`
### Organisation des bases de donn√©es

En regardant les tables, vous avez peut-√™tre remarqu√© beaucoup de noms de colonne contenant `Id`.
Elles servent deux objectifs principaux.
Le premier est celui auquel nous sommes le plus habitu√©s.
Que faire si deux clients ont le m√™me nom ?
Faut-il essayer de les identifier par leur ville ? Leur date de naissance ?
Cela compliquerait beaucoup les requ√™tes.
√Ä la place, on donne √† chaque client un num√©ro ou identifiant unique.
Nous y sommes tr√®s habitu√©s dans la vie quotidienne, par exemple avec nos num√©ros de s√©curit√© sociale.

Les bases de donn√©es poussent l'id√©e des identifiants plus loin, en donnant des num√©ros *internes* √† de nombreuses tables (si ce n'est toutes).
Regardons la table des morceaux de musique.
Vous avez peut-√™tre remarqu√© qu'il n'y a pas d'album ni d'artiste pour les morceaux.

In [None]:
SELECT * FROM track LIMIT 10;

On pourrait remplacer l'`AlbumId` par le nom de l'album dans cette table, mais r√©fl√©chissons-y : tout comme les personnes, les noms d'album peuvent ne pas √™tre uniques.
Faut-il aussi ajouter la date de parution ? L'√©diteur ?
Et quand un client ach√®te un album, doit-on ins√®rer toutes ces informations dans la table des factures, en pluse de toutes les informations du client n√©cessaires pour l'identifier ?
Les donn√©es de l'album et du client seraient **dupliqu√©es** (copi√©es plus d'une fois).
C'est mauvais pour les performances, car cela gaspille beaucoup d'espace disque et ralentit les requ√™tes.
C'est aussi mauvais pour la coh√©rence des donn√©es.
Que se passe-t-il si un client appelle pour corriger une erreur dans son nom ?
Il faudrait alors modifier son nom dans toutes les tables qui l'utilisent.
Si on oubliait de modifier certaines, on cr√©rait des incoh√©rences dans nos donn√©es.

Il existe de nombreuses r√®gles pour [organiser les bases de donn√©es](https://fr.wikipedia.org/wiki/Forme_normale_(bases_de_donn%C3%A9es_relationnelles)) (c'est m√™me un domaine d'√©tude √† part enti√®re).
Une premi√®re r√®gle approximative pourrait se r√©sumer ainsi :

> Ne pas dupliquer les donn√©es entr√©es.
> Mieux vaut attribuer des identifiants √† chaque enregistrement, et les utiliser pour y faire r√©f√©rence dans une autre table.

C'est ce qui est fait avec `AlbumId`.
Dans la table Album, un `AlbumId` correspond √† une seule ligne.
Pour le substituer, nous utilisons un `JOIN`.
Nous d√©taillons dans la clause du `JOIN` le nom des columns avec l'id dans chacune des tables, et les relions avec une egalit√©, afin de sp√©cifier leur correspondance.
Plus tard, nous verrons comment utiliser des conditions plus g√©n√©rales dans cette clause.

In [None]:
SELECT *
FROM Track
JOIN Album ON Track.AlbumID = Album.AlbumID
LIMIT 5;

Cela peut vite devenir bruyant.
On perd rapidement de vue de quelle table proviennent les colonnes.
Est-ce que `Name` est le nom du morceau ou de l'album ?
Comme toujours, nous pouvons affiner les colonnes s√©lectionn√©es et donner des alias.

In [None]:
SELECT Track.*, Album.Title AS AlbumName
FROM Track
JOIN Album ON Track.AlbumID = Album.AlbumID
LIMIT 5;

Nous pouvons continuer en joignant `Artist` pour obtenir le nom de l'artiste.
Comme toujours, on pourrait aussi filtrer avec `WHERE` et agr√©ger avec `GROUP BY`.

In [None]:
SELECT
    Track.Name AS TrackName,
    Album.Title AS AlbumTitle,
    Artist.Name AS ArtistName
FROM Track
JOIN Album ON Track.AlbumId  = Album.AlbumId
JOIN Artist ON Album.ArtistId = Artist.ArtistId
LIMIT 10;

### Syntaxe
La syntaxe g√©n√©rale d'un `JOIN` associera toutes les lignes de `Table1` avec celles de `Table2` quand la condition est v√©rifi√©e.
```sql
SELECT Table1.colonnes, Table2.colonnes
FROM Table1
INNER JOIN Table2 ON conditions;
```

Pr√©c√©demment, en faisant correspondre `AlbumId` depuis la table `Track`, il n'y avait qu'une seule ligne dans `Album` avec l'identifiant correspondant.
Cette correspondance **plusieurs-√†-un** peut √™tre comprise comme *substituer l'information pour cet identifiant*.

Dans l'utilisation plus g√©n√©rale du `JOIN`, certaines lignes peuvent correspondre √† plusieurs autres, ou **plusieurs-√†-plusieurs**.
Elles sont alors r√©p√©t√©es avec chaque correspondance.

Par exemple, trouvons les clients auxquels l'un de nos employ√©s peut passer un appel t√©l√©phonique local (*c.-√†-d.* vivant dans le m√™me pays).

In [None]:
SELECT
    Customer.FirstName AS CustomerFirstName,
    Customer.LastName AS CustomerLastName,
    Customer.Phone AS CustomerPhone,
    Employee.FirstName AS EmployeeFirstName,
    Employee.LastName AS EmployeeLastName
FROM Customer
INNER JOIN Employee ON Customer.Country = Employee.Country;

C'est un r√©sultat volumineux !
Les `JOIN` peuvent souvent produire beaucoup de lignes.
Dans cet exemple, les 8 employ√©s vivent au Canada, et 8 clients vivent au Canada (`SELECT COUNT(*) FROM Customer WHERE Country = "Canada";`).
Chacun de ces clients correspond √† chaque employ√© du Canada, ce qui donne 8√ó8 = 64 lignes dans le r√©sultat.
Si nous avions 3 employ√©s suppl√©mentaires en France, chacun correspondrait aux 5 clients en France, donnant 3√ó5 = 15 lignes suppl√©mentaires.

Un exemple extr√™me est de faire correspondre sur une condition toujours vraie : chacun des 59 clients correspond alors √† chacun des 8 employ√©s, cr√©ant essentiellement toutes les combinaisons employ√©-client possibles.

In [None]:
SELECT COUNT(*) FROM Customer INNER JOIN Employee ON True;

### Exemple 1 : Compter les albums par artiste (`JOIN` avec `GROUP BY`)

Comme le nom d'un artiste peut ne pas √™tre unique, nous groupons √† la fois par le nom et l'`ArtistId` pour √©viter de fusionner des artistes diff√©rents.

On peut aussi donner des alias aux tables.

In [None]:
SELECT ar.Name AS Artist, COUNT(al.AlbumId) AS AlbumCount
FROM Artist ar
JOIN Album al ON ar.ArtistId = al.ArtistId
GROUP BY ar.Name, ar.ArtistId
ORDER BY AlbumCount DESC
LIMIT 10;

### Exemple 2 : Les morceaux les plus rentables

De m√™me, nous utilisons `Track.TrackId` dans le `GROUP BY` pour √©viter de compter ensemble des morceaux ayant un nom similaire.

In [None]:
SELECT
    Track.Name,
    SUM(InvoiceLine.UnitPrice * InvoiceLine.Quantity) AS Revenue
FROM Track
JOIN InvoiceLine ON Track.TrackId = InvoiceLine.TrackId
GROUP BY Track.TrackId, Track.Name
ORDER BY Revenue DESC
LIMIT 10;

### Exemple 2 : Les artistes les plus rentables

Cette fois, nous devons encha√Æner les `JOIN` `InvoiceLine` ‚Üî `Track` ‚Üî `Album` ‚Üî `Artist` pour acc√©der au nom de l'artiste.

In [None]:
SELECT
    Artist.Name,
    SUM(InvoiceLine.UnitPrice * InvoiceLine.Quantity) AS Revenue
FROM InvoiceLine
JOIN Track ON InvoiceLine.TrackId = Track.TrackId
JOIN Album ON Track.AlbumId = Album.AlbumId
JOIN Artist ON Album.ArtistId = Artist.ArtistId
GROUP BY Artist.Name, Artist.ArtistId
ORDER BY Revenue DESC
LIMIT 10;

### `INNER JOIN` vs `LEFT JOIN`

Les `JOIN` que nous avons utilis√©s sont en fait l'abr√©viation de `INNER JOIN` ‚Äî ils ne retournent que les lignes ayant une correspondance dans **les deux** tables.
Regardons les morceaux les moins vendus.

In [None]:
SELECT
    Track.Name AS Song,
    SUM(InvoiceLine.UnitPrice * InvoiceLine.Quantity) AS Revenue
FROM Track
JOIN InvoiceLine ON Track.TrackId = InvoiceLine.TrackId
GROUP BY Track.TrackId, Track.Name
ORDER BY Revenue ASC
LIMIT 5;

Remarquez que les morceaux les moins vendus g√©n√®rent quand m√™me *un peu* de revenu.
Il doit s√ªrement y avoir des morceaux en vente qui n'ont jamais √©t√© vendus.
Le `INNER JOIN` a supprim√© ces morceaux du r√©sultat car ils n'apparaissaient pas dans la table `InvoiceLine` et ne correspondaient donc √† rien.

Nous voulons conserver tous les morceaux de la table `Track`, m√™me s'ils ne correspondent √† rien.
C'est exactement ce que fait le `LEFT JOIN`.
En ex√©cutant la requ√™te avec ce type de jointure, on obtient :

In [None]:
SELECT
    Track.Name AS Song,
    SUM(InvoiceLine.UnitPrice * InvoiceLine.Quantity) AS Revenue
FROM Track
LEFT JOIN InvoiceLine ON Track.TrackId = InvoiceLine.TrackId
GROUP BY Track.TrackId, Track.Name
ORDER BY Revenue ASC
LIMIT 5;

Comme le `SUM` donne `NULL` pour les morceaux non vendus, on ne voit rien dans le r√©sultat.
On peut l'envelopper dans `COALESCE` pour le remplacer par une valeur par d√©faut s'il est `NULL`.

In [None]:
SELECT
    Track.Name AS Song,
    COALESCE(SUM(InvoiceLine.UnitPrice * InvoiceLine.Quantity), 0.0) AS Revenue
FROM Track
LEFT JOIN InvoiceLine ON Track.TrackId = InvoiceLine.TrackId
GROUP BY Track.TrackId, Track.Name
ORDER BY Revenue ASC
LIMIT 5;

Ici nous nous sommes concentr√©s sur les morceaux les moins vendus pour voir le comportement de `INNER JOIN` *vs* `LEFT JOIN`.
Une requ√™te plus probable serait d'exporter tous les morceaux et leur revenu.
Avec un `INNER JOIN`, les personnes regardant l'export r√©torqueraient : ¬´ *Et le morceau [NOM] ? On ne le vend pas ?* ¬ª.
Avec le `LEFT JOIN`, il n'y a aucune ambigu√Øt√©.

Si nous voulions seulement trouver les morceaux qui n'ont jamais √©t√© vendus, nous pourrions aller plus vite.
Avec un `LEFT JOIN`, les lignes de `Track` qui ne correspondent √† rien dans `InvoiceLine` mais sont quand m√™me conserv√©es auront des entr√©es `NULL` pour les colonnes d'`InvoiceLine`.
On peut directement exploiter cela sans `GROUP BY`.

In [None]:
SELECT Track.Name
FROM Track
LEFT JOIN InvoiceLine ON Track.TrackId = InvoiceLine.TrackId
WHERE InvoiceLine.TrackId IS NULL
LIMIT 5;

### Autres `JOIN`
Il existe deux autres types de `JOIN`.
`RIGHT JOIN` est le sym√©trique de `LEFT JOIN` : il conserve les lignes sans correspondance de la table dans la clause `RIGHT JOIN`.
`FULL OUTER JOIN` conserve les lignes sans correspondance des deux tables.

# Partie 8 : Mettre le tout en pratique

Maintenant que vous avez appris tous les concepts cl√©s du SQL ‚Äî `SELECT`, `WHERE`, `JOIN`, `GROUP BY`, les fonctions d'agr√©gation, et plus encore ‚Äî il est temps de les mettre en pratique !
Rendez-vous aux exercices ci-dessous et essayez de r√©pondre aux questions par vous-m√™me avant de consulter les solutions.
N'h√©sitez pas √† exp√©rimenter avec le SQL dans ce notebook, en construisant progressivement vos requ√™tes, en ajoutant et affinant les informations au fur et √† mesure.
Cr√©ez plusieurs cellules, modifiez-les, fusionnez du code provenant de plusieurs *etc.*

### R√©sum√© : Structure d'une requ√™te SQL

Voici l'ordre des clauses dans une requ√™te SQL :

```sql
SELECT colonnes           -- Quelles colonnes afficher
FROM table                -- Quelle(s) table(s) utiliser
JOIN autre_table ON ...   -- Connecter des tables li√©es
WHERE condition           -- Filtrer les lignes individuelles
GROUP BY colonne          -- Regrouper les lignes pour l'agr√©gation
HAVING condition          -- Filtrer les groupes
ORDER BY colonne          -- Trier les r√©sultats
LIMIT n                   -- Limiter le nombre de lignes
```

### Aide-m√©moire

| T√¢che | SQL |
|------|-----|
| Voir toutes les donn√©es | `SELECT * FROM table` |
| Voir des colonnes sp√©cifiques | `SELECT col1, col2 FROM table` |
| Supprimer les doublons | `SELECT DISTINCT col FROM table` |
| Filtrer les lignes | `WHERE condition` |
| V√©rifier les donn√©es manquantes | `WHERE colonne IS NULL` |
| Trier les r√©sultats | `ORDER BY colonne ASC/DESC` |
| Limiter les lignes | `LIMIT n` |
| Compter les lignes | `SELECT COUNT(*) FROM table` |
| Regrouper et agr√©ger | `GROUP BY colonne` |
| Connecter des tables (inner) | `JOIN table2 ON table1.id = table2.id` |
| Garder toutes les lignes de gauche | `LEFT JOIN table2 ON table1.id = table2.id` |
| Recherche de motifs | `WHERE colonne LIKE '%motif%'` |

# Exercices pratiques

Essayez par vous-m√™me ! √âcrivez vos requ√™tes dans les cellules vides ci-dessous. Les solutions sont fournies plus bas !

### Exercice 1

Listez tous les genres musicaux de la base de donn√©es.

### Exercice 2

Trouvez tous les clients d'Allemagne.

### Exercice 3

Trouvez les 5 morceaux les plus courts par dur√©e. Affichez leur nom et leur dur√©e en minutes.

### Exercice 4

Comptez le nombre de morceaux dans chaque album. Affichez le nom de l'album et le nombre de morceaux.

### Exercice 5

Trouvez la dur√©e moyenne des morceaux pour chaque genre, tri√©e du plus long au plus court.

### Exercice 6

Quels sont les diff√©rents niveaux de prix des morceaux, et combien de morceaux y a-t-il √† chaque prix ?

Utilisez le regroupement et le comptage pour explorer comment les morceaux sont r√©partis entre les diff√©rents prix unitaires du magasin.

### Exercice 7

Formatez un catalogue de morceaux sous forme de liste lisible.

En utilisant la concat√©nation de cha√Ænes (`||`), affichez chaque morceau sur une seule ligne format√©e : `- "Nom du morceau", Album de Artiste`. Vous devrez joindre plusieurs tables et construire la cha√Æne dans la clause `SELECT`.

### Exercice 8

Quel artiste a le plus de morceaux dans le magasin ?

Joignez les tables `Artist`, `Album` et `Track` pour compter le nombre total de morceaux par artiste et trouver les plus prolifiques.

### Exercice 9

Quels sont les clients qui d√©pensent le plus ?

Joignez les clients avec leurs factures pour calculer les d√©penses totales de chaque client et les classer.

### Exercice 10

Quels genres musicaux g√©n√®rent le plus de revenus ?

Suivez la cha√Æne de `Genre` √† travers `Track` et `InvoiceLine` pour calculer le revenu total par genre.

### Exercice 11

Quels artistes ont vendu plus de 10 morceaux √† des clients aux √âtats-Unis ?

Cela n√©cessite d'encha√Æner de nombreuses tables (`Artist` jusqu'√† `InvoiceLine` et `Invoice`), de filtrer avec `WHERE` sur le pays de facturation, de regrouper par artiste, et d'utiliser `HAVING` pour ne garder que ceux au-dessus du seuil.

# Solutions

Ne descendez que lorsque vous √™tes pr√™t √† v√©rifier vos r√©ponses !

### Solution 1

In [None]:
SELECT * FROM Genre;

### Solution 2

In [None]:
SELECT FirstName, LastName, City
FROM Customer
WHERE Country = 'Germany';

### Solution 3

In [None]:
SELECT Name, Milliseconds / 1000.0 / 60.0 AS Minutes
FROM Track
ORDER BY Milliseconds ASC
LIMIT 5;

### Solution 4

In [None]:
SELECT al.Title AS Album, COUNT(t.TrackId) AS TrackCount
FROM Album al
JOIN Track t ON al.AlbumId = t.AlbumId
GROUP BY al.AlbumId, al.Title
ORDER BY TrackCount DESC
LIMIT 10;

### Solution 5

In [None]:
SELECT
    g.Name AS Genre,
    ROUND(AVG(t.Milliseconds) / 1000.0 / 60.0, 2) AS AvgMinutes
FROM Genre g
JOIN Track t ON g.GenreId = t.GenreId
GROUP BY g.GenreId, g.Name
ORDER BY AvgMinutes DESC;

### Solution 6

In [None]:
SELECT UnitPrice, COUNT(*) AS TrackCount
FROM Track
GROUP BY UnitPrice
ORDER BY UnitPrice;

### Solution 7

In [None]:
SELECT '- "' || t.Name || '", ' || al.Title || ' from ' || ar.Name AS TrackEntry
FROM Track t
JOIN Album al ON t.AlbumId = al.AlbumId
JOIN Artist ar ON al.ArtistId = ar.ArtistId
LIMIT 15;

### Solution 8

In [None]:
SELECT 
    ar.Name AS Artist,
    COUNT(t.TrackId) AS TrackCount
FROM Artist ar
JOIN Album al ON ar.ArtistId = al.ArtistId
JOIN Track t ON al.AlbumId = t.AlbumId
GROUP BY ar.Name
ORDER BY TrackCount DESC
LIMIT 10;

### Solution 9

In [None]:
SELECT 
    c.FirstName || ' ' || c.LastName AS Customer,
    c.Country,
    ROUND(SUM(i.Total), 2) AS TotalSpent
FROM Customer c
JOIN Invoice i ON c.CustomerId = i.CustomerId
GROUP BY c.CustomerId
ORDER BY TotalSpent DESC
LIMIT 10;

### Solution 10

In [None]:
SELECT 
    g.Name AS Genre,
    COUNT(il.InvoiceLineId) AS TracksSold,
    ROUND(SUM(il.UnitPrice * il.Quantity), 2) AS TotalRevenue
FROM Genre g
JOIN Track t ON g.GenreId = t.GenreId
JOIN InvoiceLine il ON t.TrackId = il.TrackId
GROUP BY g.GenreId, g.Name
ORDER BY TotalRevenue DESC
LIMIT 10;

### Solution 11

In [None]:
SELECT
    ar.Name AS Artist,
    COUNT(il.InvoiceLineId) AS TracksSold
FROM Artist ar
JOIN Album al ON ar.ArtistId = al.ArtistId
JOIN Track t ON al.AlbumId = t.AlbumId
JOIN InvoiceLine il ON t.TrackId = il.TrackId
JOIN Invoice i ON il.InvoiceId = i.InvoiceId
WHERE i.BillingCountry = 'USA'
GROUP BY ar.ArtistId, ar.Name
HAVING TracksSold > 10
ORDER BY TracksSold DESC;