Le d√©veloppement de traitements informatiques n√©cessite la manipulation de donn√©es de plus en plus nombreuses. Leur organisation et leur stockage constituent un enjeu essentiel de performance.

<blockquote class="question">
    <p>Comment g√©rer (m√©moriser et traiter) un ensemble volumineux de donn√©es ?</p>
</blockquote>

<div class="video-responsive">
    <iframe class="centre" width="560" height="315" src="https://www.youtube-nocookie.com/embed/iu8z5QtDQhY" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
</div>

En classe de Premi√®re, on a vu comment g√©rer des donn√©es repr√©sent√©es de mani√®re tabulaire (avec des fichiers CSV). Il √©tait possible d'utiliser un langage de programmation pour effectuer les traitements. Cette fa√ßon de faire convient pour des requ√™tes simples d√®s lors que les donn√©es ne sont pas trop nombreuses, mais devient rapidement insuffisante pour r√©pondre aux attentes actuelles :

* souvent le volume des donn√©es est gigantesque (voir l'article : [16000 malades oubli√©s √† cause d'Excel](https://www.numerama.com/politique/653217-16-000-anglais-malades-du-covid-ont-ete-oublies-a-cause-dune-feuille-excel-trop-pleine.html));
* les requ√™tes peuvent √™tre complexes ;
* les donn√©es peuvent √™tre simultan√©ment utilis√©es par diff√©rents programmes ou diff√©rents utilisateurs (exemples : sites marchands, r√©servations en ligne, etc.)

Il est donc n√©cessaire d'utiliser des solutions plus performantes et l'utilisation de **bases de donn√©es relationnelles** est aujourd'hui la solution la plus r√©pandue.

<img class="centre image-responsive" src="data/database.svg" alt="diagramme" width="150">


<blockquote class="information">
    <p>Seules les bases de donn√©es <em>relationnelles</em> sont au programme de Terminale NSI, mais il existe d'autres types de bases de donn√©es : les <a href="https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_r%C3%A9seau" target="_blank">bases r√©seaux</a>, les <a href="https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_orient%C3%A9e_objet" target="_blank">bases objets</a>, les <a href="https://fr.wikipedia.org/wiki/NoSQL" target="_blank">bases &laquo; no-sql &raquo;</a>, etc.</p>
</blockquote>

Dans une base de donn√©es, les informations sont stock√©es dans des fichiers, mais √† la diff√©rence des fichiers au format CSV, il est impossible de travailler avec ces fichiers avec un √©diteur de texte. Pour manipuler les donn√©es pr√©sentes dans une base de donn√©es, il faut utiliser un logiciel appel√© _syst√®me de gestion de bases de donn√©es_, abr√©g√© SGBD. Il en existe plusieurs, des gratuits, des payants, des libres, des propri√©taires (nous en utiliserons dans le chapitre suivant).


# Mod√®le relationnel

Les bases de donn√©es relationnelles sont bas√©es sur ce qu'on appelle le **mod√®le relationnel**. Il s'agit d'un mod√®le _logique_ (bas√© sur des concepts math√©matiques) d√©fini en 1970 par l'informaticien britannique [Edgard F. Codd](https://fr.wikipedia.org/wiki/Edgar_Frank_Codd) (1923-2003), lors de ses travaux chez IBM. Il a re√ßu le prix Turing en 1981.

![](https://upload.wikimedia.org/wikipedia/en/5/58/Edgar_F_Codd.jpg)

<span class="image-licence" style="display: block;text-align: center;font-size: 0.9em;color: #aaa;">Edgard F. Codd. Source :
    <a href="https://upload.wikimedia.org/wikipedia/en/5/58/Edgar_F_Codd.jpg" target="_blank">wikimedia.org</a>
</span>

Le mod√®le relationnel est une mani√®re de mod√©liser les **relations** existantes entre plusieurs informations et de les ordonner entre elles.

Un mod√®le relationnel est donc bas√© sur des **relations**, terme que nous allons d√©finir dans le paragraphe suivant.

## Relation, attribut, domaine, sch√©ma

<img class="centre image-responsive" src="data/vinyl.svg" alt="diagramme" width="200">

Prenons l'exemple d'un disquaire permettant d'emprunter des albums de musique. L'ensemble de ses albums peut √™tre repr√©sent√© par l'ensemble :

```
Album = {
    ("I Still Do", "Eric Clapton", 2016, Vrai),
    ("Axis: Bold as Love", "Jimi Hendrix", 1967, Faux),
    ("Continumm", "John Mayer", 2006, Faux),
    ("Riding With The King", "Eric Clapton et B.B. King", 2000, Faux),
    ("Don't explain", "Joe Bonamassa et Beth Hart", 2011, Vrai),
    ...
}
```

Un tel ensemble s'appelle une **relation** (la relation _Album_ en l'occurrence).

<blockquote class="attention">
    <p><strong>Attention</strong> : cette relation <em>Album</em> n'est pour le moment pas satisfaisante ! Nous verrons plus loin pourquoi et comment y rem√©dier.</p>
</blockquote>

Les diff√©rents √©l√©ments d'une relation s'appellent des **enregistrements**, ou **tuple**, ou **n-uplet**, ou **t-uplet**, ou **vecteur**. Les enregistrements d'une relation poss√®dent les m√™mes composantes, que l'on appelle les **attributs** de la relation.

Une relation se conforme toujours √† un **sch√©ma** qui est une description indiquant pour chaque attribut de la relation son _nom_ et son **domaine** (= le &laquo; type &raquo; de l'attribut : un entier, une cha√Æne de caract√®res, une date, etc.) 

Ainsi, pour le moment, la relation _Album_ poss√®de 4 **attributs** :

* `titre` : le titre de l'album, une cha√Æne de caract√®res
* `artiste` : le ou les artistes de l'album, une cha√Æne de caract√®res
* `annee` : l'ann√©e de parution de l'album, un entier naturel
* `dispo` : disponibilit√© de l'album, un bool√©en

On note le sch√©ma de la relation _Album_ de la fa√ßon suivante :

<pre>
    <code><em>Album</em>(<em>titre</em> TEXT, <em>artiste</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL)</code>
</pre>

<blockquote class="information">
    <p>On a choisi de noter ici le <em>domaine</em> de chaque attribut avec les mots INT, TEXT, BOOL mais on aurait pu √©galement les √©crire Entier, Cha√Æne de caract√®res, Bool√©en ou Int, String, Bool, etc. Cela n'a pas vraiment d'importance car le mod√®le relationnel est ind√©pendant de toute consid√©ration informatique.</p>
</blockquote>

Une relation peut aussi se repr√©senter sous forme d'une **table**, et d'ailleurs on utilise souvent de mani√®re √©quivalente les deux termes : *relation* ou *table*. Par exemple, la table correspondant √† notre relation _Album_ (qui n'est pas encore satisfaisante) ressemble √† ceci :

| titre | artiste | annee | dispo |
| --- | --- | --- | --- |
| I Still Do | Eric Clapton | 2016 | Vrai |
| Axis: Bold as Love | Jimi Hendrix | 1967 | Faux |
| Continuum | John Mayer | 2006 | Faux |
| Riding With The King | Eric Clapton et B.B. King | 2000 | Faux |
| Don't explain | Joe Bonamassa et Beth Hart | 2011 | Vrai |
| ... | ... | ... | ... |

## Base de donn√©es relationnelle

Une base de donn√©es relationnelle est un _ensemble de relations_. Par exemple, la base de donn√©es de notre disquaire ne contiendra pas uniquement la relation _Album_. Elle peut par exemple contenir deux autres relations : _Client_ et _Emprunt_ qui correspondent respectivement √† l'ensemble des clients du disquaire et √† l'ensemble des emprunts en cours.

Le _sch√©ma_, ou la _structure_, d'une base de donn√©es relationnelle est l'ensemble des sch√©mas des relations de la base. Ainsi, pour le moment, la structure (ou sch√©ma) de la base de donn√©es du disquaire, est :

<pre>
    <code><em>Album</em>(<em>titre</em> TEXT, <em>artiste</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL)</code>
    <code><em>Client</em>(...)</code>
    <code><em>Emprunt</em>(...)</code>
</pre>

o√π on n'a pour le moment pas compl√©t√© les sch√©mas des relations _Client_ et _Emprunt_ (et o√π le sch√©ma de la relation _Album_ n'est pas satisfaisant pour l'instant)

# Concevoir la structure d'une base de donn√©es relationnelle

La conception de la structure d'une base de donn√©es n'est pas toujours ais√©e mais c'est un travail absolument n√©cessaire pour obtenir une base ne souffrant d'aucune anomalie et offrant des performances optimales.

On trouve en g√©n√©ral ces trois √©tapes :

1. D√©terminer les entit√©s (objets, actions, personnes, ...) que l'on souhaite manipuler.
2. Mod√©liser chaque ensemble d'entit√©s comme une relation en donnant son sch√©ma : attributs et domaine de chaque attribut.
3. D√©finir les _contraintes d'int√©grit√©_ (domaine, relation, r√©f√©rence) de la base de donn√©es, c'est-√†-dire toutes les propri√©t√©s logiques v√©rifi√©es par les donn√©es √† chaque instant.

On r√©alise souvent ces op√©rations en parall√®le de mani√®re √† peaufiner au fur et √† mesure la structure de la base.

Nous allons expliquer ces m√©canismes de conception en s'appuyant sur la base de donn√©es de notre disquaire que l'on va affiner au fur et √† mesure.

## Domaine d'un attribut

Le domaine d'un attribut a d√©j√† √©t√© abord√©, il s'agit du "type" de l'attribut. Dans le cas de la mod√©lisation d'une base de donn√©es, la fa√ßon de noter les domaines n'est pas primordiale (INT ou Entier ou Int ou Integer, etc. pour d√©signer un attribut dont les valeurs sont des entiers), mais elle le deviendra lorsque l'on cr√©era concr√®tement les tables en base de donn√©es car il faudra respecter la syntaxe du SGBD utilis√©.

### Contrainte de domaine

Concr√®tement, un SGBD doit s'assurer √† chaque instant de la validit√© des valeurs d'un attribut, autrement dit que ces valeurs correspondent toujours au domaine de l'attribut, on appelle cela les _contraintes de domaines_. C'est pourquoi en pratique, la commande de cr√©ation d'une table doit pr√©ciser en plus du nom des attributs, leurs domaines.

Les contraintes de domaines doivent √™tre respect√©es en permanence par le SGBD : si un attribut a pour domaine INT et que l'on essaie de saisir une valeur de type FLOAT pour cet attribut, cela provoquera une erreur du SGBD. Il est donc important de bien penser le domaine de chaque attribut d√®s le d√©part.

Bien que le domaine d'un attribut paraisse assez simple √† d√©terminer, il faut √™tre prudent dans certains cas. Par exemple, si le domaine d'un attribut correspondant √† un code postal est INT, alors si on enregistre un code postal `05000` alors celui-ci sera converti en `5000` (car 05000 = 5000 pour les entiers), ce qui ne correspond pas √† un code postal valide... Il est donc n√©cessaire de donner le domaine TEXT √† un code postal.

## Cl√© primaire

<div class="important">
    <p><strong>D√©finition</strong> : Une <strong>cl√© primaire</strong> est un attribut (ou une r√©union d'attributs) qui permet d'identifier de mani√®re <em>unique</em> un enregistrement d'une relation.</p>
</div>

### La relation _Album_

<blockquote class="question">
    <p>Et l√† c'est le drame : quel attribut de notre relation <em>Album</em> peut-il jouer le r√¥le de cl√© primaire ? ... aucun !</p>
</blockquote>

En effet, il est (fort) possible que plusieurs albums aient le m√™me titre (ne serait-ce qu'un album disponible en plusieurs exemplaires), que plusieurs albums concernent le m√™me artiste et que plusieurs albums soient sortis la m√™me ann√©e ! De mani√®re √©vidente, l'attribut `dispo` ne permet pas d'identifier un album de mani√®re unique non plus.

Pour y rem√©dier, on va cr√©er "artificiellement" un attribut `id_album` (de type INT) qui va jouer le r√¥le de cl√© primaire, chaque album poss√©dant un attribut `id_album` diff√©rent (on utilise "id" pour "identifiant").

Pour symboliser la cl√© primaire dans le sch√©ma d'une relation, il est de coutume de la souligner. Ainsi, notre relation _Album_ a pour sch√©ma :

<pre style="padding-bottom:10px;">
    <code><em>Album</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_album</em></span> INT, <em>titre</em> TEXT, <em>artiste</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL)</code>
</pre>

et correspond √† la table suivante :

| id_album | titre | artiste | annee | dispo |
| --- | --- | --- | --- | --- |
| 2 | I Still Do | Eric Clapton | 2016 | Vrai |
| 5 | Axis: Bold as Love | Jimi Hendrix | 1967 | Faux |
| 24 | Continuum | John Mayer | 2006 | Faux |
| 25 | Continuum | John Mayer | 2006 | Faux |
| 8 | Riding With The King | Eric Clapton et B.B. King | 2000 | Faux |
| 11 | Don't explain | Joe Bonamassa et Beth Hart | 2011 | Vrai |
| ... | ... | ... | ... | ... |

### La relation _Client_

On suppose que le disquaire r√©colte les informations suivantes sur ses clients : un nom, un pr√©nom et une adresse email. 

- Si on choisit le nom ou le pr√©nom comme cl√© primaire, il sera impossible d'enregistrer deux clients portant le m√™me nom ou portant le m√™me pr√©nom, ce qui n'est pas rare.
- De m√™me, si on choisit le couple (nom, pr√©nom) comme cl√© primaire, cela emp√™che d'enregistrer des homonymes, ce qui peut tr√®s bien arriver √©galement.
- Si on choisit l'adresse email comme cl√© primaire, cela impliquerait que deux clients ne peuvent pas avoir la m√™me adresse email. Cela peut sembler convenir... mais on se heurterait au cas o√π un client ne poss√®de pas d'adresse email (un jeune enfant par exemple, d'ailleurs ses parents ne pourraient m√™me pas lui cr√©er un compte √† son nom avec leur propre adresse email s'ils sont eux-m√™mes clients)

Comme pour la relation _Album_, il semble judicieux de cr√©er une cl√© primaire _artificielle_, nomm√©e `id_client` la relation _Client_ qui aurait alors pour sch√©ma :

<pre style="padding-bottom:10px;">
    <code><em>Client</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_client</em></span> INT, <em>nom</em> TEXT, <em>prenom</em> TEXT, <em>email</em> TEXT)</code>
</pre>

et correspond √† la table suivante :

| id_client | nom | prenom | email |
| --- | --- | --- | --- |
| 1 | Dupont | Florine | dupont.florine@domaine.net |
| 5 | Pacot | Jean | jpacot@music.com |
| 8 | Rouger | L√©a | NULL |
| 3 | Marchand | Gr√©goire | greg.marchand49@music.com |

**Remarque** : Il est parfois possible de trouver une cl√© primaire sans avoir besoin d'en cr√©er une artificiellement. Par exemple dans une relation _Livre_, le num√©ro ISBN pourrait jouer le r√¥le de cl√© primaire car il est unique pour chaque livre existant. Cependant en pratique, un SGBDR va souvent cr√©er un identifiant unique pour chaque enregistrement d'une entit√© dans la base de donn√©es. Pour cela, un m√©canisme d'_auto-incr√©ment_ est mis en oeuvre (si la cl√© primaire de la derni√®re entit√© cr√©√©e est l'entier 57, alors la cl√© primaire d'une nouvelle entit√© cr√©√©e sera 58)

### Contrainte de relation

Une des contraintes d'int√©grit√© d'une base de donn√©es s'appelle la _contrainte de relation_. Celle-ci impose que chaque enregistrement d'une relation soit _unique_. C'est donc la pr√©sence d'une _cl√© primaire_ dans chaque relation qui permet de r√©aliser cette contrainte.

## Cl√© √©trang√®re

### La relation _Emprunt_

Pour un emprunt, on aimerait conna√Ætre l'album emprunt√©, le client qui a emprunt√© l'album et la date d'emprunt.

On voit donc que les enregistrements de la relation _Emprunt_ font r√©f√©rence √† des enregistrements des relations _Album_ et _Client_. On peut imaginer le sch√©ma suivant pour la relation _Emprunt_, qui contient toutes les informations n√©cessaires :

<pre style="padding-bottom:10px;">
    <code><em>Emprunt</em>(<em>id_client</em> INT, <em>nom</em> TEXT, <em>prenom</em> TEXT, <em>email</em> TEXT, <em>id_album</em> INT, 
            <em>titre</em> TEXT, <em>artiste</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL, <em>date</em> DATE)</code>
</pre>

Cela donnerait une table _Emprunt_ du genre :

| id_client |  nom | prenom | email | id_album | titre | artiste | annee | dispo | date |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1 | Dupont | Florine | dupontf@domaine.net | 5 | Axis: Bold as Love | Jimi Hendrix | 1967 | Faux | 10/09/2021 |
| 3 | Mira | Gr√©goire | gmira49@music.com | 8 | Riding With The King | Eric Clapton et B.B. King | 2000 | Faux | 18/08/2021 |
| 3 | Mira | Gr√©goire | gmira49@music.com | 24 | Continumm | John Mayer | 2006 | Faux | 18/08/2021 |
| 5 | Pacot | Jean | jpacot@music.com | 25 | Continumm | John Mayer | 2006 | Faux | 12/09/2021 | 

<blockquote class="attention">
    <p><strong>Attention</strong> :  la relation <em>Emprunt</em> n'est pour le moment pas satisfaisante, nous allons l'am√©liorer un peu plus bas.</p>
</blockquote>

<div class="important">
    <p><strong>D√©finition</strong> : Une <strong>cl√© √©trang√®re</strong> d'une relation est un attribut qui est cl√© primaire d'une autre relation de la base de donn√©es.</p>
</div>

Ainsi, la relation _Emprunt_ donn√©e plus haut poss√®de deux *cl√©s √©trang√®res* : `id_client` et `id_album` (qui sont des cl√©s primaires respectives des relations _Client_ et _Album_.).

<blockquote class="question">
    <p>Que peut-on choisir comme cl√© primaire de la relation <em>Emprunt</em> ?</p>
</blockquote>

Une m√™me personne pouvant emprunter plusieurs albums en m√™me temps, il n'est pas possible d'utiliser les attributs correspondant √† la relation _Client_. En revanche, comme un m√™me album ne peut pas √™tre emprunt√© par deux clients en m√™me temps, on peut choisir `id_album` comme _cl√© primaire_ de la relation _Emprunt_.

### Redondance des donn√©es

Dans une base de donn√©es relationnelle, il faut √©viter la _redondance des donn√©es_ c'est-√†-dire qu'une relation ne doit pas contenir des informations d√©j√† disponibles dans d'autres relations (et de mani√®re g√©n√©rale, √©viter que des m√™mes informations se retrouvent dans plusieurs enregistrements d'une m√™me relation).

Par exemple, la relation _Emprunt_ telle que nous l'avons d√©finie plus haut contient beaucoup d'informations redondantes. En effet :

- pour faire le lien avec l'emprunteur, il est inutile de garder simultan√©ment les attributs `id_client`, `nom`, `prenom` et `email` : il suffit de conserver l'attribut `id_client` qui fait enti√®rement r√©f√©rence √† un unique client de la relation _Client_ dans laquelle on retrouve le nom, le pr√©nom et l'adresse email de celui-ci. Ainsi, on √©vite la redondance des attributs `nom`, `prenom` et `email` : on ne les garde que dans la relation _Client_ ;
- de m√™me, pour faire le lien avec l'album emprunt√©, il suffit de conserver l'attribut `id_album` qui caract√©rise enti√®rement un album et permet de retrouver le titre, l'artiste, l'ann√©e et la disponibilit√© dans la relation _Album_.

**Moralit√©** : ce sont les cl√©s √©trang√®res (ici `id_client` et `id_album`) qui permettent √† elles seules de faire le lien avec des entit√©s d'autres relations, et on √©vite ainsi les redondances.

Sachant que l'on peut noter les cl√©s √©trang√®res d'une relation en utilisant un "#", on peut d√©sormais √©crire une version satisfaisante de la relation _Emprunt_ :

<pre style="padding-bottom:10px;">
    <code><em>Emprunt</em>(<em>#id_client</em> INT, <span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_album</em></span> INT, <em>date</em> DATE)</code>
</pre>

<blockquote class="information">
    <p>La cl√© <code>id_album</code> est donc √† la fois cl√© primaire et cl√© √©trang√®re de la relation <em>Emprunt</em>. La cl√© <code>id_client</code> est une cl√© √©trang√®re mais pas une cl√© primaire de la relation <em>Emprunt</em> : cela implique qu'un m√™me client peut se trouver plusieurs fois dans la relation <em>Emprunt</em>, il peut donc emprunter plusieurs albums √† la fois (et heureusement !).</p>
</blockquote>

On obtient ainsi la table correspondant √† la relation _Emprunt_ :

| id_client | id_album | date |
| --- | --- | --- |
| 1 | 5 | 10/09/2021 |
| 3 | 8 | 18/08/2021 |
| 3 | 24 | 18/08/2021 |
| 5 | 25 | 12/09/2021 | 

**Pourquoi √©viter la redondance des donn√©es ?**

La redondance des donn√©es est consid√©r√©e comme une _anomalie_ d'une base de donn√©es, synonyme d'une mauvaise conception de la base. En effet, celle-ci est proscrite pour plusieurs raisons :

- faire appara√Ætre des informations non n√©cessaires √† plusieurs endroits (dans plusieurs relations) d'une base de donn√©es entra√Æne un co√ªt en m√©moire plus important et des performances moindres lorsqu'il s'agira d'effectuer des requ√™tes sur la base ;
- si des corrections doivent √™tre faites, elles doivent √™tre faites √† un seul endroit : imaginez qu'un emprunteur change de nom (ou d'adresse email), si on a pris soin de ne pas le faire appara√Ætre dans la table _Emprunt_, il suffit alors de le modifier (une seule fois) dans la table _Client_ et on n'a pas √† faire la modification sur chaque ligne de la table _Emprunt_. Cela permet d'amener de la _coh√©rence_ √† notre base de donn√©es.

### Contrainte de r√©f√©rence

La coh√©rence et les relations entre les diff√©rentes tables sont assur√©es par les cl√©s √©trang√®res. Elles permettent de respecter ce qu'on appelle les _contraintes de r√©f√©rence_ :

- une cl√© √©trang√®re d'une relation doit n√©cessairement √™tre la cl√© primaire d'une autre relation :

>üëâ cela permet de s'assurer de ne pas ajouter des valeurs fictives ne correspondant pas √† des entit√©s connues de la base de donn√©es ;

- un enregistrement ne peut √™tre effac√© que si sa cl√© primaire n'est pas associ√©e √† des enregistrements li√©s dans d'autres relations :

>üëâ on ne pourrait pas supprimer le client "Dupont Florine" de la relation _Client_ car il appara√Æt dans les enregistrements de la relation _Emprunt_. En effet, sinon la valeur '1' de la cl√© √©trang√®re `id_client` de la table _Emprunt_ ne serait plus une cl√© primaire d'une autre table.
  
- une cl√© primaire ne peut pas √™tre modifi√©e si l'enregistrement en question est associ√© √† des enregistrements li√©s dans d'autres tables :

>üëâ on ne pourrait pas modifier la cl√© primaire `id_client`  du client "Dupont Florine" dans la relation _Client_ car elle appara√Æt dans les enregistrements de la relation _Emprunt_. En effet, sinon la valeur '1' de la cl√© √©trang√®re `id_client` de la table _Emprunt_ ne serait plus une cl√© primaire d'une autre table.
  
Concr√®tement, une tentative de violation de contrainte de r√©f√©rence provoquerait une erreur du SGBD.

### Liens entre albums et artistes

On termine la mod√©lisation de la structure de la base de donn√©es du disquaire en d√©finissant un peu mieux le lien entre un album et l'artiste (ou les artistes) de l'album.

Pour le moment, il  a √©t√© choisi d'utiliser une cha√Æne de caract√®res pour l'artiste d'un album directement dans la relation _Album_. Cette fa√ßon de faire peut conduire √† quelques probl√®mes :

- rien n'emp√™che d'associer plusieurs fois le m√™me artiste √† un album puisqu'on √©crit ce que l'on veut dans une cha√Æne de caract√®res : on pourrait √©crire `"√âric Clapton et √âric Clapton"` sans que le SGBD ne provoque une erreur, alors m√™me qu'il y aurait un probl√®me de coh√©rence.
- on a de plus un probl√®me de redondance dans le cas (bien que rare) o√π un artiste changerait de nom car il faudrait le modifier pour chaque album de la table _Album_.

Pour pallier √† ces probl√®mes, on peut :

- scinder la relation _Album_ en trois relations : _Album_, _Artiste_ et *Artiste_de* ;
- et utiliser les _cl√©s √©trang√®res_ pour faire les associations n√©cessaires entre les artistes et les albums.

Concr√®tement :

- On retire l'attribut `artiste` de la relation _Album_ :

<pre style="padding-bottom:10px;">
    <code><em>Album</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_album</em></span> INT, <em>titre</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL)</code>
</pre>

- On cr√©e un nouvelle relation, _Artiste_, correspondant uniquement aux diff√©rents artistes et ayant le sch√©ma suivant :

<pre style="padding-bottom:10px;">
    <code><em>Artiste</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_artiste</em></span> INT, <em>nom</em> TEXT, <em>prenom</em> TEXT)</code>
</pre>

- On associe, gr√¢ce aux cl√©s √©trang√®res, les artistes aux albums en cr√©ant une nouvelle relation *Artiste_de* :

<pre style="padding-bottom:10px;">
    <code><em>Artiste_de</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_artiste</em></span> INT, <span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_album</em></span> INT)</code>
</pre>

Dans cette derni√®re relation, les cl√©s √©trang√®res `id_artiste` et `id_album` permettent d'associer les relations _Artiste_ et _Album_. Le _couple_ (`id_artiste`, `id_album`) forme la cl√© primaire de la relation *Artiste_de*. 

Ainsi, un m√™me artiste **et** un m√™me album ne peuvent se trouver plusieurs fois dans la relation, ce qui emp√™che d'associer deux fois le m√™me artiste √† un m√™me album. Mais un m√™me artiste peut √™tre associ√© √† plusieurs albums diff√©rents car `id_artiste` n'est pas cl√© primaire de la relation.

Ces transformations donnent des tables ressemblant √† :

- Relation _Album_ :

| id_album | titre | annee | dispo |
| --- | --- | ---  | --- |
| 2 | I Still Do | 2016 | Vrai |
| 5 | Axis: Bold as Love | 1967 | Faux |
| 24 | Continuum | 2006 | Faux |
| 25 | Continuum | 2006 | Faux |
| 8 | Riding With The King | 2000 | Faux |
| 11 | Don't explain | 2011 | Vrai |

- Relation _Artiste_ :

| id_artiste | nom | prenom |
| --- | --- | --- |
| 1 | Clapton | √âric |
| 3 | Hendrix | Jimi |
| 4 | Mayer | John |
| 8 | B.B. King | NULL |
| 6 | Hart | Beth |
| 15 | Bonamassa | Joe |

- Relation *Artiste_de* :

| id_artiste | id_album |
| --- | --- |
| 1 | 2 |
| 1 | 8 |
| 8 | 2 |
| 4 | 24 |
| 4 | 25 |
| 3 | 5 |
| 6 | 11 |
| 15 | 11 |


D√©sormais, on n'enregistre qu'√† un seul endroit les cha√Ænes de caract√®res correspondant au nom et au pr√©nom de chaque artiste, et lorsque l'on veut faire r√©f√©rence √† cet artiste dans une autre relation, c'est l'entier correspondant √† `id_artiste` qui est enregistr√© en m√©moire. Ainsi, si un artiste change de nom, il suffit alors de modifier son nom une seule fois dans la relation _Artiste_.

Par ailleurs, on obtient √©galement un gain :
- en m√©moire, car un entier est (presque tout le temps) stock√© sur moins de bits qu'une cha√Æne de caract√®res ;
- en performance, car lorsque l'on effectuera des recherches dans la base (comme la recherche de tous les albums d'un artiste donn√© par exemple), les comparaisons entre deux entiers sont plus rapides qu'entre deux cha√Ænes de caract√®res.

## Sch√©ma (final) de notre base de donn√©es

Avec toutes les am√©liorations apport√©es, le sch√©ma (ou structure) de la base de donn√©es du disquaire est le suivant :

<pre style="padding-bottom:10px;">
    <code><em>Album</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_album</em></span> INT, <em>titre</em> TEXT, <em>annee</em> INT, <em>dispo</em> BOOL)</code>
</pre>
<pre style="padding-bottom:10px;">
    <code><em>Artiste</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_artiste</em></span> INT, <em>nom</em> TEXT, <em>prenom</em> TEXT)</code>
</pre>
<pre style="padding-bottom:10px;">
    <code><em>Artiste_de</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_artiste</em></span> INT, <span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_album</em></span> INT)</code>
</pre>
<pre style="padding-bottom:10px;">
    <code><em>Client</em>(<span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>id_client</em></span> INT, <em>nom</em> TEXT, <em>prenom</em> TEXT, <em>email</em> TEXT)</code>
</pre>
<pre style="padding-bottom:10px;">
    <code><em>Emprunt</em>(<em>#id_client</em> INT, <span style="padding-bottom:3px; border-bottom: 1px solid black;"><em>#id_album</em></span> INT, <em>date</em> DATE)</code>
</pre>

On peut aussi repr√©senter graphiquement ce sch√©ma par le diagramme suivant :

<img class="centre image-responsive" src="data/diagramme_bdd.png" alt="diagramme">

<span class="image-licence" style="display: block;text-align: center;font-size: 0.9em;color: #aaa;">R√©alis√© avec l'application <a href="https://app.quickdatabasediagrams.com/#/d/bbXJBD" target="_blank">quickdatabasediagrams.com</a>
</span>

**Remarques** : Dans ce diagramme :

- les cl√©s primaires sont mat√©rialis√©es ici par un symbole de cl√© (et en gras). Mais on trouve aussi parfois l'acronyme CP, pour _cl√© primaire_, ou plus souvent sa version anglaise PK, pour _primary key_.
- les cl√©s √©trang√®res sont mat√©rialis√©es par un trait marquant les associations entre les diff√©rentes relations (et en gras). Mais on trouve aussi souvent l'acronyme FK (_foreign key_, traduction de _cl√© √©trang√®re_).


# Bilan

- Pour stocker, manipuler, traiter des donn√©es de plus en plus nombreuses, l'utilisation de fichiers texte ou tabulaire (CSV) ne suffit plus. Pour cela, on utilise des bases de donn√©es (relationnelles), beaucoup plus performantes. Les logiciels de type SGBD permettent aux utilisateurs d'interagir avec une base de donn√©es.
- Le **mod√®le relationnel** permet de mod√©liser les relations entres plusieurs informations et les relier entre elles. Une relation est un ensemble d'enregistrements poss√©dant des **attributs**, chacun d'eux ayant un **domaine** d√©fini qui permet de r√©aliser la _contrainte de domaine_ de la base de donn√©es. Le _sch√©ma d'une relation_ est la liste de tous les attributs et de leurs domaines respectifs.
- Une **base de donn√©es relationnelle** n'est autre qu'un ensemble de relations et le sch√©ma (structure) d'une base de donn√©es relationnelle est l'ensemble des sch√©mas des relations la constituant.
- Chaque relation d'une base de donn√©es doit poss√©der une **cl√© primaire** permettant de caract√©riser de mani√®re unique chaque entit√© de la relation. Ces cl√©s primaires permettent de r√©aliser la _contrainte de relation_  de la base de donn√©es.
- Certaines relations poss√®dent un lien entre elles. Ce lien est r√©alis√© par des **cl√©s √©trang√®res** (qui sont des cl√©s primaires d'autres relations) qui assurent les _contraintes de r√©f√©rence_ de la base de donn√©es et permettent d'√©viter les redondances.
- La conception de la structure d'une base de donn√©es (son sch√©ma) est un travail indispensable pour s'assurer qu'elle ne contient pas d'anomalies. Vous devez √™tre capable de rep√©rer des anomalies dans le sch√©ma d'une base de donn√©es, cela sera abord√© plus en d√©tails en exercices.
- Dans un prochain chapitre, nous utiliserons un SGBD pour interagir avec une vraie base de donn√©es, gr√¢ce au langage SQL (Structured Query Language).

---

**R√©f√©rences :**
- Equipe √©ducative DIU EIL, Universit√© de Nantes.
- Cours OpenClassrooms pour l'id√©e de la base de donn√©es d'un disquaire : [D√©couvrez le framework Django](https://openclassrooms.com/fr/courses/4425076-decouvrez-le-framework-django).
- Livre *Num√©rique et Sciences Informatiques, 24 le√ßons, Terminale*, T. BALABONSKI, S. CONCHON, J.-C. FILLIATRE, K. NGUYEN, √©ditions ELLIPSES.
- Livre *Prepabac NSI, Tle*, G. Connan, V. Petrov, G. Rozsavolgyi, L. Signac, √©ditions HATIER.
- Cours de Gilles Lassus sur le [mod√®le relationnel](https://github.com/glassus/terminale_nsi/blob/main/docs/T4_Bases_de_donnees/4.1_Modele_relationnel/cours.md)

---
Germain BECKER, Lyc√©e Mounier, ANGERS

Ressource √©ducative libre distribu√©e sous [Licence Creative Commons Attribution - Pas d‚ÄôUtilisation Commerciale - Partage dans les M√™mes Conditions 4.0 International](http://creativecommons.org/licenses/by-nc-sa/4.0/) 

![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)