# Chapitre 1 - Les bases de données relationelles


## I. Bases de données

L'année dernière nous avons travaillé sur des données structurées en les stockant dans des fichiers au format CSV ou TXT. Même si cette méthode de stockage de l'information peut s'avérer pratique dans certains cas précis, il est souvent souhaitable d'utiliser une **base de données** pour stocker des données.

Le terme **base de données** est apparu au début des années 60. C'est l'apparition des disques durs à la fin des années 50 qui a permis d'utiliser les ordinateurs pour stocker et manipuler des données.

Avec l'apparition du Web, la quantité de données à stocker a littéralement explosé. Aujourd'hui, la plupart des sites internet utilisent au moins une base de données. Les bases de données jouent un rôle fondamental dans notre monde devenu
numérique.

### Les systèmes de gestion de base de données

Dans une base de données, l'information est stockée dans des fichiers, mais à la différence des fichiers au format CSV, il n'est pas possible de travailler sur ces données avec un simple éditeur de texte. Pour manipuler les données présentes dans une base de données, il est nécessaire d'utiliser un type de logiciel appelé **Système de Gestion de Base de
Données** très souvent abrégé en **SGBD**. 

Il existe une multitude de SGBD : des gratuits, des payants, des libres ou bien encore des propriétaires. Les SGBD permettent de grandement simplifier la gestion des bases de données :

- Les SGBD permettent de **gérer la lecture, l'écriture ou la modification des informations** contenues dans une base de données.

- Les SGBD permettent de **gérer les autorisations d'accès** à une base de données. Il est en effet souvent nécessaire de contrôler les accès par exemple en permettant à l'utilisateur A de lire et d'écrire dans la base de données alors que l'utilisateur B aura uniquement la possibilité de lire les informations.

- Les fichiers des bases de données sont stockés sur des disques durs qui peuvent parfois subir des pannes. Il est souvent nécessaire que l'accès aux informations contenues dans une base de données soit **maintenu**, même en cas de panne matérielle. Les bases de données sont donc dupliquées sur plusieurs ordinateurs. Toute modification de la base de données présente sur l'ordinateur A doit entrainer la même modification de la base de données présente sur l'ordinateur B, il est fondamental d'avoir des copies parfaitement identiques en permanence. Ce sont aussi les SGBD qui assurent la **maintenance** des différentes copies de la base de données.

- Plusieurs personnes peuvent avoir besoin d'accéder aux informations contenues dans une base données en même temps. Cela peut parfois poser problème, notamment si les 2 personnes désirent modifier la même donnée au même moment (on parle d'accès concurrent). Ces problèmes d'**accès concurrent** sont aussi gérés par les SGBD.

Comme nous venons de la voir, les SGBD jouent un rôle important. C'est pour ça que l'utilisation des bases de données est courante et est plus utilisée que des solutions plus simples à mettre en oeuvre et beaucoup plus limitées comme les fichiers au format CSV.

### <span style="color:red">EXERCICE :</span>

Trouvez 2 exemples de domaines d'activités qui utilise les bases de données :

- 

- 

...

## II. Bases de données relationnelles

Il existe différents types de bases de données, par exemple, les bases de données hiérarchiques, les bases de données objet, les bases de données nosql ou bien encore **les bases de données relationnelles**. Les bases de données relationnelles sont le plus utilisées au monde, c'est ce type de base de données que nous allons étudier.

Les bases de données relationnelles ont été **mises au point en 1970 par Edgar Franck Codd**, informaticien britannique (1923-2003). Ces bases de données sont basées sur la théorie mathématique des ensembles.

## III. Relation (table)

Ce terme technique, **relation**, représente un tableau à 2 dimensions composé d'un entête (les **attributs** et leur **domaine**) et d'un corps (les **données**).

Les données de chaque ligne sont liées (ce sont les **enregistrements** ou **T-uplet**), de même que le contenu de chaque colonne est lié à l'entête de cette colonne (il doit être du **domaine défini pour l'attribut**).

À noter que l'on emploie aussi le terme "table" à la place de "relation".

Voici un exemple de relation :

![image.png](attachment:image.png)

### <span style="color:red">EXERCICE :</span>
Soit la relation suivante :

![image.png](attachment:image.png)

## IV. Domaine (type)

Pour chaque attribut de cette relation, il est nécessaire de définir un domaine (cela équivaut au type des données). Nous avons vu l'année dernière que les informations numériques peuvent être des entiers, des flottants, une chaîne de caractères... Donner un domaine à un attribut, c'est définir le type de données de la colonne.

- Le domaine de l'attribut "id" correspond à l'ensemble des entiers (noté INT) : la colonne "id" devra obligatoirement contenir des entiers.

- Le domaine de l'attribut "titre" correspond à l'ensemble des chaînes de caractères (noté TEXT).

- Le domaine de l'attribut "note" correspond à l'ensemble des entiers positifs.

Au moment de la création d'une relation, il est **nécessaire** de renseigner le domaine de chaque attribut.

Nous distinguerons pour le moment les attributs suivants : **INT**, **FLOAT** et **TEXT** (il existe des variantes à ces termes qui peuvent dépendre du SGBD ou de la manière dont nous souhaitons stocker la donnée dans la machine)

Le SGBD s'assure qu'un élément ajouté à une relation respecte bien le domaine des attributs. Si vous essayez d'ajouter une note non entière (par exemple 8.5), le SGBD signalera cette erreur et n'autorisera pas l'écriture de cette nouvelle donnée.

### <span style="color:red">EXERCICE :</span>
Soit la relation suivante :

![image.png](attachment:image.png)

## V. Clé primaire

Une relation ne peut pas contenir 2 lignes identiques, c'est une contrainte très importante dans les bases de données relationnelles.

Par exemple, la situation ci-dessous n'est pas autorisée :

![image.png](attachment:image.png)

Pour respecter cette contrainte, il est défini la notion de **clé primaire**.

Une clé primaire est un attribut dont la valeur sera unique pour chaque ligne (la valeur permettra d'identifier une ligne précise).

Autrement dit, si un attribut est considéré comme clé primaire, on ne doit pas trouver dans toute la relation 2 fois la même valeur pour cet attribut.

L'intérêt d'un SGBD est qu'une fois une clé primaire définie, **le logiciel empêchera tout doublon sur cet attribut**.

Choix de la clé primaire : Il faut choisir en tant que clé primaire une information qui ne peut pas être redondante. Si elle n'existe pas, on vient créer cette information (souvent un attribut "id").

### <span style="color:red">EXERCICE :</span>
Reprenons la relation suivante :
![image.png](attachment:image.png)

Il nous reste donc l'attribut "id". L'attribut "id" ("id" comme "identifiant") a été placé là pour jouer le rôle de clé primaire.

En effet, à chaque fois qu'un roman est ajouté, son "id" correspond à **l'incrémentation** de l'id précédemment (+1). Il est donc impossible d'avoir deux romans avec le même id. Ajouter un attribut "id" afin qu'il puisse jouer le rôle de clé primaire est une pratique courante.

Dans le cas précis qui nous intéresse, il aurait été possible de ne pas utiliser d'attribut "id", car chaque livre édité possède un numéro qui lui est propre : l'ISBN, cet ISBN aurait donc pu jouer le rôle de clé primaire.

## VI. Clé étrangère

### A. Duplication de données

Voici la relation LIVRES complétée par des informations supplémentaires sur les auteurs :

![image.png](attachment:image.png)

Nous avons ajouté 3 attributs ("prenom", "naissance" et "langue"). Nous avons aussi renommé l'attribut "auteur" en "nom". Comme vous l'avez peut-être remarqué, il y a pas mal d'informations dupliquées, par exemple, on retrouve 3 fois le groupe "K.Dick, Philip, 1928, anglais".

Dans une base de données, on évite au maximum de dupliquer l'information.

Ce que l'on appelle **contenu dupliqué** est du contenu qui **représente exactement la même chose**, et qui du coup doit être actualisé partout si une des valeurs est modifiée. (Une note identique N'EST PAS un contenu dupliqué).

Si nous nous sommes trompés, par exemple, sur l'année de naissance d'un auteur, il faudra le modifier partout où cette donnée est présente.

Imaginons une liste d'auteurs contemporains, où un des champs contient la ville du domicile, le nom de son conjoint ou le nombre d'enfants, toutes ces informations sont amenées à changer dans le temps et nous allons vouloir éviter au maximum des modifications sur un grand nombre d'enregistrements.

### B. Notion de clé étrangère

La solution est de travailler avec 2 relations au lieu d'une seule et de créer un lien entre elles.

![image.png](attachment:image.png)

Nous avons créé une relation AUTEURS et nous avons modifié la relation LIVRES : nous avons remplacé l'attribut "auteur" par un attribut "id_auteur".

L'attribut "id_auteur" de la relation LIVRES permet de créer un lien avec la relation AUTEURS. "id_auteur" correspond à l'attribut "id" de la relation AUTEURS.

L'introduction d'une relation AUTEURS et la mise en place de liens entre cette relation et la relation LIVRES permettent d'éviter la redondance d'informations.

**Pour établir un lien entre 2 relations**, on ajoute à une des relations un attribut qui prendra les valeurs de la clé primaire de l'autre relation. Cet attribut que l'on ajoute est appelé **clé étrangère** (l'attribut correspond à la clé primaire d'une autre table, d'où le nom).

Dans l'exemple page précédente, l'attribut "id_auteur" de la relation LIVRES permet bien d'établir un lien entre la relation LIVRES et la relation AUTEURS, "id_auteur" correspond bien à la clé primaire de la relation AUTEURS, conclusion : "id_auteur" est une clé étrangère.

Pour préserver **l'intégrité** d'une base de données, il est important de bien vérifier que toutes les valeurs de la clé étrangère correspondent bien à des valeurs présentes dans la clé primaire, nous aurions un problème d'intégrité de la base de données si une valeur de l'attribut "id_auteur" de la relation LIVRES ne correspondait à aucune valeur de la clé primaire de la relation AUTEURS (si l'on supprime un auteur, il faut supprimer auparavant toutes les entrées des autres tables faisant référence à cet auteur).

### <span style="color:red">EXERCICE :</span>

![image.png](attachment:image.png)

- En partant de la relation FILMS ci-dessus, créez une relation REALISATEURS (attributs : id, nom, prenom et ann_naissance).
Vous trouverez toutes les informations des réalisateurs sur le Web.

- Modifiez ensuite la relation FILMS afin d'établir un lien entre les relations FILMS et REALISATEURS.

- Quel attribut joue le rôle de la clé étrangère ?

**Question 1 :**

Titre colonne 1 | Titre colonne 1 | Titre colonne 1 
 :---: | :---: | :---: 
Cellule 1.1 | Cellule 1.2 | Cellule 1.3 
Cellule 2.1 | Cellule 2.2 | Cellule 2.3

**Question 2 :**

Titre colonne 1 | Titre colonne 1 | Titre colonne 1 
 :---: | :---: | :---: 
Cellule 1.1 | Cellule 1.2 | Cellule 1.3 
Cellule 2.1 | Cellule 2.2 | Cellule 2.3

**Question 3 :**

...


## VII. Schéma relationnel

On appelle **schéma relationnel** l'ensemble des relations présentes dans une base de données.

Quand on vous demande le schéma relationnel d'une base de données, il est nécessaire de fournir les informations suivantes :
- Les noms des différentes relations
- pour chaque relation, la liste des attributs avec leur domaine respectif

Et vous devez également préciser les clés primaires et étrangères :
- Les clés primaires doivent être soulignées
- Les clés étrangères portent un # devant leur nom

**Voici un exemple pour les relations LIVRES et AUTEURS :**

- AUTEURS(id : INT, nom : TEXT, prenom : TEXT, ann_naissance : INT, langue_ecriture : TEXT)
- LIVRES(id : INT, titre : TEXT, #id_auteur : INT, ann_publi : INT, note : INT)


### <span style="color:red">EXERCICE :</span>

Donnez le schéma relationnel de la base de données que vous avez défini à la fin de la partie VI.

### <span style="color:red">EXERCICE SYNTHÈSE :</span>

On considérera une base de données constituée de la relation PRODUITS :

![image.png](attachment:image.png)

- Expliquez en quelques lignes ce qu’est un SGBD (système de gestion de base de données).

- Expliquez en quelques lignes l’avantage d’une base de données par rapport au stockage des données dans un fichier de type CSV

- Donnez le nom d’un des attributs de la relation PRODUITS

- Donnez un exemple de t-uplet de la relation PRODUITS

- Parmi tous les attributs de la relation PRODUITS, déterminez les attributs qui peuvent jouer le rôle de clé primaire ? (justifiez votre réponse).

- Parmi tous les attributs de la relation PRODUITS, déterminez les attributs qui peuvent être remplacés par une clé étrangère ? (justifiez votre réponse).