# Bases de données relationnelles et ORM


## Introduction

Habituellement, les langages de programmation intègrent des outils de connexion aux bases de données. C'est le cas par exemple de PHP nativement avec PDO. NodeJS a des modules dont `mysql`, idem pour Python, etc.

L'avantage de ces connecteurs est qu'ils sont très légers d'emploi et permettent d'accéder aux bases de données (pas seulement relationnelles, d'ailleurs) dans leur langage propre, comme SQL.

L'inconvénient est qu'il y a généralement beaucoup de travail à faire en dehors des requêtes, car le format tabulaire des bases de données relationnelles n'est pas _isomorphe_ au format des objets généralement urtilisés dans les applications.

> **N.B.** Ceci reste relativement vrai pour d'autres types de bases de données (document, graphe, etc.), mais la question se pose en d'autres termes, comme nous le verrons plus tard.

Il faut en effet convertir en permanence des tableaux de tableaux de valeurs en collections d'objets et réciproquement ; il faut conserver la mémoire des objets qui ont déjà été écrits dans la base de données pour les mettre à jour avec sécurité ; il faut gérer les relations entre les entités ; etc. 

Pour rendre plus transparentes soutes ces tâches « administratives », on a donc inventé des objets particuliers, appelés : Objet Relational Mapper ou **ORM**.

La tâche d'un ORM est donc de faire en sorte que l'application n'ait pas à se soucier du stockage des données (et au-delà de la question de la _persistence_, mais nous n'entrerons pas ici dans ces subtilités). Tout ce qui importe à l'application est de pouvour archiver ou récupérer des _objets_ conformes au _modèle du domaine_ de l'application.

Celui-ci est généralement un peu différent du modèle relationnel. On le voit en particulier dans les associations « _many-to-many_ », qui sont gérées très naturellement par des formalismes comme UML ou le modèle Objet, mais qui nécessitent l'introduction de tables de jointure dans les schémas de bases de données relationnelles.

Les ORM (comme beaucoup de choses) viennent du monde Java, où me plus connu est **Hibernate**. En PHP, on utilisera souvent **Doctrine** ; en JS il en existe à foison.

> **N.B.** Il existe les mêmes outils pour les bases de données orientées document (MongoDB), appelés ODM typiquement Mongoose (voire Doctrine)

Le principal ORM pour Python s'appelle **SQLAlchemy**, et c'est par lui que nous allons explorer l'utilisation des SGBDR dans les applications.


### Préparation

Pour des besoins professionnels d'exploitation, nous privilégierions des outils comme **MariaBD** ou **PostgreSQL**, mais si cela s'avère compliqué, les exemples marchent tout aussi bien avec une base de données légère comme **SQLite**.

Comme habituellement en Python, on installe SQLAlchemy avec pip :
```bash
pip install sqlalchemy
```

## Gestion de base de données

### Connexions

La première chose à faire lorsque l'on veut utiliser une base de données est de se connecter. Pour cela, riende plus simple :

In [1]:
import sqlalchemy

# dsn = Data Source Name, format pour décrire les noms de bases de données
engine = sqlalchemy.create_engine(dsn)

NameError: name 'dsn' is not defined

Le DSN est spécifique à chaque base. Il répond toutefois à un format normalisé :
```
# protocole = type de base de données
<protocole>//<utilisateur>:<mot_de_passe>@<serveur>:<port>/<base_de_données>
```
Par exemple, pouser se connecter à une base MySQL locale, on écrira :
```
# Notez le `:` du protocole, comme dans `http:`
mysql://root:root@localhost:3306/store_1
```
SQLAlchemy repose sur des _pilotes_ propres à chaque base de données, qui s'occupent concrètement de la connexion. Bien que cela ne soit pas indispensable, on peut le préciser :
```
# Notez le `:` du protocole, comme dans `http:`
mysql+pymysql://root:root@localhost:3306/store_1
```
En pratique, le choix du pilote n'a pas beaucoup d'importance.

Exemple pour SQLite
```
sqlite3:///3wa.sqlite3
```

Une fois la connexion établie, vous pouvez accéder à la base de données exactement comme vos le feriez avec n'importe quelle bibliothèque SQL :

In [None]:
with engine.connect() as connector:
    # `execute` exécute la requête et rend les résultats sousforme de liste
    # `text`construit la requête à partir de la chaîne de caractères
    result = connector.execute(sqlalchemy.text("SELECT * FROM person"))
    for row in result:
        print(f" - {row['firstName']} {row['lastName']} ([row['country']])")

> **Eviter les injections SQL** Un bonne pratique de sécurité consiste à je **jamais** construire une requête SQL en concaténant divers fragments de chaînes de caractères,comme, typiquement :
>```python
>name = 'Hector'
>request = f"SELECT * FROM person WHERE firstName = {name}"
>```
> Ceci est une porte ouverte aux injections SQL.
> Pour cela, la fonction `text`permet de **préparer les requêtes** en insérant des étiquettes :
>```python
> # Préparation de la requête, les étiquettes sont préfixées par `:`
> request = sqlachemy.text("SELECT * FROM person WHERE firstName = :name")
> # On assigne une valeur ax étiquettes lors de l'exécution
> result = connector.execute(request, name='Hector')
>```
> Le moteur de requêtes vérifiera, lors de l'exécution, qu'aucune injection n'est possible.

Dans la pratique, on utilisera plutôt une session qui enveloppera la connexion. Pour cela, ilsuffit d'ajouter :

In [None]:
# Import du module `orm`
import sqlalchemy.orm

# Fabrique d'une classe de session
Session = sqlalchemy.orm.sessionmaker()

# Configuration en liant le connecteur à la session
Session.configure(bind=engine)

# Instanciation de la session
session_1 = Session()

#### Syntaxe objet des requêtes

La  manière la plus simple d'exécuter des requêtes SQL est de les écrire dans un format textuel comme dans l’exemple ci-dessus. Néanmoins, cela ouvre la porte, dans certaines circonstances, à d'éventuelles attaques.

C'est pour cela que SQLALchemy propose une API objet pour les requêtes. Celle-ci est moins directe à manipuler, mais elle offre plusieurs avantages. En partticulier, elle permet une construction progressive des requêtes,qui ne respecte pas nécessairement la séquence textuelle finale.

A titre d'exemple, nous pourrions réécrire la reuqête précédente ainsi :

In [None]:
# `c` est pour `column`
request = select(person.c.firstName, person.c.lastName, person.c.country).where(text("firstName = :name"))

Cet exemple mêle deux formes de syntaxes, ce qui est un peu déroutant au départ, mais parfaitement légitime.

## Modèles

Dans la section précédente, nous avons utilisé SQLAlchemy comme un simple moteur de requêtes, établissant une connexion et dialoguant avec la base de données par le biais d'échanges SQL classiques.

Mais l'intérêt, comme nous l'avons dit au début, est de mettre en correspondance des objets de l'application avec des tables du schéma relationnel. Pour cela, il va falloir construire un modèle objet de la base.

Le modèle sera constitué de l'ensemble des classes (ou entités) dont vous avez besoin. Un exemple de base :

In [None]:
from sqlalchemy import Column, String, Integer
from sqlalchemy.ext.declarative import declarative_base

# Création d'une classe racine pour toutes les autres classes du modèle
Base = declarative_base()

class Person(Base):
    # Propriété spéciale pour associer une entité (modèle objet) àune table (modèle relationnel)
    __tablename__ = 'person'
    # Les propriétés dont définies au niveau de la classe
    # Ce sont des objets, associés à un type SQL et d'éventuelles options
    id = Column(Integer, primary_key=True)
    firstName = Column(String)
    lastName = Column(String)
    country = Column(String)

> **N.B.** Rappelons que les variables définies explicitement dans une classe sont _à la fois_ des propriétés de classe _et_ des propriétés des einstances.

Pour peu que nous ayons une configuration prête, nous pouvons maintenant envoyer une requête simple :

results = session.query(Person).all()

- La session nous permet d'utiliser la méthode `query`
- Celle-ci indique quelles sont les données à recueillir (ici, l'intégralité des propriétés des personnes)
- La méthode `all` indique nous voulons récupérer l'ensemble des enregistrements de la table
- Grâce à ce mécanisme, nous ne recueillons plus des listes de valeurs, mais bien une collection d'obejts de la classe Person

Comme vous le voyez, le travail est simplifié et, en tant que développeurs, nous pouvons rester dans un seul environnement logique, celui des objets de notre application.


### Modèles complexes

Naturellement, le modèle du domaine d'une application est raement aussi simple. D'une part, il peut y avoir non seulement de nombreuses entités, mais celles-ci entretiennent entre elles des associations de divers types.

Nous allons devoir dire à SQLAlchemy, comment lier une personne à des publications, par exemples, ou à des amis.

Premièrement, définissions une publication (nous sommes sur un réseau social) :

In [None]:
class Post(Base):
    # Propriété spéciale pour associer une entité (modèle objet) àune table (modèle relationnel)
    __tablename__ = 'post'
    # Les propriétés dont définies au niveau de la classe
    # Ce sont des objets, associés à un type SQL et d'éventuelles options
    id = Column(Integer, primary_key=True)
    title = Column(String)
    content = Column(String)
    publicationDate = Column(DateTime)

Nous voulons exprimer le fait qu'une personne peut écrire autant de publications qu'elle le souhaite, mais qu'une publication n'est associée qu'à une seule personne, son auteur.

In [None]:
# Pour définir des clefs étrangères
from sqlalchemy import ForeignKey

# Pour qualifier les associations entre entités
from sqlalchemy.orm import relationship, backref

# Par commodité de présentation, on ne s'intéresse ici qu'aux nouvelles propriétés
class AuthoredPost(Post):
    # On indique ajouter une propriété qui est une clef étrangère vers une personne
    # Association `ManyToOne`
    author_id = Column(Integer, ForeignKey("person.id"))
    author = relationship("Project", back_populates="posts")

# Par commodité de présentation, on ne s'intéresse ici qu'aux nouvelles propriétés
class WritingPerson(Person):
    # On indique que nous souhaitons une propriété qui contienne la liste de toutes les publications de la personne
    # Cette propriété est _virtuelle_ ; elle ne correspond à aucune colonne de la table `person`
    # L'ORM collectera silencieusement les données lorsquenous en aurons besoin.
    # L'argument `backref` indique que `posts` est la _référence inverse_  dans l'entité AuthoredPost.
    # Nous ajoutons à AuthoredPost une propriété `author` qui est une référence à un objet
    # là où `author_id` est juste l'indication de la clef étrangère
    posts = relationship("AuthoredPost", backref=backref("author"))


Comme nous sommes sur unréseau social, nous voulons maintenant exprimer le fait que les personnes entrtiennent des relations entre elles (elles se suivent, sont amies, etc.). Nous sommes là tuypiquement dans un cas où chaque personne peut être liée à un nombre indéterminé d'autres personnes.Ce n'est plus aussi simple que précédemment.

In [1]:
# Pour définir des tables de liaison
from sqlalchemy import Table

# 1. Définition d'un _objet_ de liaison
# Cet objet est bien une table de la base de données
# _mais_ il n'est pas considéré comme une _entité_ de notre modèle
# Cette table est nécessaire poour que SQL puisse appréhender des aoosciations ManyToMany
person_links = Table(
    "linked_person",
    Base.metadata,
    Column("inviter_id", Integer, ForeignKey("person.id")),
    Column("invited_id", Integer, ForeignKey("person.id")),
)

# Par commodité de présentation, on ne s'intéresse ici qu'aux nouvelles propriétés
class LinkedPerson(Person):
    # Les arguments `back_populates` jouent le rôle de _sucre syntaxique_
    # pour énoncer que les deux propriétés `known` et `is_known` fonctionnement en miroir
    # (elles sont les deux extrêmités d'une même association)
    knows = relationship('LinkedPerson', secondary=person_links, back_populates="is_known")
    is_known = relationship('LinkedPerson', secondary=person_links, back_populates="knows")


NameError: name 'Base' is not defined

La stratégie de SQL est de décomposer les associations ManyToMany en deux associations ManyToOne antagonistes. C'est le rôle del'objet `person_links`, qui définit deux clefs étrangères. Nous sommes ici dans un cas un peu particulier, car il s'agit d'une auto-liaison;les deux clefs pointent sur la même table.

Nous voyons que les nouvelles propiiétés de la classe `LinkedPerson` resemblent beaucoup à celle introduite plus haut. Ce sont des `relationship`, c'est-à-dire qu'elles sont _virtuelles_, du point de vue de la base de données.

La différence tient dans l'argument `secondary`, qui indique à SQLAlchemy que les deux entités sont liées _via_ une table de liaison (implicite) et que la nature de cette association est bien ManyToMany.

## Requêtes

Le rôle des ORM est simplifier, autant que faire se peut, les transactions entre l'application et la basede données. L'exécution d'une transaction qui modifie l'état de la base de données se fait expicitement par la méthode `commit`. En réalité, c'est exactemnt la même chose qu'en SQL, mais, en général, les bases de données eont lancées en modde « autocommit », ce qui rend ce dernier implicite.


### Ajout

Pour ajouter un objet dans la base, il suffit d'exécuter la méthode `add`.

In [None]:
# Une session est supposée ouverte

# Création d'une personne
person = Person('Jean', 'Valjean')

# Ajout de la personne à la session
session.add(person)

# Validation de la transaction
session.commit()

Beaucoup de choses sont réalisées par SQLAlchemy dans les deux lignes de code. Car il ne s'agit pas seulement d'écrire les données dans la base, il faut également maintenir la cohérence en tre l'état de la base et l'état de l'application. C'est la gestionde la _peristance_.

Le rôle de `add` n'est pas d'écrire les données (c'est celui de `commit`) mais de signaler à SQLAlchemy qu'un nouvel objet vient d'être créé. SQLALchemy va le ranger dans une structure spéciale, appelée « unité de travail » (`UnitOfWork`) qui lui permet de traiter facilement les objets qu'il connaît déjà (i.e. qui ont une clef primaire dans la base).

Une des particularités des ORM est de gérer les cascades, c'est-à-dire les asociations entre objets.

In [None]:
# Création d'une nouvelle personne
person_2 = Person('Cosette')

# Association des deux personnes
# `knows` est une liste à laquelle on ajoute unouvel élément
person.knows.append(person_2)

# Ecriture (sans se soucier de la comlexité de l'objet)
session.commit()

### Mise à jour

Ce que nous venons de dire fait que lors de la modification d'un objet, nous n'avons rien à faire, sauf à demander son écriture.

In [None]:
# Modification de l'objet
person.country = 'France'

# Ecriture
session.commit()

Le moteur de persistance de SQLAlchemy connaît déjà l'objet ; il sait par exemple qu'il ne doit pas créer de nouvel enregistrement (i.e. de nouvelle clef primaire) dans la base.

> **N.B.** la méthode `commit` trite en une seule fois tous les objets odifiés au cours d'une séquence de code. Il n'est donc pas nécessaire de l'appeler pour chaque objet.

Il est possible de fusionner deux objets. Dansce cas, on utilise la méthode `merge` :

In [None]:
person_3 = Person(None, None, 'France')
person = session.merge(person_3)

### Effacement

Effacer un objet est tout aussi simple. Il suffit d'exécuter la méthode `delete`.

In [None]:
# Suppression d'un objet de l'unité de travail
session.delete(person)

# Validation de la transaction
session.commit()

L'effacment, ne particulier peut donner lieu à des comportements inattendus de la part de la base de données.

Admettons que nouvuions effacer une personne ayant écrit n publications, que doit-on faire de ces dernières ? Retour au problème de cascade. Tout dépende de la manière dont vous avez configuré celle-ci dans la base de données.

La cascade est la stratégie qui permet à une base de données _relationnelle_ d'éviter toute incohérence dans les données (chose la plus grave qui puisse arriver). Or si nous supprimons une personne sans supprimer ses publications, nous allons laisser des clefs étrangères _pendantes_ et donc engendrer des erreurs.

Par défaut, la cascade est **stricte**. Si vous essayer d'exécuter le code ci-dessus, vous devriez recevoir une erreur vous isant que la personne ne peut être effacée car ell est associée à des publications (ou à des d'autres pesrsonnes qu'elle connaît). Généralement, c'est la stratégie désirée. Vous devrez affacer toutes les publications _avant_ d'effacer la personne (ou, au moins, les détacher).

Néanmoins, vous pouvez vouloir adopter une stratégie **laxiste**, et vouloir effacer tout l'arbre de l'objet et de ses dépendances. Dans ce cas, nous allons devoir avertir SQLAlchemy de cette stratégie. Vous pouvez le faire selondeux syntaxes différentes qui ont le même effet.

In [None]:
# Solution 1
# La cascade est gérée par la base de données
# Les informations sont portées par la clef étrangère
# Nous devons préciser que l'effacement comprend tous les objets associés
# Par précaution, ajoutons le fait que l'on ne veut pas d'objet « orphelin »
class AuthoredPost(Post):
    author_id = Column(Integer, ForeignKey('person.id', ondelete="CASCADE"), nullable=False)

# Solution 2
# La cascade et gérée par l'ORM
# Les inforamtions sont portées par l'objet principal
# De la même manière, nous autorison la cascas pour l'effacement et l'effacement des objets orphelins
class WritingPerson(Person):
    posts = relationship("AuthoredPost", backref=backref("author"), cascade="delete, delete-orphan")


> **N.B.** les cascade fonctionnent aussi pour les fusions (`merge`) et les mises à jour (`save-update`).

### Recherche

Les expressions qui décrivent des requêtes de recherche (SQL `SELECT`), sonttoutes des méthodes de la classe [`Query`](https://docs.sqlalchemy.org/en/14/orm/query.html).

La manière habituelle d'initialiser une requête est de passer par la session :

In [None]:
q = session.query(Person)

Les arguments qui sont transmis à `query` correspondent à ceux qui seraient listés derrière la clause `SELECT`de SQL. Dans l'exemple, `query(Person)` s'interprète comme l'expression SQL `SELECT * form person`.

#### Clauses

##### FROM

La calsue `FROM` comme nous venons de le dire, est généralement implicite. Elle est déduite des arguments de la méthode `query`

##### WHERE

La clause `WHERE` est engendrée par les méthodes `filter`ou `where`, qui sont deux synonymes. Ces méthodes admettent unnombre variables d'arguments :

In [None]:
# Exemple 1
q = session.query(Person).where(Person.country = 'Suisse')

# Exemple 2
q = session.query(Person).where(Person.country = 'France', Person.id > 10)

# Exemple 3 : en intercalant l'opérateur `and_`
q = session.query(Person).where(and_(Person.country = 'France', Person.id > 10))

Les méthodes de sélection admettent un certain nombre de fonctions :
1. des [opérateurs](https://docs.sqlalchemy.org/en/14/core/operators.html) équivalents à ceux de SQL
1. des [opérateurs avec une syntaxe en colonnes (ColumnElement)](https://docs.sqlalchemy.org/en/14/core/sqlelement.html)

##### JOIN

Les jointures sont également très simples à réaliser, puisque SqlAlchemy détecte automatiquement la cible à partir de la source, comme dans cet exemple :

In [None]:
# On cherche à récupérer les personnes et leurs publications
# La méthode join sera équivalente au SQL : JOIN authored_post AS PO ON PO.author_id = PE.id

q = session.query(WritingPerson, AuthoredPost).join(WritingPerson.posts)

##### GROUP BY / HAVING

L'agrégation de résultats se fait avec la méthode `group_by`:

q = session.query(Person.id).group_by(Person.id)

En général, les agrégations sont utilisées conjointement avec des _fonctions d'agrégations_. Celles-ci sont regroupées dans le module `func`. Par exemple:

In [None]:
# On cherche le nombre de publications pour un auteur donné

q = session.query(WritingPerson.id, func.count(AuthoredPost.id)).join(WritingPerson.posts).group_by(WritingPerson.id)

Comme en SQL, la méthode `having` permet de refaire une restriction après le calcul des résultats

- [Query]()
- [func]()

q = session
.query(WritingPerson.id,func.count(AuthoredPost.id))
.join(WritingPerson.posts)
.group_by(WritingPerson.id)
.having(func.count(AuthoredPost.id) > 2)

###### ORDER BY

#### Les résultats

Une fois les résultats de la requête construits par le moteurde la base de données, il existe plusieurs méthodes pour dans récupérer dans l'application :

|  |  |
|-|-|
| all() | rend tous les résultats de la recherche |
| one() | rend un seul résultat ; ne fonctionne qui si la recherche a réellement trouvé une seule réponse |
| one_or_none() | rend un résultat ou rien (version un peu plus large de la précédente |
| first() | rend le premier résultat trouvé |
| scalar() | rend le résultat sous forme de valeur scalaire |
| as_scalar() | rend le résultat d'une sous-requête sous forme de valeur scalaire |

In [None]:
# Exemple 1 : Toutes les personnes habitant en Suisse
q = session.query(Person).where(Person.country = 'Suisse').all()

# Exemple 2 : Une personne ayant l'id 25
# (rend un objet au lieu d'une collection d'objets)
q = session.query(Person).where(Person.id = 25).one()
# (avec la possibilité que cette personne n'existe pas)
q = session.query(Person).where(Person.id = 25).one_or-none()

# Exemple 3 : La première personne trouvée habitant en Suisse
q = session.query(Person).where(Person.country = 'Suisse').first()

# Exemple 4
# Le nombre de publications d'une personne donnée (id : 25) sour forme de valeur numérique
q = session.query(func.count(AuthoredPost.id))\
.join(AuthoredPost.author).where(WritingPerson.id = 25).group_by(WritingPerson.id)\
.scalar()


#### Requêtes imbriquées

Les requêtes imbriquées sont très simples à écrire avec SQLAlchemy, il suffit de les assembler àpartir de plusieurs requêtes. Par exemple :

In [None]:
# Les auteurs qui ont publié davantage que la moyenne

# 1. Sous-requête pour trouver la moyennedes publications
avg_query = session.query(func.average(AuthoredPost.id)).group_by(AuthoredPost.author).as_scalar()

# 2. Requête principale
q = q = session.query(WritingPerson).join(WritingPerson.posts).group_by(WritingPerson.id).having(func.count(WritingPerson.id) > avg_query)

#### Afficher les requêtes

Dans la plupart des cas, afficher les texte SQL engendré par SQLAlchemy est simple ; il existe pour cela une fonction native `str()` :

In [None]:
# Une requête
q = session.query(Person).where(Person.country = 'Suisse')

# Sa forme textuelle compilée
print(str(q))

Comme SQLAlchemy peut de connecter à diverses bases de données relationnelles, on peut préciser le dialecte désiré, avec la méthode `compile`, en reférant au moteur identifié dans lors de la connexion avec `create_engine()` :

In [None]:
engine = sqlalchemy.create_engine(dsn)
print(q.compile(engine))

Afficher correctement les paramètres littéraux (comme 'Suisse', ci-dessus) peut en revanche s'avérer délicat, car leur linéarisation n'est pas prise en charge par SQLAlchemy mais par les API de chaque base de données disponible. Différentes solutions techniques sont expliquées dans la documentation de SQLAmchemy :

[Linéariser les paramètres littéraux liés](https://docs.sqlalchemy.org/en/14/faq/sqlexpressions.html#rendering-bound-parameters-inline

## Variantes (presque) finales

Les éléments de syntaxe que nous avons utilisés dans ce support sont *une* des poosibilités de SQLAlchemy. L’ORM offre une grande variété de syntaxe pour les requêtes et les fonctions. Quelques exemples :

### Session vs. entités

Au lieu de passer par la session, il est possible de se référer directement à ne entité :
```python
# version session
q = session.query(Person).where(Person.country = 'Suisse')

# version entité
Person.where(Person.query.country = 'Suisse')
```

### Requêtes sur les tables

Au lieu d'utiliser les entités, il est possible de passer par des objets représentant les tables de la base de données. Cela donnée alors une syntaxe un peu différente.

Les objets de la classe `Table` sont produits implicitement lorsque vous déclarez une entité (comme sous-classe de l'entité de base).

```python
# La table correspondant à l'entité Person
perst = Person.__table__

# Requête sur la table : on introduit la propriété `c` qui représente un colonne
q = select(perst).where(perst.c.country = 'Suisse')
```

### Syntaxe fonctionnelle des opérateurs

Les entités reconnaissent certains opérateurs SQL, comme `LIKE` typiquement :
```python
# Exemple d'utilisation de LIKE
q = session.query(Person).where(Person.country.like('Suisse'))
```
[Opérateurs sur les colonnes](https://docs.sqlalchemy.org/en/14/core/sqlelement.html?highlight=like#sqlalchemy.sql.expression.ColumnOperators)