# Cours : Écrire des Requêtes Efficaces

**Écrivez des requêtes qui s'exécutent plus rapidement et utilisent moins de données.**

## Introduction
Parfois, l'efficacité de votre requête n'a pas d'importance. Par exemple, vous pourriez écrire une requête que vous prévoyez d'exécuter une seule fois, et elle pourrait fonctionner sur un petit ensemble de données. Dans ce cas, tout ce qui vous donne la réponse dont vous avez besoin fera l'affaire.

Mais qu'en est-il des requêtes qui seront exécutées plusieurs fois, comme une requête qui alimente un site web en données ? Ces requêtes doivent être efficaces pour ne pas laisser les utilisateurs attendre que votre site se charge.

Ou encore, qu'en est-il des requêtes sur des ensembles de données volumineux ? Celles-ci peuvent être lentes et coûter cher à une entreprise si elles sont mal écrites.

La plupart des systèmes de bases de données disposent d'un optimiseur de requêtes qui tente d'interpréter/exécuter votre requête de la manière la plus efficace possible. Cependant, plusieurs stratégies peuvent encore permettre d'économiser considérablement des ressources dans de nombreux cas.

#### Quelques fonctions utiles
Nous allons utiliser deux fonctions pour comparer l'efficacité de différentes requêtes :

- `show_amount_of_data_scanned()` montre la quantité de données utilisée par la requête.
- `show_time_to_run()` affiche le temps qu'il faut pour exécuter la requête.


In [11]:
from google.cloud import bigquery
from time import time

client = bigquery.Client()

def show_amount_of_data_scanned(query):
    # dry_run permet de voir la quantité de données utilisée par la requête sans l'exécuter
    dry_run_config = bigquery.QueryJobConfig(dry_run=True)
    query_job = client.query(query, job_config=dry_run_config)
    print('Données traitées : {} Go'.format(round(query_job.total_bytes_processed / 10**9, 3)))
    
def show_time_to_run(query):
    time_config = bigquery.QueryJobConfig(use_query_cache=False)
    start = time()
    query_result = client.query(query, job_config=time_config).result()
    end = time()
    print('Temps d\'exécution : {} secondes'.format(round(end-start, 3)))


---
## Stratégies

**1) Sélectionnez uniquement les colonnes dont vous avez besoin.**
Il est tentant de commencer les requêtes par `SELECT * FROM ...`. C'est pratique car vous n'avez pas besoin de réfléchir aux colonnes dont vous avez besoin. Mais cela peut être très inefficace.

C'est particulièrement important s'il y a des champs texte dont vous n'avez pas besoin, car les champs texte ont tendance à être plus volumineux que les autres champs.


In [14]:
star_query = "SELECT * FROM `bigquery-public-data.github_repos.contents`"
show_amount_of_data_scanned(star_query)

basic_query = "SELECT size, binary FROM `bigquery-public-data.github_repos.contents`"
show_amount_of_data_scanned(basic_query)


Données traitées : 2682.118 Go
Données traitées : 2.531 Go


Dans ce cas, nous observons une réduction de 1000X des données analysées pour exécuter la requête, car les données brutes contenaient un champ texte est 1000X plus volumineux que les champs dont nous avions besoin.

---
**2) Lisez moins de données.**

Les deux requêtes ci-dessous calculent la durée moyenne (en secondes) des trajets à vélo à sens unique dans la ville de San Francisco.


In [20]:
more_data_query = """
                  SELECT MIN(start_station_name) AS start_station_name,
                      MIN(end_station_name) AS end_station_name,
                      AVG(duration_sec) AS avg_duration_sec
                  FROM `bigquery-public-data.san_francisco.bikeshare_trips`
                  WHERE start_station_id != end_station_id 
                  GROUP BY start_station_id, end_station_id
                  LIMIT 10
                  """
show_amount_of_data_scanned(more_data_query)

less_data_query = """
                  SELECT start_station_name,
                      end_station_name,
                      AVG(duration_sec) AS avg_duration_sec                  
                  FROM `bigquery-public-data.san_francisco.bikeshare_trips`
                  WHERE start_station_name != end_station_name
                  GROUP BY start_station_name, end_station_name
                  LIMIT 10
                  """
show_amount_of_data_scanned(less_data_query)


Données traitées : 0.076 Go
Données traitées : 0.06 Go


Comme il existe une relation **1:1** entre l'ID de la station et le nom de la station, nous n'avons pas besoin d'utiliser les colonnes `start_station_id` et `end_station_id` dans la requête. En utilisant uniquement les colonnes avec les noms des stations, nous analysons moins de données.

---
**3) Évitez les JOIN N:N.**

La plupart des JOIN que vous avez exécutés dans ce cours étaient des JOIN **1:1**. Dans ce cas, chaque ligne d'une table correspond au plus à une ligne dans l'autre table.

Un autre type de JOIN est le JOIN **N:1**. Ici, chaque ligne d'une table peut correspondre à plusieurs lignes dans l'autre table.

Enfin, un JOIN **N:N** est un JOIN où un groupe de lignes dans une table peut correspondre à un groupe de lignes dans l'autre table. Notez que, toutes choses égales par ailleurs, ce type de JOIN produit une table avec beaucoup plus de lignes que les deux tables d'origine qui sont jointes.

Maintenant, nous allons travailler avec un exemple tiré d'un jeu de données réel. Les deux exemples ci-dessous comptent le nombre de contributeurs distincts et le nombre de fichiers dans plusieurs dépôts GitHub.


In [24]:
big_join_query = """
                 SELECT repo,
                     COUNT(DISTINCT c.committer.name) as num_committers,
                     COUNT(DISTINCT f.id) AS num_files
                 FROM `bigquery-public-data.github_repos.commits` AS c,
                     UNNEST(c.repo_name) AS repo
                 INNER JOIN `bigquery-public-data.github_repos.files` AS f
                     ON f.repo_name = repo
                 WHERE f.repo_name IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                 GROUP BY repo
                 ORDER BY repo
                 """
show_time_to_run(big_join_query)

small_join_query = """
                   WITH commits AS
                   (
                   SELECT COUNT(DISTINCT committer.name) AS num_committers, repo
                   FROM `bigquery-public-data.github_repos.commits`,
                       UNNEST(repo_name) as repo
                   WHERE repo IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                   GROUP BY repo
                   ),
                   files AS 
                   (
                   SELECT COUNT(DISTINCT id) AS num_files, repo_name as repo
                   FROM `bigquery-public-data.github_repos.files`
                   WHERE repo_name IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                   GROUP BY repo
                   )
                   SELECT commits.repo, commits.num_committers, files.num_files
                   FROM commits 
                   INNER JOIN files
                       ON commits.repo = files.repo
                   ORDER BY repo
                   """

show_time_to_run(small_join_query)

Temps d'exécution : 18.169 secondes
Temps d'exécution : 3.272 secondes


La première requête contient un JOIN N:N volumineux. En réécrivant la requête pour réduire la taille du JOIN, nous constatons qu'elle s'exécute beaucoup plus rapidement.

#### Pour en savoir plus
Ces stratégies et bien d'autres sont discutées dans ce guide complet sur Google BigQuery. Si vous souhaitez en savoir plus sur la manière d'écrire des requêtes plus efficaces (ou approfondir vos connaissances sur tout ce qui concerne BigQuery), nous vous encourageons à le consulter !

#### À vous de jouer
Utilisez ce que vous avez appris pour améliorer la conception de plusieurs requêtes.

---

# **EXERCICE**

### Introduction  
Vous allez maintenant utiliser ce que vous avez appris dans le tutoriel précédent pour améliorer l'efficacité de plusieurs requêtes.  

Avant de commencer, exécutez la cellule suivante pour tout configurer.  

```python
# Configuration du système de feedback  
from learntools.core import binder  
binder.bind(globals())  
from learntools.sql_advanced.ex4 import *  
print("Configuration terminée")  
```  

---  

### Question 1) Vous travaillez pour **Pet Costumes International**  

Vous devez écrire trois requêtes cet après-midi. Vous avez assez de temps pour rédiger des versions fonctionnelles des trois, mais seulement le temps d'optimiser l'une d'entre elles. Laquelle de ces requêtes mérite le plus d'être optimisée ?  

- Un ingénieur logiciel a développé une application pour le **service d'expédition**, afin de voir quels articles doivent être expédiés et dans quelle allée de l'entrepôt ils se trouvent. Il vous demande d'écrire la requête. Celle-ci impliquera des données stockées dans les tables `orders`, `shipments` et `warehouseLocation`. Les employés utiliseront cette application sur une tablette, actualiseront la page, et votre requête affichera les résultats en temps réel pour leur montrer quels costumes envoyer et où.  

- Le **PDG** souhaite obtenir une liste de tous les avis clients et des réclamations… qui sont stockés dans une seule table `reviews`. Certains avis sont très longs… car les gens adorent vos costumes de pirates pour perroquets et n’arrêtent pas d’écrire à quel point ils sont adorables.  

- Les **propriétaires de chiens** deviennent de plus en plus protecteurs. Votre département d’ingénierie a donc conçu des costumes équipés de **GPS et de dispositifs de communication sans fil**. Ces costumes envoient leurs coordonnées à votre base de données **chaque seconde**. Vous avez un site web où les propriétaires peuvent localiser leurs chiens (ou du moins, les costumes qu’ils portent). Pour que ce service fonctionne, vous avez besoin d'une requête qui affiche la **position la plus récente de tous les costumes appartenant à un humain donné**. Cette requête impliquera les tables `CostumeLocations` et `CostumeOwners`.  

### Question :  
Laquelle de ces requêtes bénéficierait le plus d'une **optimisation** ?  
Définissez la variable `query_to_optimize` avec la valeur **1, 2 ou 3** (de type `integer`).

Correct :  

# Remplissez votre réponse
query_to_optimize = 3  # La requête 3 est la plus critique car elle traite des données en temps réel.

**Pourquoi 3 ?** Parce que des données sont envoyées pour chaque costume chaque seconde, cette requête est probablement celle qui traite le plus de données (de loin). De plus, elle sera exécutée de manière récurrente. L’optimiser peut donc avoir un impact significatif sur les performances.  

**Pourquoi pas 1 ?** C'est la deuxième requête la plus intéressante à optimiser. Elle sera exécutée régulièrement et implique des jointures, ce qui est souvent un point clé pour améliorer l’efficacité des requêtes.  

**Pourquoi pas 2 ?** Cette requête ne semble être exécutée qu’une seule fois. Il importe donc peu qu’elle prenne quelques secondes de plus ou qu’elle coûte légèrement plus cher à exécuter. De plus, elle n’implique pas de jointures. Bien que les données contiennent des champs texte (les avis), ce sont des informations nécessaires à la requête. Il n’est donc pas possible d’en exclure certaines pour économiser des ressources de calcul.

---
### Question 2) Faciliter la recherche de Mitzie !

Vous disposez des deux tables suivantes :  

*(Image)*  

La table **CostumeLocations** contient des données GPS horodatées pour tous les costumes pour animaux enregistrés dans la base de données. La colonne **CostumeID** est un identifiant unique pour chaque costume.  

La table **CostumeOwners** indique qui possède chaque costume. La colonne **OwnerID** contient des identifiants uniques pour chaque propriétaire (humain). Notez que :  
- Chaque propriétaire peut avoir plusieurs costumes.  
- Chaque costume peut être associé à plusieurs propriétaires, ce qui permet à plusieurs membres d’un même foyer (ayant chacun leur propre **OwnerID**) d’accéder aux informations de localisation des costumes de leurs animaux.  

Supposons que vous deviez utiliser ces tables pour retrouver l’emplacement actuel d’un animal en particulier : **Mitzie le chien** s'est récemment enfui en poursuivant un écureuil, mais heureusement, il a été vu pour la dernière fois portant son **costume de hot-dog** !  

L’un des propriétaires de Mitzie (dont l’identifiant est **MitzieOwnerID**) se connecte à votre site pour récupérer les dernières localisations de **tous les costumes qu'il possède**. Actuellement, cette information est obtenue via la requête suivante :  

```sql
WITH LocationsAndOwners AS 
(
    SELECT *  
    FROM CostumeOwners co  
    INNER JOIN CostumeLocations cl  
        ON co.CostumeID = cl.CostumeID
),
LastSeen AS 
(
    SELECT CostumeID, MAX(Timestamp)  
    FROM LocationsAndOwners  
    GROUP BY CostumeID
)
SELECT lo.CostumeID, Location  
FROM LocationsAndOwners lo  
INNER JOIN LastSeen ls  
    ON lo.Timestamp = ls.Timestamp  
    AND lo.CostumeID = ls.CostumeID  
WHERE OwnerID = MitzieOwnerID
```

**Peut-on rendre cette requête plus rapide ou moins coûteuse ?**

Oui, il est possible d'optimiser cette requête pour qu'elle soit plus rapide et moins coûteuse. Voici quelques améliorations possibles :  

### **1. Éviter la CTE inutile**  
L’utilisation de la CTE `LocationsAndOwners` (**Common Table Expression**) entraîne la jointure de toutes les données de **CostumeOwners** et **CostumeLocations** avant même de filtrer par `MitzieOwnerID`. Cela crée une table temporaire inutilement volumineuse.  

🔹 **Amélioration** :  
- Filtrer **dès le départ** sur `OwnerID = MitzieOwnerID` pour éviter de manipuler des millions de lignes inutilement.  

### **2. Optimiser la récupération de la dernière position**  
L’utilisation de `MAX(Timestamp)` dans une CTE intermédiaire (LastSeen) oblige à faire un `GROUP BY`, ce qui peut être coûteux en ressources.  

🔹 **Amélioration** :  
- Utiliser `ORDER BY Timestamp DESC` avec `LIMIT 1` pour chaque costume. Cela permet d’éviter une agrégation lourde et de récupérer directement la dernière ligne enregistrée.  

### **3. Éviter le `SELECT *`**  
Faire `SELECT *` dans la CTE signifie que l'on récupère **toutes les colonnes**, même celles qui ne sont pas utilisées dans le résultat final.  

🔹 **Amélioration** :  
- Sélectionner uniquement les colonnes nécessaires : `CostumeID`, `Timestamp`, `Location`, et `OwnerID`.  

---

### **Requête optimisée** :  

```sql
WITH LastSeen AS (
    SELECT cl.CostumeID, cl.Location, cl.Timestamp 
    FROM CostumeLocations cl
    JOIN CostumeOwners co ON cl.CostumeID = co.CostumeID
    WHERE co.OwnerID = MitzieOwnerID
    ORDER BY cl.Timestamp DESC
    LIMIT 1
)
SELECT CostumeID, Location
FROM LastSeen;
```

### **Pourquoi cette requête est plus efficace ?**  
✅ Elle filtre dès le départ sur **MitzieOwnerID**, réduisant le volume de données traitées.  
✅ Elle **évite le GROUP BY** et utilise `ORDER BY ... LIMIT 1`, qui est plus rapide.  
✅ Elle ne récupère que les **colonnes nécessaires**, évitant un surplus de données en mémoire.  

💡 **Résultat** : Cette version est bien plus rapide et consomme moins de ressources, ce qui la rend plus scalable ! 🚀

---
### **Traduction du corrigé :**  

**Solution :** Oui. Travailler avec la table `LocationsAndOwners` est très inefficace, car c'est une table volumineuse. Il existe plusieurs options pour améliorer cela, et la meilleure dépend des spécificités de la base de données. Une amélioration probable est la suivante :  

```sql
WITH CurrentOwnersCostumes AS
(
    SELECT CostumeID 
    FROM CostumeOwners 
    WHERE OwnerID = MitzieOwnerID
),
OwnersCostumesLocations AS
(
    SELECT cc.CostumeID, Timestamp, Location 
    FROM CurrentOwnersCostumes cc 
    INNER JOIN CostumeLocations cl ON cc.CostumeID = cl.CostumeID
),
LastSeen AS
(
    SELECT CostumeID, MAX(Timestamp)
    FROM OwnersCostumesLocations
    GROUP BY CostumeID
)
SELECT ocl.CostumeID, Location 
FROM OwnersCostumesLocations ocl 
INNER JOIN LastSeen ls 
    ON ocl.timestamp = ls.timestamp 
    AND ocl.CostumeID = ls.CostumeID;
```

### **Pourquoi cette version est-elle meilleure ?**  

Au lieu d'effectuer des **jointures volumineuses** et d'exécuter des calculs (comme la recherche du dernier `timestamp`) pour **tous les costumes**, on élimine dès le début les lignes correspondant aux autres propriétaires.  

Ainsi, chaque étape suivante (comme le calcul du dernier `timestamp`) travaille sur **beaucoup moins de données**. Concrètement, on réduit le nombre de lignes traitées d’environ **99,999 %** par rapport à la requête initiale.  

Les bases de données disposent de **"Query Planners"** (planificateurs de requêtes) qui optimisent automatiquement certains détails d'exécution, même après l'écriture de la requête. Cependant, la requête originale, telle qu'elle était écrite, serait **très inefficace** sur de grands ensembles de données.

---
