# Cours : √âcrire des Requ√™tes Efficaces

**√âcrivez des requ√™tes qui s'ex√©cutent plus rapidement et utilisent moins de donn√©es.**

## Introduction
Parfois, l'efficacit√© de votre requ√™te n'a pas d'importance. Par exemple, vous pourriez √©crire une requ√™te que vous pr√©voyez d'ex√©cuter une seule fois, et elle pourrait fonctionner sur un petit ensemble de donn√©es. Dans ce cas, tout ce qui vous donne la r√©ponse dont vous avez besoin fera l'affaire.

Mais qu'en est-il des requ√™tes qui seront ex√©cut√©es plusieurs fois, comme une requ√™te qui alimente un site web en donn√©es ? Ces requ√™tes doivent √™tre efficaces pour ne pas laisser les utilisateurs attendre que votre site se charge.

Ou encore, qu'en est-il des requ√™tes sur des ensembles de donn√©es volumineux ? Celles-ci peuvent √™tre lentes et co√ªter cher √† une entreprise si elles sont mal √©crites.

La plupart des syst√®mes de bases de donn√©es disposent d'un optimiseur de requ√™tes qui tente d'interpr√©ter/ex√©cuter votre requ√™te de la mani√®re la plus efficace possible. Cependant, plusieurs strat√©gies peuvent encore permettre d'√©conomiser consid√©rablement des ressources dans de nombreux cas.

#### Quelques fonctions utiles
Nous allons utiliser deux fonctions pour comparer l'efficacit√© de diff√©rentes requ√™tes :

- `show_amount_of_data_scanned()` montre la quantit√© de donn√©es utilis√©e par la requ√™te.
- `show_time_to_run()` affiche le temps qu'il faut pour ex√©cuter la requ√™te.


In [11]:
from google.cloud import bigquery
from time import time

client = bigquery.Client()

def show_amount_of_data_scanned(query):
    # dry_run permet de voir la quantit√© de donn√©es utilis√©e par la requ√™te sans l'ex√©cuter
    dry_run_config = bigquery.QueryJobConfig(dry_run=True)
    query_job = client.query(query, job_config=dry_run_config)
    print('Donn√©es trait√©es : {} Go'.format(round(query_job.total_bytes_processed / 10**9, 3)))
    
def show_time_to_run(query):
    time_config = bigquery.QueryJobConfig(use_query_cache=False)
    start = time()
    query_result = client.query(query, job_config=time_config).result()
    end = time()
    print('Temps d\'ex√©cution : {} secondes'.format(round(end-start, 3)))


---
## Strat√©gies

**1) S√©lectionnez uniquement les colonnes dont vous avez besoin.**
Il est tentant de commencer les requ√™tes par `SELECT * FROM ...`. C'est pratique car vous n'avez pas besoin de r√©fl√©chir aux colonnes dont vous avez besoin. Mais cela peut √™tre tr√®s inefficace.

C'est particuli√®rement important s'il y a des champs texte dont vous n'avez pas besoin, car les champs texte ont tendance √† √™tre plus volumineux que les autres champs.


In [14]:
star_query = "SELECT * FROM `bigquery-public-data.github_repos.contents`"
show_amount_of_data_scanned(star_query)

basic_query = "SELECT size, binary FROM `bigquery-public-data.github_repos.contents`"
show_amount_of_data_scanned(basic_query)


Donn√©es trait√©es : 2682.118 Go
Donn√©es trait√©es : 2.531 Go


Dans ce cas, nous observons une r√©duction de 1000X des donn√©es analys√©es pour ex√©cuter la requ√™te, car les donn√©es brutes contenaient un champ texte est 1000X plus volumineux que les champs dont nous avions besoin.

---
**2) Lisez moins de donn√©es.**

Les deux requ√™tes ci-dessous calculent la dur√©e moyenne (en secondes) des trajets √† v√©lo √† sens unique dans la ville de San Francisco.


In [20]:
more_data_query = """
                  SELECT MIN(start_station_name) AS start_station_name,
                      MIN(end_station_name) AS end_station_name,
                      AVG(duration_sec) AS avg_duration_sec
                  FROM `bigquery-public-data.san_francisco.bikeshare_trips`
                  WHERE start_station_id != end_station_id 
                  GROUP BY start_station_id, end_station_id
                  LIMIT 10
                  """
show_amount_of_data_scanned(more_data_query)

less_data_query = """
                  SELECT start_station_name,
                      end_station_name,
                      AVG(duration_sec) AS avg_duration_sec                  
                  FROM `bigquery-public-data.san_francisco.bikeshare_trips`
                  WHERE start_station_name != end_station_name
                  GROUP BY start_station_name, end_station_name
                  LIMIT 10
                  """
show_amount_of_data_scanned(less_data_query)


Donn√©es trait√©es : 0.076 Go
Donn√©es trait√©es : 0.06 Go


Comme il existe une relation **1:1** entre l'ID de la station et le nom de la station, nous n'avons pas besoin d'utiliser les colonnes `start_station_id` et `end_station_id` dans la requ√™te. En utilisant uniquement les colonnes avec les noms des stations, nous analysons moins de donn√©es.

---
**3) √âvitez les JOIN N:N.**

La plupart des JOIN que vous avez ex√©cut√©s dans ce cours √©taient des JOIN **1:1**. Dans ce cas, chaque ligne d'une table correspond au plus √† une ligne dans l'autre table.

Un autre type de JOIN est le JOIN **N:1**. Ici, chaque ligne d'une table peut correspondre √† plusieurs lignes dans l'autre table.

Enfin, un JOIN **N:N** est un JOIN o√π un groupe de lignes dans une table peut correspondre √† un groupe de lignes dans l'autre table. Notez que, toutes choses √©gales par ailleurs, ce type de JOIN produit une table avec beaucoup plus de lignes que les deux tables d'origine qui sont jointes.

Maintenant, nous allons travailler avec un exemple tir√© d'un jeu de donn√©es r√©el. Les deux exemples ci-dessous comptent le nombre de contributeurs distincts et le nombre de fichiers dans plusieurs d√©p√¥ts GitHub.


In [24]:
big_join_query = """
                 SELECT repo,
                     COUNT(DISTINCT c.committer.name) as num_committers,
                     COUNT(DISTINCT f.id) AS num_files
                 FROM `bigquery-public-data.github_repos.commits` AS c,
                     UNNEST(c.repo_name) AS repo
                 INNER JOIN `bigquery-public-data.github_repos.files` AS f
                     ON f.repo_name = repo
                 WHERE f.repo_name IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                 GROUP BY repo
                 ORDER BY repo
                 """
show_time_to_run(big_join_query)

small_join_query = """
                   WITH commits AS
                   (
                   SELECT COUNT(DISTINCT committer.name) AS num_committers, repo
                   FROM `bigquery-public-data.github_repos.commits`,
                       UNNEST(repo_name) as repo
                   WHERE repo IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                   GROUP BY repo
                   ),
                   files AS 
                   (
                   SELECT COUNT(DISTINCT id) AS num_files, repo_name as repo
                   FROM `bigquery-public-data.github_repos.files`
                   WHERE repo_name IN ( 'tensorflow/tensorflow', 'facebook/react', 'twbs/bootstrap', 'apple/swift', 'Microsoft/vscode', 'torvalds/linux')
                   GROUP BY repo
                   )
                   SELECT commits.repo, commits.num_committers, files.num_files
                   FROM commits 
                   INNER JOIN files
                       ON commits.repo = files.repo
                   ORDER BY repo
                   """

show_time_to_run(small_join_query)

Temps d'ex√©cution : 18.169 secondes
Temps d'ex√©cution : 3.272 secondes


La premi√®re requ√™te contient un JOIN N:N volumineux. En r√©√©crivant la requ√™te pour r√©duire la taille du JOIN, nous constatons qu'elle s'ex√©cute beaucoup plus rapidement.

#### Pour en savoir plus
Ces strat√©gies et bien d'autres sont discut√©es dans ce guide complet sur Google BigQuery. Si vous souhaitez en savoir plus sur la mani√®re d'√©crire des requ√™tes plus efficaces (ou approfondir vos connaissances sur tout ce qui concerne BigQuery), nous vous encourageons √† le consulter !

#### √Ä vous de jouer
Utilisez ce que vous avez appris pour am√©liorer la conception de plusieurs requ√™tes.

---

# **EXERCICE**

### Introduction  
Vous allez maintenant utiliser ce que vous avez appris dans le tutoriel pr√©c√©dent pour am√©liorer l'efficacit√© de plusieurs requ√™tes.  

Avant de commencer, ex√©cutez la cellule suivante pour tout configurer.  

```python
# Configuration du syst√®me de feedback  
from learntools.core import binder  
binder.bind(globals())  
from learntools.sql_advanced.ex4 import *  
print("Configuration termin√©e")  
```  

---  

### Question 1) Vous travaillez pour **Pet Costumes International**  

Vous devez √©crire trois requ√™tes cet apr√®s-midi. Vous avez assez de temps pour r√©diger des versions fonctionnelles des trois, mais seulement le temps d'optimiser l'une d'entre elles. Laquelle de ces requ√™tes m√©rite le plus d'√™tre optimis√©e ?  

- Un ing√©nieur logiciel a d√©velopp√© une application pour le **service d'exp√©dition**, afin de voir quels articles doivent √™tre exp√©di√©s et dans quelle all√©e de l'entrep√¥t ils se trouvent. Il vous demande d'√©crire la requ√™te. Celle-ci impliquera des donn√©es stock√©es dans les tables `orders`, `shipments` et `warehouseLocation`. Les employ√©s utiliseront cette application sur une tablette, actualiseront la page, et votre requ√™te affichera les r√©sultats en temps r√©el pour leur montrer quels costumes envoyer et o√π.  

- Le **PDG** souhaite obtenir une liste de tous les avis clients et des r√©clamations‚Ä¶ qui sont stock√©s dans une seule table `reviews`. Certains avis sont tr√®s longs‚Ä¶ car les gens adorent vos costumes de pirates pour perroquets et n‚Äôarr√™tent pas d‚Äô√©crire √† quel point ils sont adorables.  

- Les **propri√©taires de chiens** deviennent de plus en plus protecteurs. Votre d√©partement d‚Äôing√©nierie a donc con√ßu des costumes √©quip√©s de **GPS et de dispositifs de communication sans fil**. Ces costumes envoient leurs coordonn√©es √† votre base de donn√©es **chaque seconde**. Vous avez un site web o√π les propri√©taires peuvent localiser leurs chiens (ou du moins, les costumes qu‚Äôils portent). Pour que ce service fonctionne, vous avez besoin d'une requ√™te qui affiche la **position la plus r√©cente de tous les costumes appartenant √† un humain donn√©**. Cette requ√™te impliquera les tables `CostumeLocations` et `CostumeOwners`.  

### Question :  
Laquelle de ces requ√™tes b√©n√©ficierait le plus d'une **optimisation** ?  
D√©finissez la variable `query_to_optimize` avec la valeur **1, 2 ou 3** (de type `integer`).

Correct :  

# Remplissez votre r√©ponse
query_to_optimize = 3  # La requ√™te 3 est la plus critique car elle traite des donn√©es en temps r√©el.

**Pourquoi 3 ?** Parce que des donn√©es sont envoy√©es pour chaque costume chaque seconde, cette requ√™te est probablement celle qui traite le plus de donn√©es (de loin). De plus, elle sera ex√©cut√©e de mani√®re r√©currente. L‚Äôoptimiser peut donc avoir un impact significatif sur les performances.  

**Pourquoi pas 1 ?** C'est la deuxi√®me requ√™te la plus int√©ressante √† optimiser. Elle sera ex√©cut√©e r√©guli√®rement et implique des jointures, ce qui est souvent un point cl√© pour am√©liorer l‚Äôefficacit√© des requ√™tes.  

**Pourquoi pas 2 ?** Cette requ√™te ne semble √™tre ex√©cut√©e qu‚Äôune seule fois. Il importe donc peu qu‚Äôelle prenne quelques secondes de plus ou qu‚Äôelle co√ªte l√©g√®rement plus cher √† ex√©cuter. De plus, elle n‚Äôimplique pas de jointures. Bien que les donn√©es contiennent des champs texte (les avis), ce sont des informations n√©cessaires √† la requ√™te. Il n‚Äôest donc pas possible d‚Äôen exclure certaines pour √©conomiser des ressources de calcul.

---
### Question 2) Faciliter la recherche de Mitzie !

Vous disposez des deux tables suivantes :  

*(Image)*  

La table **CostumeLocations** contient des donn√©es GPS horodat√©es pour tous les costumes pour animaux enregistr√©s dans la base de donn√©es. La colonne **CostumeID** est un identifiant unique pour chaque costume.  

La table **CostumeOwners** indique qui poss√®de chaque costume. La colonne **OwnerID** contient des identifiants uniques pour chaque propri√©taire (humain). Notez que :  
- Chaque propri√©taire peut avoir plusieurs costumes.  
- Chaque costume peut √™tre associ√© √† plusieurs propri√©taires, ce qui permet √† plusieurs membres d‚Äôun m√™me foyer (ayant chacun leur propre **OwnerID**) d‚Äôacc√©der aux informations de localisation des costumes de leurs animaux.  

Supposons que vous deviez utiliser ces tables pour retrouver l‚Äôemplacement actuel d‚Äôun animal en particulier : **Mitzie le chien** s'est r√©cemment enfui en poursuivant un √©cureuil, mais heureusement, il a √©t√© vu pour la derni√®re fois portant son **costume de hot-dog** !  

L‚Äôun des propri√©taires de Mitzie (dont l‚Äôidentifiant est **MitzieOwnerID**) se connecte √† votre site pour r√©cup√©rer les derni√®res localisations de **tous les costumes qu'il poss√®de**. Actuellement, cette information est obtenue via la requ√™te suivante :  

```sql
WITH LocationsAndOwners AS 
(
    SELECT *  
    FROM CostumeOwners co  
    INNER JOIN CostumeLocations cl  
        ON co.CostumeID = cl.CostumeID
),
LastSeen AS 
(
    SELECT CostumeID, MAX(Timestamp)  
    FROM LocationsAndOwners  
    GROUP BY CostumeID
)
SELECT lo.CostumeID, Location  
FROM LocationsAndOwners lo  
INNER JOIN LastSeen ls  
    ON lo.Timestamp = ls.Timestamp  
    AND lo.CostumeID = ls.CostumeID  
WHERE OwnerID = MitzieOwnerID
```

**Peut-on rendre cette requ√™te plus rapide ou moins co√ªteuse ?**

Oui, il est possible d'optimiser cette requ√™te pour qu'elle soit plus rapide et moins co√ªteuse. Voici quelques am√©liorations possibles :  

### **1. √âviter la CTE inutile**  
L‚Äôutilisation de la CTE `LocationsAndOwners` (**Common Table Expression**) entra√Æne la jointure de toutes les donn√©es de **CostumeOwners** et **CostumeLocations** avant m√™me de filtrer par `MitzieOwnerID`. Cela cr√©e une table temporaire inutilement volumineuse.  

üîπ **Am√©lioration** :  
- Filtrer **d√®s le d√©part** sur `OwnerID = MitzieOwnerID` pour √©viter de manipuler des millions de lignes inutilement.  

### **2. Optimiser la r√©cup√©ration de la derni√®re position**  
L‚Äôutilisation de `MAX(Timestamp)` dans une CTE interm√©diaire (LastSeen) oblige √† faire un `GROUP BY`, ce qui peut √™tre co√ªteux en ressources.  

üîπ **Am√©lioration** :  
- Utiliser `ORDER BY Timestamp DESC` avec `LIMIT 1` pour chaque costume. Cela permet d‚Äô√©viter une agr√©gation lourde et de r√©cup√©rer directement la derni√®re ligne enregistr√©e.  

### **3. √âviter le `SELECT *`**  
Faire `SELECT *` dans la CTE signifie que l'on r√©cup√®re **toutes les colonnes**, m√™me celles qui ne sont pas utilis√©es dans le r√©sultat final.  

üîπ **Am√©lioration** :  
- S√©lectionner uniquement les colonnes n√©cessaires : `CostumeID`, `Timestamp`, `Location`, et `OwnerID`.  

---

### **Requ√™te optimis√©e** :  

```sql
WITH LastSeen AS (
    SELECT cl.CostumeID, cl.Location, cl.Timestamp 
    FROM CostumeLocations cl
    JOIN CostumeOwners co ON cl.CostumeID = co.CostumeID
    WHERE co.OwnerID = MitzieOwnerID
    ORDER BY cl.Timestamp DESC
    LIMIT 1
)
SELECT CostumeID, Location
FROM LastSeen;
```

### **Pourquoi cette requ√™te est plus efficace ?**  
‚úÖ Elle filtre d√®s le d√©part sur **MitzieOwnerID**, r√©duisant le volume de donn√©es trait√©es.  
‚úÖ Elle **√©vite le GROUP BY** et utilise `ORDER BY ... LIMIT 1`, qui est plus rapide.  
‚úÖ Elle ne r√©cup√®re que les **colonnes n√©cessaires**, √©vitant un surplus de donn√©es en m√©moire.  

üí° **R√©sultat** : Cette version est bien plus rapide et consomme moins de ressources, ce qui la rend plus scalable ! üöÄ

---
### **Traduction du corrig√© :**  

**Solution :** Oui. Travailler avec la table `LocationsAndOwners` est tr√®s inefficace, car c'est une table volumineuse. Il existe plusieurs options pour am√©liorer cela, et la meilleure d√©pend des sp√©cificit√©s de la base de donn√©es. Une am√©lioration probable est la suivante :  

```sql
WITH CurrentOwnersCostumes AS
(
    SELECT CostumeID 
    FROM CostumeOwners 
    WHERE OwnerID = MitzieOwnerID
),
OwnersCostumesLocations AS
(
    SELECT cc.CostumeID, Timestamp, Location 
    FROM CurrentOwnersCostumes cc 
    INNER JOIN CostumeLocations cl ON cc.CostumeID = cl.CostumeID
),
LastSeen AS
(
    SELECT CostumeID, MAX(Timestamp)
    FROM OwnersCostumesLocations
    GROUP BY CostumeID
)
SELECT ocl.CostumeID, Location 
FROM OwnersCostumesLocations ocl 
INNER JOIN LastSeen ls 
    ON ocl.timestamp = ls.timestamp 
    AND ocl.CostumeID = ls.CostumeID;
```

### **Pourquoi cette version est-elle meilleure ?**  

Au lieu d'effectuer des **jointures volumineuses** et d'ex√©cuter des calculs (comme la recherche du dernier `timestamp`) pour **tous les costumes**, on √©limine d√®s le d√©but les lignes correspondant aux autres propri√©taires.  

Ainsi, chaque √©tape suivante (comme le calcul du dernier `timestamp`) travaille sur **beaucoup moins de donn√©es**. Concr√®tement, on r√©duit le nombre de lignes trait√©es d‚Äôenviron **99,999 %** par rapport √† la requ√™te initiale.  

Les bases de donn√©es disposent de **"Query Planners"** (planificateurs de requ√™tes) qui optimisent automatiquement certains d√©tails d'ex√©cution, m√™me apr√®s l'√©criture de la requ√™te. Cependant, la requ√™te originale, telle qu'elle √©tait √©crite, serait **tr√®s inefficace** sur de grands ensembles de donn√©es.

---
