# Order By
Ordonnez vos résultats pour vous concentrer sur les données les plus importantes pour votre cas d'utilisation.

### Introduction
Jusqu'à présent, vous avez appris à utiliser plusieurs clauses SQL. Par exemple, vous savez comment utiliser **SELECT** pour extraire des colonnes spécifiques d'une table, ainsi que **WHERE** pour extraire les lignes qui répondent à des critères spécifiés. Vous savez également comment utiliser des fonctions d'agrégation comme **COUNT()**, ainsi que **GROUP BY** pour regrouper plusieurs lignes en un seul groupe.

Maintenant, vous allez apprendre à modifier l'ordre de vos résultats en utilisant la clause **ORDER BY**, et vous explorerez un cas d'utilisation populaire en appliquant l'ordonnancement aux dates. Pour illustrer ce que vous apprendrez dans ce tutoriel, nous travaillerons avec une version légèrement modifiée de notre table familière **pets**.

---
## ORDER BY
ORDER BY est généralement la dernière clause de votre requête, et elle trie les résultats renvoyés par le reste de votre requête.

Remarquez que les lignes ne sont pas ordonnées par **la colonne ID**. Nous pouvons rapidement remédier à cela avec la requête ci-dessous.
```
SELECT ID, Name, Animal
FROM `pets`
ORDER BY ID;
```
La clause ORDER BY fonctionne également pour les colonnes contenant du texte, où les résultats apparaissent par **ordre alphabétique**.
```
SELECT ID, Name, Animal
FROM `pets`
ORDER BY Animal;
```
Vous pouvez inverser l'ordre en utilisant l'argument **DESC** (abréviation de "descending"). La requête suivante trie la table par la colonne Animal, où les valeurs qui sont les dernières dans l'ordre alphabétique sont renvoyées en premier.
```
SELECT ID, Name, Animal
FROM `pets`
ORDER BY Animal DESC;
```


---
## Dates
Ensuite, nous parlerons des dates, car elles apparaissent très fréquemment dans les bases de données réelles. Il existe deux façons de stocker les dates dans BigQuery : en tant que **DATE** ou en tant que **DATETIME**.

- Le format **DATE** commence par l'année, puis le mois, puis le jour. Il ressemble à ceci :
```
YYYY-[M]M-[D]D
```
YYYY : Année à quatre chiffres

[M]M : Mois à un ou deux chiffres

[D]D : Jour à un ou deux chiffres

Ainsi, 2019-01-10 est interprété comme le 10 janvier 2019.

- Le format **DATETIME** est similaire au format DATE, mais avec l'heure ajoutée à la fin.

---
## EXTRACT
Souvent, vous voudrez examiner une partie d'une date, comme l'année ou le jour. Vous pouvez le faire avec **EXTRACT**. Nous l'illustrerons avec une table légèrement différente, appelée **pets_with_date**.

- La requête ci-dessous renvoie deux colonnes, où la colonne **Day** contient le jour correspondant à chaque entrée de la colonne **Date** de la **table pets_with_date** :
```
SELECT Name, EXTRACT(DAY FROM Date) AS Day
FROM `pets_with_date`;
```
SQL est très intelligent avec les dates, et nous pouvons demander des informations au-delà de l'extraction d'une partie de la cellule. 

- Par exemple, cette requête renvoie **une colonne avec juste la semaine de l'année (entre 1 et 53)** pour chaque date de la colonne Date :
```
SELECT Name, EXTRACT(WEEK FROM Date) AS Week
FROM `pets_with_date`;
```
Vous pouvez trouver toutes les fonctions que vous pouvez utiliser avec les dates dans BigQuery dans cette documentation sous *"Date and time functions"*.

---

# Exemple : Quel jour de la semaine compte le plus d'accidents mortels de la route ?
Utilisons la base de données **US Traffic Fatality Records**, qui contient des informations sur les accidents de la route aux États-Unis où au moins une personne est décédée.

Nous allons examiner la **table accident_2015**. Voici un aperçu des premières lignes. (Nous avons masqué le code correspondant. Pour y jeter un œil, cliquez sur le bouton "Code" ci-dessous.)

In [6]:
from google.cloud import bigquery

# Créer un objet "Client"
client = bigquery.Client()

# Construire une référence au dataset "nhtsa_traffic_fatalities"
dataset_ref = client.dataset("nhtsa_traffic_fatalities", project="bigquery-public-data")

# Requête API - récupérer le dataset
dataset = client.get_dataset(dataset_ref)

# Construire une référence à la table "accident_2015"
table_ref = dataset_ref.table("accident_2015")

# Requête API - récupérer la table
table = client.get_table(table_ref)

# Prévisualiser les cinq premières lignes de la table "accident_2015"
client.list_rows(table, max_results=5).to_dataframe()

Unnamed: 0,state_number,state_name,consecutive_number,number_of_vehicle_forms_submitted_all,number_of_motor_vehicles_in_transport_mvit,number_of_parked_working_vehicles,number_of_forms_submitted_for_persons_not_in_motor_vehicles,number_of_persons_not_in_motor_vehicles_in_transport_mvit,number_of_persons_in_motor_vehicles_in_transport_mvit,number_of_forms_submitted_for_persons_in_motor_vehicles,...,minute_of_ems_arrival_at_hospital,related_factors_crash_level_1,related_factors_crash_level_1_name,related_factors_crash_level_2,related_factors_crash_level_2_name,related_factors_crash_level_3,related_factors_crash_level_3_name,number_of_fatalities,number_of_drunk_drivers,timestamp_of_crash
0,30,Montana,300019,5,5,0,0,0,7,7,...,45,0,,0,,0,,1,0,2015-03-28 14:58:00+00:00
1,39,Ohio,390099,7,7,0,0,0,15,15,...,24,27,Backup Due to Prior Crash,0,,0,,1,0,2015-02-14 11:19:00+00:00
2,49,Utah,490123,16,16,0,0,0,28,28,...,99,0,,0,,0,,1,0,2015-04-14 12:24:00+00:00
3,48,Texas,481184,6,5,1,0,5,5,10,...,99,0,,0,,0,,1,0,2015-05-27 16:40:00+00:00
4,41,Oregon,410333,11,11,0,0,0,14,14,...,99,0,,0,,0,,1,0,2015-11-17 18:17:00+00:00


Utilisons cette table pour déterminer *comment le nombre d'accidents varie en fonction du jour de la semaine.* Puisque :
- la colonne **consecutive_number** contient un identifiant unique pour chaque accident, et
- la colonne **timestamp_of_crash** contient la date de l'accident au format DATETIME,

nous pouvons :

- 1. **EXTRAIRE** le jour de la semaine (comme **day_of_week** dans la requête ci-dessous) à partir de la colonne **timestamp_of_crash**, et
- 2. **GROUPER** par le jour de la semaine, avant de **COMPTER** la colonne **consecutive_number** pour déterminer le nombre d'accidents pour chaque jour de la semaine.
Ensuite, nous trions la table avec une clause **ORDER BY**, afin que les jours avec le plus d'accidents soient renvoyés en premier.

In [9]:
# Requête pour déterminer le nombre d'accidents pour chaque jour de la semaine
query = """
        SELECT COUNT(consecutive_number) AS num_accidents, 
               EXTRACT(DAYOFWEEK FROM timestamp_of_crash) AS day_of_week
        FROM `bigquery-public-data.nhtsa_traffic_fatalities.accident_2015`
        GROUP BY day_of_week
        ORDER BY num_accidents DESC
        """

# Configurer la requête (annuler la requête si elle utilise trop de quota, avec une limite fixée à 1 Go)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**9)
query_job = client.query(query, job_config=safe_config)

# Requête API - exécuter la requête et convertir les résultats en DataFrame pandas
accidents_by_day = query_job.to_dataframe()

# Afficher le DataFrame
accidents_by_day

Unnamed: 0,num_accidents,day_of_week
0,5659,7
1,5298,1
2,4916,6
3,4460,5
4,4182,4
5,4038,2
6,3985,3


Remarquez que les données sont triées par la colonne **num_accidents**, où les jours avec le plus d'accidents de la route apparaissent en premier.

Pour mapper les nombres renvoyés pour la colonne **day_of_week** au jour réel, vous pouvez consulter la documentation BigQuery sur la fonction DAYOFWEEK. Elle indique qu'elle renvoie "**un entier entre 1 (dimanche) et 7 (samedi)**, inclusivement". 
- *Ainsi, en 2015, la plupart des accidents mortels de la route aux États-Unis ont eu lieu le dimanche et le samedi, tandis que le moins d'accidents se sont produits le mardi.*
---

#### À vous de jouer
ORDER BY peut rendre vos résultats plus faciles à interpréter. Essayez-le par vous-même.

---

# EXERCICE : Données de la banque mondiale "World Bank"
### Introduction
Vous avez suffisamment développé vos compétences en SQL pour que les exercices pratiques restants utilisent des ensembles de données différents de ceux que vous voyez dans les explications. Si vous avez besoin de vous familiariser avec un nouvel ensemble de données, vous pouvez exécuter quelques requêtes **SELECT** pour extraire et examiner les données dont vous avez besoin.

*Les exercices suivants sont également plus difficiles que ce que vous avez fait jusqu’à présent. Ne vous inquiétez pas, vous êtes prêt !*

Exécutez le code dans la cellule suivante pour que tout soit configuré :

**La Banque mondiale** a mis à disposition des tonnes de données intéressantes sur l’éducation via **BigQuery**. Exécutez la cellule suivante pour afficher les premières lignes de la table **international_education** du jeu de données **world_bank_intl_education**.

In [14]:
from google.cloud import bigquery

# Créer un objet « Client »
client = bigquery.Client()

# Construire une référence à l’ensemble de données « world_bank_intl_education »
dataset_ref = client.dataset("world_bank_intl_education", project="bigquery-public-data")

# Requête API - récupérer l’ensemble de données
dataset = client.get_dataset(dataset_ref)

# Construire une référence à la table « international_education »
table_ref = dataset_ref.table("international_education")

# Requête API - récupérer la table
table_exo = client.get_table(table_ref)

# Prévisualiser les cinq premières lignes de la table « international_education »
client.list_rows(table_exo, max_results=5).to_dataframe()

Unnamed: 0,country_name,country_code,indicator_name,indicator_code,value,year
0,Chad,TCD,"Enrolment in lower secondary education, both s...",UIS.E.2,321921.0,2012
1,Chad,TCD,"Enrolment in upper secondary education, both s...",UIS.E.3,68809.0,2006
2,Chad,TCD,"Enrolment in upper secondary education, both s...",UIS.E.3,30551.0,1999
3,Chad,TCD,"Enrolment in upper secondary education, both s...",UIS.E.3,79784.0,2007
4,Chad,TCD,"Repeaters in primary education, all grades, bo...",UIS.R.1,282699.0,2006


**INFO :**

La valeur de la colonne **indicator_code** décrit le type de données affiché dans une ligne donnée.

Un indicateur intéressant est **SE. XPD. TOTL. GD.ZS**, qui correspond à « **Dépenses publiques en éducation en pourcentage du PIB (%)** ».

## Question 1: Dépenses publiques en éducation
##### Quels sont les pays qui consacrent la plus grande part de leur PIB à l’éducation ?

Pour répondre à cette question, vous devez considérer uniquement les lignes du dataset correspondant à l’indicateur **SE. XPD. TOTL. GD.ZS**, et écrire une requête qui retourne la valeur moyenne de la colonne value pour chaque pays entre les années **2010 et 2017** (incluses dans la moyenne).

#### Contraintes :
- Le résultat doit afficher le **nom du pays** au lieu du **code du pays**. Chaque pays doit avoir une seule ligne.
- La fonction d’agrégation pour calculer la moyenne est **AVG()**. Le nom de la colonne créée doit être **avg_ed_spending_pct**.
- Trier les résultats pour que les pays qui consacrent la plus grande part de leur PIB à l’éducation apparaissent en premier.

Si cela peut vous être utile, voici une requête vue dans le tutoriel (sur un dataset différent) :

In [20]:
country_spend_pct_query = """
                          SELECT country_name, 
                                 AVG(value) AS avg_ed_spending_pct
                          FROM `bigquery-public-data.world_bank_intl_education.international_education`
                          WHERE indicator_code = 'SE.XPD.TOTL.GD.ZS'
                                AND year BETWEEN 2010 AND 2017
                          GROUP BY country_name
                          ORDER BY avg_ed_spending_pct DESC
                          """

# Configuration pour limiter l'utilisation de la mémoire (1 GB maximum)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**9)

# Exécuter la requête
country_spend_pct_query_job = client.query(country_spend_pct_query, job_config=safe_config)

# Récupérer les résultats sous forme de DataFrame Pandas
country_spending_results = country_spend_pct_query_job.to_dataframe()

# Afficher les premières lignes du résultat
print(country_spending_results.head())

            country_name  avg_ed_spending_pct
0                   Cuba            12.837270
1  Micronesia, Fed. Sts.            12.467750
2        Solomon Islands            10.001080
3                Moldova             8.372153
4                Namibia             8.349610


### Question 2: Identifier des codes intéressants à explorer

La dernière question vous a demandé de vous concentrer sur les lignes avec le code **SE.XPD.TOTL.GD.ZS**. Mais *comment trouver des codes d’indicateur plus intéressants à explorer ?* 

Il y a des milliers de codes dans le dataset, donc les passer tous en revue prendrait beaucoup de temps. Cependant, de nombreux codes ne sont disponibles que pour quelques pays. Lorsque vous parcourez les options pour différents codes, vous pouvez restreindre votre recherche aux codes signalés par de nombreux pays.  

Écrivez une requête ci-dessous qui sélectionne le code de l’indicateur et le nom de l’indicateur pour tous les codes ayant **au moins 175 lignes** en **2016**.  

#### **Exigences :**  
- Vous devez avoir **une ligne pour chaque code d’indicateur**.  
- Les colonnes de vos résultats doivent s’appeler **indicator_code**, **indicator_name**, et **num_rows**.  
- Sélectionnez uniquement les codes ayant **175 lignes ou plus** dans la base de données brute (**exactement 175 lignes** serait inclus).  
- Pour obtenir à la fois **indicator_code** et **indicator_name** dans votre DataFrame résultant, vous devez inclure les deux dans votre instruction **SELECT** (en plus d’une agrégation **COUNT()**). Cela nécessite d’inclure les deux dans votre clause **GROUP BY**.  
- Triez les résultats du **plus fréquent au moins fréquent**.

In [23]:
code_count_query = """
                    SELECT indicator_code, 
                           indicator_name, 
                           COUNT(*) AS num_rows
                    FROM `bigquery-public-data.world_bank_intl_education.international_education`
                    WHERE year = 2016
                    GROUP BY indicator_code, indicator_name
                    HAVING num_rows >= 175
                    ORDER BY num_rows DESC
                    """

# Configuration pour limiter l'utilisation de la mémoire (1 GB maximum)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**9)

# Exécuter la requête
code_count_query_job = client.query(code_count_query, job_config=safe_config)

# Récupérer les résultats sous forme de DataFrame Pandas
code_count_results = code_count_query_job.to_dataframe()

# Afficher les premières lignes du résultat
print(code_count_results.head())

   indicator_code                       indicator_name  num_rows
0     SP.POP.GROW         Population growth (annual %)       232
1     SP.POP.TOTL                    Population, total       232
2  IT.NET.USER.P2      Internet users (per 100 people)       223
3     SH.DYN.MORT  Mortality rate, under-5 (per 1,000)       213
4  SP.POP.0014.TO         Population, ages 0-14, total       213
