# Select, From & Where
The foundational compontents for all SQL queries

## Introduction
Maintenant que vous savez comment accéder et examiner un ensemble de données, vous êtes prêt à écrire votre première requête SQL ! Comme vous le verrez bientôt, les requêtes SQL vous aideront à trier un ensemble de données massif, pour récupérer uniquement les informations dont vous avez besoin.

Nous commencerons par utiliser les mots-clés **SELECT, FROM et WHERE** pour obtenir des données à partir de colonnes spécifiques en fonction des conditions que vous spécifiez.

Pour plus de clarté, nous travaillerons avec un petit ensemble de données imaginaire appelé **pet_records** qui contient une seule table, nommée **pets**.

---

### SELECT ... FROM
La requête SQL la plus basique consiste à sélectionner une seule colonne d'une seule table. Pour ce faire :

- Spécifiez la colonne que vous souhaitez après le mot-clé **SELECT**, puis
- Spécifiez la table après le mot-clé **FROM**.

Par exemple, pour sélectionner la colonne **Name** (de la table **pets** dans la base de données **pet_records** du projet **bigquery-public-data**), notre requête apparaîtrait comme suit :

```
SELECT Name
FROM `pets`;
```

*Notez que lorsque vous écrivez une requête SQL, l'argument que nous passons à FROM n'est pas entre guillemets simples (') ou doubles ("). Il est entre backticks (`).*

---

### WHERE ...
Les ensembles de données BigQuery sont volumineux, donc vous voudrez généralement ne retourner que les lignes répondant à des conditions spécifiques. Vous pouvez le faire en utilisant la clause **WHERE**.

La requête ci-dessous retourne les entrées de la colonne **Name** qui se trouvent dans les lignes où la colonne **Animal** contient le texte **'Cat'**.

```
SELECT Name
FROM `pets`
WHERE Animal = 'Cat';
```

---

## Exemple : Quelles sont toutes les villes américaines dans l'ensemble de données OpenAQ ?
Maintenant que vous avez acquis les bases, travaillons sur un exemple avec un ensemble de données réel. Nous utiliserons un ensemble de données **OpenAQ** sur la **qualité de l'air**.

Tout d'abord, nous allons configurer tout ce dont nous avons besoin pour exécuter des requêtes et jeter un coup d'œil rapide aux tables présentes dans notre base de données. (Comme vous avez appris à le faire dans le tutoriel précédent, nous avons masqué le code. Mais si vous souhaitez y jeter un œil, il vous suffit de cliquer sur le bouton "Code" ci-dessous.)



In [35]:
from google.cloud import bigquery

# Create a "Client" object
client = bigquery.Client()

# Construct a reference to the "openaq" dataset
dataset_ref = client.dataset("openaq", project="bigquery-public-data")

# API request - fetch the dataset
dataset = client.get_dataset(dataset_ref)

# List all the tables in the "openaq" dataset
tables = list(client.list_tables(dataset))

# Print names of all tables in the dataset (there's only one!)
for table in tables:  
    print(table.table_id)

global_air_quality


Utilisation de l'intégration BigQuery des ensembles de données publics de Kaggle.

L'ensemble de données ne contient qu'une seule table, appelée **global_air_quality**. Nous allons récupérer la table et jeter un coup d'œil aux premières lignes pour voir quel type de données elle contient. (Encore une fois, nous avons masqué le code. Pour y jeter un œil, cliquez sur le bouton "Code" ci-dessous.)

In [38]:
# Construct a reference to the "global_air_quality" table
table_ref = dataset_ref.table("global_air_quality")

# API request - fetch the table
table = client.get_table(table_ref)

# Preview the first five lines of the "global_air_quality" table
client.list_rows(table, max_results=5).to_dataframe()

Unnamed: 0,location,city,country,pollutant,value,timestamp,unit,source_name,latitude,longitude,averaged_over_in_hours,location_geom
0,"Borówiec, ul. Drapałka",Borówiec,PL,bc,0.85217,2022-04-28 07:00:00+00:00,µg/m³,GIOS,1.0,52.276794,17.074114,POINT(52.276794 1)
1,"Kraków, ul. Bulwarowa",Kraków,PL,bc,0.91284,2022-04-27 23:00:00+00:00,µg/m³,GIOS,1.0,50.069308,20.053492,POINT(50.069308 1)
2,"Płock, ul. Reja",Płock,PL,bc,1.41,2022-03-30 04:00:00+00:00,µg/m³,GIOS,1.0,52.550938,19.709791,POINT(52.550938 1)
3,"Elbląg, ul. Bażyńskiego",Elbląg,PL,bc,0.33607,2022-05-03 13:00:00+00:00,µg/m³,GIOS,1.0,54.167847,19.410942,POINT(54.167847 1)
4,"Piastów, ul. Pułaskiego",Piastów,PL,bc,0.51,2022-05-11 05:00:00+00:00,µg/m³,GIOS,1.0,52.191728,20.837489,POINT(52.191728 1)


---

Tout semble bon ! Alors, mettons ensemble une requête. Disons que nous voulons sélectionner toutes les valeurs de la colonne **city** qui se trouvent dans les lignes où la colonne **country** est **'US'** (pour "États-Unis").

In [41]:
# Requête pour sélectionner tous les éléments de la colonne "city" où la colonne "country" est 'US'
query = """
        SELECT city
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE country = 'US'
        """

Prenez le temps maintenant de vous assurer que cette requête correspond à ce que vous avez appris ci-dessus.

---

### Soumission de la requête à l'ensemble de données
Nous sommes prêts à utiliser cette requête pour obtenir des informations à partir de l'ensemble de données OpenAQ. Comme dans le tutoriel précédent, la première étape consiste à créer un objet **Client**.

**Utilisation de l'intégration BigQuery des ensembles de données publics de Kaggle.**

Nous commençons par configurer la requête avec la méthode **query()**. Nous exécutons la méthode avec les paramètres par défaut, mais cette méthode nous permet également de spécifier des paramètres plus complexes que vous pouvez consulter dans la documentation. Nous y reviendrons plus tard.

In [48]:
from google.cloud import bigquery
import pandas as pd

# Créer un objet "Client"
client = bigquery.Client()

# Requête pour sélectionner toutes les valeurs de la colonne "city" où la colonne "country" est 'US'
query = """
        SELECT city
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE country = 'US'
        """

# Configurer la requête
query_job = client.query(query)

# Requête API - exécuter la requête et retourner un DataFrame pandas
us_cities = query_job.to_dataframe()

# Afficher les 5 premières lignes pour vérifier
print(us_cities.head())


     city
0  HOWARD
1  HOWARD
2  HOWARD
3  HOWARD
4  HOWARD


Maintenant, nous avons un DataFrame pandas appelé **us_cities**, que nous pouvons utiliser comme n'importe quel autre DataFrame.

In [52]:
# Quelles sont les cinq villes avec le plus de mesures ?
us_cities.city.value_counts().head()

city
Phoenix-Mesa-Scottsdale                     39414
Los Angeles-Long Beach-Santa Ana            27479
Riverside-San Bernardino-Ontario            26887
New York-Northern New Jersey-Long Island    25417
San Francisco-Oakland-Fremont               22710
Name: count, dtype: int64

---

## Plus de requêtes
Si vous voulez plusieurs colonnes, vous pouvez les sélectionner en les séparant par une virgule :

```
query = """
        SELECT city, country
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE country = 'US'
        """
```

Vous pouvez sélectionner toutes les colonnes avec un * comme ceci :

```
query = """
        SELECT *
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE country = 'US'
        """
```

---

### Q&A : Notes sur le formatage
Le formatage de la requête SQL peut sembler inhabituel. Si vous avez des questions, vous pouvez les poser dans la section des commentaires en bas de cette page. Voici les réponses à deux questions courantes :

**Question : Pourquoi les triples guillemets (""") ?**

**Réponse** : Ils indiquent à Python que tout ce qui se trouve à l'intérieur est une seule chaîne de caractères, même si nous avons des sauts de ligne. Les sauts de ligne ne sont pas nécessaires, mais ils rendent votre requête plus facile à lire.

**Question : Faut-il mettre en majuscules SELECT et FROM ?**

**Réponse** : Non, SQL ne tient pas compte de la casse. Cependant, il est d'usage de mettre en majuscules les commandes SQL, et cela rend vos requêtes un peu plus faciles à lire.

---

### Travailler avec de grands ensembles de données
Les ensembles de données **BigQuery** peuvent être énormes. Nous vous permettons de faire beaucoup de calculs gratuitement, mais tout le monde a une certaine limite.

Chaque utilisateur **Kaggle peut scanner 5 To tous les 30 jours gratuitement**. Une fois que vous atteignez cette limite, vous devrez attendre qu'elle se réinitialise.

Le plus grand ensemble de données actuellement sur Kaggle fait 3 To, donc vous pouvez atteindre votre limite de 30 jours en quelques requêtes si vous n'êtes pas prudent.

Ne vous inquiétez pas : nous vous apprendrons comment éviter de scanner trop de données à la fois, afin que vous ne dépassiez pas votre limite.

---

### Créer un objet QueryJobConfig pour estimer la taille de la requête sans l'exécuter
Pour commencer, vous pouvez estimer la taille de n'importe quelle requête avant de l'exécuter. Voici un exemple utilisant l'ensemble de données (très volumineux !) **Hacker News**. Pour voir combien de données une requête va scanner, nous créons un objet **QueryJobConfig** et définissons le paramètre **dry_run** sur True.

In [64]:
# Requête pour obtenir la colonne score de chaque ligne où la colonne type a la valeur "job"
query_score = """
        SELECT score, title
        FROM `bigquery-public-data.hacker_news.full`
        WHERE type = "job" 
        """

# Créer un objet QueryJobConfig pour estimer la taille de la requête sans l'exécuter
dry_run_config = bigquery.QueryJobConfig(dry_run=True)

# Requête API - exécuter une requête à blanc pour estimer les coûts
dry_run_query_job = client.query(query_score, job_config=dry_run_config)

print("Cette requête va traiter {} octets.".format(dry_run_query_job.total_bytes_processed))

Cette requête va traiter 678222409 octets.


---

### Limiter la quantité de données 1 Mo
Vous pouvez également spécifier un paramètre lors de l'exécution de la requête pour limiter la quantité de données que vous êtes prêt à scanner. Voici un exemple avec une limite basse.

In [68]:
# Exécuter la requête seulement si elle est inférieure à 1 Mo
ONE_MB = 1000*1000
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=ONE_MB)

# Configurer la requête (ne s'exécutera que si elle est inférieure à 1 Mo)
safe_query_job = client.query(query_score, job_config=safe_config)

# Requête API - essayer d'exécuter la requête et retourner un DataFrame pandas
safe_query_job.to_dataframe()

InternalServerError: 500 Query exceeded limit for bytes billed: 1000000. 678428672 or higher required.; reason: bytesBilledLimitExceeded, message: Query exceeded limit for bytes billed: 1000000. 678428672 or higher required.

Location: US
Job ID: ab346933-2ab3-4bf8-9498-0df22937eee8


---
### Augmenter la limite à 1 Go
Dans ce cas, la requête a été annulée car la limite de 1 Mo a été dépassée. Cependant, nous pouvons augmenter la limite pour exécuter la requête avec succès !

In [71]:
# Exécuter la requête seulement si elle est inférieure à 1 Go
ONE_GB = 1000*1000*1000
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=ONE_GB)

# Configurer la requête (ne s'exécutera que si elle est inférieure à 1 Go)
safe_query_job = client.query(query_score, job_config=safe_config)

# Requête API - essayer d'exécuter la requête et retourner un DataFrame pandas
job_post_scores = safe_query_job.to_dataframe()

# Afficher le score moyen pour les posts d'emploi
job_post_scores.score.mean()

np.float64(1.659159964253798)

---

# EXERCICE
### Introduction
Essayez d'écrire quelques instructions **SELECT** par vous-même pour explorer un grand ensemble de données de mesures de **pollution de l'air**.

Exécutez la cellule ci-dessous pour configurer le système de feedback.

La cellule de code ci-dessous récupère la table **global_air_quality** de l'ensemble de données **openaq**. Nous prévisualisons également les cinq premières lignes de la table.

In [78]:
from google.cloud import bigquery

# Créer un objet "Client"
client = bigquery.Client()

# Construire une référence au dataset "openaq"
dataset_ref = client.dataset("openaq", project="bigquery-public-data")

# Requête API - récupérer le dataset
dataset = client.get_dataset(dataset_ref)

# Construire une référence à la table "global_air_quality"
table_ref = dataset_ref.table("global_air_quality")

# Requête API - récupérer la table
table = client.get_table(table_ref)

# Prévisualiser les cinq premières lignes de la table "global_air_quality"
client.list_rows(table, max_results=5).to_dataframe()

Unnamed: 0,location,city,country,pollutant,value,timestamp,unit,source_name,latitude,longitude,averaged_over_in_hours,location_geom
0,"Borówiec, ul. Drapałka",Borówiec,PL,bc,0.85217,2022-04-28 07:00:00+00:00,µg/m³,GIOS,1.0,52.276794,17.074114,POINT(52.276794 1)
1,"Kraków, ul. Bulwarowa",Kraków,PL,bc,0.91284,2022-04-27 23:00:00+00:00,µg/m³,GIOS,1.0,50.069308,20.053492,POINT(50.069308 1)
2,"Płock, ul. Reja",Płock,PL,bc,1.41,2022-03-30 04:00:00+00:00,µg/m³,GIOS,1.0,52.550938,19.709791,POINT(52.550938 1)
3,"Elbląg, ul. Bażyńskiego",Elbląg,PL,bc,0.33607,2022-05-03 13:00:00+00:00,µg/m³,GIOS,1.0,54.167847,19.410942,POINT(54.167847 1)
4,"Piastów, ul. Pułaskiego",Piastów,PL,bc,0.51,2022-05-11 05:00:00+00:00,µg/m³,GIOS,1.0,52.191728,20.837489,POINT(52.191728 1)


## Question 1: Unités de mesure
Quels pays ont signalé des niveaux de pollution en unités de "ppm" ? Dans la cellule de code ci-dessous, définissez **first_query** comme une requête SQL qui extrait les entrées appropriées de la colonne country.

Voici un exemple de requête que vous pourriez utiliser :
```
query = """
        SELECT city
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE country = 'US'
        """
```

In [81]:
# Requête pour sélectionner les pays avec des unités de "ppm"
first_query = """
        SELECT country
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE unit = 'ppm'
        """

# Configurer la requête (annuler la requête si elle utilise trop de quota, avec une limite de 10 Go)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
first_query_job = client.query(first_query, job_config=safe_config)

# Requête API - exécuter la requête et retourner un DataFrame pandas
first_results = first_query_job.to_dataframe()

# Voir les premières lignes des résultats
print(first_results.head())

  country
0      IL
1      IL
2      AR
3      IL
4      AR


---
## Question 2: Qualité de l'air élevée
Quels niveaux de pollution ont été rapportés comme étant exactement 0 ?

Définissez zero_pollution_query pour sélectionner toutes les colonnes des lignes où la colonne **value est égale à 0**.
Définissez zero_pollution_results comme un DataFrame pandas contenant les résultats de la requête.

In [84]:
# Requête pour sélectionner toutes les colonnes où les niveaux de pollution sont exactement 0
zero_pollution_query = """
        SELECT *
        FROM `bigquery-public-data.openaq.global_air_quality`
        WHERE value = 0
        """

# Configurer la requête
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(zero_pollution_query, job_config=safe_config)

# Requête API - exécuter la requête et retourner un DataFrame pandas
zero_pollution_results = query_job.to_dataframe()

print(zero_pollution_results.head())

                       location      city country pollutant  value  \
0     Zielonka, Bory Tucholskie  Zielonka      PL        bc    0.0   
1    Toruń, ul. Przy Kaszowniku     Toruń      PL        bc    0.0   
2           Kielce, ul. Targowa    Kielce      PL        bc    0.0   
3     Zielonka, Bory Tucholskie  Zielonka      PL        bc    0.0   
4  Koszalin, ul. Armii Krajowej  Koszalin      PL        bc    0.0   

                  timestamp   unit source_name  latitude  longitude  \
0 2022-04-29 14:00:00+00:00  µg/m³        GIOS       1.0  53.662136   
1 2022-04-19 04:00:00+00:00  µg/m³        GIOS       1.0  53.017628   
2 2022-05-07 17:00:00+00:00  µg/m³        GIOS       1.0  50.878998   
3 2022-05-19 14:00:00+00:00  µg/m³        GIOS       1.0  53.662136   
4 2022-05-12 20:00:00+00:00  µg/m³        GIOS       1.0  54.193986   

   averaged_over_in_hours       location_geom  
0               17.933986  POINT(53.662136 1)  
1               18.612808  POINT(53.017628 1)  
2       

---

Cette requête n'était pas trop compliquée, et elle a récupéré les données que vous vouliez. Mais ces requêtes SELECT ne permettent pas d'organiser les données de manière à répondre aux questions les plus intéressantes. Pour cela, nous aurons besoin de la commande **GROUP BY**.

Si vous savez comment utiliser `groupby()` dans pandas, c'est similaire. *Mais BigQuery fonctionne rapidement avec des ensembles de données beaucoup plus grands.*

Heureusement, c'est ce que nous allons voir ensuite.