# Joining Data
Combinez des sources de données. Essentiel pour presque tous les problèmes de données du monde réel.

## Introduction
Vous avez les outils pour obtenir des données à partir d'une seule table dans le format que vous souhaitez. *Mais que faire si les données dont vous avez besoin sont réparties sur plusieurs tables ?*

C'est là que **JOIN** entre en jeu ! JOIN est incroyablement important dans les **workflows SQL** pratiques. Alors commençons.

---

#### Exemple
Nous allons utiliser notre table imaginaire **pets**, qui a trois colonnes :
- **ID** - Numéro d'identification de l'animal
- **Name** - Nom de l'animal
- **Animal** - Type d'animal

Nous allons également ajouter une autre table, appelée **owners**. Cette table a également trois colonnes :
- **ID** - Numéro d'identification du propriétaire (différent du numéro d'identification de l'animal)
- **Name** - Nom du propriétaire
- **Pet_ID** - Numéro d'identification de l'animal appartenant au propriétaire (qui correspond au numéro d'identification de l'animal dans la table pets)

Pour obtenir des informations qui s'appliquent à un certain animal, nous faisons correspondre la colonne **ID** de la table **pets** avec la colonne **Pet_ID** de la table **owners**.

Par exemple :
- La table **pets** montre que Dr. Harris Bonkers est l'animal avec l'ID 1.
- La table **owners** montre que Aubrey Little est le propriétaire de l'animal avec l'ID 1.

En combinant ces deux informations, **Dr. Harris Bonkers est possédé par Aubrey Little**.

Heureusement, nous n'avons pas besoin de faire cela manuellement pour déterminer quel propriétaire correspond à quel animal. Dans la section suivante, vous apprendrez comment utiliser **JOIN** pour créer une nouvelle table combinant les informations des tables **pets** et **owners**.

---

## JOIN
En utilisant JOIN, nous pouvons écrire une requête pour créer une table avec seulement deux colonnes : le nom de l'animal et le nom du propriétaire.

```
SELECT p.Name AS Pet_Name, o.Name AS Owner_Name
FROM `pets` AS p
INNER JOIN `owners` AS o
    ON p.ID = o.Pet_ID;
```

Nous combinons les informations des deux tables en faisant correspondre les lignes où la colonne ID de la table pets correspond à la colonne Pet_ID de la table owners.

Dans la requête, **ON** détermine quelle colonne dans chaque table utiliser pour combiner les tables. Notez que puisque la colonne ID existe dans les deux tables, nous devons préciser laquelle utiliser. Nous utilisons **p.ID** pour faire référence à la colonne ID de la table pets, et **o.Pet_ID** fait référence à la colonne Pet_ID de la table owners.

En général, lorsque vous joignez des tables, c'est une bonne habitude de spécifier de quelle table provient chaque colonne. Ainsi, vous n'avez pas besoin de consulter le schéma à chaque fois que vous relisez la requête.

- Le type de **JOIN** que nous utilisons aujourd'hui s'appelle un **INNER JOIN**. Cela signifie qu'une ligne ne sera incluse dans la table finale que si la valeur dans les colonnes utilisées pour les combiner apparaît dans les deux tables que vous joignez. 

Par exemple, si l'ID numéro 4 de Tom n'existait pas dans la table pets, nous n'obtiendrions que 3 lignes en retour de cette requête. *Il existe d'autres types de JOIN, mais INNER JOIN est très largement utilisé, donc c'est un bon point de départ.*

---

### Exemple : Combien de fichiers sont couverts par chaque type de licence logicielle ?
**GitHub** est l'endroit le plus populaire pour collaborer sur des projets logiciels. Un dépôt GitHub (ou repo) est une collection de fichiers associés à un projet spécifique.

La plupart des dépôts sur GitHub sont partagés sous une licence légale spécifique, qui détermine les restrictions légales sur leur utilisation. *Pour notre exemple, nous allons examiner combien de fichiers différents ont été publiés sous chaque licence.*

#### Nous allons travailler avec deux tables dans la base de données. 
- La première table est la table **licenses**, qui fournit le nom de chaque dépôt GitHub (dans la colonne **repo_name**) et sa licence correspondante. Voici un aperçu des cinq premières lignes.

Utilisation de l'intégration BigQuery des ensembles de données publics de Kaggle.

In [5]:
from google.cloud import bigquery

# Create a "Client" object
client = bigquery.Client()

# Construct a reference to the "github_repos" dataset
dataset_ref = client.dataset("github_repos", project="bigquery-public-data")

# API request - fetch the dataset
dataset = client.get_dataset(dataset_ref)

# Construct a reference to the "licenses" table
licenses_ref = dataset_ref.table("licenses")

# API request - fetch the table
licenses_table = client.get_table(licenses_ref)

# Preview the first five lines of the "licenses" table
client.list_rows(licenses_table, max_results=5).to_dataframe()

Unnamed: 0,repo_name,license
0,autarch/Dist-Zilla-Plugin-Test-TidyAll,artistic-2.0
1,thundergnat/Prime-Factor,artistic-2.0
2,kusha-b-k/Turabian_Engin_Fan,artistic-2.0
3,onlinepremiumoutlet/onlinepremiumoutlet.github.io,artistic-2.0
4,huangyuanlove/LiaoBa_Service,artistic-2.0


- La deuxième table est la table **sample_files**, qui fournit, entre autres informations, le dépôt GitHub auquel chaque fichier appartient (dans la colonne repo_name). Les premières lignes de cette table sont affichées ci-dessous.


In [9]:
# Construire une référence à la table "sample_files"
files_ref = dataset_ref.table("sample_files")

# Requête API - récupérer la table
files_table = client.get_table(files_ref)

# Prévisualiser les cinq premières lignes de la table "sample_files"
client.list_rows(files_table, max_results=5).to_dataframe()

Unnamed: 0,repo_name,ref,path,mode,id,symlink_target
0,EOL/eol,refs/heads/master,generate/vendor/railties,40960,0338c33fb3fda57db9e812ac7de969317cad4959,/usr/share/rails-ruby1.8/railties
1,np/ling,refs/heads/master,tests/success/merger_seq_inferred.t/merger_seq...,40960,dd4bb3d5ecabe5044d3fa5a36e0a9bf7ca878209,../../../fixtures/all/merger_seq_inferred.ll
2,np/ling,refs/heads/master,fixtures/sequence/lettype.ll,40960,8fdf536def2633116d65b92b3b9257bcf06e3e45,../all/lettype.ll
3,np/ling,refs/heads/master,fixtures/failure/wrong_order_seq3.ll,40960,c2509ae1196c4bb79d7e60a3d679488ca4a753e9,../all/wrong_order_seq3.ll
4,np/ling,refs/heads/master,issues/sequence/keep.t,40960,5721de3488fb32745dfc11ec482e5dd0331fecaf,../keep.t


#### Ensuite, nous écrivons une requête qui utilise les informations des deux tables pour déterminer combien de fichiers sont publiés sous chaque licence.

In [12]:
# Requête pour déterminer le nombre de fichiers par licence, triés par nombre de fichiers
query = """
        SELECT L.license, COUNT(1) AS number_of_files
        FROM `bigquery-public-data.github_repos.sample_files` AS sf
        INNER JOIN `bigquery-public-data.github_repos.licenses` AS L 
            ON sf.repo_name = L.repo_name
        GROUP BY L.license
        ORDER BY number_of_files DESC
        """

# Configurer la requête (annuler la requête si elle utilise trop de quota, avec une limite fixée à 10 Go)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(query, job_config=safe_config)

# Requête API - exécuter la requête et convertir les résultats en DataFrame pandas
file_count_by_license = query_job.to_dataframe()

C'est une grosse requête, alors nous allons examiner chaque partie séparément.

Nous commençons par le **JOIN** (surligné en bleu ci-dessus). Celui-ci spécifie les sources de données et comment les joindre. Nous utilisons **ON** pour spécifier que nous combinons les tables en faisant correspondre les valeurs dans les colonnes **repo_name** des tables.

Ensuite, nous parlons de **SELECT et GROUP BY** (surligné en jaune). Le **GROUP BY** divise les données en un groupe différent pour chaque licence, avant que nous ne **COUNT** le nombre de lignes dans la table **sample_files** qui correspond à chaque licence. (Rappelez-vous que vous pouvez compter le nombre de lignes avec **COUNT(1)**.)

Enfin, le **ORDER BY** (surligné en violet) trie les résultats pour que les licences avec le plus de fichiers apparaissent en premier.

C'était une grosse requête, mais elle nous a donné une belle table résumant combien de fichiers ont été publiés sous chaque licence :

In [16]:
# Afficher le DataFrame
file_count_by_license

Unnamed: 0,license,number_of_files
0,mit,20560894
1,gpl-2.0,16608922
2,apache-2.0,7201141
3,gpl-3.0,5107676
4,bsd-3-clause,3465437
5,agpl-3.0,1372100
6,lgpl-2.1,799664
7,bsd-2-clause,692357
8,lgpl-3.0,582277
9,mpl-2.0,457000


Vous utiliserez les clauses **JOIN** fréquemment et deviendrez très efficace avec elles à mesure que vous pratiquerez.

---
### À vous de jouer
Vous êtes à la dernière étape. Terminez ce cours en résolvant ces exercices.



---

# EXERCICE

## Introduction
**Stack Overflow** est un site de questions-réponses très apprécié pour les questions techniques. Vous l'utiliserez probablement vous-même à mesure que vous approfondirez votre maîtrise de **SQL** (ou de tout autre langage de programmation).

Leurs données sont accessibles au public. Selon vous, quelles pourraient être leurs utilisations les plus intéressantes ?

**Voici une idée** : vous pourriez créer un service qui identifie les utilisateurs de *Stack Overflow* ayant démontré une expertise sur une technologie spécifique en répondant à des questions sur ce sujet. Cela permettrait à quelqu'un d'embaucher ces experts pour une aide approfondie.

Dans cet exercice, vous allez écrire les requêtes SQL qui pourraient constituer la base d'un tel service.

Exécutez la cellule suivante pour récupérer l'ensemble de données **Stack Overflow**.

In [2]:
from google.cloud import bigquery

# Créer un objet "Client"
client = bigquery.Client()

# Construire une référence vers l'ensemble de données "stackoverflow"
dataset_ref = client.dataset("stackoverflow", project="bigquery-public-data")

# Requête API - récupérer l'ensemble de données
dataset = client.get_dataset(dataset_ref)


## Question 1: Explorer les données
Avant d’écrire des requêtes **SQL** ou d’utiliser des clauses **JOIN**, il est important de voir quelles tables sont disponibles.

💡 **Astuce** : L’auto-complétion est très utile si vous ne vous souvenez pas d’une commande. Tapez client. puis appuyez sur la touche Tab. N’oubliez pas le point avant d’appuyer sur Tab.

In [6]:
# Obtenir la liste des tables disponibles dans le dataset
tables = list(client.list_tables(dataset))

# Extraire uniquement les identifiants des tables
list_of_tables = [table.table_id for table in tables]  # Votre code ici

# Afficher la liste des tables
print(list_of_tables)


['badges', 'comments', 'post_history', 'post_links', 'posts_answers', 'posts_moderator_nomination', 'posts_orphaned_tag_wiki', 'posts_privilege_wiki', 'posts_questions', 'posts_tag_wiki', 'posts_tag_wiki_excerpt', 'posts_wiki_placeholder', 'stackoverflow_posts', 'tags', 'users', 'votes']


---

## Question 2: Examiner les tables pertinentes
Si vous êtes intéressé par les personnes qui répondent aux questions sur un sujet donné, la table **posts_answers** est un bon point de départ. Exécutez la cellule suivante et observez la sortie.

In [9]:
# Construire une référence à la table "posts_answers"
answers_table_ref = dataset_ref.table("posts_answers")

# Requête API - récupérer la table
answers_table = client.get_table(answers_table_ref)

# Prévisualiser les cinq premières lignes de la table "posts_answers"
client.list_rows(answers_table, max_results=5).to_dataframe()


Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,18,,<p>For a table like this:</p>\n\n<pre><code>CR...,,,2,NaT,2008-08-01 05:12:44.193000+00:00,,2016-06-02 05:56:26.060000+00:00,2016-06-02 05:56:26.060000+00:00,Jeff Atwood,126039,phpguy,,17,2,59,,
1,165,,"<p>You can use a <a href=""http://sharpdevelop....",,,0,NaT,2008-08-01 18:04:25.023000+00:00,,2019-04-06 14:03:51.080000+00:00,2019-04-06 14:03:51.080000+00:00,,1721793,user2189331,,145,2,10,,
2,1028,,<p>The VB code looks something like this:</p>\...,,,0,NaT,2008-08-04 04:58:40.300000+00:00,,2013-02-07 13:22:14.680000+00:00,2013-02-07 13:22:14.680000+00:00,,395659,user2189331,,947,2,8,,
3,1073,,<p>My first choice would be a dedicated heap t...,,,0,NaT,2008-08-04 07:51:02.997000+00:00,,2015-09-01 17:32:32.120000+00:00,2015-09-01 17:32:32.120000+00:00,,45459,user2189331,,1069,2,29,,
4,1260,,<p>I found the answer. all you have to do is a...,,,0,NaT,2008-08-04 14:06:02.863000+00:00,,2016-12-20 08:38:48.867000+00:00,2016-12-20 08:38:48.867000+00:00,,1221571,Jin,,1229,2,1,,


Il n'est pas encore clair comment trouver les utilisateurs qui ont répondu à des questions sur un sujet donné. Cependant, la table **posts_answers** possède une colonne **parent_id**.

Si vous connaissez bien le site **Stack Overflow**, vous pourriez deviner que **parent_id** correspond à la question à laquelle chaque réponse est associée.

Regardez la table **posts_questions** en exécutant la cellule ci-dessous.

In [13]:
# Construct a reference to the "posts_questions" table
questions_table_ref = dataset_ref.table("posts_questions")

# API request - fetch the table
questions_table = client.get_table(questions_table_ref)

# Preview the first five lines of the "posts_questions" table
client.list_rows(questions_table, max_results=5).to_dataframe()

Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,320268,Html.ActionLink doesn’t render # properly,<p>When using Html.ActionLink passing a string...,,0,0,NaT,2008-11-26 10:42:37.477000+00:00,0,2009-02-06 20:13:54.370000+00:00,NaT,,,Paulo,,,1,0,asp.net-mvc,390
1,324003,Primitive recursion,<p>how will i define the function 'simplify' ...,,0,0,NaT,2008-11-27 15:12:37.497000+00:00,0,2012-09-25 19:54:40.597000+00:00,2012-09-25 19:54:40.597000+00:00,Marcin,1288.0,,41000.0,,1,0,haskell|lambda|functional-programming|lambda-c...,497
2,390605,While vs. Do While,<p>I've seen both the blocks of code in use se...,390608.0,0,0,NaT,2008-12-24 01:49:54.230000+00:00,2,2008-12-24 03:08:55.897000+00:00,NaT,,,Unkwntech,115.0,,1,0,language-agnostic|loops,11262
3,413246,Protect ASP.NET Source code,<p>Im currently doing some research in how to ...,,0,0,NaT,2009-01-05 14:23:51.040000+00:00,0,2009-03-24 21:30:22.370000+00:00,2009-01-05 14:42:28.257000+00:00,Tom Anderson,13502.0,Velnias,,,1,0,asp.net|deployment|obfuscation,4823
4,454921,"Difference between ""int[] myArray"" and ""int my...",<blockquote>\n <p><strong>Possible Duplicate:...,454928.0,0,0,NaT,2009-01-18 10:22:52.177000+00:00,0,2009-01-18 10:30:50.930000+00:00,2017-05-23 11:49:26.567000+00:00,,-1.0,Evan Fosmark,49701.0,,1,0,java|arrays,798


Y a-t-il des champs qui identifient le sujet ou la technologie associée à chaque question ?
Si oui, comment pourriez-vous trouver les identifiants des utilisateurs qui ont répondu à des questions sur un sujet spécifique ?

Réfléchissez-y, puis vérifiez la solution en exécutant le code dans la cellule suivante.

##### **Solution :**  
La table **`posts_questions`** possède une colonne appelée **`tags`**, qui répertorie les sujets ou technologies associés à chaque question.  

La table **`posts_answers`** contient :  
- Une colonne **`parent_id`**, qui identifie l’ID de la question à laquelle chaque réponse est associée.  
- Une colonne **`owner_user_id`**, qui spécifie l’ID de l’utilisateur ayant répondu à la question.  

Vous pouvez **joindre ces deux tables** afin de :  
1. Déterminer les **tags** associés à chaque réponse.  
2. Sélectionner l’**owner_user_id** des réponses correspondant au tag recherché.  

C’est exactement ce que vous ferez dans les prochaines questions.

---

#### **3) Sélectionner les bonnes questions**  

Beaucoup de ces données sont **textuelles**.  

Nous allons explorer une dernière technique dans ce cours, que vous pourrez appliquer à ces textes.  

Une clause **`WHERE`** permet de limiter vos résultats aux lignes contenant un certain texte grâce à l’opérateur **`LIKE`**.  

Par exemple, pour sélectionner uniquement la troisième ligne de la table **`pets`** du tutoriel, nous pourrions utiliser la requête illustrée dans l’image ci-dessous.  

(**Image**)  

Vous pouvez également utiliser **`%`** comme un **joker** représentant **n’importe quel nombre de caractères**. Ainsi, vous pouvez obtenir la troisième ligne avec :  

```sql
query = """
        SELECT * 
        FROM `bigquery-public-data.pet_records.pets` 
        WHERE Name LIKE '%ipl%'
        """
```  

#### **À vous d’essayer !**  
Écrivez une requête SQL qui sélectionne les colonnes **id**, **title** et **owner_user_id** de la table **`posts_questions`**.  

Restreignez les résultats aux lignes où la colonne **tags** contient le mot **"bigquery"**.  

Incluez également les lignes où **d'autres mots sont présents en plus de "bigquery"** (par exemple, si une ligne possède le tag **"bigquery-sql"**, elle doit être incluse dans vos résultats).

In [19]:
# Your code here
questions_query = """
                  SELECT id, title, owner_user_id
                  FROM `bigquery-public-data.stackoverflow.posts_questions`
                  WHERE tags LIKE '%bigquery%'
                  """

# Set up the query (cancel the query if it would use too much of 
# your quota, with the limit set to 10 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)

# API request - run the query
questions_query_job = client.query(questions_query, job_config=safe_config)

# Convert results to a pandas DataFrame
questions_results = questions_query_job.to_dataframe()

# Preview results
print(questions_results.head())

         id                                              title  owner_user_id
0  73387570        Data loss after billing changed in bigquery       19784500
1  73474242  Sum of repeated numeric columns (array) in Big...       12018883
2  73521676  Is there any way we can pass avro schema file ...       19865820
3  73355665    Converting seconds to time duration in BigQuery       15200064
4  73377293  How to write data to bq using streaming with a...       19777578


---
 
####  **Question 4: Votre première jointure**  

Maintenant que vous avez une requête permettant de sélectionner des questions sur un sujet donné (dans ce cas, "bigquery"), vous pouvez trouver les réponses à ces questions en utilisant une **jointure (JOIN)**.  

**Objectif :**  
Écrivez une requête qui retourne les colonnes `id`, `body` et `owner_user_id` de la table `posts_answers`, pour les réponses apportées aux questions liées à **"bigquery"**.  

Vous devez obtenir une ligne dans vos résultats pour **chaque réponse** à une question contenant **"bigquery"** dans la colonne `tags`.  

Rappel :  
- Vous pouvez obtenir les **tags d'une question** à partir de la colonne `tags` dans la table `posts_questions`.  
- Voici un exemple de **JOIN** vu dans le tutoriel :  

```sql
query = """
        SELECT p.Name AS Pet_Name, o.Name AS Owner_Name
        FROM `bigquery-public-data.pet_records.pets` AS p
        INNER JOIN `bigquery-public-data.pet_records.owners` AS o 
            ON p.ID = o.Pet_ID
        """
```

Il pourrait être utile de **faire défiler la page vers le haut** pour revoir les premières lignes des tables `posts_answers` et `posts_questions`.

In [25]:
# Your code here
answers_query = """
                SELECT a.id, a.body, a.owner_user_id
                FROM `bigquery-public-data.stackoverflow.posts_answers` AS a
                INNER JOIN `bigquery-public-data.stackoverflow.posts_questions` AS q
                    ON a.parent_id = q.id
                WHERE q.tags LIKE '%bigquery%'
                """

# Set up the query (limit set to 27 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=27*10**10)

# API request - run the query
answers_query_job = client.query(answers_query, job_config=safe_config)

# Convert the results to a Pandas DataFrame
answers_results = answers_query_job.to_dataframe()

# Preview results
print(answers_results.head())


         id                                               body  owner_user_id
0  21923869  <p>strange... I just started working with bq &...         745616
1  22138799  <p>Check the jar files are added to your lib o...        2270081
2  22284919  <p>I have created the following "Times" table:...        2881671
3  22322853  <p>Solved finally, should be the account permi...         924734
4  21734792  <p>It seems that it is working when I add alia...        2739973


---

###  **Question 5: Répondre à la question**

Vous avez la fusion nécessaire, mais vous voulez une liste d'utilisateurs qui ont répondu à de nombreuses questions... ce qui nécessite un peu plus de travail au-delà de votre résultat précédent.

Écrivez une nouvelle requête qui retourne une seule ligne pour chaque utilisateur ayant répondu à au moins une question ayant un tag incluant la chaîne "**bigquery**". Vos résultats doivent comporter deux colonnes :

- **user_id** : contient la colonne `owner_user_id` de la table `posts_answers`.
- **number_of_answers** : contient le nombre de réponses que l'utilisateur a données aux questions liées à "bigquery". 


Pour résoudre cet exercice, vous devrez effectuer un regroupement par utilisateur et compter le nombre de réponses pour chaque utilisateur ayant répondu à des questions avec le **tag** "bigquery".

In [28]:
bigquery_experts_query = """
    SELECT a.owner_user_id AS user_id, COUNT(1) AS number_of_answers
    FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
    INNER JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
        ON q.id = a.parent_Id
    WHERE q.tags LIKE '%bigquery%'
    GROUP BY a.owner_user_id
    """

# Set up the query (cancel the query if it would use too much of 
# your quota, with the limit set to 1 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
bigquery_experts_query_job = client.query(bigquery_experts_query, job_config=safe_config)

# API request - run the query, and return a pandas DataFrame
bigquery_experts_results = bigquery_experts_query_job.to_dataframe()

# Preview results
print(bigquery_experts_results.head())


   user_id  number_of_answers
0  1387380                  9
1   266700                  1
2   908494                  1
3  8402583                  1
4  5880234                 59




###  **Question 6: Construire un service plus généralement utile**  
Comment pourriez-vous convertir ce que vous avez fait en une fonction générale qu'un site web pourrait appeler en arrière-plan pour obtenir des experts sur n'importe quel sujet ?

Réfléchissez à cela, puis consultez la solution ci-dessous.

**Solution :**

```python
def expert_finder(topic, client):
    '''
    Retourne un DataFrame avec les ID des utilisateurs qui ont écrit des réponses sur Stack Overflow concernant un sujet.

    Entrées :
        topic : Une chaîne de caractères représentant le sujet d'intérêt
        client : Un objet Client spécifiant la connexion au dataset Stack Overflow

    Sorties :
        results : Un DataFrame avec les colonnes user_id et number_of_answers. Suivant une logique similaire à bigquery_experts_results montré ci-dessus.
    '''
    my_query = """
               SELECT a.owner_user_id AS user_id, COUNT(1) AS number_of_answers
               FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
               INNER JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
                   ON q.id = a.parent_Id
               WHERE q.tags like '%{topic}%'
               GROUP BY a.owner_user_id
               """
               
    # Configurer la requête (un vrai service aurait une bonne gestion des erreurs pour
    # les requêtes qui scannent trop de données)
    safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)      
    my_query_job = client.query(my_query, job_config=safe_config)
    
    # Demande API - exécuter la requête et retourner un DataFrame pandas
    results = my_query_job.to_dataframe()

    return results
```

---

Félicitations !  
Vous connaissez désormais tous les éléments clés pour utiliser BigQuery et SQL de manière efficace. Vos compétences en SQL sont suffisantes pour explorer de nombreux des plus grands datasets du monde.

Envie de jouer avec vos nouveaux pouvoirs ? Kaggle propose des datasets BigQuery disponibles ici.