# Joining Data
Combinez des sources de donn√©es. Essentiel pour presque tous les probl√®mes de donn√©es du monde r√©el.

## Introduction
Vous avez les outils pour obtenir des donn√©es √† partir d'une seule table dans le format que vous souhaitez. *Mais que faire si les donn√©es dont vous avez besoin sont r√©parties sur plusieurs tables ?*

C'est l√† que **JOIN** entre en jeu ! JOIN est incroyablement important dans les **workflows SQL** pratiques. Alors commen√ßons.

---

#### Exemple
Nous allons utiliser notre table imaginaire **pets**, qui a trois colonnes :
- **ID** - Num√©ro d'identification de l'animal
- **Name** - Nom de l'animal
- **Animal** - Type d'animal

Nous allons √©galement ajouter une autre table, appel√©e **owners**. Cette table a √©galement trois colonnes :
- **ID** - Num√©ro d'identification du propri√©taire (diff√©rent du num√©ro d'identification de l'animal)
- **Name** - Nom du propri√©taire
- **Pet_ID** - Num√©ro d'identification de l'animal appartenant au propri√©taire (qui correspond au num√©ro d'identification de l'animal dans la table pets)

Pour obtenir des informations qui s'appliquent √† un certain animal, nous faisons correspondre la colonne **ID** de la table **pets** avec la colonne **Pet_ID** de la table **owners**.

Par exemple :
- La table **pets** montre que Dr. Harris Bonkers est l'animal avec l'ID 1.
- La table **owners** montre que Aubrey Little est le propri√©taire de l'animal avec l'ID 1.

En combinant ces deux informations, **Dr. Harris Bonkers est poss√©d√© par Aubrey Little**.

Heureusement, nous n'avons pas besoin de faire cela manuellement pour d√©terminer quel propri√©taire correspond √† quel animal. Dans la section suivante, vous apprendrez comment utiliser **JOIN** pour cr√©er une nouvelle table combinant les informations des tables **pets** et **owners**.

---

## JOIN
En utilisant JOIN, nous pouvons √©crire une requ√™te pour cr√©er une table avec seulement deux colonnes : le nom de l'animal et le nom du propri√©taire.

```
SELECT p.Name AS Pet_Name, o.Name AS Owner_Name
FROM `pets` AS p
INNER JOIN `owners` AS o
    ON p.ID = o.Pet_ID;
```

Nous combinons les informations des deux tables en faisant correspondre les lignes o√π la colonne ID de la table pets correspond √† la colonne Pet_ID de la table owners.

Dans la requ√™te, **ON** d√©termine quelle colonne dans chaque table utiliser pour combiner les tables. Notez que puisque la colonne ID existe dans les deux tables, nous devons pr√©ciser laquelle utiliser. Nous utilisons **p.ID** pour faire r√©f√©rence √† la colonne ID de la table pets, et **o.Pet_ID** fait r√©f√©rence √† la colonne Pet_ID de la table owners.

En g√©n√©ral, lorsque vous joignez des tables, c'est une bonne habitude de sp√©cifier de quelle table provient chaque colonne. Ainsi, vous n'avez pas besoin de consulter le sch√©ma √† chaque fois que vous relisez la requ√™te.

- Le type de **JOIN** que nous utilisons aujourd'hui s'appelle un **INNER JOIN**. Cela signifie qu'une ligne ne sera incluse dans la table finale que si la valeur dans les colonnes utilis√©es pour les combiner appara√Æt dans les deux tables que vous joignez. 

Par exemple, si l'ID num√©ro 4 de Tom n'existait pas dans la table pets, nous n'obtiendrions que 3 lignes en retour de cette requ√™te. *Il existe d'autres types de JOIN, mais INNER JOIN est tr√®s largement utilis√©, donc c'est un bon point de d√©part.*

---

### Exemple : Combien de fichiers sont couverts par chaque type de licence logicielle ?
**GitHub** est l'endroit le plus populaire pour collaborer sur des projets logiciels. Un d√©p√¥t GitHub (ou repo) est une collection de fichiers associ√©s √† un projet sp√©cifique.

La plupart des d√©p√¥ts sur GitHub sont partag√©s sous une licence l√©gale sp√©cifique, qui d√©termine les restrictions l√©gales sur leur utilisation. *Pour notre exemple, nous allons examiner combien de fichiers diff√©rents ont √©t√© publi√©s sous chaque licence.*

#### Nous allons travailler avec deux tables dans la base de donn√©es. 
- La premi√®re table est la table **licenses**, qui fournit le nom de chaque d√©p√¥t GitHub (dans la colonne **repo_name**) et sa licence correspondante. Voici un aper√ßu des cinq premi√®res lignes.

Utilisation de l'int√©gration BigQuery des ensembles de donn√©es publics de Kaggle.

In [5]:
from google.cloud import bigquery

# Create a "Client" object
client = bigquery.Client()

# Construct a reference to the "github_repos" dataset
dataset_ref = client.dataset("github_repos", project="bigquery-public-data")

# API request - fetch the dataset
dataset = client.get_dataset(dataset_ref)

# Construct a reference to the "licenses" table
licenses_ref = dataset_ref.table("licenses")

# API request - fetch the table
licenses_table = client.get_table(licenses_ref)

# Preview the first five lines of the "licenses" table
client.list_rows(licenses_table, max_results=5).to_dataframe()

Unnamed: 0,repo_name,license
0,autarch/Dist-Zilla-Plugin-Test-TidyAll,artistic-2.0
1,thundergnat/Prime-Factor,artistic-2.0
2,kusha-b-k/Turabian_Engin_Fan,artistic-2.0
3,onlinepremiumoutlet/onlinepremiumoutlet.github.io,artistic-2.0
4,huangyuanlove/LiaoBa_Service,artistic-2.0


- La deuxi√®me table est la table **sample_files**, qui fournit, entre autres informations, le d√©p√¥t GitHub auquel chaque fichier appartient (dans la colonne repo_name). Les premi√®res lignes de cette table sont affich√©es ci-dessous.


In [9]:
# Construire une r√©f√©rence √† la table "sample_files"
files_ref = dataset_ref.table("sample_files")

# Requ√™te API - r√©cup√©rer la table
files_table = client.get_table(files_ref)

# Pr√©visualiser les cinq premi√®res lignes de la table "sample_files"
client.list_rows(files_table, max_results=5).to_dataframe()

Unnamed: 0,repo_name,ref,path,mode,id,symlink_target
0,EOL/eol,refs/heads/master,generate/vendor/railties,40960,0338c33fb3fda57db9e812ac7de969317cad4959,/usr/share/rails-ruby1.8/railties
1,np/ling,refs/heads/master,tests/success/merger_seq_inferred.t/merger_seq...,40960,dd4bb3d5ecabe5044d3fa5a36e0a9bf7ca878209,../../../fixtures/all/merger_seq_inferred.ll
2,np/ling,refs/heads/master,fixtures/sequence/lettype.ll,40960,8fdf536def2633116d65b92b3b9257bcf06e3e45,../all/lettype.ll
3,np/ling,refs/heads/master,fixtures/failure/wrong_order_seq3.ll,40960,c2509ae1196c4bb79d7e60a3d679488ca4a753e9,../all/wrong_order_seq3.ll
4,np/ling,refs/heads/master,issues/sequence/keep.t,40960,5721de3488fb32745dfc11ec482e5dd0331fecaf,../keep.t


#### Ensuite, nous √©crivons une requ√™te qui utilise les informations des deux tables pour d√©terminer combien de fichiers sont publi√©s sous chaque licence.

In [12]:
# Requ√™te pour d√©terminer le nombre de fichiers par licence, tri√©s par nombre de fichiers
query = """
        SELECT L.license, COUNT(1) AS number_of_files
        FROM `bigquery-public-data.github_repos.sample_files` AS sf
        INNER JOIN `bigquery-public-data.github_repos.licenses` AS L 
            ON sf.repo_name = L.repo_name
        GROUP BY L.license
        ORDER BY number_of_files DESC
        """

# Configurer la requ√™te (annuler la requ√™te si elle utilise trop de quota, avec une limite fix√©e √† 10 Go)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(query, job_config=safe_config)

# Requ√™te API - ex√©cuter la requ√™te et convertir les r√©sultats en DataFrame pandas
file_count_by_license = query_job.to_dataframe()

C'est une grosse requ√™te, alors nous allons examiner chaque partie s√©par√©ment.

Nous commen√ßons par le **JOIN** (surlign√© en bleu ci-dessus). Celui-ci sp√©cifie les sources de donn√©es et comment les joindre. Nous utilisons **ON** pour sp√©cifier que nous combinons les tables en faisant correspondre les valeurs dans les colonnes **repo_name** des tables.

Ensuite, nous parlons de **SELECT et GROUP BY** (surlign√© en jaune). Le **GROUP BY** divise les donn√©es en un groupe diff√©rent pour chaque licence, avant que nous ne **COUNT** le nombre de lignes dans la table **sample_files** qui correspond √† chaque licence. (Rappelez-vous que vous pouvez compter le nombre de lignes avec **COUNT(1)**.)

Enfin, le **ORDER BY** (surlign√© en violet) trie les r√©sultats pour que les licences avec le plus de fichiers apparaissent en premier.

C'√©tait une grosse requ√™te, mais elle nous a donn√© une belle table r√©sumant combien de fichiers ont √©t√© publi√©s sous chaque licence :

In [16]:
# Afficher le DataFrame
file_count_by_license

Unnamed: 0,license,number_of_files
0,mit,20560894
1,gpl-2.0,16608922
2,apache-2.0,7201141
3,gpl-3.0,5107676
4,bsd-3-clause,3465437
5,agpl-3.0,1372100
6,lgpl-2.1,799664
7,bsd-2-clause,692357
8,lgpl-3.0,582277
9,mpl-2.0,457000


Vous utiliserez les clauses **JOIN** fr√©quemment et deviendrez tr√®s efficace avec elles √† mesure que vous pratiquerez.

---
### √Ä vous de jouer
Vous √™tes √† la derni√®re √©tape. Terminez ce cours en r√©solvant ces exercices.



---

# EXERCICE

## Introduction
**Stack Overflow** est un site de questions-r√©ponses tr√®s appr√©ci√© pour les questions techniques. Vous l'utiliserez probablement vous-m√™me √† mesure que vous approfondirez votre ma√Ætrise de **SQL** (ou de tout autre langage de programmation).

Leurs donn√©es sont accessibles au public. Selon vous, quelles pourraient √™tre leurs utilisations les plus int√©ressantes ?

**Voici une id√©e** : vous pourriez cr√©er un service qui identifie les utilisateurs de *Stack Overflow* ayant d√©montr√© une expertise sur une technologie sp√©cifique en r√©pondant √† des questions sur ce sujet. Cela permettrait √† quelqu'un d'embaucher ces experts pour une aide approfondie.

Dans cet exercice, vous allez √©crire les requ√™tes SQL qui pourraient constituer la base d'un tel service.

Ex√©cutez la cellule suivante pour r√©cup√©rer l'ensemble de donn√©es **Stack Overflow**.

In [2]:
from google.cloud import bigquery

# Cr√©er un objet "Client"
client = bigquery.Client()

# Construire une r√©f√©rence vers l'ensemble de donn√©es "stackoverflow"
dataset_ref = client.dataset("stackoverflow", project="bigquery-public-data")

# Requ√™te API - r√©cup√©rer l'ensemble de donn√©es
dataset = client.get_dataset(dataset_ref)


## Question 1: Explorer les donn√©es
Avant d‚Äô√©crire des requ√™tes **SQL** ou d‚Äôutiliser des clauses **JOIN**, il est important de voir quelles tables sont disponibles.

üí° **Astuce** : L‚Äôauto-compl√©tion est tr√®s utile si vous ne vous souvenez pas d‚Äôune commande. Tapez client. puis appuyez sur la touche Tab. N‚Äôoubliez pas le point avant d‚Äôappuyer sur Tab.

In [6]:
# Obtenir la liste des tables disponibles dans le dataset
tables = list(client.list_tables(dataset))

# Extraire uniquement les identifiants des tables
list_of_tables = [table.table_id for table in tables]  # Votre code ici

# Afficher la liste des tables
print(list_of_tables)


['badges', 'comments', 'post_history', 'post_links', 'posts_answers', 'posts_moderator_nomination', 'posts_orphaned_tag_wiki', 'posts_privilege_wiki', 'posts_questions', 'posts_tag_wiki', 'posts_tag_wiki_excerpt', 'posts_wiki_placeholder', 'stackoverflow_posts', 'tags', 'users', 'votes']


---

## Question 2: Examiner les tables pertinentes
Si vous √™tes int√©ress√© par les personnes qui r√©pondent aux questions sur un sujet donn√©, la table **posts_answers** est un bon point de d√©part. Ex√©cutez la cellule suivante et observez la sortie.

In [9]:
# Construire une r√©f√©rence √† la table "posts_answers"
answers_table_ref = dataset_ref.table("posts_answers")

# Requ√™te API - r√©cup√©rer la table
answers_table = client.get_table(answers_table_ref)

# Pr√©visualiser les cinq premi√®res lignes de la table "posts_answers"
client.list_rows(answers_table, max_results=5).to_dataframe()


Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,18,,<p>For a table like this:</p>\n\n<pre><code>CR...,,,2,NaT,2008-08-01 05:12:44.193000+00:00,,2016-06-02 05:56:26.060000+00:00,2016-06-02 05:56:26.060000+00:00,Jeff Atwood,126039,phpguy,,17,2,59,,
1,165,,"<p>You can use a <a href=""http://sharpdevelop....",,,0,NaT,2008-08-01 18:04:25.023000+00:00,,2019-04-06 14:03:51.080000+00:00,2019-04-06 14:03:51.080000+00:00,,1721793,user2189331,,145,2,10,,
2,1028,,<p>The VB code looks something like this:</p>\...,,,0,NaT,2008-08-04 04:58:40.300000+00:00,,2013-02-07 13:22:14.680000+00:00,2013-02-07 13:22:14.680000+00:00,,395659,user2189331,,947,2,8,,
3,1073,,<p>My first choice would be a dedicated heap t...,,,0,NaT,2008-08-04 07:51:02.997000+00:00,,2015-09-01 17:32:32.120000+00:00,2015-09-01 17:32:32.120000+00:00,,45459,user2189331,,1069,2,29,,
4,1260,,<p>I found the answer. all you have to do is a...,,,0,NaT,2008-08-04 14:06:02.863000+00:00,,2016-12-20 08:38:48.867000+00:00,2016-12-20 08:38:48.867000+00:00,,1221571,Jin,,1229,2,1,,


Il n'est pas encore clair comment trouver les utilisateurs qui ont r√©pondu √† des questions sur un sujet donn√©. Cependant, la table **posts_answers** poss√®de une colonne **parent_id**.

Si vous connaissez bien le site **Stack Overflow**, vous pourriez deviner que **parent_id** correspond √† la question √† laquelle chaque r√©ponse est associ√©e.

Regardez la table **posts_questions** en ex√©cutant la cellule ci-dessous.

In [13]:
# Construct a reference to the "posts_questions" table
questions_table_ref = dataset_ref.table("posts_questions")

# API request - fetch the table
questions_table = client.get_table(questions_table_ref)

# Preview the first five lines of the "posts_questions" table
client.list_rows(questions_table, max_results=5).to_dataframe()

Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,320268,Html.ActionLink doesn‚Äôt render # properly,<p>When using Html.ActionLink passing a string...,,0,0,NaT,2008-11-26 10:42:37.477000+00:00,0,2009-02-06 20:13:54.370000+00:00,NaT,,,Paulo,,,1,0,asp.net-mvc,390
1,324003,Primitive recursion,<p>how will i define the function 'simplify' ...,,0,0,NaT,2008-11-27 15:12:37.497000+00:00,0,2012-09-25 19:54:40.597000+00:00,2012-09-25 19:54:40.597000+00:00,Marcin,1288.0,,41000.0,,1,0,haskell|lambda|functional-programming|lambda-c...,497
2,390605,While vs. Do While,<p>I've seen both the blocks of code in use se...,390608.0,0,0,NaT,2008-12-24 01:49:54.230000+00:00,2,2008-12-24 03:08:55.897000+00:00,NaT,,,Unkwntech,115.0,,1,0,language-agnostic|loops,11262
3,413246,Protect ASP.NET Source code,<p>Im currently doing some research in how to ...,,0,0,NaT,2009-01-05 14:23:51.040000+00:00,0,2009-03-24 21:30:22.370000+00:00,2009-01-05 14:42:28.257000+00:00,Tom Anderson,13502.0,Velnias,,,1,0,asp.net|deployment|obfuscation,4823
4,454921,"Difference between ""int[] myArray"" and ""int my...",<blockquote>\n <p><strong>Possible Duplicate:...,454928.0,0,0,NaT,2009-01-18 10:22:52.177000+00:00,0,2009-01-18 10:30:50.930000+00:00,2017-05-23 11:49:26.567000+00:00,,-1.0,Evan Fosmark,49701.0,,1,0,java|arrays,798


Y a-t-il des champs qui identifient le sujet ou la technologie associ√©e √† chaque question ?
Si oui, comment pourriez-vous trouver les identifiants des utilisateurs qui ont r√©pondu √† des questions sur un sujet sp√©cifique ?

R√©fl√©chissez-y, puis v√©rifiez la solution en ex√©cutant le code dans la cellule suivante.

##### **Solution :**  
La table **`posts_questions`** poss√®de une colonne appel√©e **`tags`**, qui r√©pertorie les sujets ou technologies associ√©s √† chaque question.  

La table **`posts_answers`** contient :  
- Une colonne **`parent_id`**, qui identifie l‚ÄôID de la question √† laquelle chaque r√©ponse est associ√©e.  
- Une colonne **`owner_user_id`**, qui sp√©cifie l‚ÄôID de l‚Äôutilisateur ayant r√©pondu √† la question.  

Vous pouvez **joindre ces deux tables** afin de :  
1. D√©terminer les **tags** associ√©s √† chaque r√©ponse.  
2. S√©lectionner l‚Äô**owner_user_id** des r√©ponses correspondant au tag recherch√©.  

C‚Äôest exactement ce que vous ferez dans les prochaines questions.

---

#### **3) S√©lectionner les bonnes questions**  

Beaucoup de ces donn√©es sont **textuelles**.  

Nous allons explorer une derni√®re technique dans ce cours, que vous pourrez appliquer √† ces textes.  

Une clause **`WHERE`** permet de limiter vos r√©sultats aux lignes contenant un certain texte gr√¢ce √† l‚Äôop√©rateur **`LIKE`**.  

Par exemple, pour s√©lectionner uniquement la troisi√®me ligne de la table **`pets`** du tutoriel, nous pourrions utiliser la requ√™te illustr√©e dans l‚Äôimage ci-dessous.  

(**Image**)  

Vous pouvez √©galement utiliser **`%`** comme un **joker** repr√©sentant **n‚Äôimporte quel nombre de caract√®res**. Ainsi, vous pouvez obtenir la troisi√®me ligne avec :  

```sql
query = """
        SELECT * 
        FROM `bigquery-public-data.pet_records.pets` 
        WHERE Name LIKE '%ipl%'
        """
```  

#### **√Ä vous d‚Äôessayer !**  
√âcrivez une requ√™te SQL qui s√©lectionne les colonnes **id**, **title** et **owner_user_id** de la table **`posts_questions`**.  

Restreignez les r√©sultats aux lignes o√π la colonne **tags** contient le mot **"bigquery"**.  

Incluez √©galement les lignes o√π **d'autres mots sont pr√©sents en plus de "bigquery"** (par exemple, si une ligne poss√®de le tag **"bigquery-sql"**, elle doit √™tre incluse dans vos r√©sultats).

In [19]:
# Your code here
questions_query = """
                  SELECT id, title, owner_user_id
                  FROM `bigquery-public-data.stackoverflow.posts_questions`
                  WHERE tags LIKE '%bigquery%'
                  """

# Set up the query (cancel the query if it would use too much of 
# your quota, with the limit set to 10 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)

# API request - run the query
questions_query_job = client.query(questions_query, job_config=safe_config)

# Convert results to a pandas DataFrame
questions_results = questions_query_job.to_dataframe()

# Preview results
print(questions_results.head())

         id                                              title  owner_user_id
0  73387570        Data loss after billing changed in bigquery       19784500
1  73474242  Sum of repeated numeric columns (array) in Big...       12018883
2  73521676  Is there any way we can pass avro schema file ...       19865820
3  73355665    Converting seconds to time duration in BigQuery       15200064
4  73377293  How to write data to bq using streaming with a...       19777578


---
 
####  **Question 4: Votre premi√®re jointure**  

Maintenant que vous avez une requ√™te permettant de s√©lectionner des questions sur un sujet donn√© (dans ce cas, "bigquery"), vous pouvez trouver les r√©ponses √† ces questions en utilisant une **jointure (JOIN)**.  

**Objectif :**  
√âcrivez une requ√™te qui retourne les colonnes `id`, `body` et `owner_user_id` de la table `posts_answers`, pour les r√©ponses apport√©es aux questions li√©es √† **"bigquery"**.  

Vous devez obtenir une ligne dans vos r√©sultats pour **chaque r√©ponse** √† une question contenant **"bigquery"** dans la colonne `tags`.  

Rappel :  
- Vous pouvez obtenir les **tags d'une question** √† partir de la colonne `tags` dans la table `posts_questions`.  
- Voici un exemple de **JOIN** vu dans le tutoriel :  

```sql
query = """
        SELECT p.Name AS Pet_Name, o.Name AS Owner_Name
        FROM `bigquery-public-data.pet_records.pets` AS p
        INNER JOIN `bigquery-public-data.pet_records.owners` AS o 
            ON p.ID = o.Pet_ID
        """
```

Il pourrait √™tre utile de **faire d√©filer la page vers le haut** pour revoir les premi√®res lignes des tables `posts_answers` et `posts_questions`.

In [25]:
# Your code here
answers_query = """
                SELECT a.id, a.body, a.owner_user_id
                FROM `bigquery-public-data.stackoverflow.posts_answers` AS a
                INNER JOIN `bigquery-public-data.stackoverflow.posts_questions` AS q
                    ON a.parent_id = q.id
                WHERE q.tags LIKE '%bigquery%'
                """

# Set up the query (limit set to 27 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=27*10**10)

# API request - run the query
answers_query_job = client.query(answers_query, job_config=safe_config)

# Convert the results to a Pandas DataFrame
answers_results = answers_query_job.to_dataframe()

# Preview results
print(answers_results.head())


         id                                               body  owner_user_id
0  21923869  <p>strange... I just started working with bq &...         745616
1  22138799  <p>Check the jar files are added to your lib o...        2270081
2  22284919  <p>I have created the following "Times" table:...        2881671
3  22322853  <p>Solved finally, should be the account permi...         924734
4  21734792  <p>It seems that it is working when I add alia...        2739973


---

###  **Question 5: R√©pondre √† la question**

Vous avez la fusion n√©cessaire, mais vous voulez une liste d'utilisateurs qui ont r√©pondu √† de nombreuses questions... ce qui n√©cessite un peu plus de travail au-del√† de votre r√©sultat pr√©c√©dent.

√âcrivez une nouvelle requ√™te qui retourne une seule ligne pour chaque utilisateur ayant r√©pondu √† au moins une question ayant un tag incluant la cha√Æne "**bigquery**". Vos r√©sultats doivent comporter deux colonnes :

- **user_id** : contient la colonne `owner_user_id` de la table `posts_answers`.
- **number_of_answers** : contient le nombre de r√©ponses que l'utilisateur a donn√©es aux questions li√©es √† "bigquery". 


Pour r√©soudre cet exercice, vous devrez effectuer un regroupement par utilisateur et compter le nombre de r√©ponses pour chaque utilisateur ayant r√©pondu √† des questions avec le **tag** "bigquery".

In [28]:
bigquery_experts_query = """
    SELECT a.owner_user_id AS user_id, COUNT(1) AS number_of_answers
    FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
    INNER JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
        ON q.id = a.parent_Id
    WHERE q.tags LIKE '%bigquery%'
    GROUP BY a.owner_user_id
    """

# Set up the query (cancel the query if it would use too much of 
# your quota, with the limit set to 1 GB)
safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
bigquery_experts_query_job = client.query(bigquery_experts_query, job_config=safe_config)

# API request - run the query, and return a pandas DataFrame
bigquery_experts_results = bigquery_experts_query_job.to_dataframe()

# Preview results
print(bigquery_experts_results.head())


   user_id  number_of_answers
0  1387380                  9
1   266700                  1
2   908494                  1
3  8402583                  1
4  5880234                 59




###  **Question 6: Construire un service plus g√©n√©ralement utile**  
Comment pourriez-vous convertir ce que vous avez fait en une fonction g√©n√©rale qu'un site web pourrait appeler en arri√®re-plan pour obtenir des experts sur n'importe quel sujet ?

R√©fl√©chissez √† cela, puis consultez la solution ci-dessous.

**Solution :**

```python
def expert_finder(topic, client):
    '''
    Retourne un DataFrame avec les ID des utilisateurs qui ont √©crit des r√©ponses sur Stack Overflow concernant un sujet.

    Entr√©es :
        topic : Une cha√Æne de caract√®res repr√©sentant le sujet d'int√©r√™t
        client : Un objet Client sp√©cifiant la connexion au dataset Stack Overflow

    Sorties :
        results : Un DataFrame avec les colonnes user_id et number_of_answers. Suivant une logique similaire √† bigquery_experts_results montr√© ci-dessus.
    '''
    my_query = """
               SELECT a.owner_user_id AS user_id, COUNT(1) AS number_of_answers
               FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
               INNER JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
                   ON q.id = a.parent_Id
               WHERE q.tags like '%{topic}%'
               GROUP BY a.owner_user_id
               """
               
    # Configurer la requ√™te (un vrai service aurait une bonne gestion des erreurs pour
    # les requ√™tes qui scannent trop de donn√©es)
    safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)      
    my_query_job = client.query(my_query, job_config=safe_config)
    
    # Demande API - ex√©cuter la requ√™te et retourner un DataFrame pandas
    results = my_query_job.to_dataframe()

    return results
```

---

F√©licitations !  
Vous connaissez d√©sormais tous les √©l√©ments cl√©s pour utiliser BigQuery et SQL de mani√®re efficace. Vos comp√©tences en SQL sont suffisantes pour explorer de nombreux des plus grands datasets du monde.

Envie de jouer avec vos nouveaux pouvoirs ? Kaggle propose des datasets BigQuery disponibles ici.