### **SQL Avanc√© : JOINs et UNIONs**  
Combinez des informations provenant de plusieurs tables.

---

### **Introduction**  
Dans le micro-cours **Introduction √† SQL**, vous avez appris √† utiliser **INNER JOIN** pour consolider des informations provenant de deux tables diff√©rentes. Maintenant, vous allez d√©couvrir quelques autres types de **JOIN**, ainsi que la mani√®re d'utiliser les **UNION** pour extraire des informations de plusieurs tables.

En chemin, nous travaillerons avec deux tables imaginaires, appel√©es `owners` (propri√©taires) et `pets` (animaux).

---

### **Les tables**  

Chaque ligne de la table `owners` identifie un propri√©taire d'animal diff√©rent, o√π la colonne `ID` est un identifiant unique. La colonne `Pet_ID` (dans la table `owners`) contient l'ID de l'animal appartenant au propri√©taire (ce num√©ro correspond √† l'ID de l'animal dans la table `pets`).

Par exemple :

- La table `pets` montre que Dr. Harris Bonkers est l'animal avec l'ID 1.
- La table `owners` montre que Aubrey Little est le propri√©taire de l'animal avec l'ID 1.

En combinant ces deux informations, Dr. Harris Bonkers est poss√©d√© par Aubrey Little. De m√™me, puisque Veronica Dunn n'a pas de `Pet_ID` correspondant, elle n'a pas d'animal. Et, puisque 5 n'appara√Æt pas dans la colonne `Pet_ID`, Maisie n'a pas de propri√©taire.

---

### **Les JOINs**  
Rappelez-vous que nous pouvons utiliser un **INNER JOIN** pour extraire les lignes des deux tables o√π la valeur dans la colonne `Pet_ID` de la table `owners` correspond √† la colonne `ID` de la table `pets`.

Dans ce cas, Veronica Dunn et Maisie ne sont pas incluses dans les r√©sultats. Mais que faire si nous voulons cr√©er une table contenant tous les animaux, qu'ils aient un propri√©taire ou non ? Ou si nous voulons combiner toutes les lignes des deux tables ? Dans ces cas, nous devons simplement utiliser un type de **JOIN** diff√©rent.

Par exemple, pour cr√©er une table contenant toutes les lignes de la table `owners`, nous utilisons un **LEFT JOIN**. Ici, "left" fait r√©f√©rence √† la table qui appara√Æt avant le **JOIN** dans la requ√™te. ("Right" fait r√©f√©rence √† la table qui est apr√®s le **JOIN**.)

Remplacer **INNER JOIN** dans la requ√™te ci-dessus par **LEFT JOIN** renvoie toutes les lignes o√π les deux tables ont des correspondances, ainsi que toutes les lignes de la table de gauche (qu'il y ait une correspondance ou non).

Si nous utilisons plut√¥t un **RIGHT JOIN**, nous obtenons les lignes correspondantes, ainsi que toutes les lignes de la table de droite (qu'il y ait une correspondance ou non).

Enfin, un **FULL JOIN** renvoie toutes les lignes des deux tables. Notez que, en g√©n√©ral, toute ligne qui n'a pas de correspondance dans les deux tables aura des entr√©es **NULL** pour les valeurs manquantes. Vous pouvez voir cela dans l'image ci-dessous.

---

### **Les UNIONs**  
Comme vous l'avez vu, les **JOINs** combinent horizontalement les r√©sultats de diff√©rentes tables. Si vous souhaitez plut√¥t concat√©ner verticalement des colonnes, vous pouvez le faire avec un **UNION**. L'exemple de requ√™te ci-dessous combine les colonnes `Age` des deux tables.

Notez qu'avec un **UNION**, les types de donn√©es des deux colonnes doivent √™tre les m√™mes, mais les noms des colonnes peuvent √™tre diff√©rents. (Ainsi, par exemple, nous ne pouvons pas faire l'union de la colonne `Age` de la table `owners` et de la colonne `Pet_Name` de la table `pets`.)

Nous utilisons **UNION ALL** pour inclure les valeurs en double - vous remarquerez que 9 appara√Æt √† la fois dans la table `owners` et dans la table `pets`, et appara√Æt deux fois dans les r√©sultats concat√©n√©s. Si vous souhaitez supprimer les valeurs en double, il vous suffit de remplacer **UNION ALL** dans la requ√™te par **UNION DISTINCT**.

---

### **Exemple**  
Nous allons travailler avec l'ensemble de donn√©es **Hacker News**. Nous commen√ßons par examiner les premi√®res lignes de la table `comments`. (Le code correspondant est masqu√©, mais vous pouvez le d√©masquer en cliquant sur le bouton "Code" ci-dessous.)

```python
from google.cloud import bigquery

# Cr√©er un objet "Client"
client = bigquery.Client()

# Construire une r√©f√©rence au dataset "hacker_news"
dataset_ref = client.dataset("hacker_news", project="bigquery-public-data")

# Requ√™te API - r√©cup√©rer le dataset
dataset = client.get_dataset(dataset_ref)

# Construire une r√©f√©rence √† la table "comments"
table_ref = dataset_ref.table("comments")

# Requ√™te API - r√©cup√©rer la table
table = client.get_table(table_ref)

# Pr√©visualiser les cinq premi√®res lignes de la table
client.list_rows(table, max_results=5).to_dataframe()
```

**Utilisation de l'int√©gration BigQuery des ensembles de donn√©es publics de Kaggle.**

```
/opt/conda/lib/python3.7/site-packages/ipykernel_launcher.py:19: UserWarning: Cannot use bqstorage_client if max_results is set, reverting to fetching data with the tabledata.list endpoint.
```

| id | by | author | time | time_ts | text | parent | deleted | dead | ranking |
|----|----|--------|------|---------|------|--------|---------|------|---------|
| 9734136 | None | None | 1434565400 | 2015-06-17 18:23:20+00:00 | None | 9733698 | True | None | 0 |
| 4921158 | None | None | 1355496966 | 2012-12-14 14:56:06+00:00 | None | 4921100 | True | None | 0 |
| 7500568 | None | None | 1396261158 | 2014-03-31 10:19:18+00:00 | None | 7499385 | True | None | 0 |
| 8909635 | None | None | 1421627275 | 2015-01-19 00:27:55+00:00 | None | 8901135 | True | None | 0 |
| 9256463 | None | None | 1427204705 | 2015-03-24 13:45:05+00:00 | None | 9256346 | True | None | 0 |

---

Vous travaillerez √©galement avec la table `stories`.

```python
# Construire une r√©f√©rence √† la table "stories"
table_ref = dataset_ref.table("stories")

# Requ√™te API - r√©cup√©rer la table
table = client.get_table(table_ref)

# Pr√©visualiser les cinq premi√®res lignes de la table
client.list_rows(table, max_results=5).to_dataframe()
```

```
/opt/conda/lib/python3.7/site-packages/ipykernel_launcher.py:8: UserWarning: Cannot use bqstorage_client if max_results is set, reverting to fetching data with the tabledata.list endpoint.
```

| id | by | score | time | time_ts | title | url | text | deleted | dead | descendants | author |
|----|----|-------|------|---------|-------|-----|------|---------|------|-------------|--------|
| 6988445 | cflick | 0 | 1388454902 | 2013-12-31 01:55:02+00:00 | Appshare | http://chadflick.ws/appshare.html | Did facebook or angrybirds pay you? We will! | None | True | NaN | cflick |
| 7047571 | Rd2 | 1 | 1389562985 | 2014-01-12 21:43:05+00:00 | Java in startups | | Hello, hacker news!<p>Have any of you used jav... | None | True | NaN | Rd2 |
| 9157712 | mo0 | 1 | 1425657937 | 2015-03-06 16:05:37+00:00 | Show HN: Discover what songs were used in YouT... | http://www.mooma.sh/ | The user can paste a media url(currently only ... | None | True | NaN | mo0 |
| 8127403 | ad11 | 1 | 1407052667 | 2014-08-03 07:57:47+00:00 | My poker project, what do you think? | | Hi guys, what do you think about my poker proj... | None | True | NaN | ad11 |
| 6933158 | emyy | 1 | 1387432701 | 2013-12-19 05:58:21+00:00 | Christmas Crafts Ideas - Easy and Simple Famil... | http://www.winxdvd.com/resource/christmas-craf... | There are some free Christmas craft ideas to m... | None | True | NaN | emyy |

---

Puisque vous √™tes d√©j√† familier avec les **JOINs** gr√¢ce au micro-cours **Introduction √† SQL**, nous allons travailler sur un exemple relativement complexe de **JOIN** qui utilise une **expression de table commune (CTE)**.

La requ√™te ci-dessous extrait des informations des tables `stories` et `comments` pour cr√©er une table montrant toutes les histoires publi√©es le 1er janvier 2012, ainsi que le nombre de commentaires correspondants. Nous utilisons un **LEFT JOIN** pour que les r√©sultats incluent les histoires qui n'ont re√ßu aucun commentaire.

```sql
# Requ√™te pour s√©lectionner toutes les histoires publi√©es le 1er janvier 2012, avec le nombre de commentaires
join_query = """
             WITH c AS
             (
             SELECT parent, COUNT(*) as num_comments
             FROM bigquery-public-data.hacker_news.comments 
             GROUP BY parent
             )
             SELECT s.id as story_id, s.by, s.title, c.num_comments
             FROM bigquery-public-data.hacker_news.stories AS s
             LEFT JOIN c
             ON s.id = c.parent
             WHERE EXTRACT(DATE FROM s.time_ts) = '2012-01-01'
             ORDER BY c.num_comments DESC
             """

# Ex√©cuter la requ√™te et retourner un DataFrame pandas
join_result = client.query(join_query).result().to_dataframe()
join_result.head()
```

```
/opt/conda/lib/python3.7/site-packages/google/cloud/bigquery/client.py:440: UserWarning: Cannot create BigQuery Storage client, the dependency google-cloud-bigquery-storage is not installed.
  "Cannot create BigQuery Storage client, the dependency "
```

| story_id | by | title | num_comments |
|----------|----|-------|--------------|
| 3412900 | whoishiring | Ask HN: Who is Hiring? (January 2012) | 154.0 |
| 3412901 | whoishiring | Ask HN: Freelancer? Seeking freelancer? (Janua... | 97.0 |
| 3412643 | jemeshsu | Avoid Apress | 30.0 |
| 3414012 | ramanujam | Impress.js - a Prezi like implementation using... | 27.0 |
| 3412891 | Brajeshwar | There's no shame in code that is simply "good ... | 27.0 |

---

Puisque les r√©sultats sont tri√©s par la colonne `num_comments`, les histoires sans commentaires apparaissent √† la fin du DataFrame. (Rappelez-vous que **NaN** signifie "not a number".)

```python
# Aucune de ces histoires n'a re√ßu de commentaires
join_result.tail()
```

| story_id | by | title | num_comments |
|----------|----|-------|--------------|
| 3413041 | ORioN63 | Solar days, sidereal days, solar years and sid... | NaN |
| 3412667 | Tez_Dhar | How shall i Learn Hacking | NaN |
| 3412783 | mmaltiar | Working With Spring Data JPA | NaN |
| 3412821 | progga | Networking on the Network: A Guide to Professi... | NaN |
| 3412930 | shipcode | Project Zero Operating System ‚Äì New Kernel | NaN |

---

Ensuite, nous √©crivons une requ√™te pour s√©lectionner tous les noms d'utilisateurs correspondant aux utilisateurs qui ont √©crit des histoires ou des commentaires le 1er janvier 2014. Nous utilisons **UNION DISTINCT** (au lieu de **UNION ALL**) pour nous assurer que chaque utilisateur appara√Æt dans la table au plus une fois.

```sql
# Requ√™te pour s√©lectionner tous les utilisateurs qui ont post√© des histoires ou des commentaires le 1er janvier 2014
union_query = """
              SELECT c.by
              FROM bigquery-public-data.hacker_news.comments AS c
              WHERE EXTRACT(DATE FROM c.time_ts) = '2014-01-01'
              UNION DISTINCT
              SELECT s.by
              FROM bigquery-public-data.hacker_news.stories AS s
              WHERE EXTRACT(DATE FROM s.time_ts) = '2014-01-01'
              """

# Ex√©cuter la requ√™te et retourner un DataFrame pandas
union_result = client.query(union_query).result().to_dataframe()
union_result.head()
```

```
/opt/conda/lib/python3.7/site-packages/google/cloud/bigquery/client.py:440: UserWarning: Cannot create BigQuery Storage client, the dependency google-cloud-bigquery-storage is not installed.
  "Cannot create BigQuery Storage client, the dependency "
```

| by |
|----|
| learnlivegrow |
| egybreak |
| dclara |
| vram22 |
| espeed |

---

Pour obtenir le nombre d'utilisateurs qui ont post√© le 1er janvier 2014, il suffit de prendre la longueur du DataFrame.

```python
# Nombre d'utilisateurs qui ont post√© des histoires ou des commentaires le 1er janvier 2014
len(union_result)
```

```
2282
```

---

### **√Ä vous de jouer**  
Utilisez ce que vous avez appris pour extraire des informations de plusieurs tables.

Vous avez des questions ou des commentaires ? Visitez le forum de discussion du cours pour discuter avec d'autres apprenants.

---

# Exercice :
### Introduction 
Dans cet exercice, tu vas utiliser diff√©rents types de **JOINs SQL** pour r√©pondre √† des questions sur le dataset **Stack Overflow**.

## *Exploration des donn√©es*
Le code ci-dessous r√©cup√®re la table **posts_questions** du dataset Stack Overflow. Nous affichons √©galement les cinq premi√®res lignes de la table.

In [3]:
from google.cloud import bigquery

# Cr√©ation d'un objet "Client"
client = bigquery.Client()

# R√©f√©rence au dataset "stackoverflow"
dataset_ref = client.dataset("stackoverflow", project="bigquery-public-data")

# Requ√™te API - r√©cup√©ration du dataset
dataset = client.get_dataset(dataset_ref)

# R√©f√©rence √† la table "posts_questions"
table_ref = dataset_ref.table("posts_questions")

# Requ√™te API - r√©cup√©ration de la table
table = client.get_table(table_ref)

# Aper√ßu des cinq premi√®res lignes de la table
client.list_rows(table, max_results=5).to_dataframe()


Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,320268,Html.ActionLink doesn‚Äôt render # properly,<p>When using Html.ActionLink passing a string...,,0,0,NaT,2008-11-26 10:42:37.477000+00:00,0,2009-02-06 20:13:54.370000+00:00,NaT,,,Paulo,,,1,0,asp.net-mvc,390
1,324003,Primitive recursion,<p>how will i define the function 'simplify' ...,,0,0,NaT,2008-11-27 15:12:37.497000+00:00,0,2012-09-25 19:54:40.597000+00:00,2012-09-25 19:54:40.597000+00:00,Marcin,1288.0,,41000.0,,1,0,haskell|lambda|functional-programming|lambda-c...,497
2,390605,While vs. Do While,<p>I've seen both the blocks of code in use se...,390608.0,0,0,NaT,2008-12-24 01:49:54.230000+00:00,2,2008-12-24 03:08:55.897000+00:00,NaT,,,Unkwntech,115.0,,1,0,language-agnostic|loops,11262
3,413246,Protect ASP.NET Source code,<p>Im currently doing some research in how to ...,,0,0,NaT,2009-01-05 14:23:51.040000+00:00,0,2009-03-24 21:30:22.370000+00:00,2009-01-05 14:42:28.257000+00:00,Tom Anderson,13502.0,Velnias,,,1,0,asp.net|deployment|obfuscation,4823
4,454921,"Difference between ""int[] myArray"" and ""int my...",<blockquote>\n <p><strong>Possible Duplicate:...,454928.0,0,0,NaT,2009-01-18 10:22:52.177000+00:00,0,2009-01-18 10:30:50.930000+00:00,2017-05-23 11:49:26.567000+00:00,,-1.0,Evan Fosmark,49701.0,,1,0,java|arrays,798


Nous allons √©galement examiner la table **posts_answers**.

In [5]:
# R√©f√©rence √† la table "posts_answers"
table_ref = dataset_ref.table("posts_answers")

# Requ√™te API - r√©cup√©ration de la table
table = client.get_table(table_ref)

# Aper√ßu des cinq premi√®res lignes de la table
client.list_rows(table, max_results=5).to_dataframe()


Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,18,,<p>For a table like this:</p>\n\n<pre><code>CR...,,,2,NaT,2008-08-01 05:12:44.193000+00:00,,2016-06-02 05:56:26.060000+00:00,2016-06-02 05:56:26.060000+00:00,Jeff Atwood,126039,phpguy,,17,2,59,,
1,165,,"<p>You can use a <a href=""http://sharpdevelop....",,,0,NaT,2008-08-01 18:04:25.023000+00:00,,2019-04-06 14:03:51.080000+00:00,2019-04-06 14:03:51.080000+00:00,,1721793,user2189331,,145,2,10,,
2,1028,,<p>The VB code looks something like this:</p>\...,,,0,NaT,2008-08-04 04:58:40.300000+00:00,,2013-02-07 13:22:14.680000+00:00,2013-02-07 13:22:14.680000+00:00,,395659,user2189331,,947,2,8,,
3,1073,,<p>My first choice would be a dedicated heap t...,,,0,NaT,2008-08-04 07:51:02.997000+00:00,,2015-09-01 17:32:32.120000+00:00,2015-09-01 17:32:32.120000+00:00,,45459,user2189331,,1069,2,29,,
4,1260,,<p>I found the answer. all you have to do is a...,,,0,NaT,2008-08-04 14:06:02.863000+00:00,,2016-12-20 08:38:48.867000+00:00,2016-12-20 08:38:48.867000+00:00,,1221571,Jin,,1229,2,1,,



---
Vous travaillerez avec ces deux tables pour r√©pondre aux questions ci-dessous.
 
### Question 1) Combien de temps faut-il pour que les questions re√ßoivent des r√©ponses ?  
Vous souhaitez explorer les donn√©es pour mieux comprendre combien de temps il faut g√©n√©ralement pour que les questions re√ßoivent des r√©ponses. Arm√© de ces informations, vous pr√©voyez d'utiliser ces connaissances pour mieux concevoir l'ordre dans lequel les questions sont pr√©sent√©es aux utilisateurs de Stack Overflow.

Dans cet objectif, vous √©crivez la requ√™te ci-dessous, qui se concentre sur les questions pos√©es en **janvier 2018**. Elle retourne une table avec deux colonnes :  

- **q_id** : l'identifiant de la question  
- **time_to_answer** : le temps (en secondes) qu'il a fallu pour que la question re√ßoive une r√©ponse  

Ex√©cutez la requ√™te ci-dessous (sans modifications) et examinez le r√©sultat.

In [9]:
first_query = """
              SELECT 
                  q.id AS q_id,
                  MIN(TIMESTAMP_DIFF(a.creation_date, q.creation_date, SECOND)) AS time_to_answer
              FROM 
                  `bigquery-public-data.stackoverflow.posts_questions` AS q
              INNER JOIN 
                  `bigquery-public-data.stackoverflow.posts_answers` AS a
              ON 
                  q.id = a.parent_id
              WHERE 
                  q.creation_date >= '2018-01-01' 
                  AND q.creation_date < '2018-02-01'
              GROUP BY 
                  q_id
              ORDER BY 
                  time_to_answer
              """

# Ex√©cution de la requ√™te et conversion des r√©sultats en DataFrame
first_result = client.query(first_query).result().to_dataframe()

# Affichage des r√©sultats
print("Pourcentage de questions ayant re√ßu une r√©ponse : %s%%" % \
      (sum(first_result["time_to_answer"].notnull()) / len(first_result) * 100))
print("Nombre de questions :", len(first_result))
first_result.head()

Pourcentage de questions ayant re√ßu une r√©ponse : 100.0%
Nombre de questions : 134719


Unnamed: 0,q_id,time_to_answer
0,48382183,-132444692
1,48413160,0
2,48177325,0
3,48307704,0
4,48343044,0


Vous √™tes surpris par les r√©sultats et soup√ßonnez fortement que quelque chose ne va pas avec votre requ√™te. En particulier :

- Selon la requ√™te, **100 % des questions** de janvier 2018 ont re√ßu une r√©ponse. Cependant, vous savez qu'environ **80 % des questions** sur le site re√ßoivent g√©n√©ralement une r√©ponse.

- Le nombre total de questions est √©tonnamment faible. Vous vous attendiez √† voir au moins **150 000 questions** dans la table.

Compte tenu de ces observations, vous pensez que le type de **JOIN** que vous avez choisi a involontairement exclu les questions sans r√©ponse. En utilisant la cellule de code ci-dessous, pouvez-vous d√©terminer quel type de JOIN utiliser pour r√©soudre le probl√®me afin que la table inclue les questions sans r√©ponse ?

**Remarque** : Vous devez uniquement modifier le type de **JOIN** (c'est-√†-dire **INNER, LEFT, RIGHT ou FULL**) pour r√©pondre correctement √† la question.

In [12]:
corrected_query = """
              SELECT 
                  q.id AS q_id,
                  MIN(TIMESTAMP_DIFF(a.creation_date, q.creation_date, SECOND)) AS time_to_answer
              FROM 
                  `bigquery-public-data.stackoverflow.posts_questions` AS q
              LEFT JOIN  -- Remplacez INNER JOIN par LEFT JOIN
                  `bigquery-public-data.stackoverflow.posts_answers` AS a
              ON 
                  q.id = a.parent_id
              WHERE 
                  q.creation_date >= '2018-01-01' 
                  AND q.creation_date < '2018-02-01'
              GROUP BY 
                  q_id
              ORDER BY 
                  time_to_answer
              """

# Ex√©cution de la requ√™te corrig√©e
corrected_result = client.query(corrected_query).result().to_dataframe()

# Affichage des r√©sultats
print("Pourcentage de questions ayant re√ßu une r√©ponse : %s%%" % \
      (sum(corrected_result["time_to_answer"].notnull()) / len(corrected_result) * 100))
print("Nombre de questions :", len(corrected_result))
corrected_result.head()

Pourcentage de questions ayant re√ßu une r√©ponse : 83.3368387192557%
Nombre de questions : 161656


Unnamed: 0,q_id,time_to_answer
0,48465109,
1,48443537,
2,48109237,
3,48104922,
4,48351017,


La correction de la requ√™te en utilisant un **LEFT JOIN** a r√©solu les probl√®mes initiaux :
- Le pourcentage de questions ayant re√ßu une r√©ponse est maintenant r√©aliste (~83 %).
- Le nombre total de questions correspond aux attentes.
- Les questions sans r√©ponse sont correctement incluses avec des valeurs <NA> dans **time_to_answer**.

###  Question 2) Premi√®res questions et r√©ponses, Partie 1 

Vous souhaitez comprendre les premi√®res interactions que les utilisateurs ont g√©n√©ralement avec le site **Stack Overflow**. **Est-il plus courant pour les utilisateurs de poser d'abord des questions ou de fournir des r√©ponses ?** Apr√®s leur inscription, combien de temps faut-il aux utilisateurs pour interagir pour la premi√®re fois avec le site ?  

Pour approfondir cette analyse, vous r√©digez la requ√™te (partielle) dans la cellule de code ci-dessous.  

Cette requ√™te retourne une table avec trois colonnes :  

- **owner_user_id** ‚Äì l‚ÄôID de l‚Äôutilisateur  
- **q_creation_date** ‚Äì la date √† laquelle l‚Äôutilisateur a pos√© sa premi√®re question  
- **a_creation_date** ‚Äì la date √† laquelle l‚Äôutilisateur a fourni sa premi√®re r√©ponse  

Vous souhaitez inclure les utilisateurs qui ont pos√© des questions mais n‚Äôont pas encore fourni de r√©ponses. De m√™me, votre table doit √©galement inclure les utilisateurs qui ont r√©pondu √† des questions mais n‚Äôont pas encore pos√© de questions.  

Dans cette optique, veuillez compl√©ter la requ√™te en ins√©rant le type de **JOIN** appropri√© (**INNER, LEFT, RIGHT ou FULL**) afin d‚Äôobtenir les informations correctes.  

**Remarque :** Vous devez uniquement remplir le type de **JOIN** appropri√©. Toutes les autres parties de la requ√™te doivent rester inchang√©es. (Vous n'avez pas non plus besoin d‚Äô√©crire de code suppl√©mentaire pour ex√©cuter la requ√™te, car la m√©thode **check()** s‚Äôen chargera pour vous.)  

Afin de limiter le volume de donn√©es retourn√©, nous nous concentrerons uniquement sur les questions et r√©ponses pos√©es en janvier 2019. Nous ajusterons la p√©riode temporelle dans la Partie 2 de cette question pour la rendre plus r√©aliste !

In [17]:
q_and_a_query = """
                SELECT q.owner_user_id AS owner_user_id,
                    MIN(q.creation_date) AS q_creation_date,
                    MIN(a.creation_date) AS a_creation_date
                FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
                    FULL OUTER JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
                ON q.owner_user_id = a.owner_user_id 
                WHERE (q.creation_date >= '2019-01-01' AND q.creation_date < '2019-02-01') 
                    OR (a.creation_date >= '2019-01-01' AND a.creation_date < '2019-02-01')
                GROUP BY owner_user_id
                """


# Ex√©cution de la requ√™te corrig√©e
q_and_a_result = client.query(q_and_a_query).result().to_dataframe()

# Affichage des r√©sultats
q_and_a_result.head()


Unnamed: 0,owner_user_id,q_creation_date,a_creation_date
0,559737,2011-07-27 18:50:03.663000+00:00,2019-01-01 17:26:15.797000+00:00
1,10477005,2022-06-28 13:07:36.710000+00:00,2019-01-08 13:25:10.543000+00:00
2,3978666,2018-01-09 09:43:09.337000+00:00,2018-02-20 09:26:33.533000+00:00
3,8298985,2019-01-08 14:56:09.890000+00:00,2019-03-04 23:06:27.903000+00:00
4,1444955,2019-01-02 04:24:53.940000+00:00,2012-07-24 22:57:59.853000+00:00


---


### Question 3) Premi√®res questions et r√©ponses, Partie 2

Tu vas maintenant aborder un sc√©nario plus **r√©aliste** (et plus complexe !). Pour r√©pondre √† cette question, tu devras extraire des informations de **trois** tables diff√©rentes !  

La syntaxe est **tr√®s similaire** √† celle utilis√©e lorsque l'on joint seulement **deux** tables. Par exemple, consid√®re les trois tables ci-dessous :  

**(Sch√©ma de trois tables)**  

Nous pouvons utiliser **deux JOINs diff√©rents** pour relier toutes ces informations dans une seule requ√™te :  

**(Sch√©ma d'un double JOIN)**  

Avec cela en t√™te, supposons que tu souhaites **analyser les utilisateurs ayant rejoint Stack Overflow en janvier 2019**.  
Tu veux suivre leur **activit√©** sur le site : **quand ont-ils post√© leurs premi√®res questions et r√©ponses**, si cela s'est produit ?  

### **√âcris une requ√™te SQL qui retourne les colonnes suivantes :**  
- **id** ‚Üí Les **ID** de tous les utilisateurs ayant cr√©√© un compte Stack Overflow en **janvier 2019** (**du 1er janvier 2019 au 31 janvier 2019, inclus**).  
- **q_creation_date** ‚Üí La **premi√®re fois** que l'utilisateur a post√© une question sur le site ; si l'utilisateur **n'a jamais** post√© de question, la valeur doit √™tre **NULL**.  
- **a_creation_date** ‚Üí La **premi√®re fois** que l'utilisateur a post√© une **r√©ponse** sur le site ; si l'utilisateur **n'a jamais** post√© de r√©ponse, la valeur doit √™tre **NULL**.  

üìå **Important** :  
- Les questions et r√©ponses post√©es **apr√®s le 31 janvier 2019** doivent **toujours √™tre incluses** dans les r√©sultats.  
- **Tous** les utilisateurs ayant rejoint le site en **janvier 2019** doivent √™tre inclus, **m√™me s'ils n'ont jamais pos√© de question ou fourni de r√©ponse**.  

---

La requ√™te de la **question pr√©c√©dente** est un **bon point de d√©part** pour r√©pondre √† cette question !  
Tu devras utiliser les tables suivantes :  
‚úÖ **posts_answers**  
‚úÖ **posts_questions**  
‚úÖ **users**  

Dans la table **users**, les colonnes utiles sont :  
- **id** ‚Üí L'ID unique de chaque utilisateur.  
- **creation_date** ‚Üí La date et l'heure (format **DATETIME**) √† laquelle l'utilisateur a rejoint Stack Overflow.

In [20]:
three_tables_query = """
    SELECT u.id AS id,
           MIN(q.creation_date) AS q_creation_date,
           MIN(a.creation_date) AS a_creation_date
    FROM `bigquery-public-data.stackoverflow.users` AS u
        LEFT JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
            ON u.id = a.owner_user_id
        LEFT JOIN `bigquery-public-data.stackoverflow.posts_questions` AS q
            ON q.owner_user_id = u.id
    WHERE u.creation_date BETWEEN '2019-01-01' AND '2019-01-31'
    GROUP BY id
"""

# Ex√©cution de la requ√™te corrig√©e
three_tables_result = client.query(three_tables_query).result().to_dataframe()

# Affichage des r√©sultats
three_tables_result.head()

Unnamed: 0,id,q_creation_date,a_creation_date
0,10924296,2019-03-02 06:36:42.960000+00:00,2019-01-16 19:34:12.740000+00:00
1,10896745,2019-01-10 17:53:09.417000+00:00,NaT
2,10860368,NaT,NaT
3,10928202,NaT,NaT
4,10883167,NaT,NaT


---
### Question 4) Combien d‚Äôutilisateurs distincts ont post√© le 1er janvier 2019 ? 

Dans la cellule de code ci-dessous, √©crivez une requ√™te qui retourne une table avec une seule colonne :  

- **owner_user_id** ‚Äì les identifiants de tous les utilisateurs ayant post√© au moins une question ou une r√©ponse le 1er janvier 2019. Chaque identifiant utilisateur ne doit appara√Ætre qu‚Äôau **maximum une fois**.  

Dans les tables **posts_questions** et **posts_answers**, vous pouvez r√©cup√©rer l'identifiant de l'utilisateur d'origine via la colonne **owner_user_id**. De m√™me, la date de publication d'origine se trouve dans la colonne **creation_date**.  

Pour que votre r√©ponse soit consid√©r√©e comme correcte, votre requ√™te **doit utiliser un UNION**.

In [25]:
all_users_query = """ 
                  SELECT owner_user_id 
                  FROM `bigquery-public-data.stackoverflow.posts_questions`
                  WHERE creation_date >= '2019-01-01' AND creation_date < '2019-01-02'
                  
                  UNION DISTINCT

                  SELECT owner_user_id
                  FROM `bigquery-public-data.stackoverflow.posts_answers`
                  WHERE creation_date >= '2019-01-01' AND creation_date < '2019-01-02'
                  """

# Ex√©cution de la requ√™te corrig√©e
all_users_result = client.query(all_users_query).result().to_dataframe()

# Affichage des r√©sultats
all_users_result.head()

Unnamed: 0,owner_user_id
0,10853226
1,5482213
2,6186333
3,274715
4,6836495
