# JOIN Y UNION
Sobre el final del curso anterior, se observó que, en situaciones, la instrucción *INNER JOIN* dejará fuera de la tabla final, elementos de las tablas de origen. Observemos el siguiente ejemplo, para clarificar esta situación y presentar otros modos de combinar tablas, que arrojarán resultados diferentes.
![1_join_union.png](attachment:1_join_union.png)

## JOINs
Podemos ver que, por ejemplo, Verónica no posee un valor de *Pet_ID*, por tanto no es *owner* de ninguna mascota. Así mismo, el *ID=5* de *Massie* (de la tabla *Pets*), no aparece en la columna *Pet_ID* (de *owners*) por lo que esta mascota no tiene asignado un dueño. Por esta razón ninguno de los 2 aparecerá en el resultado de un *INNER JOIN*.

![1_inner_join.png](attachment:1_inner_join.png)

Ahora, si deseamos que, todas las mascotas aparezcan en el resultado final sin importar si tienen o no dueño, o bien, que todas las filas de ambas tablas se muestren, tan sólo deberemos utilizar un tipo diferente de *JOIN*.

![1_joins.png](attachment:1_joins.png)

## UNIONs
A diferencia de *JOIN* donde se combinan las filas horizontalmente, habrá situaciones donde se requerirá **concatenar columnas**, esto puede lograrase con **UNION**.

![1_union.png](attachment:1_union.png)

Tener en cuenta que para utilizar esta instrucción, los **datos deberán ser del mismo tipo**, aunque el nombre de las columnas puede ser distinto. Se puede utilizar **UNION ALL, que incluirá todos los valores**, sin importar cuántas veces aparezca repetido, o bien, **UNION DISTINCT, que descartará valores repetidos**.

## Práctica
Ponemos en práctica lo aprendido utilizando las *tablas 'posts_questions' y 'posts_answers'* del *dataset 'stackoverflow'*.

Comienzo inspeccionando ambas tablas.

In [23]:
from google.cloud import bigquery

client = bigquery.Client()

dataset_ref = client.dataset('stackoverflow', project='bigquery-public-data')
questions_table_ref = dataset_ref.table('posts_questions')
answers_table_ref = dataset_ref.table('posts_answers')

questions_table = client.get_table(questions_table_ref)
answers_table = client.get_table(answers_table_ref)

In [24]:
# inspecciono questions
client.list_rows(questions_table, max_results=5).to_dataframe()

Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,3216259,Function overloading and inheritance,<blockquote>\n <p><strong>Possible Duplicate:...,,0,4,NaT,2010-07-09 20:18:51.660000+00:00,1,2010-07-09 20:49:47.220000+00:00,2017-05-23 12:26:47.287000+00:00,,-1,,204623,,1,0,c++|inheritance|overloading,218
1,3217039,how to pass a double with [n][n] values into a...,<blockquote>\n <p><strong>Possible Duplicate:...,3217086.0,0,0,NaT,2010-07-09 22:54:42.847000+00:00,0,2010-07-09 23:17:58.993000+00:00,2017-05-23 11:47:37.667000+00:00,,-1,,383217,,1,0,iphone|objective-c,82
2,3217358,Convert simple code from Perl to PHP (issue),<blockquote>\n <p><strong>Possible Duplicate:...,,0,0,NaT,2010-07-10 00:50:50.480000+00:00,0,2010-07-11 00:01:51.583000+00:00,2017-05-23 12:18:35.953000+00:00,,-1,,388226,,1,0,php|perl|function|pack,302
3,3227205,how to send more than three variables by using...,"<p>how can i send 3 text box,1 select button v...",,0,0,NaT,2010-07-12 09:24:01.383000+00:00,0,2010-07-12 09:52:52.373000+00:00,2010-07-12 09:25:48.027000+00:00,,47738,,386361,,1,0,html,114
4,3232809,bitshift equivalent of math.round,<p>(Math.round(var/var1)*var1)</p>\n\n<p>What ...,,0,0,NaT,2010-07-12 22:34:26.247000+00:00,0,2010-07-13 00:00:32.173000+00:00,2010-07-13 00:00:32.173000+00:00,,354992,,354992,,1,0,javascript,191


In [25]:
# inspecciono answers
client.list_rows(answers_table, max_results=5).to_dataframe()

Unnamed: 0,id,title,body,accepted_answer_id,answer_count,comment_count,community_owned_date,creation_date,favorite_count,last_activity_date,last_edit_date,last_editor_display_name,last_editor_user_id,owner_display_name,owner_user_id,parent_id,post_type_id,score,tags,view_count
0,69637232,,<p>I'd suggest trying pyspark/spark</p>\n<pre>...,,,1,NaT,2021-10-19 20:23:05.930000+00:00,,2021-10-19 20:23:05.930000+00:00,NaT,,,,13535120,69588989,2,0,,
1,69637234,,<p>If you want to use higher-level functions y...,,,0,NaT,2021-10-19 20:23:26.823000+00:00,,2021-10-19 20:23:26.823000+00:00,NaT,,,,5003756,69637076,2,0,,
2,69637236,,<p>To the first question</p>\n<blockquote>\n<p...,,,0,NaT,2021-10-19 20:23:32.983000+00:00,,2021-10-19 20:23:32.983000+00:00,NaT,,,,16523370,69635990,2,0,,
3,69637246,,<p>If you want to access a class in another cl...,,,0,NaT,2021-10-19 20:24:13.700000+00:00,,2021-10-19 20:24:13.700000+00:00,NaT,,,,16653398,69637090,2,0,,
4,69637250,,<p>putting content inside an extra <code>&lt;p...,,,0,NaT,2021-10-19 20:24:28.950000+00:00,,2021-10-19 20:24:28.950000+00:00,NaT,,,,4016922,69632918,2,0,,


**1. Se desea conocer cuánto tarda una pregunta en obtener una respuesta. Nos concentraremos en preguntas realizadas en Enero 2018.**

In [26]:
time_to_answer_query = '''
SELECT q.id AS question_id, MIN(TIMESTAMP_DIFF(a.creation_date, q.creation_date, SECOND)) AS time_to_answer
FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
LEFT JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
ON q.id = a.parent_id
WHERE q.creation_date >= "2018-01-01" AND q.creation_date <= "2018-02-01"
GROUP BY q.id
ORDER BY time_to_answer
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
time_to_answer_query_job = client.query(time_to_answer_query, job_config=safe_config)

time_to_answer = time_to_answer_query_job.to_dataframe()
time_to_answer

Unnamed: 0,question_id,time_to_answer
0,48414996,
1,48461020,
2,48371354,
3,48402440,
4,48435596,
...,...,...
161893,48179417,122467394.0
161894,48224359,122647054.0
161895,48225278,122708261.0
161896,48072470,123094246.0


In [27]:
answered_percentage = sum(time_to_answer["time_to_answer"].notnull()) / len(time_to_answer) * 100
print("Porcentaje preguntas respondidas: {:.2f} %".format(answered_percentage))
print("Número total de preguntas:", len(time_to_answer))

Porcentaje preguntas respondidas: 83.20 %
Número total de preguntas: 161898


**2.1. Se quiere conocer cómo es la interacción de los usuarios de StackOverflow con la página, si hacen preguntas o responden estas y cuánto tiempo tardaron en hacerlo por primera vez. Para ello, comenzaremos realizando una consulta que nos devuelva por cada *user* la fecha de la primera pregunta y respuesta que hayan realizado (se deben incluir los casos en que hayan hecho uno u otro y el faltante no)**. Nos limitamos a Enero 2019.

In [37]:
# tiempos en que cada user realizó la primera pregunta y respuesta
first_q_a_query = '''
SELECT q.owner_user_id AS owner_user_id, MIN(q.creation_date) AS first_q_date, MIN(a.creation_date) AS first_a_date
FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
FULL JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
ON q.owner_user_id = a.owner_user_id
WHERE q.creation_date >= "2019-01-01" AND q.creation_date < "2019-02-01" AND
      a.creation_date >= "2019-01-01" AND a.creation_date < "2019-02-01"
GROUP BY owner_user_id
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
first_q_a_query_job = client.query(first_q_a_query, job_config=safe_config)

first_q_a = first_q_a_query_job.to_dataframe()
first_q_a

Unnamed: 0,owner_user_id,first_q_date,first_a_date
0,4406995,2019-01-01 11:09:20.707000+00:00,2019-01-01 00:01:24.170000+00:00
1,3962636,2019-01-28 21:34:24.400000+00:00,2019-01-01 00:03:39.090000+00:00
2,2303202,2019-01-17 16:51:24.087000+00:00,2019-01-01 00:04:16.110000+00:00
3,10850224,2019-01-06 15:21:05.563000+00:00,2019-01-01 00:08:38.663000+00:00
4,10825556,2019-01-29 21:33:40.673000+00:00,2019-01-01 00:12:06.820000+00:00
...,...,...,...
21584,1366368,2019-01-15 00:39:58.983000+00:00,2019-01-31 23:35:01.250000+00:00
21585,9746273,2019-01-25 20:29:44.067000+00:00,2019-01-31 23:37:14.533000+00:00
21586,10993285,2019-01-31 00:58:22.307000+00:00,2019-01-31 23:42:27.983000+00:00
21587,4449986,2019-01-31 21:24:03.907000+00:00,2019-01-31 23:45:16.253000+00:00


**3. Ahora se pretende resolver un problema de una situación más real. En este caso, se deberá analizar la actividad de todos los usuarios que se hayan registrado en enero 2019, cuándo realizaron la primera pregunta y respuesta.** Deberán incluirse usuarios que nunca hayan realizado pregunta ni respuesta, así como las preguntas/respuestas que tuvieran lugar luego de Enero 2019.

**NOTA:** ahora, se deben combinar 3 tablas (*users*, *answers*, *questions*). Hago una visualización de la tabla *users*

In [39]:
users_table_ref = dataset_ref.table('users')
users_table = client.get_table(users_table_ref)
client.list_rows(users_table, max_results=5).to_dataframe()

Unnamed: 0,id,display_name,about_me,age,creation_date,last_access_date,location,reputation,up_votes,down_votes,views,profile_image_url,website_url
0,87,DylanJ,,,2008-08-01 16:59:16.603000+00:00,2017-11-08 15:12:32.027000+00:00,Germany,2165,25,8,221,,http://john.ston.ca
1,1682,Anthony K,"<p>Windows based C, C++, C#, VB &amp; .Net dev...",,2008-08-18 00:10:52.677000+00:00,2021-11-26 06:19:02.130000+00:00,Australia,2403,2493,3,254,,
2,1910,Gerard Gualberto,,,2008-08-19 14:04:45.460000+00:00,2021-12-03 20:55:02.327000+00:00,,71,80,0,38,https://graph.facebook.com/704015017/picture?t...,http://receivebacon.org/
3,1969,Brian Matthews,<p>Freelance Java and C/C++ developer/architec...,,2008-08-19 16:03:19.527000+00:00,2021-11-24 13:46:24.597000+00:00,"Dublin, Dublin Ireland",8205,696,139,1066,https://i.stack.imgur.com/ls8Uy.jpg,http://www.btmatthews.com
4,4354,oillio,,,2008-09-03 01:45:25.980000+00:00,2018-10-17 16:39:16.733000+00:00,Colorado,4378,225,8,166,,


In [47]:
# tiempos en que cada user realizó la primera pregunta y respuesta
# users ingresados en Enero 2019
# incluye aquellos sin preguntas ni respuestas posteadas
first_q_a_query = '''
SELECT u.id AS user_id, MIN(q.creation_date) AS first_q_date, MIN(a.creation_date) AS first_a_date
FROM `bigquery-public-data.stackoverflow.posts_questions` AS q
FULL JOIN `bigquery-public-data.stackoverflow.posts_answers` AS a
    ON q.owner_user_id = a.owner_user_id
RIGHT JOIN`bigquery-public-data.stackoverflow.users` AS u
    ON q.owner_user_id = u.id
WHERE u.creation_date >= "2019-01-01" AND u.creation_date < "2019-02-01"
GROUP BY user_id
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
first_q_a_query_job = client.query(first_q_a_query, job_config=safe_config)

first_q_a = first_q_a_query_job.to_dataframe()
first_q_a

Unnamed: 0,user_id,first_q_date,first_a_date
0,10884681,NaT,NaT
1,10961805,NaT,NaT
2,10931454,NaT,NaT
3,10882840,NaT,NaT
4,10985407,NaT,NaT
...,...,...,...
141898,10963374,NaT,NaT
141899,10931466,NaT,NaT
141900,10940031,NaT,NaT
141901,10968269,NaT,NaT


**4. Crear una consulta que devuelva una sola columna con los usuarios que hayan posteado al menos una pregunta o respuesta, el 1 de Enero de 2019.** No se debe repetir su valor, en caso que haya realizado más de una. Resolverlo utilizando *UNION*.

In [52]:
users_who_post_query = '''
SELECT owner_user_id FROM `bigquery-public-data.stackoverflow.posts_questions`
WHERE EXTRACT(DATE FROM creation_date) = "2019-01-01" 
UNION DISTINCT
SELECT owner_user_id FROM `bigquery-public-data.stackoverflow.posts_answers`
WHERE EXTRACT(DATE FROM creation_date) = "2019-01-01" 
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
users_who_post_query_job = client.query(users_who_post_query, job_config=safe_config)

users_who_post = users_who_post_query_job.to_dataframe()
users_who_post

Unnamed: 0,owner_user_id
0,3379140.0
1,3232312.0
2,10515812.0
3,414415.0
4,1174869.0
...,...
4359,2312689.0
4360,2079900.0
4361,3266179.0
4362,10850918.0
