# GROUP BY, HAVING & COUNT
Estos comandos nos **permiten agrupar y contar nuestros datos, de acuerdo a ciertos parámetros**, pudiendo responder así a preguntas como ¿cuántas de cada tipo de fruta se han vendido en determinada tienda?
![2_select_from_where.png](attachment:2_select_from_where.png)

## COUNT()
Devuelve, como su nombre lo indica, un conteo de cosas. Si le indicas el nombre de una columna, devolverá la cantidad de entradas en la misma.

**NOTA:** se utiliza en conjunto con *SELECT*, es decir, dicho conteo de elementos se tomará como una columna de la tabla final (que entregue el *SELECT*).

![3_count.png](attachment:3_count.png)

Este tipo de funciones se denominan **agreggate function**, las cuales reciben muchos valores y devuelven uno. Por defecto, esta le asigna un nombre extraño a la columna, pero este se puede cambiar como veremos luego.

## GROUP BY
Este comando toma el nombre de una o más columnas y agrupa todas las filas con el mismo valor en dicha columna, cuando se le aplica funciones *aggregate* (como *COUNT*, *SUM*, etc).
![3_groupby.png](attachment:3_groupby.png)

En resumen, explicando el ejercicio en cuestión, toma de la tabla *pets* las filas que contenga el mismo valor en *Animal* y las agrupa, luego, sobre estos grupos aplica *COUNT()* y obtiene el valor de la cantidad de entradas por cada grupo. Finalmente, selecciona las columnas *Animal* y *COUNT* de dichos grupos.

## GROUP BY ... HAVING
*HAVING* se utiliza en conjunto con *GROUP BY* para **ignorar los grupos que no cumplan con cierto criterio**.
![3_groupby_having.png](attachment:3_groupby_having.png)

## Alias y otras mejoras
- El uso de un **alias** permite modificar el nombre asignado a una columna al seleccionarla, como por ejemplo, en el caso de las columnas de funciones *aggregate* que por defecto colocan un nombre muy poco amigable, podremos reemplazarlo mediante **... AS ...**
- **COUNT(1):** si en algún momento no estamos seguros de qué colocar dentro de *COUNT*, podemos colocar un 1. Esto hará que realice un conteo de todas las filas de cada grupo. Además, es más rápido ya que no tiene que acceder a otras columnas (y gasta menos cuota de lectura).

![3_alias.png](attachment:3_alias.png)

## Importante sobre GROUP BY
- Tener en cuenta que este comando le indica a SQL cómo aplicar las funciones *aggregate*, por tanto, no tiene sentido usar *GROUP BY* sin una de estas funciones.
- Si utilizamos *GROUP BY*, todas las variables presentes deberán ser pasadas ya sea al *GROUP BY* o a la función *aggregate*

![3_groupby_error.png](attachment:3_groupby_error.png)

En la *query* anterior, hay un **error**, ya que la variable *author* no fue incluida, ni en el comando *GROUP* ni en una función *aggregate*.

## Práctica
En este caso, trabajaremos con el **dataset *hacker_news*** de los datos públicos de *bigquery*, más en particular, con la **tabla *comments***.

In [1]:
from google.cloud import bigquery

client = bigquery.Client()

# cargo dataset 'hacker_news' y tabla 'comments'
dataset_ref = client.dataset('hacker_news', project='bigquery-public-data')
dataset = client.get_dataset(dataset_ref)

comments_table_ref = dataset_ref.table('comments')
comments_table = client.get_table(comments_table_ref)

# inspecciono tabla 'comments'
client.list_rows(comments_table, max_results=5).to_dataframe()

Unnamed: 0,id,by,author,time,time_ts,text,parent,deleted,dead,ranking
0,2701393,5l,5l,1309184881,2011-06-27 14:28:01+00:00,And the glazier who fixed all the broken windo...,2701243,,,0
1,5811403,99,99,1370234048,2013-06-03 04:34:08+00:00,Does canada have the equivalent of H1B/Green c...,5804452,,,0
2,21623,AF,AF,1178992400,2007-05-12 17:53:20+00:00,"Speaking of Rails, there are other options in ...",21611,,,0
3,10159727,EA,EA,1441206574,2015-09-02 15:09:34+00:00,Humans and large livestock (and maybe even pet...,10159396,,,0
4,2988424,Iv,Iv,1315853580,2011-09-12 18:53:00+00:00,I must say I reacted in the same way when I re...,2988179,,,0


**1. Máximos comentadores: se desea enviar un premio a los que hayan escrito más de 10.000 posteos. Realizar una consulta que devuelva todos los autores que superen dicha cantidad, así como el conteo de los mismos.**

In [4]:
max_commenters_query = '''
SELECT author, count(1) as NumPost
FROM `bigquery-public-data.hacker_news.comments`
GROUP BY author
HAVING NumPost > 10000
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(max_commenters_query, job_config=safe_config)

max_commenters = query_job.to_dataframe()
max_commenters

Unnamed: 0,author,NumPost
0,eru,10448
1,rbanffy,10557
2,DanBC,12902
3,sp332,10882
4,davidw,10764
5,rayiner,11080
6,tptacek,33839
7,jacquesm,21107
8,jrockway,13626
9,anigbrowl,11395


**2. Comentarios eliminados: realizar una consulta que devuelva cuántos comentarios fueron eliminados.**

In [8]:
# me salio hacerlo asi inicialmente
# pero luego pongo como se haria con group y having
deleted_comments_query = '''
SELECT count(1) AS NumDeleted
FROM `bigquery-public-data.hacker_news.comments`
WHERE deleted = True
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(deleted_comments_query, job_config=safe_config)

deleted_comments = query_job.to_dataframe()
deleted_comments

Unnamed: 0,NumDeleted
0,227736


In [10]:
# utilizando Group ... Having
deleted_comments_query = '''
SELECT deleted, count(1) AS NumDeleted
FROM `bigquery-public-data.hacker_news.comments`
GROUP BY deleted
HAVING deleted = True
'''

safe_config = bigquery.QueryJobConfig(maximum_bytes_billed=10**10)
query_job = client.query(deleted_comments_query, job_config=safe_config)

deleted_comments = query_job.to_dataframe()
deleted_comments

Unnamed: 0,deleted,NumDeleted
0,True,227736
