In [1]:
#NOTEBOOK SETUP FOR sql (esto tiene que ejecutarse una vez por notebook)
#load_ext sql
%reload_ext sql 
%sql mysql+mysqlconnector://root:root@localhost:3306/sakila

## Profundizando un poco: Ordenando y Resumiendo

En el notebook anterior aprendimos a utilizar el comando ``SELECT`` más básico, e impulsamos el puntapié inicial para introducirnos en los pilares de cualquier consulta: ``FROM`` y ``WHERE``. 

Sin embargo, también vimos algunos detallitos: Qué pasa si queremos limtar las entradas de manera arbitraria con ``LIMIT``, no traernos todos los campos evitando el ``*``, ordenar de manera descendiente o ascendiente con `GROUP BY` o qué pasa si queremos cambiarle el nombre a un campo con ``AS``.

Si bien es información valiosa, recíen estamos empezando!

Acá seguimos con el siguiente tema: Agrupamiento y Colapso

###  Funciones de Agregación

Hasta ahora, cada fila en nuestro resultado correspondía a una fila en la tabla original. Ahora vamos a dar un salto conceptual: aprenderemos a colapsar múltiples filas en una sola fila de resumen.

> ¿Nunca te pidieron sacar un promedio? ¿Te enseñaron a contar? ¡SQL también sabe!

Para colapsar filas, existen las funciones de agregación, y hay de varios sabores:

- `COUNT()`: Cuenta el número de filas.
- `SUM()`: Suma los valores de una columna.
- `AVG()`: Calcula el promedio.
- `MAX()`: Encuentra el valor máximo.
- `MIN()`: ENcuentra el valor mínimo.

Mirá, pongamoslo a prueba obteniendo un resumen de todos los pagos realizados en el local.

In [2]:
%%sql

SELECT                               -- Seleccioná:
    COUNT(*) AS total_pagos,         -- Todas las entradas de la tabla y contalas.
    SUM(amount) AS total_recaudado,  -- Todas las entradas de la columna amount y sumalas.
    AVG(amount) AS pago_promedio,    -- El promedio de monto de la columna amount.
    MAX(amount) AS pago_maximo,      -- El monto máximo de la columna amount.
    MIN(amount) AS pago_minimo       -- El monto mínimo de la columna amount.

FROM                                 -- De la tabla de pagos
    payment;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
1 rows affected.


total_pagos,total_recaudado,pago_promedio,pago_maximo,pago_minimo
16044,67406.56,4.201356,11.99,0.0


> **NOTA:** ¡Cuidado con `COUNT()` y los valores NULL!
>
> - `COUNT(*)` cuenta **todas** las filas.
> - `COUNT(columna)` cuenta solo las filas donde `columna` **NO es NULL**.
>
> Para saber cuántos valores nulos hay en una columna:
>
> ```sql
> SELECT COUNT(*) - COUNT(columna) FROM tabla;
> ```

### `DISTINCT`: Eliminando Duplicados con este Modificador

Muchas veces, los resultados de nuestras consultas contienen filas repetidas y no es lo que queremos obtener. Por ejemplo, si preguntamos qué clientes han alquilado películas, el ID de un mismo cliente aparecerá tantas veces como alquileres haya hecho y quizás no es lo que buscamos. Es decir:

| ID CLiente qué alquiló |
|          :---          | 
|            1           | 
|            1           | 
|            2           |
|            2           |
|           ...          |

Para poder mitigar esto, existe la **palabra clave modificadora** `DISTINCT`. Esta es nuestra herramienta para filtrar estos duplicados y obtener una lista de valores únicos.

De esta forma, se la puede usar de dos maneras muy importantes:
- Puede eliminar filas duplicadas, si sucede a un `SELECT`. Por ejemplo:
    ```sql
    SELECT DISTINCT customer_id FROM payment ORDER BY customer_id;
    ```
- Puede utilizarse como modificador de la función de agregación `COUNT(Attr)` para que cuente no la cantidad de filas no nulas sino que cuente la cantidad de valores distintos que esa columna toma.

> **NOTA:**  
> Aunque `COUNT(col1, ..., coln)` no es válido, MySQL permite `COUNT(DISTINCT col1, ..., coln)`, ya que cuenta todas las combinaciones únicas de esas columnas.
>
> Así, podés saber cuántos pares distintos existen sin usar subconsultas.

### `GROUP BY`: Agregación por Grupos



Calcular el promedio de todos los pagos es útil, pero ¿qué tal si quisiéramos saber el promedio de pago por cada cliente? Para eso necesitamos agrupar.

La cláusula `GROUP BY` es una de las herramientas más potentes de SQL. Su trabajo es tomar todas las filas, agruparlas según los valores de una columna, y luego permitirnos aplicar funciones de agregación a cada uno de esos grupos.

In [6]:
%%sql
-- Cuantos pagos ha realizado cada cliente?
-- SOLO LOS PRIMEROS 10, COMO PARA NO HACER MUCHO BULTO  

SELECT
    customer_id AS "Identificación de Cliente",                    
    COUNT(*) AS "Cantidad de Pagos Total"          
FROM
    payment
GROUP BY
    customer_id
    
LIMIT 10; 


 * mysql+mysqlconnector://root:***@localhost:3306/sakila
10 rows affected.


Identificación de Cliente,Cantidad de Pagos Total
1,32
2,27
3,26
4,22
5,38
6,28
7,33
8,24
9,23
10,25


Ese tipo de consultas me gusta pensarlas de la siguiente manera:

1. Generá una tabla identica a la original (Es decir, `FROM PAYMENT`) por cada valor de customer_id que haya. Es decir, `GROUP BY customer_id`.

2. A cada una de las tablas, contá la cantidad de pagos que tiene (la cantidad de filas). Es decir, `COUNT(*)` (Recordar que el `COUNT()` se comporta distinto acá porque es luego del resultado de `GROUP BY`)

3. Devolveme entonces, una nueva tabla compuesta por el customer_id que tenía cada tabla y la cantidad de pagos que tenía cada tabla por separado.


#### Regla de Oro del `GROUP BY`

Cuando usás la cláusula `GROUP BY` las columnas o atributos que querés como resultado del `SELECT` deben ser:

1. O una columna que también está en la clausula GROUP BY.
2. O una columna que sea el resultado de una función de agregación.

En general, no seguir esa regla generará errores.

> **NOTA**:
>
> Notar como
>
> ```sql
>   SELECT COUNT(*) FROM example_table GROUP BY example_attribute;
> ```
> Es similar a
>
> ```sql
>   SELECT COUNT(DISTINCT example_attribute) FROM example_table;
> ```

### `HAVING`: El `WHERE` de los Grupos



Ya sabemos cómo filtrar filas individuales con WHERE. Pero, ¿y si queremos filtrar los resultados después de haberlos agrupado?

Por ejemplo: "Mostrame solo los clientes que han gastado más de $150 en total".

No podemos usar `WHERE SUM(amount) > 150`, porque WHERE se ejecuta antes de que se hagan los grupos y se calculen las sumas.

Para esto existe `HAVING`. Es una cláusula de filtrado que se aplica después de que `GROUP BY` ha hecho su trabajo.

In [8]:
%%sql
-- Mostrame el ID y el gasto total de los clientes que han gastado más de $180.
-- Y ordénalos por el que más gastó.
SELECT
    customer_id,
    SUM(amount) AS total_gastado
FROM
    payment
GROUP BY
    customer_id
HAVING
    SUM(amount) > 180 -- Filtramos los grupos (clientes) basados en el resultado de la agregación.
ORDER BY
    total_gastado DESC;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
6 rows affected.


customer_id,total_gastado
526,221.55
148,216.54
144,195.58
137,194.61
178,194.61
459,186.62
