<hr>

# **SQL Avanzado**

<hr>

## Agrupar datos

Necesitamos utilizar la función de agregación COUNT. El comando GROUP BY nos ayudará a encontrar el número de filas por autor:

In [None]:
SELECT
    author,
    COUNT(name) AS cnt
FROM
    books
GROUP BY
    author;

Ahora sabemos cuántos libros escribió cada uno de los autores de nuestra tabla.

Esta vez, calculemos los totales de libros agrupados por autor y género.

In [None]:
SELECT
    author,
    genre,
    COUNT(name) AS cnt
FROM
    books
GROUP BY
    author,
    genre;

GROUP BY se puede usar con cualquier función de agregación: COUNT, AVG, SUM, MAX y MIN. Puedes llamar a varias funciones al mismo tiempo. Calculemos el número promedio de páginas en los libros de cada autor y el número de páginas en su libro más largo.

In [None]:
SELECT
    author,
    AVG(pages) AS avg_pages,
    MAX(pages) AS max_pages
FROM
    books
GROUP BY
    author;

## Practiquemos!

**Ejercicio 1:**

Supongamos que tienes una tabla llamada sales que registra las ventas de productos por día. La estructura de la tabla es la siguiente:

- product_id: Identificador único del producto.
- date_sold: Fecha en que se realizó la venta.
- quantity: Cantidad vendida del producto.
- price: Precio unitario del producto.
- total: Total de la venta (cantidad * precio).

Escribe una consulta para obtener el total de ventas diarias para cada producto. Mostrar los siguientes campos en el resultado:

- date_sold: Fecha de la venta.
- product_id: Identificador único del producto.
- total_sales: Total de ventas para ese producto en esa fecha.


In [None]:
SELECT
    date_sold,
    product_id,
    SUM(total) AS total_sales
FROM
    sales
GROUP BY
    date_sold,
    product_id;


**Ejercicio 2:**

Supongamos que tienes una tabla llamada students que registra la asistencia de estudiantes a clases. La estructura de la tabla es la siguiente:

- student_id: Identificador único del estudiante.
- date_attended: Fecha en que el estudiante asistió a clase.
- subject: Materia o asignatura a la que asistió el estudiante.
- attendance_status: Estado de asistencia del estudiante (presente, ausente, tardanza, etc.).

Escribe una consulta para obtener la cantidad total de asistencias por estudiante y por materia. Mostrar los siguientes campos en el resultado:

- student_id: Identificador único del estudiante.
- subject: Materia.
- total_attendance: Cantidad total de asistencias del estudiante a esa materia.

In [None]:
SELECT
    student_id,
    subject,
    COUNT(*) AS total_attendance
FROM
    students
GROUP BY
    student_id,
    subject;


**Ejercicio 3**

Antes de realizar el ejercicio, te instamos primero a extraer las primeras 5 filas de la tabla products_data_all y echarlas un vistazo. El objetivo es familiarizarse con los datos con los que vas a trabajar. Después, procede a realizar la tarea descrita a continuación:

Escribe una consulta para calcular el número total de productos (name) y el número de productos únicos para cada tienda (name_store). Nombra las variables name_cnt y name_uniq_cnt respectivamente. Imprime los nombres de las tiendas, el número total de productos y el número de productos únicos. Las columnas deben aparecer en este orden: name_store, name_cnt y name_uniq_cnt.

In [None]:
SELECT 
	name_store,
    count(name) as name_cnt,
    count(distinct name) as name_uniq_cnt
    
FROM
    products_data_all
GROUP BY
    name_store


**Ejercicio 4**

Escribe una consulta para calcular el peso máximo de producto para cada categoría (category).  Nombra la variable max_weight y conviértela al tipo real. Imprime la categoría y el peso máximo.

In [None]:
SELECT 
	category,
    max(weight :: real) as max_weight
FROM
    products_data_all
Group by
    category

**Ejercicio 5**

Escribe una consulta para calcular el precio (price) promedio del producto, el precio mínimo y el máximo del producto para cada tienda (name_store) de la tabla products_data_all. Nombra las variables average_price, max_price y min_price respectivamente. 

Imprime el nombre de la tienda y los precios promedio, mínimo y máximo.

In [None]:
SELECT 
    name_store,
	avg(price) as average_price,
    max(price) as max_price,
    min(price) as min_price
FROM
    products_data_all
GROUP BY
    name_store;

**Ejercicio 6**

Escribe una consulta para calcular la diferencia entre los precios máximos y mínimos de cada uno de los productos de la categoría 'leche' el 10 de junio de 2019. Nombra la variable max_min_diff. Convierte valores de fecha de strings al formato date. 

Luego imprime el nombre del producto y la diferencia entre el precio máximo y mínimo. 

Estas son las columnas que utilizarás:

- Categoría: campo category

- Fecha: campo date_upd

- Precio: campo price

In [None]:
SELECT 
    name,
    max(price) - min(price) as max_min_diff
    
FROM
    products_data_all
WHERE
	category = 'milk' and date_upd::date = '2019-06-10'
GROUP BY
    name

<hr>

## **Ordenar Datos**

Los resultados del análisis normalmente se presentan en un cierto orden. Para ordenar los datos por un campo, utiliza el comando ORDER BY.

Así es como se ve una instrucción con agrupación y ordenación:

```
SELECT 
    field_1, 
    field_2,
    ..., 
    field_n, 
    AGGREGATE_FUNCTION(field) AS here_you_are
FROM
    table_name
WHERE -- si es necesario
    condition
GROUP BY  
    field_1, 
    field_2, 
    ..., 
    field_n,
ORDER BY -- Enumera solamente aquellos campos por los que se van a ordenar los datos
    field_1, 
    field_2, 
    ..., 
    field_n, 
    here_you_are;
```

Cuando se utiliza ORDER BY, solo los campos por los que queremos ordenar los datos deben ser listados en el bloque de comandos.

Se pueden utilizar dos modificadores con el comando ORDER BY para ordenar los datos en columnas:

- ASC (por defecto) ordena los datos en orden ascendente.
- DESC ordena los datos en orden descendente.

El comando **LIMIT** establece un límite para el número de filas en el resultado. Siempre viene al final de una instrucción:

```
SELECT
    field_1,
    field_2,
    ...,
    field_n,
    AGGREGATE_FUNCTION (field) AS here_you_are
FROM
    table_name
WHERE -- si es necesario
    condition
GROUP BY
    field_1,
    field_2,
    ...,
    field_n
ORDER BY -- si es necesario. Enumera solo los campos
    --por los que tenemos que ordenar los datos de la tabla.
    field_1,
    field_2,
...,
    field_n,
    here_you_are
LIMIT -- si es necesario
n;

-- n - el número máximo de filas que se devolverán
```

Después de LIMIT, indica el número deseado de filas: n. Siempre es más fácil crear una calificación con un número limitado de elementos.

Vamos a hacer una lista de los tres libros más largos:

```
SELECT
    name,
    pages
FROM
    books
ORDER BY
    pages DESC
LIMIT 3;
```

## Ejercicios!

**Ejercicio 1**

Antes de realizar el ejercicio, te instamos primero a extraer las primeras 5 filas de la tabla products_data_all y echarlas un vistazo. El objetivo es familiarizarse con los datos con los que vas a trabajar. Después, procede a realizar la tarea descrita a continuación:

Escribe una consulta para encontrar la cantidad de productos en cada categoría (category) para la fecha '2019-06-05'. Asigna el nombre name_cnt a la variable y ordena los datos en orden ascendente. Imprime la fecha, la categoría del producto y la cantidad de productos. Nombra la fecha elegida update_date.

No es necesario utilizar CAST.

Ten en cuenta que las fechas se almacenan como strings y deben convertirse al tipo date

In [None]:
SELECT 
    date_upd::date as update_date,
    category,
	count(name) as name_cnt
FROM
    products_data_all
WHERE
    date_upd::date = '2019-06-05'
GROUP BY 
    date_upd::date,
    category;

**Ejercicio 2**

Escribe una consulta para calcular la cantidad de productos únicos para cada categoría en la tienda 'T-E-B' para la fecha '2019-06-30'. Asigna el nombre uniq_name_cnt a la variable y ordena los datos por este campo en orden descendente. Convierte la fecha al tipo date y llama el campo resultante update_date. Después imprime la fecha, el nombre de la tienda, el nombre de la categoría y la cantidad de productos únicos.

In [None]:
SELECT 
	date_upd :: date as update_date,
    name_store,
    category,
    count(distinct name) as uniq_name_cnt
FROM
    products_data_all
WHERE 
	name_store = 'T-E-B' and date_upd :: date = '2019-06-30'
GROUP BY 
    update_date,
    name_store,
    category
  
ORDER BY
    uniq_name_cnt desc;

**Ejercicio 3**

Escribe una consulta para imprimir los cinco productos más caros en orden descendente. Imprime el nombre del producto y su precio. Llama la variable max_price.

In [None]:
SELECT 
	name,
    max(price) as max_price
FROM
    products_data_all
GROUP BY 
    name
ORDER BY 
    max_price desc
LIMIT 
    5

<hr>

## Procesar datos dentro de una agrupación

¿Qué pasa si queremos imprimir todos los autores que tienen más de un libro en la tabla? En este caso utilizamos HAVING. Funciona como WHERE para funciones de agregación.

Así es como se ve una instrucción con una cláusula HAVING:

```
SELECT
    field_1,
    field_2,
    ...,
    field_n,
    AGGREGATE_FUNCTION (field) AS here_you_are
FROM
    TABLE
WHERE -- si es necesario
    condition
GROUP BY
    field_1,
    field_2,
    ...,
    field_n
HAVING
    AGGREGATE_FUNCTION (field_for_grouping) > n
ORDER BY -- cuando es necesario. Enumera solo los campos
    --por los que tenemos que ordenar los datos (utiliza los alias de SELECT cuando es posible)
    field_1,
    field_2,
    ...,
    field_n,
    here_you_are
LIMIT -- si es necesario
      n;
```

Ahora vamos a encontrar todos los autores que tienen más de un libro

```
SELECT
    author,
    COUNT(name) AS name_cnt
FROM
    books
GROUP BY
    author
HAVING
    COUNT(name) > 1
ORDER BY
    name_cnt DESC;
```

Presta atención especial al orden en que aparecen los comandos:

1) GROUP BY

2) HAVING

3) ORDER BY

Este orden es obligatorio. De lo contrario, el código no funcionará.

Es hora de practicar.


## Ejercicios!

**Ejercicio 1**

Vas a seguir trabajando aquí con la tabla products_data_all. 

Escribe una declaración para encontrar el precio más alto (los precios están guardados en la columna price) para cada nombre de producto (los nombres están almacenados en la columna name). Guárdalo como variable max_price. Después imprime el nombre y el precio de cada producto cuyo precio sea superior a $10.

In [None]:
SELECT 
	name,
    max(price) as max_price
FROM
    products_data_all
Group by 
    name
HAVING
    max(price) > 10

**Ejercicio 2**

Vas a seguir trabajando aquí con la tabla products_data_all.

Escribe una consulta para encontrar la cantidad de productos que pesan más de 5 onzas (weight) para cada tienda (name_store) para la fecha 2019-06-03. Guarda el resultado como name_cnt y la fecha (convertida al tipo necesario) como update_date. 

Imprime la fecha, el nombre de la tienda y la cantidad de productos solo para las tiendas que tienen menos de 20 productos. Las columnas deben ir en este orden:  update_date, name_store, name_cnt.

No olvides convertir el peso del producto al tipo real y seleccionar solo productos cuyo peso se mide en onzas (units = 'oz').

In [None]:
SELECT 
    date_upd::date as update_date,
    name_store,
    count(name) as name_cnt
FROM
    products_data_all
WHERE
    weight::real > 5
    AND date_upd::date = '2019-06-03'
    AND units = 'oz'
GROUP BY
    date_upd::date,
    name_store
HAVING 
    COUNT(name) < 20;