<hr>

# **SQL Avanzado**

<hr>

## Agrupar datos

Necesitamos utilizar la función de agregación COUNT. El comando GROUP BY nos ayudará a encontrar el número de filas por autor:

In [None]:
SELECT
    author,
    COUNT(name) AS cnt
FROM
    books
GROUP BY
    author;

Ahora sabemos cuántos libros escribió cada uno de los autores de nuestra tabla.

Esta vez, calculemos los totales de libros agrupados por autor y género.

In [None]:
SELECT
    author,
    genre,
    COUNT(name) AS cnt
FROM
    books
GROUP BY
    author,
    genre;

GROUP BY se puede usar con cualquier función de agregación: COUNT, AVG, SUM, MAX y MIN. Puedes llamar a varias funciones al mismo tiempo. Calculemos el número promedio de páginas en los libros de cada autor y el número de páginas en su libro más largo.

In [None]:
SELECT
    author,
    AVG(pages) AS avg_pages,
    MAX(pages) AS max_pages
FROM
    books
GROUP BY
    author;

## Practiquemos!

**Ejercicio 1:**

Supongamos que tienes una tabla llamada sales que registra las ventas de productos por día. La estructura de la tabla es la siguiente:

- product_id: Identificador único del producto.
- date_sold: Fecha en que se realizó la venta.
- quantity: Cantidad vendida del producto.
- price: Precio unitario del producto.
- total: Total de la venta (cantidad * precio).

Escribe una consulta para obtener el total de ventas diarias para cada producto. Mostrar los siguientes campos en el resultado:

- date_sold: Fecha de la venta.
- product_id: Identificador único del producto.
- total_sales: Total de ventas para ese producto en esa fecha.


In [None]:
SELECT
    date_sold,
    product_id,
    SUM(total) AS total_sales
FROM
    sales
GROUP BY
    date_sold,
    product_id;


**Ejercicio 2:**

Supongamos que tienes una tabla llamada students que registra la asistencia de estudiantes a clases. La estructura de la tabla es la siguiente:

- student_id: Identificador único del estudiante.
- date_attended: Fecha en que el estudiante asistió a clase.
- subject: Materia o asignatura a la que asistió el estudiante.
- attendance_status: Estado de asistencia del estudiante (presente, ausente, tardanza, etc.).

Escribe una consulta para obtener la cantidad total de asistencias por estudiante y por materia. Mostrar los siguientes campos en el resultado:

- student_id: Identificador único del estudiante.
- subject: Materia.
- total_attendance: Cantidad total de asistencias del estudiante a esa materia.

In [None]:
SELECT
    student_id,
    subject,
    COUNT(*) AS total_attendance
FROM
    students
GROUP BY
    student_id,
    subject;


**Ejercicio 3**

Antes de realizar el ejercicio, te instamos primero a extraer las primeras 5 filas de la tabla products_data_all y echarlas un vistazo. El objetivo es familiarizarse con los datos con los que vas a trabajar. Después, procede a realizar la tarea descrita a continuación:

Escribe una consulta para calcular el número total de productos (name) y el número de productos únicos para cada tienda (name_store). Nombra las variables name_cnt y name_uniq_cnt respectivamente. Imprime los nombres de las tiendas, el número total de productos y el número de productos únicos. Las columnas deben aparecer en este orden: name_store, name_cnt y name_uniq_cnt.

In [None]:
SELECT 
	name_store,
    count(name) as name_cnt,
    count(distinct name) as name_uniq_cnt
    
FROM
    products_data_all
GROUP BY
    name_store


**Ejercicio 4**

Escribe una consulta para calcular el peso máximo de producto para cada categoría (category).  Nombra la variable max_weight y conviértela al tipo real. Imprime la categoría y el peso máximo.

In [None]:
SELECT 
	category,
    max(weight :: real) as max_weight
FROM
    products_data_all
Group by
    category

**Ejercicio 5**

Escribe una consulta para calcular el precio (price) promedio del producto, el precio mínimo y el máximo del producto para cada tienda (name_store) de la tabla products_data_all. Nombra las variables average_price, max_price y min_price respectivamente. 

Imprime el nombre de la tienda y los precios promedio, mínimo y máximo.

In [None]:
SELECT 
    name_store,
	avg(price) as average_price,
    max(price) as max_price,
    min(price) as min_price
FROM
    products_data_all
GROUP BY
    name_store;

**Ejercicio 6**

Escribe una consulta para calcular la diferencia entre los precios máximos y mínimos de cada uno de los productos de la categoría 'leche' el 10 de junio de 2019. Nombra la variable max_min_diff. Convierte valores de fecha de strings al formato date. 

Luego imprime el nombre del producto y la diferencia entre el precio máximo y mínimo. 

Estas son las columnas que utilizarás:

- Categoría: campo category

- Fecha: campo date_upd

- Precio: campo price

In [None]:
SELECT 
    name,
    max(price) - min(price) as max_min_diff
    
FROM
    products_data_all
WHERE
	category = 'milk' and date_upd::date = '2019-06-10'
GROUP BY
    name

<hr>

## **Ordenar Datos**

Los resultados del análisis normalmente se presentan en un cierto orden. Para ordenar los datos por un campo, utiliza el comando ORDER BY.

Así es como se ve una instrucción con agrupación y ordenación:

```
SELECT 
    field_1, 
    field_2,
    ..., 
    field_n, 
    AGGREGATE_FUNCTION(field) AS here_you_are
FROM
    table_name
WHERE -- si es necesario
    condition
GROUP BY  
    field_1, 
    field_2, 
    ..., 
    field_n,
ORDER BY -- Enumera solamente aquellos campos por los que se van a ordenar los datos
    field_1, 
    field_2, 
    ..., 
    field_n, 
    here_you_are;
```

Cuando se utiliza ORDER BY, solo los campos por los que queremos ordenar los datos deben ser listados en el bloque de comandos.

Se pueden utilizar dos modificadores con el comando ORDER BY para ordenar los datos en columnas:

- ASC (por defecto) ordena los datos en orden ascendente.
- DESC ordena los datos en orden descendente.

El comando **LIMIT** establece un límite para el número de filas en el resultado. Siempre viene al final de una instrucción:

```
SELECT
    field_1,
    field_2,
    ...,
    field_n,
    AGGREGATE_FUNCTION (field) AS here_you_are
FROM
    table_name
WHERE -- si es necesario
    condition
GROUP BY
    field_1,
    field_2,
    ...,
    field_n
ORDER BY -- si es necesario. Enumera solo los campos
    --por los que tenemos que ordenar los datos de la tabla.
    field_1,
    field_2,
...,
    field_n,
    here_you_are
LIMIT -- si es necesario
n;

-- n - el número máximo de filas que se devolverán
```

Después de LIMIT, indica el número deseado de filas: n. Siempre es más fácil crear una calificación con un número limitado de elementos.

Vamos a hacer una lista de los tres libros más largos:

```
SELECT
    name,
    pages
FROM
    books
ORDER BY
    pages DESC
LIMIT 3;
```

## Ejercicios!

**Ejercicio 1**

Antes de realizar el ejercicio, te instamos primero a extraer las primeras 5 filas de la tabla products_data_all y echarlas un vistazo. El objetivo es familiarizarse con los datos con los que vas a trabajar. Después, procede a realizar la tarea descrita a continuación:

Escribe una consulta para encontrar la cantidad de productos en cada categoría (category) para la fecha '2019-06-05'. Asigna el nombre name_cnt a la variable y ordena los datos en orden ascendente. Imprime la fecha, la categoría del producto y la cantidad de productos. Nombra la fecha elegida update_date.

No es necesario utilizar CAST.

Ten en cuenta que las fechas se almacenan como strings y deben convertirse al tipo date

In [None]:
SELECT 
    date_upd::date as update_date,
    category,
	count(name) as name_cnt
FROM
    products_data_all
WHERE
    date_upd::date = '2019-06-05'
GROUP BY 
    date_upd::date,
    category;

**Ejercicio 2**

Escribe una consulta para calcular la cantidad de productos únicos para cada categoría en la tienda 'T-E-B' para la fecha '2019-06-30'. Asigna el nombre uniq_name_cnt a la variable y ordena los datos por este campo en orden descendente. Convierte la fecha al tipo date y llama el campo resultante update_date. Después imprime la fecha, el nombre de la tienda, el nombre de la categoría y la cantidad de productos únicos.

In [None]:
SELECT 
	date_upd :: date as update_date,
    name_store,
    category,
    count(distinct name) as uniq_name_cnt
FROM
    products_data_all
WHERE 
	name_store = 'T-E-B' and date_upd :: date = '2019-06-30'
GROUP BY 
    update_date,
    name_store,
    category
  
ORDER BY
    uniq_name_cnt desc;

**Ejercicio 3**

Escribe una consulta para imprimir los cinco productos más caros en orden descendente. Imprime el nombre del producto y su precio. Llama la variable max_price.

In [None]:
SELECT 
	name,
    max(price) as max_price
FROM
    products_data_all
GROUP BY 
    name
ORDER BY 
    max_price desc
LIMIT 
    5

<hr>

## Procesar datos dentro de una agrupación

¿Qué pasa si queremos imprimir todos los autores que tienen más de un libro en la tabla? En este caso utilizamos HAVING. Funciona como WHERE para funciones de agregación.

Así es como se ve una instrucción con una cláusula HAVING:

```
SELECT
    field_1,
    field_2,
    ...,
    field_n,
    AGGREGATE_FUNCTION (field) AS here_you_are
FROM
    TABLE
WHERE -- si es necesario
    condition
GROUP BY
    field_1,
    field_2,
    ...,
    field_n
HAVING
    AGGREGATE_FUNCTION (field_for_grouping) > n
ORDER BY -- cuando es necesario. Enumera solo los campos
    --por los que tenemos que ordenar los datos (utiliza los alias de SELECT cuando es posible)
    field_1,
    field_2,
    ...,
    field_n,
    here_you_are
LIMIT -- si es necesario
      n;
```

Ahora vamos a encontrar todos los autores que tienen más de un libro

```
SELECT
    author,
    COUNT(name) AS name_cnt
FROM
    books
GROUP BY
    author
HAVING
    COUNT(name) > 1
ORDER BY
    name_cnt DESC;
```

Presta atención especial al orden en que aparecen los comandos:

1) GROUP BY

2) HAVING

3) ORDER BY

Este orden es obligatorio. De lo contrario, el código no funcionará.

Es hora de practicar.


## Ejercicios!

**Ejercicio 1**

Vas a seguir trabajando aquí con la tabla products_data_all. 

Escribe una declaración para encontrar el precio más alto (los precios están guardados en la columna price) para cada nombre de producto (los nombres están almacenados en la columna name). Guárdalo como variable max_price. Después imprime el nombre y el precio de cada producto cuyo precio sea superior a $10.

In [None]:
SELECT 
	name,
    max(price) as max_price
FROM
    products_data_all
Group by 
    name
HAVING
    max(price) > 10

**Ejercicio 2**

Vas a seguir trabajando aquí con la tabla products_data_all.

Escribe una consulta para encontrar la cantidad de productos que pesan más de 5 onzas (weight) para cada tienda (name_store) para la fecha 2019-06-03. Guarda el resultado como name_cnt y la fecha (convertida al tipo necesario) como update_date. 

Imprime la fecha, el nombre de la tienda y la cantidad de productos solo para las tiendas que tienen menos de 20 productos. Las columnas deben ir en este orden:  update_date, name_store, name_cnt.

No olvides convertir el peso del producto al tipo real y seleccionar solo productos cuyo peso se mide en onzas (units = 'oz').

In [None]:
SELECT 
    date_upd::date as update_date,
    name_store,
    count(name) as name_cnt
FROM
    products_data_all
WHERE
    weight::real > 5
    AND date_upd::date = '2019-06-03'
    AND units = 'oz'
GROUP BY
    date_upd::date,
    name_store
HAVING 
    COUNT(name) < 20;

**Ejercicio 3**

De nuevo, sigamos trabajando con la tabla products_data_all.

Escribe una consulta para encontrar la cantidad de productos únicos para cada tienda (name_store) y llama a la variable name_uniq_cnt. Encuentra las tres tiendas con la menor cantidad de productos (ordénalas en orden ascendente) entre las tiendas que tienen más de 30 productos únicos. Imprime el nombre de cada tienda y la cantidad de productos únicos que ofrece.

In [None]:
SELECT 
    count(distinct name) as name_uniq_cnt,
    name_store
FROM
    products_data_all
GROUP BY
    name_store
HAVING 
    count(distinct name) > 30
ORDER BY
    name_uniq_cnt ASC
LIMIT 3;

<hr>

## Operadores y funciones para trabajar con fechas

El tiempo es un factor crucial en los procesos de negocio.

Por ejemplo, para evaluar el impacto del clima en la dinamica de compras en una tienda en línea es importante saber cuándo se realizó cada compra y cómo estaba el clima en ese momento. Debes poder recopilar datos sobre el tiempo de varias fuentes y agruparlos por mes, día u hora.

Cuando trabajamos con valores de fecha y hora, tenemos dos funciones principales: EXTRACT y DATE_TRUNC (truncar fecha). Ambas funciones se llaman en el bloque SELECT.

Así es como se ve la función EXTRACT:


```
SELECT
    EXTRACT(date_fragment FROM column_name) AS new_column_with_date
FROM
    Table_with_all_dates;
```

EXTRACT, como es lógico, extrae la información que necesitas del timestamp (la marca de tiempo). Puedes recuperar:

- century: siglo
- day: día
- doy: día del año, del 1 al 365/366
- isodow: día de la semana según ISO 8601, el formato internacional de fecha y hora; El lunes es 1, el domingo es 7
- hour: hora
- milliseconds: milisegundos
- minute: minutos
- second: segundos
- month: mes
- quarter: trimestre
- week: semana del año
- year: año

Vamos a llamar a la función EXTRACT para obtener dos columnas del campo log_on de la tabla user_activity. Estas columnas contendrán el mes y el día de los inicios de sesión de los usuarios.

|id_user | log_on | log_off|
|----|----|---|
|6|2019-03-01 23:34:55|2019-04-01 01:20:45|
|156|2019-07-03 17:59:21	|2019-07-03 19:31:34|
|65|2019-03-25 14:30:46	|2019-03-25 17:47:53|

```
SELECT
    id_user,
    EXTRACT(MONTH FROM log_on) AS month_activity,
    EXTRACT(DAY FROM log_on) AS day_activity
FROM
    user_activity;
```


|id_user	|month_activity	|day_activity|
|-|-|-|
|6|	3|	1|
|156	|7|	3|
|65	|3|	25|

El usuario 6 inició sesión el primer día del tercer mes y el usuario 156 lo hizo el tercer día del séptimo mes. 

DATE_TRUNC trunca la fecha cuando solo necesitas un cierto nivel de precisión. (Por ejemplo, si necesitas saber qué día se realizó un pedido pero la hora no importa, puedes usar DATE_TRUNC con el argumento "day"). A diferencia de EXTRACT, la fecha truncada resultante se proporciona como un string. La columna de la que se toma la fecha completa viene después de una coma:

```
SELECT
    DATE_TRUNC('date_fragment_to_be_truncated_to', column_name) AS new_column_with_date
FROM
    Table_with_all_dates;
```

A veces es importante saber la hora exacta en que un usuario hizo una acción. Pero cuando necesitas agrupar los inicios de sesión por fecha y hora, los minutos y los segundos estorban. Así que vamos a truncar los valores del campo log_on hasta horas.


```
SELECT
    DATE_TRUNC('hour', log_on) AS date_log_on
FROM
    user_activity;

--Resultado 

date_log_on

2019-03-01 23:00:00

2019-07-03 17:00:00

2019-03-25 14:00:00

```


## Ejercicios!

**Ejercicio 1**

Recupera las horas del campo date en la tabla transactions. Llama el campo resultante hours.

In [None]:
SELECT 
	extract(hours from date) as hours
    
FROM
    transactions;

**Ejercicio 2**

Recupera las horas del campo date en la tabla transactions. Llama al campo resultante hours. Después agrupa los datos por hours y encuentra la cantidad de productos (id_product) comprados durante cada hora. Llama a la variable resultante cnt.

Ordena los resultados en orden ascendente por el valor del campo hours. Las columnas deben aparecer en este orden:hours, cnt

In [None]:
SELECT 
    extract(hours from date) as hours,
    count(id_product) as cnt
FROM
    transactions
Group by
    hours
Order by
    hours asc

**Ejercicio 3**

Recupera los días del campo date en la tabla transactions. Llama al campo resultante days. Después agrupa los datos por days y encuentra la cantidad de productos (id_product) comprados cada día. Llama a la variable resultante cnt. Ordena los resultados en orden ascendente por days. Las columnas deben aparecer en este orden: days, cnt

In [None]:
SELECT 
    extract(days from date) as days,
    count(id_product) as cnt
FROM
    transactions
Group by
    days
Order by
    days

**Ejercicio 4**

Has determinado que la mayoría de las compras se realizaron el primer día del mes. Trunca la fecha del campo date al nivel de día y llama a la variable date_month.  Agrupa los datos por fecha truncada y encuentra la cantidad de productos (id_producto) comprados cada día. Llama a la variable resultante cnt. Ordena los resultados en orden ascendente por date_month. Las columnas deben aparecer en este orden: date_month, cnt

In [None]:
SELECT
    date_trunc('day', date) as date_month,
    count(id_product) as cnt
FROM
    transactions
group by
    date_month
order by
    date_month asc

<hr>

## Subconsultas

Una subconsulta es una consulta dentro de una consulta. Por ejemplo, un director está buscando un actor para interpretar a Hamlet. Para ayudarle, el subdirector selecciona cinco candidatos buenos para que el director elija. La consulta, o consulta externa, es "buscar a Hamlet" mientras que la subconsulta, o consulta interna, es "seleccionar cinco candidatos".

Se puede utilizar las subconsultas en varias ubicaciones dentro de una consulta.

Si una subconsulta está dentro del bloque FROM, SELECT seleccionará datos de la tabla que genera la subconsulta. El nombre de la tabla se indica dentro de la consulta interna y la consulta externa se refiere a las columnas de la tabla. Las subconsultas siempre se escriben entre paréntesis:


```
SELECT 
SUBQUERY_1.column_name, 
SUBQUERY_1.column_name_2
FROM -- para que el código sea legible, coloca subconsultas en nuevas líneas
    -- sangra las subconsultas
    (SELECT 
        column_name,
        column_name_2
    FROM 
        table_name
    WHERE 
        column_name = value) AS SUBQUERY_1; 
-- no olvides darles un nombre a tus subconsultas
```

Vamos a escribir una consulta para encontrar el número promedio de calificaciones dadas a los libros de cada género. Para hacerlo, tendremos que llamar a dos funciones de agregación: COUNT encontrará el número de calificaciones y AVG calculará la media. Sin embargo, el comando SELECT AVG(COUNT(rating)) devolverá un mensaje de error: ERROR: aggregate function calls cannot be nested. 

Primero tenemos que invitar a los actores a la audición; solo así podremos elegir al mejor. Vamos a buscar el número de calificaciones por género utilizando una subconsulta y calcular la media en la consulta externa:

```
SELECT 
    AVG(Sub.count_rating) AS avg_count_rating
FROM
    (SELECT 
        COUNT(rating) as count_rating
    FROM 
        books
    GROUP BY genre) AS Sub;
```
La consulta interna calculó la cantidad de calificaciones de libros para cada género y guardó los valores en el campo count_rating. Ahora la consulta externa puede tomar la tabla resultante y hacer su trabajo.

Ahora llamamos a la columna count_rating de la tabla Sub y calculamos el valor promedio utilizando AVG:

> **2.72**

¿Qué significa este número? Significa que cada género recibió, en promedio, 2.72 calificaciones.

Es posible que necesites subconsultas en varios lugares dentro de tu consulta. Vamos a añadir uno en el bloque WHERE. La consulta principal comparará los resultados de la subconsulta con los valores de la tabla en el bloque externo FROM. Cuando haya una coincidencia, se seleccionarán los datos:


```
SELECT 
    column_name, 
    column_name_1
FROM 
    table_name
WHERE 
    column_name = 
        (SELECT 
            column_1
        FROM 
            table_name_2 
        WHERE
            column_1  = value);
```

Ahora vamos a agregar una instrucción IN a nuestra consulta y recopilar datos que coincidan con más de un valor:

```
SELECT 
    column_name, 
    column_name_1
FROM 
    table_name
WHERE 
    column_name IN  
            (SELECT 
                column_1
            FROM 
                table_name_2  
            WHERE 
                column_1 = value_1 OR column_1 = value_2);
```
Seleccionemos libros publicados por Knopf de la tabla books:

```
SELECT 
    name,
    publisher_id
FROM 
    books
WHERE 
    publisher_id = 
            (SELECT 
                 publisher_id
            FROM 
                publisher
            WHERE 
                name ='Knopf');
```

La subconsulta selecciona de la tabla publisher solo aquellos valores publisher_id que coinciden con el nombre de la editorial Knopf. El resultado es 10. Solo hay un valor de tabla publisher relacionado con Knopf.

Después, la consulta externa selecciona nombres e identificadores de editoriales de la tabla books pero solo aquellos que coinciden con el resultado de nuestra consulta interna (es decir, cuyo ID de editorial es 10).

Aquí está el resultado de la consulta externa:

|name|	publisher_id|
|-|-|
|The Witching Hour	|10|
|The Vampire Lestat	|10|
|Intensity|	10|

Vamos a escribir una consulta parecida, agregando Collins y Crown a la lista de editoriales. Aquí necesitaremos IN:

```
SELECT 
    name,
    publisher_id
FROM 
    books
WHERE 
    publisher_id IN 
            (SELECT 
                 publisher_id
            FROM 
                publisher
            WHERE 
                name IN ('Knopf', 'Collins', 'Crown'));
```
La instrucción IN de la consulta interna selecciona los identificadores de editoriales asociados con los nombres Knopf, Collins y Crown de la tabla publisher, lo que nos da 10, 15 y 19. Después estos valores se pasan a la consulta externa.

La consulta externa, a su vez, selecciona de la tabla books los nombres y editoriales asociados con los valores de publisher_id seleccionados por la consulta interna: nuestros viejos conocidos 10, 15 y 19.

|name	|publisher_id|
|-|-|
|The Great and Secret Show	|15|
|World War Z: An Oral History of the Zombie War	|19|
|The Witching Hour	|10|
|The Vampire Lestat	|10|
|Intensity	|10|









## Ejercicios!

**Ejercicio 1**

El jefe de tu departamento quiere listas de clientes que prefieren productos premium, junto con un informe sobre el promedio diario de transacciones de cada semana. Prepárate, ¡es un estudio de público objetivo!

Escribe una consulta para seleccionar ID de productos (id_product) de la tabla products_data_all:

- de productos de la categoría 'milk' que cuestan más de 17$
- de productos de categoría 'butter' que cuestan más de 9$

Recuerda que los nombres de los campos son:

- categoría: category
- precio: price

In [None]:
SELECT 
    id_product
FROM 
		products_data_all
WHERE 
  (category = 'milk' AND price > 17)
  OR (category = 'butter' AND price > 9);

**Ejercicio 2**

Escribe una consulta para seleccionar los identificadores únicos (user_id) de clientes que compraron productos (id_product) de la categoría 'milk' que cuestan más de 17$ o los de categoría 'butter' que cuestan más de 9$. Utiliza la tabla transactions.

In [None]:
SELECT 
    DISTINCT user_id
FROM 
    transactions
WHERE 
    id_product IN (
        SELECT 
            id_product 
        FROM 
            products_data_all
        WHERE 
            (category = 'milk' AND price > 17) OR 
            (category = 'butter' AND price > 9)
    );


**Ejercicio 3**

Escribe una consulta para encontrar el número de transacciones únicas (id_transaction) en la tabla transactions. Agrupa los totales de transacciones por día, truncando la columna date al nivel del día. Llama a la columna de transacción resultante transactions_per_day y la que tiene la fecha truncada trunc_date. No se necesitan subconsultas aquí. 

El resultado tendrá entradas como esta:

|transactions_per_day|	trunc_date|
|-|-|
|330|	2019-06-01 00:00:00|

In [None]:
SELECT 
    COUNT(DISTINCT id_transaction) as transactions_per_day,
    DATE_TRUNC('day', date) as trunc_date
FROM 
    transactions
GROUP BY 
    trunc_date
ORDER BY 
    trunc_date;


**Ejercicio 4**

Convierte la consulta de la tarea anterior en una subconsulta de bloque FROM. Llama al resultado SUBQ.

Mientras tanto, en la consulta externa:

- Llama a la función EXTRACT para recuperar el número de la semana de la columna trunc_date de la tabla SUBQ. Llama al campo resultante week_number.
- Encuentra la media de la columna transactions_per_day de la tabla SUBQ y guárdala en la variable avg_week_transaction.
- Agrupa los datos por week_number.

Las columnas deben aparecer en este orden: week_number, avg_week_transaction.

In [None]:
SELECT 
    EXTRACT(WEEK FROM trunc_date) as week_number,
    AVG(transactions_per_day) as avg_week_transaction
FROM (
    SELECT 
        COUNT(DISTINCT id_transaction) as transactions_per_day,
        DATE_TRUNC('day', date) as trunc_date
    FROM 
        transactions
    GROUP BY 
        trunc_date
) AS SUBQ
GROUP BY 
    week_number
ORDER BY 
    week_number;


<hr>

## Funciones Ventana

Digamos que queremos encontrar la relación entre el precio de cada libro y el precio total. Basándonos en lo que hemos aprendido podemos escribir lo siguiente:

```
SELECT
    author_id,
    name,
    price,
    price / (
        SELECT
            SUM(price) AS ratio
        FROM
            books_price)
FROM
    books_price;
```


Hay un problema: el precio total es un valor fijo pero se calcula una y otra vez para cada fila. Esto podría estar bien para una tabla corta pero si estamos tratando con millones de filas, no sería nada eficiente.

Afortunadamente, SQL tiene una herramienta que nos permite evitar este tipo de problemas: las funciones de ventana que realizan todas sus operaciones dentro de ventanas. 

En SQL, una ventana es una secuencia de filas con las que se realizan los cálculos. Puede ser la tabla completa o, por ejemplo, las seis filas por encima de la actual. Trabajar con estas ventanas es diferente a trabajar con solicitudes normales. 

Podemos resolver rápidamente la tarea de arriba con una función de ventana. La solución será así:

```
SELECT
    author_id,
    name,
    price / SUM(price) OVER () AS ratio
FROM
    books_price;
```

La función que precede a la palabra clave OVER se ejecutará con los datos dentro de la ventana. Si no indicamos ningún parámetro (como aquí), se utilizará todo el resultado de la consulta.

Ahora vamos a hacer la tarea un poco más compleja: encontraremos la relación entre el precio de cada libro y el precio total de los libros de ese autor. Para hacerlo, necesitaremos agrupar los datos con un método parecido a GROUP BY. Para funciones de ventana es PARTITION BY:

```
SELECT
    author_id,
    name,
    price / SUM(price) OVER (PARTITION BY author_id) AS ratio
FROM
    books_price;
```



## Ejercicios!

**Ejercicio 1**

Escribe una consulta para calcular el ratio entre los precios de ciertos productos (name) y el precio promedio de los productos vendidos por categoría (category) y por tienda (name_store).  Además selecciona los precios de los productos (price).

Guarda el resultado en la variable product_mul.

Las primeras filas de la tabla resultante deberían ser así:

|product_name|	store_name|	category|	product_price	product_mul|
|-|-|-|-|
|a2 Milk Whole Milk, 59 oz	|Uncle Joe's Store|	milk|	3.56|	1.01888|
|a2 Milk Whole Milk, 59 oz	|T-E-B	|milk|	3.45|	1.02882|
|a2 Milk Whole Milk, 59 oz	|Uncle Joe's Store|	milk	|3.43|	0.981675|


In [None]:
SELECT
    name AS product_name,
    name_store AS store_name,
    category AS category,
    price AS product_price,
    price / AVG(price) OVER (PARTITION BY category, name_store) AS product_mul
FROM
    products_data_all
ORDER BY
    id_product;

**Ejercicio 2**

Escribe una consulta que encuentre la proporción de cada categoría (category) en las ventas totales de cada tienda (store_name) para cada día (sale_date) dentro del período del 1 al 6 de junio.

Ordena el resultado por la fecha de compra y el nombre de la tienda y guárdalo en la variable percent.

Las primeras filas de la tabla resultante deberían ser así:

|STORE_NAME|	SALE_DATE|	CATEGORY|	PERCENT|
|-|-|-|-|
|Four	|2019-06-01	|butter	|16.7999|
|Four	|2019-06-01	|milk|	83.2001|
|Milk Market	|2019-06-01	|butter	|14.063|

In [None]:
SELECT DISTINCT
    name_store AS store_name,
    date_upd::date AS sale_date,
    category AS category,
    SUM(price) OVER (
    PARTITION BY 
      name_store, category, date_upd
  ) * 100 / SUM(price) OVER (
    PARTITION BY 
      name_store, date_upd
  ) AS percent
FROM
    products_data_all
WHERE
    date_upd::date BETWEEN '2019-06-01'
    AND '2019-06-06'
ORDER BY
    date_upd::date,
    name_store;

<hr>

## FUNCIONES DE VENTANA EN MÁS DETALLE

Vamos a ver de dónde obtienen su nombre las funciones de ventana. Digamos que necesitamos aplicar una función de agregación a un fragmento de tabla en lugar de a toda la tabla y encontrar un valor acumulativo: por ejemplo, cómo cambia el valor acumulativo del inventario de la librería. (Al principio, la tienda ofrece solo un libro por $10; el valor acumulativo es de $10. Después adquiere un segundo libro de cinco dólares y el valor acumulativo se convierte en $15).

Para que una ventana funcione correctamente es importante indicar los parámetros de ordenación para que el SGBD entienda en qué orden están los datos. 

Vamos a obtener nuestro valor acumulado:

```
SELECT
    author_id,
    name,
    SUM(price) OVER (ORDER BY author_id ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
FROM
    books_price;
```

tenemos dos nuevas palabras clave aquí: ORDER BY y ROWS. ORDER BY nos permite definir el orden de ordenación de las filas a través de las cuales se ejecutará la ventana. En ROWS indicamos los marcos de ventana sobre los que se va a calcular una función de agregación. Aquí está el resultado:

|author_id	|name	|sum|
|-|-|-|
|0	|Full Dark, No Stars|	15.64|
|0	|End of Watch	|25.630001|
|0	|Misery	|34.82|

Los marcos pueden indicarse de varias maneras:

- UNBOUNDED PRECEDING: todas las filas que están por encima de la actual
- N PRECEDING: las n filas por encima de la actual
- CURRENT ROW: la fila actual
- N FOLLOWING: las n filas debajo de la actual
- UNBOUNDED FOLLOWING: todas las filas debajo de la actual

Se pueden combinar los parámetros.

Aquí tienes otro ejemplo del uso de una función de ventana. Esto nos da el número acumulado de páginas para cada autor:

```
SELECT
    author_id,
    name,
    pages,
    SUM(pages) OVER (PARTITION BY author_id ORDER BY author_id ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
FROM
    books_price;
```


Resultado:

|author_id	|name	|pages|	sum|
|-|-|-|-|
|0	|Full Dark, No Stars|	368|	368|
|0	|End of Watch	|432|	800|


**Funciones de agregación especiales**

Además de SUM, AVG y COUNT existen funciones de agregación especiales que puedes utilizar al trabajar con ventanas. Vamos a echar un vistazo más de cerca.

**Funciones de clasificación: RANK**

La función RANK devuelve el número de índice de fila en la ventana actual. Si varias filas tienen un valor asignado según las reglas de ORDER BY se les asignará el mismo número. Esta función nos permite clasificar los datos.

Para clasificar los libros según el número de páginas de cada autor podemos ejecutar la siguiente consulta:

```
SELECT
    author_id,
    name,
    pages,
    RANK() OVER (PARTITION BY author_id ORDER BY pages)
FROM
    books_price;
```

Resultado:

|author_id|	name	|pages|	rank|
|-|-|-|-|
|0|	Misery	|320	|1|
|0|	Full Dark, No Stars	|368|	2|
|0|	End of Watch	|432	|3|

**Función de categorización: NTILE**

Con NTILE podemos poner la fila de salida en un grupo. Esto es parecido a la partición de datos en cuartiles.  El número de grupos en los que se van a dividir los datos se pasa a la función.

Por ejemplo, es posible que necesitemos dividir los libros en cinco categorías según el precio. Podemos hacerlo con la siguiente consulta:

```
SELECT
    author_id,
    name,
    price,
    ntile(5) OVER (ORDER BY price)
FROM
    books_price;
```

|author_id|	name|	price|	ntile|
|-|-|-|-|
|5|	The October Country	|7.35|	1|
|7	|Lightning|	7.35|	1|
|9	|The Vampire Lestat|	8.27|	1|

**Funciones de desplazamiento: LAG y LEAD**

A menudo necesitarás comparar el valor actual con los anteriores o posteriores. Por eso tienes las funciones LAG y LEAD respectivamente.

Puedes pasar a la función el nombre del campo y el desplazamiento (el número de filas) sobre el que se tomará el valor. Si no indicas el desplazamiento, será el valor predeterminado: 1.

Por ejemplo, podemos averiguar cuántas páginas tiene cada libro y el libro previo del mismo autor con la siguiente consulta:

```
SELECT
    author_id,
    name,
    pages,
    LAG(pages) OVER (PARTITION BY author_id ORDER BY date_pub)
FROM
    books_price;
```

Resultado:

|author_id	|name	|pages|	lag|
|-|-|-|-|
|0|	The Stand	|816	|NULL|
|0	|Different Seasons|	560|	816|
|0	|It	|1116	|560|



## Ejercicios!

**Ejercicio 1**

Vas a trabajar con la tabla products_all_data. Trabajando con los datos de la tienda Four (name_store) escribe una consulta para calcular el cambio en los ingresos totales en cada categoría (category) y en la tienda en general después de la venta de cada producto (name) el 2 de junio 2019. Guarda los resultados en las variables category_accum y store_accum respectivamente. Ordena los valores por id_product. Muestra los precios de los productos (price) antes de los resultados.

Las primeras filas de la tabla resultante deberían ser así:

|store_name|	category|	product_name|	price|	category_accum|	store_accum|
|-|-|-|-|-|-|
|Four	|milk	|Borden Super Chox Chocolate Drink, 1 gal	|2.38|	2.38|	2.38|
|Four	|milk	|Fairlife 2% Chocolate Reduced Fat Milk, 52 oz|	3.16|	5.54|	5.54|
|Four	|milk	|Мoo-Moo Select Ingredients Fat Free Milk, 1 gal|	2.28|	7.82|	7.82|

In [None]:
SELECT 
    name_store as store_name,
    category,
    name AS product_name,
    price,
    sum(price) over (partition by category order by id_product) as category_accum,
    sum(price) over (partition by name_store order by id_product) as store_accum
FROM
    products_data_all
where
    name_store = 'Four' and date_upd::date = '2019-06-02'
ORDER BY
    id_product;