# 5. Funciones de Ventana para el Análisis de Datos

In [1]:
# @title Postgress preloading (install server)
#The output of the installation is not displayed when %%capture is used at the start of the cell
%%capture
# Install postgresql server
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start
# Setup a password `postgres` for username `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"
# Setup a database with name `sampledb` to be used
# !sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS sampledb;'
# !sudo -u postgres psql -U postgres -c 'CREATE DATABASE sampledb;'

!curl https://raw.githubusercontent.com/limspiga/data-modeling/main/db/data.dump  -O
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE sqlda;'

# !sudo -u postgres psql -U postgres -d 'sqlda' -f 'data.dump'

# https://thivyapriyaa.medium.com/setting-up-postgresql-on-google-colab-4d02166939fc


In [None]:
# @title Postgress preloading
# import
!sudo -u postgres psql -d sqlda < data.dump
%env DATABASE_URL=postgresql://postgres:postgres@localhost:5432/sqlda
#To load the sql extention to start using %%sql
%load_ext sql

En el Capítulo 3, exploraste varias funciones SQL clave para la preparación de datos, como `CASE WHEN`, `COALESCE` y `NULLIF`, que se aplican a datos específicos de una fila individual. En contraste, el Capítulo 4 te guió a través de funciones de agregación como `SUM`, `AVG` y `COUNT`, diseñadas para procesar y analizar múltiples filas de datos. Por ejemplo, si estás analizando indicadores de salud en recién nacidos, podrías utilizar `CASE WHEN` para evaluar la salud de cada infante según su peso y altura, mientras que las funciones de agregación te permitirían calcular promedios y desviaciones estándar a nivel nacional.

En ciertas situaciones, la posición relativa de un dato dentro de un conjunto cobra especial relevancia, como ocurre con los rankings. Por ejemplo, un bebé podría tener una clasificación de salud distinta a nivel nacional que a nivel municipal. Además, cuando trabajas con grandes volúmenes de datos, es posible que necesites analizar subgrupos o particiones específicas, como los diferentes estados. En estos casos, es necesario calcular un ranking que sea válido solo dentro de cada partición, considerando un subconjunto predefinido de filas o "ventana". Este tipo de análisis se realiza mediante el uso de las llamadas funciones de ventana.


# Funciones de Ventana

Continuando con el análisis de las Funciones de Ventana, imaginemos que tu objetivo es identificar a los clientes más antiguos de ZoomZoom. Específicamente, deseas:
- Ordenar a los clientes según la fecha en que comenzaron su relación con la empresa,
- Asignar al cliente más antiguo el rango 1, al siguiente el rango 2, y así sucesivamente.

Para lograrlo, puedes obtener la información de todos los clientes utilizando la siguiente consulta:


In [None]:
%%sql
-- Figure 5.1: Customers ordered by date_added
SELECT
  customer_id, first_name, last_name, date_added
FROM
  customers
ORDER BY
  date_added LIMIT 10;

Puedes:
- Ordenar a los clientes desde el más antiguo hasta el más reciente,
- Copiar los resultados en una hoja de cálculo, y
- Asignar un número de fila a cada uno para obtener el rango de cada cliente.

Sin embargo, este método no es automático y puede llevar a errores. SQL ofrece formas mucho más eficientes para lograr esto.

En las secciones posteriores de este capítulo, aprenderás a asignar números secuenciales a registros previamente ordenados utilizando la función de ventana `RANK`. Como punto de partida, puedes usar una función de agregación para recopilar las fechas de registro de los clientes y proceder a su ordenación.


In [None]:
%%sql
-- Figure 5.2: Aggregate date-time ordering
SELECT
  date_added, COUNT(*)
FROM
  customers
GROUP BY
  date_added
ORDER BY
  date_added LIMIT 10;

El resultado ordena las fechas de manera secuencial, lo que permite calcular cuántos clientes se unieron a ZoomZoom antes que uno específico, sumando las inscripciones de los días anteriores a su fecha de adhesión. No obstante, este enfoque es manual y no ofrece una visión clara del rango de cada cliente. Aquí es donde las funciones de ventana entran en juego. Estas herramientas permiten procesar múltiples filas de datos mientras conservan toda la información, y son cruciales para tareas como la determinación de rangos.

A continuación, presentaremos un ejemplo de consulta que utiliza una función de ventana.


# Conceptos Básicos de las Funciones de Ventana
A continuación, se presenta la sintaxis básica de una función de ventana:

```sql
SELECT {columns},
{window_func} OVER (PARTITION BY {partition_key} ORDER BY {order_key})
FROM table1;
```

Aquí, `{columns}` representa las columnas que deseas usar de las tablas para la consulta, `{window_func}` es la función de ventana que deseas aplicar, y `table1` se refiere a la tabla o tablas unidas de las que extraerás los datos. La palabra clave `OVER` señala el inicio de la definición de la ventana. Esta definición, en su forma más básica, consta de dos partes: `{partition_key}` y `{order_key}`. La primera indica la columna o columnas con las que deseas dividir los datos (lo explicaremos más adelante), mientras que la segunda especifica la columna o columnas que se utilizarán para ordenar los datos.


Para ilustrar esto, consideremos un ejemplo. Podrías pensar que no conoces ninguna función de ventana, pero la realidad es que todas las funciones de agregación pueden utilizarse como funciones de ventana. Ahora, utiliza `COUNT(*)` en la siguiente consulta:


In [None]:
%%sql
-- Figure 5.3: Customers listed using the COUNT(*) window query
SELECT
  customer_id,
  title,
  first_name,
  last_name,
  gender,
  COUNT(*) OVER () as total_customers
FROM
  customers
ORDER BY
  customer_id
LIMIT 10;

Como se muestra en la Figura 5.3, la consulta devuelve `título`, `primer_nombre` y `apellido`, al igual que una consulta típica de `SELECT`. Sin embargo, ahora hay una nueva columna llamada `total_clientes`. Esta columna contiene el recuento de usuarios que se generarían mediante la siguiente consulta:



In [None]:
%%sql
SELECT
  COUNT(*)
FROM
  customers;

La consulta anterior devuelve 50,000. El `COUNT(*)` en la consulta retorna el total de filas, tal como lo haría cualquier función de agregación estándar.

Ahora, respecto a los otros parámetros de la consulta, ¿qué sucede si añades la cláusula `OVER` para convertir este `COUNT` en una función de ventana? Mantienes la función como `COUNT`, pero defines la ventana usando `PARTITION BY`, como en la consulta siguiente:



In [None]:
%%sql
-- Figure 5.4: Customers listed using COUNT(*) partitioned by the gender window query
SELECT
  customer_id,
  title,
  first_name,
  last_name,
  gender,
  COUNT(*) OVER (PARTITION BY gender) as total_customers
FROM
  customers
ORDER BY
  customer_id
LIMIT 10;

Aquí, puedes ver que `total_clientes` ahora ha cambiado los conteos a uno de dos valores: 24,956 o 25,044. Al usar la cláusula `PARTITION BY` sobre la columna de género, SQL divide el conjunto de datos en múltiples particiones basadas en los valores únicos de esta columna. Dentro de cada partición, SQL calcula el conteo total. Por ejemplo, hay 24,956 hombres, por lo que la función de ventana `COUNT` para la partición de hombres devuelve 24,956, lo cual puedes confirmar con la siguiente consulta:



In [None]:
%%sql
SELECT
  gender,
  COUNT(*)
FROM
  customers
GROUP BY
1;

Ahora ves cómo se define y se utiliza la partición con la cláusula `PARTITION BY`. Para las mujeres, el conteo es igual al número total de mujeres, y para los hombres, el conteo es igual al número total de hombres.

¿Qué sucede ahora si utilizas `ORDER BY` en lugar de `PARTITION BY` en la cláusula `OVER`, como se muestra a continuación?


In [None]:
%%sql
-- Figure 5.5: Customers listed using COUNT(*) ordered by the customer_id window query
SELECT
  customer_id, title,
  first_name, last_name, gender,
  COUNT(*) OVER (ORDER BY customer_id) as total_customers
FROM
  customers
ORDER BY
  customer_id
LIMIT 10;

Notarás algo similar a un conteo acumulado para el total de clientes. Aquí es donde proviene la definición de "ventana" en las funciones de ventana. Cuando usas esta función de ventana sin especificar un `PARTITION BY`, se utiliza el conjunto de datos completo para el cálculo. Dentro de este conjunto de datos:

- Cuando no se especifica `ORDER BY`, se asume que solo hay una ventana que contiene todo el conjunto de datos.
- Sin embargo, al especificar `ORDER BY`, las filas en el conjunto de datos se ordenan según ese criterio.

Para cada valor único en el orden, SQL forma un grupo de valores, que contiene todas las filas con dicho valor. Luego, la consulta crea una ventana para cada grupo de valores.

- **La ventana contendrá todas las filas en este grupo de valores y todas las filas que están ordenadas antes de este grupo de valores**.

A continuación se muestra un ejemplo:


<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/8daed639-c93e-4a0c-a7d4-27c16ee9c892.png?raw=true' width="600" />
<figcaption>
Figure 5.6: Windows for customers using COUNT(*) ordered by the customer_id window query</figcaption></center>
</figure>

Aquí, el conjunto de datos se ordena usando `customer_id`, que es la clave primaria. Como tal, cada fila tiene un valor único y forma su propio grupo de valores. El primer grupo de valores, sin ninguna fila antes de él, forma su propia ventana, que contiene solo la primera fila. La ventana del segundo grupo de valores incluirá tanto a sí misma como a la fila anterior, es decir, la primera y segunda fila. Luego, la ventana del tercer grupo de valores contendrá a sí misma y a las dos filas anteriores, y así sucesivamente.

Cada grupo de valores tiene su propia ventana. Una vez que las ventanas están definidas, se aplica la función de ventana a cada grupo de valores. En este ejemplo, eso significa que `COUNT` se aplica a cada ventana. Por lo tanto, el grupo de valores 1 (la primera fila) obtiene un valor de 1, ya que su ventana contiene solo una fila. El grupo de valores 2 (la segunda fila) obtiene un valor de 2, ya que su ventana contiene dos filas. Y así sucesivamente.

Los resultados se aplican a cada fila dentro de su respectivo grupo de valores, en caso de que el grupo contenga múltiples filas. Es importante notar que la ventana se utiliza únicamente para el cálculo. Los resultados de la función de ventana se asignan a las filas del grupo de valores, no necesariamente a las filas dentro de la ventana.


¿Qué sucede cuando combinas PARTITION BY y ORDER BY? Ahora, observa la siguiente consulta:

In [None]:
%%sql
-- Figura 5.7: Clientes listados usando COUNT(*) particionados por género y
-- ordenados por la consulta de ventana customer_id.
SELECT
  customer_id,
  title,
  first_name,
  last_name,
  gender,
  COUNT(*) OVER (
    PARTITION BY gender
    ORDER BY customer_id
  ) as total_customers
FROM
  customers
ORDER BY
  customer_id
LIMIT 10;

Al igual que la consulta anterior, parece ser una especie de rango. Sin embargo, parece diferir según el género. En este SQL en particular, la consulta divide la tabla en dos subconjuntos basados en la columna `PARTITION BY`. Esto sucede porque la cláusula `PARTITION BY`, al igual que `GROUP BY`, primero divide el conjunto de datos en grupos (aquí llamados particiones) basados en el valor de la columna de género.

Luego, cada partición se utiliza como base para hacer un conteo, y cada partición tiene su propio conjunto de grupos de valores. Estos grupos de valores se ordenan dentro de la partición, se crean ventanas basadas en los grupos de valores y su orden, y la función de ventana se aplica a los valores correspondientes. Finalmente, los resultados se asignan a cada fila dentro de los grupos de valores.

Este proceso se ilustra en la Figura 5.8. El conteo que ves es el resultado de este proceso. Las tres palabras clave, `OVER()`, `PARTITION BY` y `ORDER BY`, son los elementos fundamentales que le dan poder a las funciones de ventana.

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/6a82dd5c-88c2-4fec-bd7e-228233ed5585.png?raw=true' width="600" />
<figcaption>
Figura 5.8: Ventanas para clientes listados usando COUNT(*) particionados por género y ordenados por la consulta de ventana customer_id.</figcaption></center>
</figure>

Ahora que comprendes las funciones de ventana, intenta aplicarlas en el próximo ejercicio.

## Ejercicio 5.01: Analizando tasas de llenado de datos de clientes a lo largo del tiempo.

En este ejercicio, aplicarás funciones de ventana a un conjunto de datos y analizarás la información.
- Durante los últimos seis meses, ZoomZoom ha estado experimentando con diversas promociones para lograr que sus clientes estén más involucrados en la actividad de venta.

- Una forma de medir el nivel de compromiso es evaluar la disposición de las personas para completar todos los campos en el formulario de cliente, especialmente su dirección. Para lograr este objetivo, la empresa desea un total acumulado de cuántos usuarios han rellenado sus direcciones postales con el tiempo.

Realiza los siguientes pasos para completar este ejercicio:

1. Utiliza funciones de ventana y escribe una consulta que devuelva la información de los clientes y cuántas personas han completado su dirección de calle. Además, ordena la lista por fecha.

In [None]:
%%sql
SELECT customer_id, street_address, date_added::DATE FROM customers
WHERE customer_id IN (2625, 30555, 48307, 13390, 12484) LIMIT 4;

In [None]:
%%sql
-- La ventana es por día (10/11)
-- Figura 5.9: Filtro de dirección de calle ordenado por la consulta de ventana date_added
SELECT
  customer_id,
  street_address,
  date_added::DATE,

  -- not_null_street_address
  COUNT(
    CASE
      WHEN street_address IS NOT NULL THEN customer_id
      ELSE NULL -- LO HACEMOS NULO PARA QUE NO LO CUENTE
    END
  ) OVER (ORDER BY date_added::DATE) AS not_null_street_address,

  -- total_street_address
  COUNT(*) OVER (ORDER BY date_added::DATE) as total_street_address
FROM
  customers
 ORDER BY
 date_added LIMIT 10;


3. Escribe una consulta para ver cómo cambian con el tiempo el número de personas que completan el campo de la dirección de calle.
4. En el paso 1, ya obtuviste todas las direcciones de los clientes ordenadas por la fecha de registro. En el query 5.10, las dos columnas que siguen a la columna de fecha de registro son el número de direcciones no NULL y el número de todas las direcciones de los clientes para cada día acumulativo, es decir, una suma desde el inicio de las ventas hasta el día actual.
Como aprendiste en el Capítulo 4, "Funciones de Agregación para Análisis de Datos", al dividir el número de direcciones no NULL entre el número de todas las direcciones de los clientes, puedes obtener el porcentaje de clientes con direcciones de calle no NULL y derivar el porcentaje de clientes con direcciones de calle NULL. Seguir este número proporcionará una visión de cómo los clientes interactúan con tu fuerza de ventas a lo largo del tiempo. Además, dado que ambos números de direcciones se calculan para cada día acumulativo, el porcentaje también es para cada día acumulativo. Este es un ejemplo de diferentes funciones de ventana compartiendo la misma ventana en la misma consulta.

  También puedes reescribir la siguiente consulta utilizando una cláusula WINDOW para simplificarla, lo cual se introducirá en la próxima sección.

In [None]:
%%sql
WITH
  -- FUNCION WINDOWS
  daily_rolling_count as (
    SELECT
      customer_id,
      street_address,
      date_added::DATE,
      COUNT(
        CASE
          WHEN street_address IS NOT NULL THEN customer_id
          ELSE NULL
        END
      ) OVER (ORDER BY date_added::DATE)
        as non_null_street_address,
      COUNT(*) OVER (ORDER BY date_added::DATE)
        as total_street_address

    FROM
      customers
  )

SELECT DISTINCT
  date_added,
  non_null_street_address,
  total_street_address,
  TO_CHAR(100 * (1 - 1.0 * non_null_street_address / total_street_address), 'FM999.00%') AS null_address_percentage
FROM
  daily_rolling_count
ORDER BY
  date_added
LIMIT 10;

Este resultado te proporcionará la lista del porcentaje acumulativo de direcciones de calle NULL para cada día. Luego, puedes proporcionar el conjunto completo de datos a software de análisis de datos y visualización, como Excel, para estudiar la tendencia general de los datos, descubrir patrones de cambio y hacer sugerencias sobre cómo aumentar la participación de los clientes para la dirección de la empresa.

En este ejercicio, has aprendido cómo usar funciones de ventana para analizar datos. En la siguiente sección, comprenderás cómo utilizar la palabra clave WINDOW en tus consultas.

## La Palabra Clave WINDOW
Ahora que comprendes los fundamentos de las funciones de ventana, es el momento de introducir una sintaxis que simplificará su uso. En muchos casos, tu análisis puede requerir ejecutar múltiples funciones sobre la misma ventana para compararlas directamente. Es probable que las apliques en la misma consulta. Por ejemplo, si estás realizando un análisis por género, podrías querer calcular tanto un total acumulado de clientes como un total acumulado de clientes con un título, utilizando la misma partición basada en el género. Esto te llevaría a escribir una consulta como la siguiente:

In [None]:
%sql SELECT title FROM customers WHERE customer_id = 2;

In [None]:
%%sql
-- Figura 5.11: Total acumulado de clientes en general con el título por consulta de ventana de género
SELECT
  customer_id, title, first_name, last_name, gender,

  COUNT(*) OVER (
    PARTITION BY gender ORDER BY customer_id -- ** OVER 1 **
  ) as total_customers, --> CUENTA EL TOTAL DE CLIENTES POR GENERO

  SUM(CASE WHEN title IS NOT NULL THEN 1 ELSE 0 END) OVER ( --> COMVIERTE EN BINARIO EL TITLE PARA CONTAR
   PARTITION BY gender ORDER BY customer_id  -- ** OVER 2 **
  ) as total_customers_title

FROM customers
ORDER BY customer_id
LIMIT 12;

Aunque la consulta te proporciona el resultado, puede ser tedioso de escribir, especialmente la cláusula OVER, ya que es la misma para las dos funciones. Afortunadamente, puedes simplificar esto utilizando la cláusula WINDOW para definir una ventana genérica para varias funciones en la misma consulta. La cláusula WINDOW facilita la asignación de un alias a una ventana.
Puedes simplificar la consulta anterior escribiéndola de la siguiente manera:

In [None]:
%%sql
SELECT
  customer_id, title, first_name, last_name, gender,
  COUNT(*) OVER w as total_customers,
  SUM (
    CASE
      WHEN title IS NOT NULL THEN 1
    ELSE 0 END
      ) OVER w as total_customers_title
FROM
  customers

-- EXTRAEMOS EL OVER Y LO METEMOS EN LA VENTANA W
WINDOW w AS (
  PARTITION BY gender ORDER BY customer_id
)

ORDER BY customer_id
LIMIT 10;

Esta consulta debería proporcionarte el mismo resultado que puedes ver en la captura de pantalla anterior. Sin embargo, no tuviste que escribir una larga consulta PARTITION BY y ORDER BY para cada función de ventana. En su lugar, simplemente creaste un alias con la ventana definida como "w".

# Estadísticas con Funciones de Ventana

Una vez que has entendido el funcionamiento de las funciones de ventana, puedes comenzar a utilizarlas para calcular estadísticas útiles, como rangos, percentiles y acumulados. La siguiente tabla resume una variedad de funciones estadísticas que pueden ser de gran utilidad.

Cabe destacar nuevamente que todas las funciones de agregación (como `AVG`, `SUM`, `COUNT`, entre otras) también se pueden emplear como funciones de ventana.


<figure>
<center>

| Name         | Descripción                                                            |
|--------------|------------------------------------------------------------------------|
| ROW_NUMBER   | Numera la fila actual dentro de su partición empezando desde 1.        |
| DENSE_RANK   | Ordena la fila actual dentro de su partición sin espacios.             |
| RANK         | Ordena la fila actual dentro de su partición con espacios.             |
| LAG          | Devuelve un valor evaluado en la fila que está a una distancia específica antes de la fila actual dentro de la partición. |
| LEAD         | Devuelve un valor evaluado en la fila que está a una distancia específica después de la fila actual dentro de la partición. |
| NTILE        | Divide las filas en una partición tan igualmente como sea posible y asigna a cada fila un entero comenzando desde 1 hasta el valor del argumento. |

<figcaption>
Figura 5.12: Funciones estadísticas de ventana.</figcaption></center>
</figure>



Normalmente, una llamada a cualquiera de estas funciones dentro de una declaración SQL irá seguida de la palabra clave OVER. Luego, esta palabra clave será seguida por más palabras clave como PARTITION BY y ORDER BY, siendo cualquiera de ellas opcional dependiendo de la función que estés utilizando.
Por ejemplo, la función ROW_NUMBER() se verá de la siguiente manera:


```sql
ROW_NUMBER () OVER (
PARTITION BY column 1, column 2
ORDER BY column_ 3, column_4
)

```

## Ejercicio 5.02: Clasificación de la Contratación

ZoomZoom planea lanzar una campaña de marketing dirigida a sus clientes más antiguos en diferentes estados.

- Te han solicitado que escribas una consulta para clasificar a los clientes en función de su fecha de incorporación (`date_added`) en cada estado.

1. Clasifica a los clientes, asignando el valor 1 al cliente con la fecha de incorporación más antigua, el valor 2 al siguiente, y así sucesivamente, utilizando la función `RANK()`:


In [17]:
%%sql
SELECT
  customer_id,
  first_name,
  last_name,
  state,
  date_added::DATE,
  ROW_NUMBER() OVER (
  -- NTILE(4) OVER ( -- NTILE en SQL es una función de ventana que distribuye
  -- LAG(customer_id, 1)  OVER (
  -- ROW_NUMBER() OVER (
    PARTITION BY state ORDER BY date_added
  ) AS cust_rank
FROM
  customers
ORDER BY
  state, cust_rank
LIMIT 190;

 * postgresql://postgres:***@localhost:5432/sqlda
190 rows affected.


customer_id,first_name,last_name,state,date_added,cust_rank
10732,Dael,Persent,AK,2012-11-12,1
35117,Jourdain,Burnyeat,AK,2012-11-15,2
6500,Eugenia,Iacobacci,AK,2012-11-22,3
12603,Carce,Hubber,AK,2012-11-23,4
33836,Martie,Drinnan,AK,2012-12-23,5
18621,Pammi,Manby,AK,2013-01-05,6
45170,Dunstan,Gooddie,AK,2013-01-19,7
35168,Tracey,Ramstead,AK,2013-01-20,8
42141,Carlin,Hammant,AK,2013-02-24,9
14407,Cleopatra,Ferneyhough,AK,2013-03-11,10


Aquí puedes ver a cada cliente con su información y rango en la columna "cust_rank" basado en su fecha de incorporación para cada estado.

En este ejercicio, utilizaste la función RANK() para clasificar los datos en un conjunto de datos en un orden específico. En la próxima sección, aprenderás cómo utilizar el Window Frame

# Window Frame

Como se mencionó en las secciones anteriores donde se discuten los fundamentos de las funciones de ventana, por defecto, se establece una ventana para cada grupo de valores que abarca todas las filas desde la primera hasta la fila actual en la partición, como se muestra en la Figura 5.6. Sin embargo, esto es lo predeterminado y se puede ajustar utilizando la cláusula de intervalo de ventana. Una consulta de función de ventana que utiliza la cláusula de intervalo de ventana se vería de la siguiente manera:


```sql
SELECT
  {columns},
  {window_func} OVER (
    PARTITION BY {partition_key}
    ORDER BY {order_key}
    {rangeorrows} BETWEEN {frame_start} AND {frame_end}
) FROM
{table1};
```



Aquí, {columnas} son las columnas que deseas recuperar de las tablas para la consulta, {función_de_ventana} es la función de ventana que deseas utilizar, {clave_de_partición} es la columna o columnas en las que deseas particionar, {clave_de_orden} es la columna o columnas por las que deseas ordenar, {rango_o_filas} es ya sea la palabra clave RANGE o la palabra clave ROWS, {inicio_del_marco} es una palabra clave que indica dónde comenzar el marco de ventana, {fin_del_marco} es una palabra clave que indica dónde terminar el marco de ventana y {tabla1} es la tabla o tablas unidas de las que deseas obtener datos.

Es importante considerar los posibles valores de {frame_start} y {frame_end}. Estos pueden ser:
- **UNBOUNDED PRECEDING**: Para {frame_start}, hace referencia al primer registro de la partición.
- **{offset} PRECEDING**: Indica {offset} filas o rangos antes de la fila actual.
- **CURRENT ROW**: Corresponde a la fila actual.
- **{offset} FOLLOWING**: Señala {offset} filas o rangos después de la fila actual.
- **UNBOUNDED FOLLOWING**: Para {frame_end}, se refiere al último registro de la partición.

Al ajustar la ventana, podemos derivar estadísticas valiosas como el **promedio móvil**. Este se refiere al promedio de una métrica en un intervalo de tiempo específico. Si, por ejemplo, quieres obtener el promedio móvil de ventas de siete días para ZoomZoom, comienza sumando las ventas diarias usando SUM y agrupándolas por `sales_transaction_date`. Esto generará una lista de ventas por día. Al ordenar la lista por fecha, tendrás una ventana móvil de siete días tomando la fila actual y las seis anteriores. Calculando el AVG de estas siete entradas, obtendrás el promedio móvil deseado para ese día.

La consulta para realizar esta operación es la siguiente:

In [None]:
%%sql
WITH
  daily_sales as (
    SELECT
      sales_transaction_date::DATE,
      SUM(sales_amount) as total_sales
    FROM sales
    GROUP BY 1
  ),
  moving_average_calculation_7 AS (
    SELECT
      sales_transaction_date,
      total_sales,
      AVG(total_sales) OVER (
        ORDER BY sales_transaction_date
        ROWS BETWEEN 6 PRECEDING and CURRENT ROW -- USAMOS UN WINDOWS FRAME
      ) AS sales_moving_average_7,
      ROW_NUMBER() OVER (
        ORDER BY sales_transaction_date
      ) as row_number
    FROM
      daily_sales
    ORDER BY 1
  )
SELECT
  sales_transaction_date,
  CASE
    WHEN row_number>=7 THEN sales_moving_average_7
    ELSE NULL
  END AS sales_moving_average_7
FROM
  moving_average_calculation_7
  LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


sales_transaction_date,sales_moving_average_7
2012-11-04,
2012-11-06,
2012-11-09,
2012-11-11,
2012-11-12,
2012-11-13,
2012-11-15,394.2758571428571
2012-11-17,399.99000000000007
2012-11-18,399.99000000000007
2012-11-19,399.99000000000007


Al trabajar con una ventana móvil de N días, surge la duda sobre cómo tratar los primeros N-1 días en la columna ordenada. En la consulta que vimos, las primeras seis entradas se marcan como nulas mediante una declaración CASE. Esto se debe a que el promedio móvil de siete días requiere datos de siete días completos. Sin esa declaración, la ventana calcularía promedios para los primeros días basándose en los datos disponibles. Así, el promedio móvil para el segundo día sería la media entre ese día y el anterior, y para el sexto día, el promedio de esos seis días. Ambos enfoques, ya sea usando nulos o promediando los días disponibles, pueden ser válidos según el contexto. Será tarea del analista decidir cuál es más adecuado según la situación específica.

# Ejercicio 5.03: Motivación para el Almuerzo en Equipo
En esta tarea, emplearás un marco de ventana para extraer información valiosa de tus datos.

Con el objetivo de impulsar las ventas, el equipo ha optado por ofrecer un almuerzo a todos los vendedores cada vez que superen el récord de ganancias diarias de los últimos 30 días. Necesitas una consulta que muestre las ventas totales en dólares de un día específico y la meta de ventas que deben superar ese día, a partir del 1 de enero de 2019.

1. Calcula las ventas totales para un día dado

In [None]:
%%sql
WITH
  daily_sales as (
    SELECT
      sales_transaction_date::DATE,
      SUM(sales_amount) as total_sales
    FROM
      sales
    GROUP BY
      1
  ),
  sales_stats_30 AS (
    SELECT
      sales_transaction_date,
      total_sales,
      MAX(total_sales) OVER (
        ORDER BY sales_transaction_date
        ROWS BETWEEN 30 PRECEDING and 1 PRECEDING
      ) AS max_sales_30
    FROM
      daily_sales
    ORDER BY
      1
  )
SELECT
  sales_transaction_date,
  to_char(total_sales, 'FM999G999G999D99') total_sales,
  to_char(max_sales_30, 'FM999G999G999D99') max_sales_30
FROM
  sales_stats_30
WHERE
  sales_transaction_date>='2019-01-01'
LIMIT 40;

 * postgresql://postgres:***@localhost:5432/sqlda
40 rows affected.


sales_transaction_date,total_sales,max_sales_30
2019-01-01,6249.87,546899.89
2019-01-02,119599.91,546899.89
2019-01-03,71799.87,546899.89
2019-01-04,130649.88,546899.89
2019-01-05,6649.87,546899.89
2019-01-06,73049.85,546899.89
2019-01-07,122049.86,546899.89
2019-01-08,197749.84,546899.89
2019-01-09,5399.89,546899.89
2019-01-10,252899.86,546899.89


Observa el uso de un marco de ventana que va desde 30 PRECEDING hasta 1 PRECEDING. Al utilizar 1 PRECEDING, estás excluyendo la fila actual del cálculo. El resultado es un máximo móvil de 30 días en los 30 días anteriores al día actual.

2. Ahora calcularás las ventas totales de cada día y las compararás con el objetivo de ese día, que es el promedio móvil de 30 días que calculaste en el paso anterior. Las ventas totales de cada día ya se han calculado en el SQL anterior en la primera expresión de tabla común y se hacen referencia más adelante en la consulta principal. Por lo tanto, puedes escribir el siguiente SQL:

In [None]:
%%sql
WITH
  daily_sales as (
    SELECT
      sales_transaction_date::DATE,
      SUM(sales_amount) as total_sales
    FROM sales
    GROUP BY 1
  ),
  sales_stats_30 AS (
    SELECT
      sales_transaction_date,
      total_sales,
      MAX(total_sales) OVER (
        ORDER BY sales_transaction_date
        ROWS BETWEEN 30 PRECEDING and 1 PRECEDING
      ) AS max_sales_30
    FROM
      daily_sales
    ORDER BY 1
  )
SELECT
  sales_transaction_date,
  to_char(total_sales, 'FM999G999G999D99') total_sales,
  to_char(max_sales_30, 'FM999G999G999D99') max_sales_30
FROM
  sales_stats_30
WHERE
  total_sales > max_sales_30 -- DIFERENCia
AND
  sales_transaction_date>='2019-01-01';



 * postgresql://postgres:***@localhost:5432/sqlda
29 rows affected.


sales_transaction_date,total_sales,max_sales_30
2019-02-01,405149.9,357099.82
2019-02-03,514299.76,405149.9
2019-03-10,574449.84,484599.83
2019-07-12,356129.79,304959.83
2019-08-31,338629.91,245659.88
2019-10-22,268354.9,237889.85
2019-10-27,470234.88,268354.9
2019-12-27,393599.77,344879.81
2019-12-28,657459.82,393599.77
2020-02-08,740254.8,387994.82


Como puedes ver, los marcos de ventana facilitan el cálculo de estadísticas móviles y, incluso, pueden resultar divertidos. Ahora, concluirás este capítulo con una actividad que pondrá a prueba tu capacidad para utilizar funciones de ventana.

# Actividad 5.01: Análisis de Ventas Utilizando Marcos de Ventana y Funciones de Ventana
En esta tarea, aplicarás funciones de windows y frames de variadas formas para analizar los datos de ventas de ZoomZoom.

Al inicio del año, es esencial definir la estrategia de ventas para el próximo periodo.
El equipo quiere comprender el desempeño global de la empresa y el rendimiento específico de cada día del año. Por ello, el Jefe de Ventas te ha solicitado llevar a cabo este análisis.

1. Calcula el monto total de ventas por día para todos los días del año 2021 (es decir, antes del 1 de enero de 2022).


In [19]:
%%sql
SELECT
  sales_transaction_date::date,
  -- SUM(sales_amount) sales_amount
  TO_CHAR(SUM(sales_amount), 'FM999,999,999.00') AS formatted_sales_amount
FROM sales
WHERE
  sales_transaction_date::date BETWEEN '20210101' AND '20211231'


GROUP BY
  sales_transaction_date::date LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


sales_transaction_date,formatted_sales_amount
2021-01-01,320739.7
2021-01-02,248239.74
2021-01-03,213419.73
2021-01-04,378919.72
2021-01-05,331084.69
2021-01-06,90089.65
2021-01-07,426449.73
2021-01-08,183449.79
2021-01-09,513254.79
2021-01-10,307994.73




2. Calcula el promedio móvil de 30 días para el monto total de ventas diarias.


In [None]:
%%sql
WITH
  daily_sales as (
    SELECT
      sales_transaction_date::date,
      SUM(sales_amount) sales_amount
    FROM
      sales
    WHERE
      sales_transaction_date::date BETWEEN '20210101' AND '20211231'
    GROUP BY
      sales_transaction_date::date
  )
SELECT
  sales_transaction_date,
  sales_amount,
  AVG(sales_amount) OVER w AS moving_avg
FROM
  daily_sales
WINDOW w AS (
  ORDER BY sales_transaction_date
  ROWS BETWEEN 30 PRECEDING AND 1 PRECEDING
)
ORDER BY 1 LIMIT 10;

 * postgresql://postgres:***@localhost:5432/sqlda
10 rows affected.


sales_transaction_date,sales_amount,moving_avg
2021-01-01,320739.70100000006,
2021-01-02,248239.736,320739.70100000006
2021-01-03,213419.72799999997,284489.7185
2021-01-04,378919.7169999999,260799.72166666668
2021-01-05,331084.6939999999,290329.7205
2021-01-06,90089.649,298480.7152
2021-01-07,426449.7289999998,263748.8708333333
2021-01-08,183449.789,286991.85057142854
2021-01-09,513254.7929999999,274049.092875
2021-01-10,307994.72699999984,300627.504


3. Calcula en qué décil estaría cada fecha en comparación con otros días en función del monto total de ventas diarias en el promedio móvil de 30 días.

<figure>
<center><img src='https://github.com/limspiga/data-modeling/blob/main/images/8a310b4d-6704-43b5-aeae-9b5a5d721847.png?raw=true' width="600" />
<figcaption>
Figura 5.12: Funciones de ventana estadísticas.</figcaption></center>
</figure>


Figura 5.17: Déciles para el monto de ventas del concesionario
En esta actividad, utilizaste funciones de ventana para obtener la tendencia de ventas de todo tu año y utilizaste esta tendencia de ventas para identificar los días en los que ZoomZoom está funcionando bien o no tan bien.

In [None]:
%%sql
WITH
  daily_sales as (
    SELECT
      sales_transaction_date::date,
      SUM(sales_amount) sales_amount
    FROM
      sales
    WHERE
      sales_transaction_date::date BETWEEN '20210101' AND '20211231'
    GROUP BY
      sales_transaction_date::date
  ),
  moving_avg AS (
    SELECT
      sales_transaction_date,
      sales_amount,
      AVG(sales_amount) OVER w AS moving_avg
    FROM
      daily_sales
    WINDOW w AS (
      ORDER BY sales_transaction_date
      ROWS BETWEEN 30 PRECEDING AND 1 PRECEDING
    )
  )
SELECT
  sales_transaction_date,
  sales_amount,
  moving_avg,
  -- PostgreSQL no tiene una función DECILE, pero cuenta con una función
  -- más general llamada NTILE() que puedes utilizar. NTILE(10)
  -- es el equivalente de DECILE().
  NTILE(10) OVER (ORDER BY moving_avg DESC) AS decile
FROM
  moving_avg m
WHERE
  moving_avg IS NOT NULL
ORDER BY
  decile;

 * postgresql://postgres:***@localhost:5432/sqlda
364 rows affected.


sales_transaction_date,sales_amount,moving_avg,decile
2021-01-02,248239.736,320739.70100000006,1
2021-01-12,164189.76699999996,313294.72081818176,1
2021-01-11,432599.666,301364.2263,1
2021-01-13,12829.790999999996,300869.308,1
2021-01-10,307994.72699999984,300627.504,1
2021-01-06,90089.649,298480.7152,1
2021-02-06,50389.73499999999,293352.5650333333,1
2021-01-05,331084.6939999999,290329.7205,1
2021-02-02,161009.56200000003,288809.9029333333,1
2021-02-03,275539.70199999993,287062.8974,1


## Resumen

En este capítulo, aprendiste sobre las funciones de ventana, que generan resultados para una fila en función de su posición dentro del conjunto de datos o subgrupos dentro del conjunto de datos. Esto difiere de las funciones simples que aprendiste en el Capítulo 3, SQL para la Preparación de Datos, que generan un resultado para una fila independientemente de las características del conjunto de datos, y difiere de las funciones de agregación que aprendiste en el Capítulo 4, Funciones de Agregación para el Análisis de Datos, que generan un resultado para todas las filas en un conjunto de datos o subgrupos en el conjunto de datos.
Aprendiste algunas de las funciones de ventana más comunes, incluyendo COUNT, SUM y RANK. También aprendiste cómo construir una ventana básica utilizando la cláusula OVER. La salida de la función de ventana depende de la posición actual de la fila en el conjunto de datos o subgrupos dentro del conjunto de datos, lo que se llama partición, así como de la colección de filas requeridas por el cálculo, que se llama ventana. Por lo tanto, hay varias palabras clave que pueden afectar cómo se realiza el cálculo, como PARTITION BY, ORDER BY y las palabras clave de marco de ventana. La cláusula PARTITION BY determina la partición, la cláusula ORDER BY determina la posición de la fila dentro de la partición y las palabras clave del marco de ventana determinan el rango y el tamaño de la ventana. Luego aprendiste cómo utilizar las funciones de ventana para obtener información analítica. Por ejemplo, al definir un marco de ventana sobre un resumen diario, como las ventas diarias, puedes crear estadísticas móviles y obtener información útil sobre la tendencia temporal de las ventas.
En este punto, has aprendido todas las declaraciones fundamentales de SQL. Has aprendido cómo manejar el ciclo completo de CRUD utilizando SQL, cómo combinar tablas utilizando JOIN y UNION, y has aprendido cómo utilizar diferentes tipos de funciones para obtener los resultados deseados. En el Capítulo 6, Importación y Exportación de Datos, verás cómo importar y exportar datos para utilizar SQL con otros programas. Utilizarás el comando COPY para cargar datos en tu base de datos de manera masiva. También utilizarás Excel para procesar datos de tu base de datos y luego simplificarás tu código utilizando Python.