# Clase 5: Windows Functions

<a id="section_toc"></a> 
## Tabla de Contenidos

[1. Introducción](#introduccion)

[2. Funciones de Recuperación (Fetching)](#fetching)

[3. Funciones de Clasificación (Ranking)](#ranking)

[4. Paginación (paging)](#paging)

[5. Funciones de Agregación con Window Functions](#agregacion)

[6. Frames](#frames)

In [20]:
# Importa la extensión de JupySQL
%load_ext sql

# Conéctate a PostgreSQL usando psycopg2
%sql postgresql://postgres:1234@localhost:5432/gtfs

In [1]:
import os

# Cambiar el directorio de trabajo a dos niveles arriba
os.chdir(os.path.join(os.getcwd(), "../.."))

# Verificar el nuevo directorio de trabajo
print("El nuevo directorio de trabajo es:", os.getcwd())

El nuevo directorio de trabajo es: /home/juan/UCCuyo/BaseDeDatos2024


In [2]:
import duckdb
import pandas as pd

%load_ext sql
conn = duckdb.connect('gtfs.duckdb')
%sql conn --alias gtfs

In [3]:
%%sql

SELECT 
  trip_id,
  stop_sequence,
  stop_id, 
  LAG(stop_id) OVER(PARTITION BY trip_id ORDER BY stop_sequence) AS prev_stop

FROM static.stop_times

WHERE trip_id = '1-1'

;

trip_id,stop_sequence,stop_id,prev_stop
1-1,1,67602759,
1-1,2,67602394,67602759.0
1-1,3,67602332,67602394.0
1-1,4,67602966,67602332.0
1-1,5,67601684,67602966.0
1-1,6,67602901,67601684.0
1-1,7,67602937,67602901.0
1-1,8,67602075,67602937.0
1-1,9,67602679,67602075.0
1-1,10,67602376,67602679.0


<a id="introduccion"></a> 

# Introducción: Window Functions en SQL

## Descripción General

Las **window functions** en SQL se utilizan para realizar cálculos o transformaciones sobre un conjunto de filas que están relacionadas de alguna manera con la fila actual en un resultado de consulta. A diferencia de las funciones de agregación tradicionales, que combinan múltiples filas en una sola, las window functions calculan resultados sobre un conjunto de filas pero **no eliminan filas del resultado**. Esto significa que cada fila en el conjunto original permanece en el resultado mientras se aplica la operación deseada.

Estas funciones son útiles para resolver problemas donde se requiere un análisis más profundo de las filas relacionadas, como realizar comparaciones, totales acumulativos, clasificaciones, o análisis de tendencias.

## Componentes Clave

Las **window functions** tienen tres componentes clave que determinan cómo operan:

1. **Función de ventana**: Puede ser cualquier función de agregación (`SUM`, `AVG`), de análisis (`LAG`, `LEAD`), o de clasificación (`RANK`, `ROW_NUMBER`).

2. **Cláusula `OVER`**: Define cómo se agrupan y ordenan las filas antes de aplicar la función de ventana.

3. **Cláusulas opcionales `PARTITION BY` y `ORDER BY` dentro de `OVER`**:

   - **`PARTITION BY`** divide el conjunto de filas en particiones antes de aplicar la función.

   - **`ORDER BY`** especifica el orden de las filas dentro de cada partición.

## Uso Común de las Window Functions: Ejemplos y Aplicaciones

- **1. Obtener Valores de Filas Anteriores o Posteriores**
  
  - Las funciones `LAG()` y `LEAD()` permiten acceder al valor de una fila anterior o posterior dentro de un conjunto de datos, lo que facilita la comparación a lo largo de una serie temporal.
  
  - **Ejemplo:** En una tabla de ventas mensuales, `LAG()` se puede usar para comparar las ventas de un mes con el mes anterior. Esto puede ayudar a entender si las ventas están aumentando o disminuyendo en relación con el mes anterior.
  
- **2. Determinar el "Campeón Reinante"**
  
  - `LAG()` también se puede usar para determinar si el valor de una fila actual es igual al valor de una fila anterior, lo que permite identificar un estado constante o reinante a lo largo del tiempo.
  
  - **Ejemplo:** En una tabla de puntajes de un torneo, `LAG()` puede usarse para verificar si el campeón actual sigue siendo el mismo que en el evento anterior. Si es así, se clasifica como "campeón reinante".
  
- **3. Calcular Crecimiento en el Tiempo**
  
  - Las window functions son ideales para calcular el cambio en una métrica a lo largo del tiempo, ya que permiten acceder a los valores anteriores y actuales y encontrar la diferencia entre ellos.
  
  - **Ejemplo:** En una tabla de precios de acciones, `LAG()` se puede usar para calcular el cambio de precio entre días consecutivos, ayudando a evaluar el crecimiento o la caída en el precio de una acción.
  
- **4. Asignar Rangos a Filas**
  
  - Las funciones `ROW_NUMBER()`, `RANK()` y `DENSE_RANK()` permiten asignar rangos a filas basadas en el orden de las columnas especificadas.
  
    - **`ROW_NUMBER()`** asigna un número secuencial único a cada fila, útil para numerar filas sin considerar empates.
  
    - **`RANK()`** asigna el mismo rango a filas con valores idénticos, pero deja huecos en la secuencia.
  
    - **`DENSE_RANK()`** también asigna el mismo rango a filas con valores idénticos, pero no deja huecos en la secuencia.
  
  - **Ejemplo:** En una tabla de ventas de productos, `RANK()` se puede usar para clasificar los productos por ventas totales, asignando el mismo rango a productos con ventas iguales.
  
- **5. Totales Acumulativos y Promedios Móviles**
  
  - Las funciones de agregación como `SUM()` y `AVG()` se pueden utilizar con window functions para calcular totales acumulativos o promedios móviles.
  
  - **Ejemplo:** En una tabla de ventas diarias, `SUM()` puede calcular el total acumulativo de ventas hasta el día actual, proporcionando una visión progresiva del total de ventas.
  


# 1). Uso de `ORDER BY` en Window Functions

## Descripción General

En una **window function**, la cláusula `ORDER BY` dentro de la cláusula `OVER` define el orden en el que se procesan las filas relacionadas con la fila actual. Esta ordenación afecta directamente al resultado de la función de ventana, ya que determina cómo se ordenan las filas antes de aplicar la función. Esto es especialmente relevante cuando se calculan números de fila, rangos, valores acumulados, o cuando se accede a valores de filas anteriores o posteriores.

## Funcionalidad de `ORDER BY` en Window Functions

La cláusula `ORDER BY` dentro de `OVER` establece el orden de las filas dentro de la ventana antes de aplicar la función:

- **Afecta el cálculo**: La función de ventana opera sobre las filas ya ordenadas, por lo que cambiar el orden de las filas puede alterar el resultado.
- **Orden local**: El `ORDER BY` dentro de `OVER` no afecta al orden global de los resultados, sino solo al orden de las filas sobre las que opera la función de ventana específica.

## Ejemplo: Ordenar por Año en Orden Descendente

Supongamos que tenemos una tabla llamada `sales` que contiene datos de ventas anuales, y queremos asignar números de fila a las ventas en orden descendente por año. Para lograrlo, utilizaremos la función `ROW_NUMBER()` con `ORDER BY` dentro de la cláusula `OVER`.

### Ejemplo SQL
```sql
SELECT 
  year, 
  sales_amount,
  ROW_NUMBER() OVER (ORDER BY year DESC) AS row_num
FROM sales;
```

### Explicación del Ejemplo
- **`ROW_NUMBER() OVER (ORDER BY year DESC)`**:
  - La función `ROW_NUMBER()` asigna un número de fila secuencial a cada fila en el conjunto de resultados.
  - La cláusula `ORDER BY year DESC` dentro de `OVER` ordena las filas en orden descendente por año antes de asignar el número de fila.
  - La primera fila recibe el número 1, lo que corresponde al año más reciente.

#### Resultado Esperado
Supongamos que la tabla `sales` contiene las siguientes filas:

| year | sales_amount |
|------|--------------|
| 2020 | 5000         |
| 2019 | 4500         |
| 2018 | 5200         |

El resultado de la consulta sería:

| year | sales_amount | row_num |
|------|--------------|---------|
| 2020 | 5000         | 1       |
| 2019 | 4500         | 2       |
| 2018 | 5200         | 3       |

La columna `row_num` asigna números de fila en función del orden descendente de los años, con el año más reciente en la primera posición.

## Diferencias entre `ORDER BY` en Window Functions y Consultas Globales

1. **`ORDER BY` dentro de `OVER`**:
   - Ordena solo las filas dentro de la ventana definida para la función.
   - Controla cómo se ordenan las filas antes de aplicar la función de ventana.

2. **`ORDER BY` fuera de `OVER`**:
   - Ordena el conjunto de resultados final después de calcular las funciones de ventana.
   - Afecta al orden de visualización de todas las filas en la consulta final.

### Ejemplo Combinado: Ordenación dentro y fuera de la Ventana
Para ilustrar la diferencia entre `ORDER BY` dentro y fuera de `OVER`, veamos un ejemplo en una tabla de empleados llamada `employees`:

```sql
SELECT 
  employee_id, 
  hire_date,
  ROW_NUMBER() OVER (ORDER BY hire_date ASC) AS row_num
FROM employees
ORDER BY row_num DESC;
```

En este ejemplo:
- La función de ventana `ROW_NUMBER()` ordena las filas por fecha de contratación (`hire_date`) en orden ascendente antes de asignar el número de fila.
- La consulta completa ordena el resultado final en orden descendente por el número de fila (`row_num`), lo que afecta el orden de visualización en el resultado.

## Aplicaciones Comunes de `ORDER BY` en Window Functions

El uso de `ORDER BY` dentro de las **window functions** es fundamental para:

- **Asignar rangos en orden específico**: Por ejemplo, clasificar productos en orden descendente de ventas.
- **Calcular totales acumulados en un orden específico**: Por ejemplo, calcular ingresos acumulativos en orden cronológico.
- **Obtener valores de filas anteriores o posteriores con LAG/LEAD**: Por ejemplo, acceder al valor de ventas de la semana anterior en una serie temporal.

## Ejemplo Adicional: Total Acumulativo de Ventas

Supongamos que queremos calcular el total acumulativo de ventas por mes en una tabla de ventas mensuales llamada `monthly_sales`:

### Ejemplo SQL
```sql
SELECT 
  month, 
  sales_amount,
  SUM(sales_amount) OVER (ORDER BY month ASC) AS cumulative_sales
FROM monthly_sales;
```

### Explicación
- La función `SUM()` calcula el total acumulado de las ventas.
- La cláusula `ORDER BY month ASC` dentro de `OVER` asegura que el total acumulado se calcule en orden cronológico ascendente de meses.

#### Resultado Esperado

| month | sales_amount | cumulative_sales |
|-------|--------------|------------------|
| Jan   | 1000         | 1000             |
| Feb   | 1200         | 2200             |
| Mar   | 1100         | 3300             |

Aquí, el total acumulado se calcula en función del orden cronológico de los meses.

## Resumen

La cláusula `ORDER BY` dentro de las **window functions** en SQL es crucial para determinar cómo se ordenan las filas antes de aplicar funciones de ventana. Esto impacta directamente en el cálculo de números de fila, clasificaciones, valores acumulados, y acceso a filas adyacentes. Controlar el orden en la cláusula `OVER` es esencial para obtener resultados precisos en el análisis de datos.
```

# 2). Uso de `PARTITION BY` en Window Functions

## Descripción General

La cláusula `PARTITION BY` en una **window function** se utiliza para dividir el conjunto de filas en particiones basadas en los valores únicos de una o más columnas. Cada partición es tratada de forma independiente por la función de ventana, lo que permite realizar cálculos o clasificaciones dentro de cada partición en lugar de aplicarlos a todo el conjunto de resultados.

A diferencia de una cláusula `GROUP BY`, que combina filas en una sola por grupo, la cláusula `PARTITION BY` no agrupa filas en una sola; mantiene todas las filas y solo separa el cálculo en particiones lógicas.

## Funcionalidad de `PARTITION BY` en Window Functions

La cláusula `PARTITION BY` dentro de `OVER` tiene los siguientes efectos:

- **Divide filas en particiones lógicas**: Las filas se agrupan en subconjuntos lógicos basados en los valores únicos de las columnas especificadas.
- **Reinicio del cálculo para cada partición**: La función de ventana restablece el cálculo o la numeración al comenzar una nueva partición.
- **Acceso condicional a filas adyacentes**: Funciones como `LAG()` o `LEAD()` solo accederán a filas anteriores o posteriores si estas se encuentran en la misma partición.

## Ejemplo: Particionar por Departamento en una Tabla de Empleados

Supongamos que tenemos una tabla llamada `employees` con información sobre empleados, incluyendo sus identificadores, departamentos, y fechas de contratación. Queremos asignar números de fila a los empleados dentro de cada departamento, en orden ascendente de fecha de contratación.

### Ejemplo SQL
```sql
SELECT 
  employee_id, 
  department, 
  hire_date,
  ROW_NUMBER() OVER (PARTITION BY department ORDER BY hire_date ASC) AS row_num
FROM employees;
```

### Explicación del Ejemplo
- **`PARTITION BY department`**: Divide la tabla en particiones por departamento, lo que significa que cada departamento se trata de manera independiente.
- **`ROW_NUMBER()`**: Asigna un número de fila secuencial dentro de cada partición.
- **`ORDER BY hire_date ASC`**: Dentro de cada partición (departamento), las filas se ordenan por fecha de contratación en orden ascendente antes de asignar el número de fila.

#### Resultado Esperado

Supongamos que la tabla `employees` contiene las siguientes filas:

| employee_id | department | hire_date  |
|-------------|------------|------------|
| 1           | Sales      | 2020-01-10 |
| 2           | HR         | 2019-05-15 |
| 3           | Sales      | 2018-07-20 |
| 4           | HR         | 2021-03-01 |

El resultado de la consulta sería:

| employee_id | department | hire_date  | row_num |
|-------------|------------|------------|---------|
| 3           | Sales      | 2018-07-20 | 1       |
| 1           | Sales      | 2020-01-10 | 2       |
| 2           | HR         | 2019-05-15 | 1       |
| 4           | HR         | 2021-03-01 | 2       |

En este caso, la numeración se reinicia dentro de cada departamento, ya que se trata como una partición separada.

## Aplicaciones Comunes de `PARTITION BY`

### 1. Clasificación por Grupos
`PARTITION BY` se usa comúnmente con funciones como `ROW_NUMBER()`, `RANK()`, o `DENSE_RANK()` para asignar números de fila o rangos dentro de grupos.

#### Ejemplo: Clasificación de Ventas por Región
Supongamos una tabla de ventas llamada `sales` con columnas de región y monto de ventas.

```sql
SELECT 
  region, 
  sales_amount,
  RANK() OVER (PARTITION BY region ORDER BY sales_amount DESC) AS sales_rank
FROM sales;
```
En este caso, cada región se trata como una partición separada y se asignan rangos de ventas dentro de cada región en orden descendente por monto de ventas.

### 2. Cálculo de Promedios Móviles por Grupos
`PARTITION BY` se puede utilizar con funciones como `AVG()` para calcular promedios móviles dentro de grupos específicos.

#### Ejemplo: Promedio Móvil de Ventas por Categoría
En una tabla de ventas por categoría de productos llamada `category_sales`:

```sql
SELECT 
  category, 
  month, 
  sales_amount,
  AVG(sales_amount) OVER (PARTITION BY category ORDER BY month ASC ROWS 2 PRECEDING) AS moving_avg
FROM category_sales;
```
Este ejemplo calcula un promedio móvil de ventas considerando las dos filas anteriores dentro de cada categoría de productos.

### 3. Acceso Condicional a Filas Anteriores o Posteriores
La cláusula `PARTITION BY` permite que funciones como `LAG()` y `LEAD()` solo accedan a filas dentro de la misma partición, lo que resulta útil para comparaciones condicionales.

#### Ejemplo: Diferencia de Ventas por Mes dentro de Cada Región
En una tabla llamada `monthly_sales` con columnas de región, mes y monto de ventas:

```sql
SELECT 
  region, 
  month, 
  sales_amount,
  sales_amount - LAG(sales_amount) OVER (PARTITION BY region ORDER BY month ASC) AS sales_diff
FROM monthly_sales;
```
En este ejemplo, la función `LAG()` calcula la diferencia de ventas solo si la fila anterior está en la misma región.

## Resumen

La cláusula `PARTITION BY` en **window functions** es fundamental para dividir los datos en grupos lógicos y aplicar cálculos dentro de cada partición. Esto permite realizar análisis detallados y precisos, ya que la función se reinicia y opera de manera independiente en cada partición. Su uso es esencial en casos como clasificaciones, promedios móviles, y comparaciones entre filas adyacentes dentro de grupos específicos.


<a id="fetching"></a> 

# 2. Funciones de Recuperación (Fetching)

Las **funciones de recuperación** en SQL permiten acceder a los valores de filas anteriores, posteriores, primeras o últimas dentro de una ventana. Estas funciones son clave para realizar comparaciones, analizar tendencias, y entender las transiciones entre filas relacionadas.

### Tipos de Funciones de Recuperación

Las funciones de recuperación se pueden clasificar en dos tipos principales:

1. **Funciones Relativas**: Permiten acceder a filas que están a una cierta distancia de la fila actual.
   
   - **`LAG(column, n)`**: Devuelve el valor de la columna `n` filas antes de la fila actual.
   
   - **`LEAD(column, n)`**: Devuelve el valor de la columna `n` filas después de la fila actual.

2. **Funciones Absolutas**: Permiten acceder a la primera o última fila de una partición o conjunto de resultados.
   
   - **`FIRST_VALUE(column)`**: Devuelve el primer valor en la tabla o partición.
   
   - **`LAST_VALUE(column)`**: Devuelve el último valor en la tabla o partición.

### Ejemplo de Uso: LEAD y LAG

Supongamos que tenemos una tabla llamada `sales` con las columnas `year` y `sales_amount`, y queremos ver los valores de ventas del año anterior y del siguiente.

#### Ejemplo SQL
```sql
SELECT 
  year, 
  sales_amount,
  LAG(sales_amount, 1) OVER (ORDER BY year ASC) AS prev_sales,
  LEAD(sales_amount, 1) OVER (ORDER BY year ASC) AS next_sales
FROM sales;
```

#### Explicación del Ejemplo

- **`LAG(sales_amount, 1)`**: Obtiene el valor de ventas del año anterior.

- **`LEAD(sales_amount, 1)`**: Obtiene el valor de ventas del año siguiente.

- **`ORDER BY year ASC`**: Las filas se ordenan cronológicamente por año, lo que asegura que `LAG` y `LEAD` funcionen de manera secuencial.

#### Resultado Esperado

| year | sales_amount | prev_sales | next_sales |
|------|--------------|------------|------------|
| 2018 | 4500         | null       | 5000       |
| 2019 | 5000         | 4500       | 5300       |
| 2020 | 5300         | 5000       | null       |

En este caso, la columna `prev_sales` muestra las ventas del año anterior, mientras que la columna `next_sales` muestra las ventas del año siguiente.

## Uso de FIRST_VALUE y LAST_VALUE

Las funciones **`FIRST_VALUE`** y **`LAST_VALUE`** se utilizan para acceder al primer y último valor de una partición o conjunto de resultados, respectivamente. Por defecto, la ventana de estas funciones comienza en la primera fila de la tabla y se extiende hasta la fila actual.

### Ejemplo de Uso: FIRST_VALUE y LAST_VALUE

Supongamos que tenemos una tabla llamada `projects` con las columnas `project_id`, `start_date`, y `end_date`, y queremos ver la fecha de inicio del primer proyecto y la fecha de fin del último proyecto.

#### Ejemplo SQL
```sql
SELECT 
  project_id, 
  start_date, 
  end_date,
  FIRST_VALUE(start_date) OVER (ORDER BY start_date ASC) AS first_start_date,
  LAST_VALUE(end_date) OVER (
    ORDER BY end_date ASC 
    RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING
  ) AS last_end_date
FROM projects;
```

#### Explicación del Ejemplo
- **`FIRST_VALUE(start_date)`**: Obtiene la fecha de inicio del primer proyecto en la tabla.
- **`LAST_VALUE(end_date)`**: Obtiene la fecha de fin del último proyecto en la tabla. La cláusula `RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING` extiende la ventana desde la primera fila hasta la última fila del conjunto de resultados.

#### Resultado Esperado

| project_id | start_date | end_date   | first_start_date | last_end_date  |
|------------|------------|------------|------------------|----------------|
| 1          | 2020-01-10 | 2020-12-15 | 2020-01-10       | 2021-09-30     |
| 2          | 2020-05-20 | 2021-03-01 | 2020-01-10       | 2021-09-30     |
| 3          | 2021-01-15 | 2021-09-30 | 2020-01-10       | 2021-09-30     |

## Uso de PARTITION BY con Funciones de Recuperación

La cláusula **`PARTITION BY`** en las funciones de recuperación permite dividir las filas en particiones lógicas antes de aplicar la función. Esto asegura que los cálculos se reinicien dentro de cada partición, permitiendo un análisis más granular.

### Ejemplo de Uso: LEAD con PARTITION BY

Supongamos que tenemos una tabla llamada `sales` con las columnas `region`, `year`, y `sales_amount`. Queremos ver las ventas del año siguiente dentro de cada región.

#### Ejemplo SQL
```sql
SELECT 
  region, 
  year, 
  sales_amount,
  LEAD(sales_amount, 1) OVER (PARTITION BY region ORDER BY year ASC) AS next_sales
FROM sales;
```

#### Explicación del Ejemplo
- **`PARTITION BY region`**: Divide las filas por región, lo que asegura que `LEAD` solo accederá a filas dentro de la misma región.
- **`ORDER BY year ASC`**: Las filas dentro de cada partición (región) se ordenan por año antes de aplicar la función.

#### Resultado Esperado

| region | year | sales_amount | next_sales |
|--------|------|--------------|------------|
| East   | 2019 | 5000         | 5200       |
| East   | 2020 | 5200         | null       |
| West   | 2019 | 4500         | 4700       |
| West   | 2020 | 4700         | null       |

Aquí, `LEAD` muestra las ventas del año siguiente dentro de cada región, reiniciando el cálculo en cada partición.

## Resumen

Las **funciones de recuperación**, como `LAG`, `LEAD`, `FIRST_VALUE` y `LAST_VALUE`, proporcionan una manera flexible y poderosa de acceder a valores relativos y absolutos dentro de un conjunto de filas. Al combinar estas funciones con `PARTITION BY`, se pueden realizar análisis detallados y precisos por grupos lógicos, permitiendo realizar comparaciones, análisis de tendencias, y cálculos acumulativos de manera más eficiente y directa en SQL.


**Ejemplo en GTFS**

Supongamos que queremos calcular para cada Viaje, cuál es la parada anterior y posterior a cada una de las paradas. 

In [5]:
%%sql
SELECT *,
    LAG(stop_id) OVER(PARTITION BY trip_id ORDER BY stop_sequence) AS prev_stop_id,
    LEAD(stop_id) OVER(PARTITION BY trip_id ORDER BY stop_sequence) AS post_stop_id

FROM static.stop_times

WHERE trip_id IN ('1-1', '1-2', '1-3', '1-4')

trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled,prev_stop_id,post_stop_id
1-1,00:00:00,00:00:00,67602759,1,1,0,,67602394
1-1,00:00:32,00:00:32,67602394,2,0,152,67602759.0,67602332
1-1,00:02:12,00:02:12,67602332,3,0,608,67602394.0,67602966
1-1,00:03:34,00:03:34,67602966,4,0,988,67602332.0,67601684
1-1,00:04:22,00:04:22,67601684,5,0,1205,67602966.0,67602901
1-1,00:06:46,00:06:46,67602901,6,0,1863,67601684.0,67602937
1-1,00:07:24,00:07:24,67602937,7,0,2035,67602901.0,67602075
1-1,00:07:46,00:07:46,67602075,8,0,2143,67602937.0,67602679
1-1,00:08:20,00:08:20,67602679,9,0,2291,67602075.0,67602376
1-1,00:08:52,00:08:52,67602376,10,0,2441,67602679.0,67602857


**Explicación del código**
```sql
SELECT *,
```

Selecciona todas las columnas

```sql
LAG(stop_id) OVER(PARTITION BY trip_id ORDER BY stop_sequence) AS prev_stop_id
```

Para cada viaje (`PARTITION BY trip_id`), calcula cuál es la parada anterior (`LAG(stop_id)`). La parada anterior a cada una se determina con la stop sequence (`ORDER BY stop_sequence`)

```sql
LEAD(stop_id) OVER(PARTITION BY trip_id ORDER BY stop_sequence) AS post_stop_id
```
Para cada viaje (`PARTITION BY trip_id`), calcula cuál es la parada posterior (`LEAD(stop_id)`). La parada posterior a cada una se determina con la stop sequence (`ORDER BY stop_sequence`)

```sql
FROM static.stop_times
```
Los datos se extraen de "Stop Times" que tiene para cada viaje cuál es la sequencia de paradas que hace el colectivo

```sql
WHERE trip_id IN ('1-1', '1-2', '1-3', '1-4')
```

Se hace el cálculo sólo para 4 viajes para que la query no demore tanto en correr

**Ejemplo en GTFS 2**

La columna `shape_dist_traveled` de `stop_times` contiene la distancia recorrida acumulada en cada parada para cada uno de los viajes. Si quisieramos calcular la distancia recorrida entre cada una de las paradas, podríamos usar funciones de ventana:


In [8]:
%%sql
SELECT *, 
    LAG(shape_dist_traveled) OVER(PARTITION BY trip_id ORDER BY stop_sequence) as prev_shape_dist_traveled,
    shape_dist_traveled - prev_shape_dist_traveled AS distancia_recorrida_desde_ultima_parada

FROM static.stop_times

WHERE trip_id='1-1'

trip_id,arrival_time,departure_time,stop_id,stop_sequence,timepoint,shape_dist_traveled,prev_shape_dist_traveled,distancia_recorrida_desde_ultima_parada
1-1,00:00:00,00:00:00,67602759,1,1,0,,
1-1,00:00:32,00:00:32,67602394,2,0,152,0.0,152.0
1-1,00:02:12,00:02:12,67602332,3,0,608,152.0,456.0
1-1,00:03:34,00:03:34,67602966,4,0,988,608.0,380.0
1-1,00:04:22,00:04:22,67601684,5,0,1205,988.0,217.0
1-1,00:06:46,00:06:46,67602901,6,0,1863,1205.0,658.0
1-1,00:07:24,00:07:24,67602937,7,0,2035,1863.0,172.0
1-1,00:07:46,00:07:46,67602075,8,0,2143,2035.0,108.0
1-1,00:08:20,00:08:20,67602679,9,0,2291,2143.0,148.0
1-1,00:08:52,00:08:52,67602376,10,0,2441,2291.0,150.0


Con esta query, podemos ver que desde la parada 5 a la parada 6 del viaje 1-1, se recorrieron 658 metros

<a id="ranking"></a> 

# 3. Funciones de Clasificación (Ranking)

Las funciones de clasificación en SQL se usan para asignar rangos o números de fila a cada fila de un conjunto de resultados, basándose en criterios de orden especificados. Estas funciones son útiles para identificar posiciones relativas, como la clasificación de ventas, rendimiento, o cualquier métrica ordenable dentro de un conjunto de datos.

## Tipos de Funciones de Clasificación

Hay tres funciones de clasificación principales en SQL:

1. **`ROW_NUMBER()`**: Asigna un número secuencial único a cada fila, incluso si los valores de las filas son iguales. No maneja empates de manera especial.

2. **`RANK()`**: Asigna el mismo rango a filas con valores idénticos, pero deja huecos en la secuencia cuando hay empates.

3. **`DENSE_RANK()`**: También asigna el mismo rango a filas con valores idénticos, pero no deja huecos en la secuencia al manejar empates.

### Diferencias entre las Funciones de Clasificación

Supongamos un conjunto de datos con países y la cantidad de medallas ganadas:

| Country | Medals |
|---------|--------|
| GBR     | 27     |
| DEN     | 26     |
| FRA     | 26     |
| ITA     | 25     |
| AUT     | 24     |
| BEL     | 24     |

#### Ejemplo SQL con ROW_NUMBER
```sql
SELECT 
  Country, 
  Medals, 
  ROW_NUMBER() OVER (ORDER BY Medals DESC) AS Row_Num
FROM Country_Games;
```

- **`ROW_NUMBER()`** asigna un número secuencial a cada fila, sin importar si hay empates.

| Country | Medals | Row_Num |
|---------|--------|---------|
| GBR     | 27     | 1       |
| DEN     | 26     | 2       |
| FRA     | 26     | 3       |
| ITA     | 25     | 4       |
| AUT     | 24     | 5       |
| BEL     | 24     | 6       |

#### Ejemplo SQL con RANK
```sql
SELECT 
  Country, 
  Medals, 
  RANK() OVER (ORDER BY Medals DESC) AS Rank_Num
FROM Country_Games;
```

- **`RANK()`** asigna el mismo rango a filas con valores idénticos, dejando huecos después de los empates.

| Country | Medals | Rank_Num |
|---------|--------|----------|
| GBR     | 27     | 1        |
| DEN     | 26     | 2        |
| FRA     | 26     | 2        |
| ITA     | 25     | 4        |
| AUT     | 24     | 5        |
| BEL     | 24     | 5        |

#### Ejemplo SQL con DENSE_RANK
```sql
SELECT 
  Country, 
  Medals, 
  DENSE_RANK() OVER (ORDER BY Medals DESC) AS Dense_Rank_Num
FROM Country_Games;
```

- **`DENSE_RANK()`** también asigna el mismo rango a filas con valores idénticos, pero no deja huecos en la numeración.

| Country | Medals | Dense_Rank_Num |
|---------|--------|----------------|
| GBR     | 27     | 1              |
| DEN     | 26     | 2              |
| FRA     | 26     | 2              |
| ITA     | 25     | 3              |
| AUT     | 24     | 4              |
| BEL     | 24     | 4              |

## Uso de PARTITION BY con Funciones de Clasificación

Al combinar `PARTITION BY` con funciones de clasificación, el conjunto de datos se divide en particiones, lo que permite clasificar las filas dentro de cada partición de forma independiente.

### Ejemplo SQL con DENSE_RANK y PARTITION BY

Supongamos que tenemos una tabla llamada `employee_sales` con las columnas `region`, `employee` y `sales_amount`, y queremos clasificar a los empleados dentro de cada región según sus ventas.

```sql
SELECT 
  region, 
  employee, 
  sales_amount, 
  DENSE_RANK() OVER (PARTITION BY region ORDER BY sales_amount DESC) AS Rank_In_Region
FROM employee_sales;
```

#### Explicación del Ejemplo

- **`PARTITION BY region`**: Divide las filas en particiones según la región, reiniciando el cálculo de la clasificación dentro de cada región.

- **`ORDER BY sales_amount DESC`**: Ordena las filas dentro de cada partición por ventas de mayor a menor antes de asignar el rango.

#### Resultado Esperado

| region | employee | sales_amount | Rank_In_Region |
|--------|----------|--------------|----------------|
| East   | Alice    | 5000         | 1              |
| East   | Bob      | 4500         | 2              |
| East   | Carol    | 4500         | 2              |
| West   | Dave     | 5200         | 1              |
| West   | Eve      | 4700         | 2              |

Aquí, el rango se calcula por separado dentro de cada región.

## Resumen

Las funciones de clasificación en SQL (`ROW_NUMBER()`, `RANK()`, y `DENSE_RANK()`) proporcionan una manera flexible de asignar números secuenciales o rangos relativos a filas, permitiendo manejar empates de diferentes maneras. Al usar `PARTITION BY`, se pueden realizar clasificaciones más detalladas dentro de grupos específicos, lo que es útil para analizar posiciones relativas dentro de diferentes categorías o regiones.


<a id="paging"></a> 

# 4. Paginación (Paging) 

La **paginación** en SQL es el proceso de dividir datos en fragmentos aproximadamente iguales, llamados "páginas". Esto se utiliza para manejar grandes conjuntos de datos de manera más eficiente, ya sea para visualización, paginación en aplicaciones web, o análisis estadísticos como separar datos en cuartiles o tercios.

## Uso de la Función NTILE para Paginación

La función **`NTILE(n)`** en SQL permite dividir un conjunto de filas en **n** páginas aproximadamente iguales. La función asigna un número de página a cada fila, lo que permite paginar y distribuir los datos de manera más uniforme.

### Aplicaciones Comunes de Paginación
- **Dividir datos en páginas para mostrar en interfaces de usuario**.
- **Agrupar datos en cuartiles, tercios o cualquier otra división** para análisis de rendimiento.
- **Reducir la cantidad de datos transferidos** en una sola respuesta de una API, especialmente en sistemas con grandes volúmenes de datos.

### Ejemplo: Dividir Productos en 4 Páginas Aproximadamente Iguales

Supongamos una tabla llamada `products` que contiene una lista de productos y sus precios. Queremos dividir los productos en 4 páginas para paginarlos en una interfaz.

#### Ejemplo SQL
```sql
WITH Product_List AS (
  SELECT 
    product_name, 
    price 
  FROM products
)

SELECT 
  product_name, 
  price,
  NTILE(4) OVER (ORDER BY price DESC) AS Page
FROM Product_List;
```

#### Explicación del Ejemplo
- **`NTILE(4)`**: Divide los productos en 4 páginas aproximadamente iguales, ordenando por precio en orden descendente.
- Cada página contendrá un número similar de filas, permitiendo paginar los productos por rango de precios.

#### Resultado Esperado

| product_name | price | Page |
|--------------|-------|------|
| Producto A   | 500   | 1    |
| Producto B   | 450   | 1    |
| Producto C   | 430   | 2    |
| Producto D   | 410   | 2    |
| Producto E   | 380   | 3    |
| Producto F   | 350   | 3    |
| Producto G   | 300   | 4    |
| Producto H   | 280   | 4    |

En este caso, los productos se dividen en 4 páginas de manera casi uniforme, lo que facilita la paginación en una aplicación o interfaz.

### Ejemplo: Agrupar Empleados en Tercios Basados en Desempeño

Supongamos una tabla llamada `employee_performance` con columnas de empleados y sus puntajes de rendimiento. Queremos dividir los empleados en tres grupos (superior, medio, e inferior) para evaluar su desempeño.

#### Ejemplo SQL
```sql
WITH Employee_Performance AS (
  SELECT 
    employee_name, 
    performance_score 
  FROM employee_performance
)

SELECT 
  employee_name, 
  performance_score,
  NTILE(3) OVER (ORDER BY performance_score DESC) AS Performance_Third
FROM Employee_Performance;
```

#### Explicación del Ejemplo
- **`NTILE(3)`**: Divide a los empleados en 3 tercios basados en sus puntajes de rendimiento, con el grupo 1 representando el tercio superior y el grupo 3 representando el tercio inferior.
- **`ORDER BY performance_score DESC`**: Ordena a los empleados de mayor a menor puntaje antes de dividirlos en tercios.

#### Resultado Esperado

| employee_name | performance_score | Performance_Third |
|---------------|-------------------|-------------------|
| Ana           | 95                | 1                 |
| Juan          | 90                | 1                 |
| María         | 88                | 2                 |
| Pedro         | 85                | 2                 |
| Luis          | 70                | 3                 |
| Carla         | 68                | 3                 |

Los empleados se agrupan en tercios para facilitar el análisis de desempeño, con el tercio superior representando a los mejores empleados.

### Ejemplo: Calcular el Promedio de Ventas por Cuartil

Supongamos una tabla llamada `sales` con columnas de `region` y `sales_amount`. Queremos calcular el promedio de ventas dentro de cada cuartil para entender el rendimiento de ventas por región.

#### Ejemplo SQL
```sql
WITH Sales_Data AS (
  SELECT 
    region, 
    sales_amount 
  FROM sales
),
Sales_Quartiles AS (
  SELECT 
    region, 
    sales_amount,
    NTILE(4) OVER (ORDER BY sales_amount DESC) AS Quartile
  FROM Sales_Data
)

SELECT 
  Quartile,
  ROUND(AVG(sales_amount), 2) AS Avg_Sales
FROM Sales_Quartiles
GROUP BY Quartile
ORDER BY Quartile ASC;
```

#### Explicación del Ejemplo
- **`NTILE(4)`**: Divide las regiones en 4 cuartiles según el monto de ventas.
- **Promedio por cuartil**: Calcula el promedio de ventas para cada cuartil, permitiendo comparar el rendimiento de ventas entre diferentes grupos.

#### Resultado Esperado

| Quartile | Avg_Sales |
|----------|-----------|
| 1        | 9200.50   |
| 2        | 7500.30   |
| 3        | 6200.10   |
| 4        | 4500.00   |

Los cuartiles ayudan a entender cómo se distribuyen las ventas y permiten identificar diferencias significativas entre grupos.

## Resumen

La paginación en SQL mediante **`NTILE(n)`** es una técnica eficaz para dividir datos en fragmentos manejables y aproximadamente iguales. Esta función es especialmente útil para visualización, análisis estadístico, y paginación en aplicaciones, permitiendo manejar grandes volúmenes de datos de manera más eficiente y ordenada.


**Ejemplo en GTFS**

Supongamos que queremos calcular la distancia máxima recorrida para cada viaje y despues clasificarlos en quartiles dependiendo de la cantidad de esta distacia:


In [19]:
%%sql
WITH distancia_maxima AS (
    SELECT trip_id, max(shape_dist_traveled) as distancia_total_recorrida
    FROM static.stop_times
    WHERE trip_id IN (SELECT trip_id FROM static.trips LIMIT 100) --Utilizo una subconsulta para filtrar la cantidad de viajes y que no demore tanto la query
    GROUP BY trip_id
)

SELECT *, NTILE(4) OVER(ORDER BY distancia_total_recorrida) as cuartiles_distancia_total_recorrida
FROM distancia_maxima
ORDER BY 3 DESC

trip_id,distancia_total_recorrida,cuartiles_distancia_total_recorrida
96-1,17011,4
98-1,17011,4
22-1,17011,4
25-1,17011,4
28-1,17011,4
33-1,17011,4
38-1,17011,4
39-1,17011,4
44-1,17011,4
48-1,17011,4


Acá se puede observar que los trips 26-1, 29-1 etc pertenecen al cuartil con mayor distancia recorrida (4)

<a id="agregacion"></a> 

# 5. Funciones de Agregación con Window Functions:


Las **funciones de agregación** en SQL, como `SUM`, `AVG`, `MAX`, y `MIN`, se pueden usar en combinación con **window functions** para calcular resultados acumulativos, promedios móviles, máximos históricos, y más. Al trabajar con estas funciones en un contexto de ventana, cada fila retiene su valor individual mientras que se realiza un cálculo sobre un subconjunto de filas relacionadas, definido por la cláusula `OVER`.

## Ejemplos de Funciones de Agregación

### Uso de la Función MAX con Window Functions

La función `MAX()` devuelve el valor máximo de una columna dentro de una ventana específica. Por ejemplo, podemos usar `MAX()` para calcular el máximo acumulado en una serie temporal.

#### Ejemplo: Máximo Histórico de Ventas

Supongamos que tenemos una tabla llamada `sales` con columnas `year` y `sales_amount`, y queremos calcular el valor máximo acumulado de ventas año tras año.

##### Ejemplo SQL
```sql
WITH Sales_History AS (
  SELECT 
    year, 
    sales_amount 
  FROM sales
)

SELECT 
  year, 
  sales_amount,
  MAX(sales_amount) OVER (ORDER BY year ASC) AS Max_Sales
FROM Sales_History;
```

##### Explicación del Ejemplo
- **`MAX(sales_amount) OVER (ORDER BY year ASC)`**: Calcula el máximo acumulado de ventas, ordenando los registros en orden ascendente de años.
- La ventana se extiende desde la primera fila hasta la fila actual, actualizando el valor máximo a medida que se avanza por el conjunto de resultados.

##### Resultado Esperado

| year | sales_amount | Max_Sales |
|------|--------------|-----------|
| 2018 | 1300         | 1300      |
| 2019 | 1500         | 1500      |
| 2020 | 1200         | 1500      |
| 2021 | 1700         | 1700      |

En este caso, `Max_Sales` muestra el máximo acumulado hasta cada año.

### Uso de la Función SUM con Window Functions

La función `SUM()` puede calcular totales acumulativos dentro de una ventana definida.

#### Ejemplo: Total Acumulado de Ventas

Supongamos una tabla llamada `monthly_sales` con columnas `month` y `sales_amount`. Queremos calcular el total acumulado de ventas mes a mes.

##### Ejemplo SQL
```sql
WITH Monthly_Sales AS (
  SELECT 
    month, 
    sales_amount 
  FROM monthly_sales
)

SELECT 
  month, 
  sales_amount,
  SUM(sales_amount) OVER (ORDER BY month ASC) AS Cumulative_Sales
FROM Monthly_Sales;
```

##### Explicación del Ejemplo
- **`SUM(sales_amount) OVER (ORDER BY month ASC)`**: Calcula el total acumulado de ventas en orden ascendente de meses.

##### Resultado Esperado

| month | sales_amount | Cumulative_Sales |
|-------|--------------|------------------|
| Jan   | 1000         | 1000             |
| Feb   | 1500         | 2500             |
| Mar   | 2000         | 4500             |

El total acumulado de ventas (`Cumulative_Sales`) se actualiza en cada fila, sumando el valor de ventas del mes actual al total anterior.

## Uso de PARTITION BY con Funciones de Agregación

La cláusula `PARTITION BY` permite dividir el conjunto de resultados en particiones antes de aplicar la función de agregación. Esto es útil para calcular resultados independientes dentro de cada partición.

### Ejemplo: Total Acumulado de Ventas por Región

Supongamos una tabla llamada `region_sales` con columnas `region`, `year` y `sales_amount`, y queremos calcular el total acumulado de ventas dentro de cada región.

#### Ejemplo SQL
```sql
WITH Region_Sales AS (
  SELECT 
    region, 
    year, 
    sales_amount 
  FROM region_sales
)

SELECT 
  region, 
  year, 
  sales_amount,
  SUM(sales_amount) OVER (PARTITION BY region ORDER BY year ASC) AS Cumulative_Sales
FROM Region_Sales;
```

##### Explicación del Ejemplo
- **`PARTITION BY region`**: Divide las filas en particiones por región, asegurando que el cálculo de la suma acumulativa se reinicie dentro de cada región.
- **`ORDER BY year ASC`**: Ordena las filas dentro de cada partición por año antes de calcular la suma acumulativa.

##### Resultado Esperado

| region | year | sales_amount | Cumulative_Sales |
|--------|------|--------------|------------------|
| East   | 2018 | 1200         | 1200             |
| East   | 2019 | 1500         | 2700             |
| East   | 2020 | 1400         | 4100             |
| West   | 2018 | 1000         | 1000             |
| West   | 2019 | 1100         | 2100             |
| West   | 2020 | 1300         | 3400             |

En este caso, el total acumulado se calcula de manera independiente para cada región.

**Ejemplo GTFs**

Como venimos viendo, Stop Times tiene la distancia acumulada recorrida por el viaje en cada parada. Si quisieramos calcular la distancia recorrida como porcentaje del recorrido, podríamos utilizar una función de ventana con "max" para poder dividir la distancia acumulada y calcularlo:

In [21]:
%%sql
select distinct trip_id
from static.stop_times
limit 3

trip_id
4-1
5-1
6-1


In [24]:
%%sql
SELECT trip_id,stop_id, stop_sequence, shape_dist_traveled, shape_dist_traveled/MAX(shape_dist_traveled) OVER(PARTITION BY trip_id) AS porcentaje_del_viaje_recorrido
FROM static.stop_times
WHERE trip_id IN ('1-1', '4-1')
LIMIT 100

trip_id,stop_id,stop_sequence,shape_dist_traveled,porcentaje_del_viaje_recorrido
1-1,67602759,1,0,0.0
1-1,67602394,2,152,0.0345611641655297
1-1,67602332,3,608,0.1382446566621191
1-1,67602966,4,988,0.2246475670759436
1-1,67601684,5,1205,0.2739881764438381
1-1,67602901,6,1863,0.4236016371077762
1-1,67602937,7,2035,0.4627103228740336
1-1,67602075,8,2143,0.4872669395179627
1-1,67602679,9,2291,0.520918599363347
1-1,67602376,10,2441,0.555025011368804


Aca podemos ver que el trip 1-1 en la parada número 10 lleva un 55% del recorrido en metros.

<a id="frames"></a> 

# 6. Frames

Los **frames** en SQL permiten definir un subconjunto de filas dentro de una ventana sobre las que se aplicará una función de ventana. Los frames proporcionan un control más granular sobre el alcance del cálculo, permitiendo especificar un rango dinámico de filas que la función debe considerar. Esto resulta útil para cálculos como promedios móviles, totales de un periodo específico, máximos y mínimos en un rango determinado, y más.

## Tipos de Frames en SQL

Los frames se definen mediante la cláusula **`ROWS BETWEEN`** o **`RANGE BETWEEN`**, seguida de un inicio y un final para especificar el alcance del frame:

1. **`ROWS`**: Se utiliza para definir frames con base en el número de filas, especificando el número exacto de filas antes, después, o incluyendo la fila actual.

2. **`RANGE`**: Se utiliza para definir frames con base en el valor del ordenamiento, lo que puede abarcar filas con el mismo valor de orden.

### Ejemplos Comunes de Frames

#### Sintaxis de Frames

- **`ROWS BETWEEN n PRECEDING AND CURRENT ROW`**: Incluye las `n` filas anteriores y la fila actual.

- **`ROWS BETWEEN CURRENT ROW AND n FOLLOWING`**: Incluye la fila actual y las `n` filas siguientes.

- **`ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING`**: Incluye todas las filas desde el inicio hasta el final de la ventana.

- **`ROWS BETWEEN n PRECEDING AND n FOLLOWING`**: Incluye `n` filas antes y después de la fila actual.

### Ejemplo: Promedio Móvil de Ventas con un Frame

Supongamos una tabla llamada `sales` con columnas de `week` y `sales_amount`, y queremos calcular un promedio móvil de 4 semanas, considerando las 3 semanas anteriores y la semana actual.

#### Ejemplo SQL
```sql
WITH Weekly_Sales AS (
  SELECT 
    week, 
    sales_amount 
  FROM sales
)

SELECT 
  week, 
  sales_amount,
  AVG(sales_amount) OVER (
    ORDER BY week ASC 
    ROWS BETWEEN 3 PRECEDING AND CURRENT ROW
  ) AS Moving_Avg
FROM Weekly_Sales;
```

##### Explicación del Ejemplo
- **`ROWS BETWEEN 3 PRECEDING AND CURRENT ROW`**: El frame considera las tres semanas anteriores y la semana actual para calcular el promedio móvil de 4 semanas.

##### Resultado Esperado

| week | sales_amount | Moving_Avg |
|------|--------------|------------|
| 1    | 1000         | 1000       |
| 2    | 1200         | 1100       |
| 3    | 1500         | 1233.33    |
| 4    | 1400         | 1275.00    |

En este caso, el promedio móvil se calcula adaptando el frame a un rango dinámico de filas, comenzando desde la primera semana y extendiéndose hasta la semana actual.

### Ejemplo: Total de Ventas con un Frame que Incluye Filas Siguientes

Supongamos que queremos calcular el total de ventas de la semana actual y la semana siguiente en una tabla `sales`.

#### Ejemplo SQL
```sql
WITH Weekly_Sales AS (
  SELECT 
    week, 
    sales_amount 
  FROM sales
)

SELECT 
  week, 
  sales_amount,
  SUM(sales_amount) OVER (
    ORDER BY week ASC 
    ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING
  ) AS Next_Two_Weeks_Total
FROM Weekly_Sales;
```

##### Explicación del Ejemplo
- **`ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING`**: El frame incluye la fila actual y la fila siguiente para calcular el total de ventas en un periodo de dos semanas.

##### Resultado Esperado

| week | sales_amount | Next_Two_Weeks_Total |
|------|--------------|-----------------------|
| 1    | 1000         | 2200                  |
| 2    | 1200         | 2700                  |
| 3    | 1500         | 2900                  |
| 4    | 1400         | 1400                  |

Aquí, el total de ventas se ajusta para incluir la semana actual y la siguiente, proporcionando una perspectiva a corto plazo del total acumulado.

### Ejemplo: Máximo Acumulado con Frames

Supongamos una tabla llamada `monthly_sales` con columnas `month` y `sales_amount`, y queremos calcular el máximo acumulado de ventas en un periodo móvil de dos meses.

#### Ejemplo SQL
```sql
WITH Monthly_Sales AS (
  SELECT 
    month, 
    sales_amount 
  FROM monthly_sales
)

SELECT 
  month, 
  sales_amount,
  MAX(sales_amount) OVER (
    ORDER BY month ASC 
    ROWS BETWEEN 1 PRECEDING AND CURRENT ROW
  ) AS Max_Last_Two_Months
FROM Monthly_Sales;
```

##### Explicación del Ejemplo
- **`ROWS BETWEEN 1 PRECEDING AND CURRENT ROW`**: El frame incluye la fila actual y la fila anterior para calcular el máximo de ventas en el periodo de los últimos dos meses.

##### Resultado Esperado

| month | sales_amount | Max_Last_Two_Months |
|-------|--------------|---------------------|
| Jan   | 1200         | 1200                |
| Feb   | 1400         | 1400                |
| Mar   | 1300         | 1400                |
| Apr   | 1500         | 1500                |

El máximo acumulado se ajusta dinámicamente según el frame definido, proporcionando un máximo en un periodo móvil de dos meses.

## Resumen

El uso de **frames** en window functions permite un control más preciso sobre el rango de filas consideradas en el cálculo. Al especificar frames, es posible realizar análisis avanzados, como promedios móviles, totales a corto plazo, y máximos o mínimos en un rango definido. Los frames en SQL mejoran la flexibilidad del análisis, permitiendo ajustar dinámicamente el alcance del cálculo sin perder el detalle de cada fila individual.


**Ejemplo en GTFS**

Supongamos que queremos calcular la velocidad promedio de un colectivo en particular. Podemos utilizar Frames para calcular la velocidad promedio de los últimos 3 registros de velocidad para ese colectivo en la tabla de posiciones.

In [36]:
%%sql

SELECT *
FROM stop_times.trips

route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,block_id,shape_id,exceptional
1211,4,1-1,Ramal 13 - IDA,740G,0,740G,1211,0
1212,4,2-1,Ramal 13 - VUELTA,740G,1,740G,1212,0
1213,4,3-1,Ramal 14 - IDA,740H,0,740H,1213,0
1214,4,4-1,Ramal 14 - VUELTA,740H,1,740H,1214,0
1215,4,5-1,Ramal 17 - IDA,740I,0,740I,1215,0
1216,4,6-1,Ramal 17 - VUELTA,740I,1,740I,1216,0
1217,4,7-1,Ramal 21 - IDA,740J,0,740J,1217,0
1218,4,8-1,Ramal 21 - VUELTA,740J,1,740J,1218,0
1219,4,9-1,Ramal 49 - IDA,740K,0,740K,1219,0
1220,4,10-1,Ramal 54 - IDA,740L,0,740L,1220,0
