In [1]:
-- connection: postgres://postgres:1234@localhost:5433/pec4

# 3. Funciones analíticas
Los SGBD relacionales han incluido, desde sus inicios, funcionalidad para permitir la `agregación de datos`. Esta funcionalidad, la cual se implementa mediante cláusulas __GROUP BY__ y funciones de agregación como __MAX, SUM y AVG__  entre otras, nos permite presentar una visión de los datos de forma agregada. 

También nos permiten especificar `condiciones de búsqueda` una vez agregados los datos mediante la cláusula __HAVING__. Por ejemplo, nos permitiría obtener la media del salario de entre los empleados de la empresa agrupada por el puesto de trabajo de los empleados para obtener el salario medio por puesto. 

A pesar de esta útil funcionalidad, los SGBD todavía tienen la limitación de visualizar los datos de dos formas: 
* datos en bruto (sin procesar) o 
* datos agregados (mediante las funciones de agregación, como hemos comentado). 

¿Cómo podríamos presentar ambos tipos de información de forma conjunta? Para ello, como parte del estándar SQL:1999, se han introducido las funciones analíticas.

Las funciones analíticas extienden el lenguaje SQL de manera que nos permiten realizar análisis más complejos a la vez que consultamos los datos en bruto sin necesidad de agregarlos mediante el acceso a los datos de otras filas que forman parte de la consulta. 

Teóricamente, no hay nada que las funciones analíticas realicen que no pueda realizarse mediante consultas SQL complejas, subconsultas u operaciones de combinación, pero sí nos permiten realizar los mismos cálculos de una manera mucho más sencilla y elegante (menos líneas de código), además de utilizar funcionalidad nativa del SGBD que está implementada para dar un rendimiento más óptimo.

## 3.1. Concepto
__`funciones analíticas (window functions)`__  
se utilizan para realizar cálculos dentro de un contexto de forma que una fila vea y utilice datos más allá de aquellos pertenecientes a dicha fila.

Definimos __`ventana`__   
como el contexto en el que la función analítica debe realizar el cálculo especificado. En otras palabras, define qué otras filas se deben tener en consideración (además de la fila actual).

---

Las funciones analíticas realizan cálculos sobre un conjunto de filas que, de alguna manera, se relacionan con lo que se denomina la fila actual. Es decir, la función analítica es capaz de acceder a información de otras filas desde la fila que se lee o procesa. Para clarificar esta definición, veamos el siguiente ejemplo:

__Ejemplo de función analítica__  
>La siguiente tabla __`Alumno`__ muestra los datos de un conjunto de alumnos dados de alta en la asignatura __Introducción a las bases de datos__ impartida en la UOC.

In [69]:
CREATE TABLE teoria.alumno(
    id_alumno       numeric primary key,
    nombre_apellido varchar(50) not null,
    ciudad          varchar(50) not null,
    edad            integer not null,
    num_libros      integer not null,
    num_asignaturas integer not null
);

INSERT INTO teoria.alumno( id_alumno, nombre_apellido, ciudad, edad, num_libros, num_asignaturas)
VALUES('1','Manuel Vazques','Barcelona','24','10','7'),
      ('2','Elena rodriguez','Barcelona','22','6','3'),
      ('3','José Pérez','Barcelona','25','4','9'),
      ('4','Alejandra Martinez','Barcelona','18','11','4'),
      ('5','Marina rodriguez','Tarragona','19','9','4'),
      ('6','Fernando Nadal','Tarragona','21','8','5'),
      ('7','Victoria Suarez','Tarragona','20','6','8'),
      ('8','Victor Anllada','Lleida','23','7','7'),
      ('9','Felisa Sanchez','Lleida','25','5','2'),
      ('10','José Maria Llopis','Lleida','18','5','4'),
      ('11','Victoria Setán','Lleida','23','5','2'),
      ('12','Wenceslao Fernandez','Lleida','18','6','1');

In [70]:
SELECT * FROM teoria.alumno

12 row(s) returned.


id_alumno,nombre_apellido,ciudad,edad,num_libros,num_asignaturas
1,Manuel Vazques,Barcelona,24,10,7
2,Elena rodriguez,Barcelona,22,6,3
3,José Pérez,Barcelona,25,4,9
4,Alejandra Martinez,Barcelona,18,11,4
5,Marina rodriguez,Tarragona,19,9,4
6,Fernando Nadal,Tarragona,21,8,5
7,Victoria Suarez,Tarragona,20,6,8
8,Victor Anllada,Lleida,23,7,7
9,Felisa Sanchez,Lleida,25,5,2
10,José Maria Llopis,Lleida,18,5,4


queremos obtener un listado de 
>* ciudades, alumnos y número de asignaturas 
>* ordenado por ciudad y nombre de alumno ascendentemente. 
>
>Para cada uno de los alumnos, queremos 
>* mostrar la media de asignaturas que tienen matriculados todos aquellos alumnos que residen en la misma ciudad que el alumno en cuestión. 

Tenemos que crear una subconsulta sobre la tabla Alumno (deno- minada a3) que calcule primero la media de asignaturas por ciudad, y realizar a continua- ción una operación de combinación (JOIN) entre a3 y la tabla Alumno (denominada a1).

In [71]:
SELECT
    a1.ciudad,
    a1.nombre_apellido,
    a1.num_asignaturas,
    a3.media
FROM 
    teoria.alumno a1,
    (
        SELECT 
            a2.ciudad,
            AVG(a2.num_asignaturas) AS media
        FROM 
            teoria.alumno a2
        GROUP BY 
            a2.ciudad
    ) a3
WHERE
    a1.ciudad = a3.ciudad
ORDER BY
    a1.ciudad ASC,
    a1.nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,media
Barcelona,Alejandra Martinez,4,5.75
Barcelona,Elena rodriguez,3,5.75
Barcelona,José Pérez,9,5.75
Barcelona,Manuel Vazques,7,5.75
Lleida,Felisa Sanchez,2,3.2
Lleida,José Maria Llopis,4,3.2
Lleida,Victor Anllada,7,3.2
Lleida,Victoria Setán,2,3.2
Lleida,Wenceslao Fernandez,1,3.2
Tarragona,Fernando Nadal,5,5.66667


Esta forma de crear consultas, si bien nos devuelve los resultados esperados, requiere más procesamiento de datos por parte del SGBD, ya que tiene que calcular primero la media por ciudad para luego combinarla con la misma tabla Alumno. Además, codificar, interpretar y mantener consultas de este estilo puede llegar a ser bastante engorroso.
  
__Con funciones analíticas__    
La siguiente consulta realiza la misma operación que la consulta anterior sin necesidad de crear subconsultas.

In [72]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    AVG(num_asignaturas) OVER (PARTITION BY ciudad) AS media
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,media
Barcelona,Alejandra Martinez,4,5.75
Barcelona,Elena rodriguez,3,5.75
Barcelona,José Pérez,9,5.75
Barcelona,Manuel Vazques,7,5.75
Lleida,Felisa Sanchez,2,3.2
Lleida,José Maria Llopis,4,3.2
Lleida,Victor Anllada,7,3.2
Lleida,Victoria Setán,2,3.2
Lleida,Wenceslao Fernandez,1,3.2
Tarragona,Fernando Nadal,5,5.66667


La llamada a funciones analíticas se realiza utilizando un formato especial, que de forma genérica, se podría definir de la forma siguiente:

In [73]:
function_name (arg) OVER(
                            [PARTITION BY ...]
                            [ORDER BY ...]
                            [ [ROWS|RANGE] ...]
)

syntax error at or near "function_name"
LINE 1: function_name (arg) OVER(
        ^


>__OVER__  
>Esta cláusula es lo que nos permite distinguir se se están aplicando funciones analíticas o funciones de agregación. Nnos permite dividir y ordenar el conjunto de datos para su posterior procesamiento por la función.
>
>__PARTITION BY__  
>Esta división de los datos crea lo que anteriormente definimos como __`ventana`__, es decir, una serie de particiones que serán tratadas de forma separada por la función analítica. Para cada fila dentro de cada partición se aplica la función analítica, teniendo en consideración al resto de filas que pertenecen a dicha partición para la realización del cálculo deseado.
>
>__ORDER BY__  
>Controla el orden de procesamiento de las filas en cada partición. Esta ordenación de los datos dentro de la partición no afecta (y no tiene que ser la misma que) la ordenación en la que los datos finales se muestran tras la ejecución de la consulta.

Las cláusulas mencionadas anteriormente, según sea necesario, se pueden omitir de la llamada:
>* Si __PARTITION BY__ no se define se considerarán todas las filas del resultado de la consulta como una sola partición.
>* Si __ORDERBY__ no se define, las filas se procesarán sin un orden definido, lo que podría afectar al resultado final, dependiendo de la función analítica que se utilice.

Otro concepto relevante a considerar, cuando trabajamos con funciones ana- líticas, es el de marco, que definimos a continuación.
> definimos __`marco (frame)`__   
> como un subconjunto de filas dentro de una partición.  
Muchas de las funciones analíticas (no todas) actúan dentro del marco definido en lugar de actuar sobre el conjunto de datos de la partición.
>
> __`marco (frame)`__ permite definir una __subventana dentro de la ventana__ establecida mediante la cláusula __PARTITION BY__. El __`marco`__ permite cambiar el contexto de la ventana de forma dinámica (el marco incrementa/reduce las filas a tener en cuenta en relación con la fila que se procese) o bien establecer un contexto de ventana estático (un límite inferior y un límite superior fijos). 
>
>El __`marco (frame)`__  se puede definir mediante las cláusulas __RANGE__ o __ROWS__.

Tenemos esta consulta que proporciona `la suma acumulativa de las asignaturas de los alumnos` que viven en cada ciudad. 

In [74]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    SUM(num_asignaturas) OVER
        (PARTITION BY ciudad ORDER BY nombre_apellido ASC
         RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS suma
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,suma
Barcelona,Alejandra Martinez,4,4
Barcelona,Elena rodriguez,3,7
Barcelona,José Pérez,9,16
Barcelona,Manuel Vazques,7,23
Lleida,Felisa Sanchez,2,2
Lleida,José Maria Llopis,4,6
Lleida,Victor Anllada,7,13
Lleida,Victoria Setán,2,15
Lleida,Wenceslao Fernandez,1,16
Tarragona,Fernando Nadal,5,5


>__PARTITION BY CIUDAD__  
>La __ventana__ de la consulta se define a partir de __ciudad__, obteniendo así tres particiones de datos: los que viven en Barcelona, los que viven en Lleida y aquellos que viven en Tarragona.  
>
>__ORDER BY NOMBRE_APELLIDOS ASC__
Cada una de estas particiones se ordena alfabética y ascendentemente por nombre de alumno (cláusula ORDER BY NOMBRE_APELLIDOS ASC como parte de OVER). No debemos confundir con cómo los datos de salida se ordenan (ORDER BY CIUDAD ASC, NOMBRE_APELLIDOS ASC).
>
>__RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.__ 
>Esto significa que el marco se define desde el inicio de la partición hasta la fila actual. Utilizando la partición de Barcelona como ejemplo, esto significa que:
> * Para el alumno __Alejandra Martínez__ el marco incluye solamente esta fila (es la primera fila de la partición, y como límite superior es la fila actual), por lo que la suma acumulativa incluye solamente el número de asignaturas de este alumno.  
__`Barcelona	Alejandra Martinez	4	4`__
> * Para el alumno __Elena Rodríguez__ el marco incluye desde el inicio de la partición (Alejandra Martínez) hasta la fila actual que se procesa (Elena Rodríguez), por lo que la __suma acumulativa__ incluye el número de asignaturas de este alumno más las de Alejandra Martínez, sumando un total de 11 asignaturas (4 + 7).  
__`Barcelona	Elena rodriguez	7	11`__

Las __funciones analíticas__ solamente pueden llamarse como parte de las cláusulas __SELECT y ORDER BY__ dentro de una consulta, es decir, 
> no se permite su utilización en cláusulas __WHERE, GROUP BY o HAVING__, debido a que las funciones analíticas se procesan después de que dichas cláusulas se hayan completado.

## 3.2. Beneficios de las funciones analíticas
>1) Facilitar la obtención de cálculos complejos en informes y procesos ETL de forma más sencilla, complejidad que suele darse muy a menudo dentro del ámbito de los data warehouse.
>
>2) Mejorar el rendimiento de las consultas SQL: consultas que antes requerían operaciones de combinación sobre la misma tabla se pueden implementar con cláusulas SQL mucho más sencillas.
>
>3) Proporcionar una manera más clara y concisa de generar consultas SQL, lo que facilita el mantenimiento del código e incrementa la productividad de los desarrolladores.
>
>4) La sintaxis de funciones analíticas forma parte de SQL estándar, lo que sig- nifica que están soportadas por multitud de SGBD del mercado, entre ellos PostgreSQL y Oracle.

Sobre la base de lo comentado, y a modo de resumen, podemos afirmar que las funciones analíticas nos facilitan el cálculo, de forma eficiente y elegante, sobre un conjunto de filas para devolvernos un valor relacionado con un sub- conjunto de datos de dicha consulta.
A continuación, vamos a ver cómo se realizan las llamadas de funciones ana- líticas en PostgreSQL, así como la sintaxis necesaria y sus diferentes reglas.

## 3.3. Funciones analíticas en PostgreSQL
La llamada a funciones analíticas en PostgreSQL se puede realizar utilizando cualquiera de las siguientes formas:

In [None]:
function_name ([expression [, expression ...]]) OVER (windows_definition)

function_name (*) OVER (windows_definition)

>__`expression`__   
>representa cualquier expresión que no contenga una llamada a una función analítica: 
>* podría tratarse de una columna de una tabla, 
>* una función de agregación, 
>* una constante o un cálculo, entre otros.
>
>__`window_definition`__   
> nos permite definir la ventana mediante la siguiente sintaxis:

In [None]:
[ existing_windows_name ]

[ PARTITION BY expression [, ...] ]

[ ORDER BY expresion [ASC|DESC|USING operator]
                     [NULLS {FRITS|LAST}] [, ...]]
                     
[ frame_clause]

>__PARTITION BY y ORDER BY__  
nos sirven para definir las particiones y cómo los datos dentro de cada partición serán ordenados. 
>
>__frame_clause (opcional)__  
>Permite trabajar a la función analítica dentro de un marco. Esta cláusula se puede especificar mediante cualquiera de las dos siguientes opciones:

In [None]:
{ RANGE | ROWS } frame_start
{ RANGE | ROWS } BETWEEN frame_start AND frame_end 

> donde los posibles valores para los parámetros __frame_start y frame_end__, que delimitan el ámbito del __`marco`__, pueden ser alguna de las siguiente opciones:

In [None]:
UNBOUNDED PRECEDING

offset PRECEDING

CURRENT ROW

offset FOLLOWING

UNBOUNDED FOLLOWING

El marco puede especificarse mediante rango (RANGE) o mediante filas (ROWS). 
>__RANGE__  
>permite definir rangos de filas utilizando los delimitadores __UNBOUNDED PRECEDING, CURRENT ROW y UNBOUNDED FOLLOWING__, sin poder acceder a una posición específica dentro de la partición. 
>
>__ROWS__  
>De esto último se encarga __ROWS__, esto es, permite no solo especificar rangos mediante los delimitadores que permite RANGE, sino que además permite definir marcos utilizando posiciones concretas dentro de la partición mediante la definición de un offset.
>
>__frame_start__  
>Si el parámetro __frame_start__ se define como __UNBOUNDED PRECEDING__ entonces significa que el marco comienza con la primera fila de la partición.
>
>__frame_end__   
>Si __frame_end__ se define como __UNBOUNDED FOLLOWING__ entonces significa que el marco acaba en la última fila de la partición.  
>
>* Si __frame_end__ : __no se especifica__, entonces el valor por defecto es la fila que se está procesando (CURRENT ROW). Por defecto, en el caso de que se omita la definición del marco, la opción seleccionada por PostgreSQL es __RANGE UNBOUNDED PRECEDING__, que es equivalente a especificar RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.


>__ORDER BY__  
>Si se especifica ORDER BY en la definición de la ventana, entonces el marco se establece desde el inicio de la partición hasta la última fila representativa del conjunto de filas equivalente definido por ORDER BY. 
>Si no se especifica ORDER BY, todas las filas de la partición se incluyen dentro del marco, ya que todas se consideran representativas o pares a la fila procesada.

>__En modo RANGE__  
>* si el parámetro __frame_start__ se define como CURRENT ROW esto significa que el marco comienza con la primera fila representativa del conjunto de filas equivalente que define la cláusula ORDER BY.
>* si el parámetro __frame_end__ se define como CURRENT ROW esto significa que el marco termina en la última fila representativa del conjunto de filas equivalente que define la cláusula ORDER BY.

__Ejemplo de RANGE__  
Suma acumulativa de las asignaturas de los alumnos que viven en cada ciudad. Esta consulta utiliza la cláusula RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW, lo que nos indica que el marco de la fila se establece desde __el inicio de la partición hasta la fila actual__.

In [75]:
SELECT 
    ciudad,
    nombre_apellido,
    num_asignaturas,
    SUM(num_asignaturas) OVER
        (PARTITION BY ciudad ORDER BY nombre_apellido ASC
         RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS suma
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,suma
Barcelona,Alejandra Martinez,4,4
Barcelona,Elena rodriguez,3,7
Barcelona,José Pérez,9,16
Barcelona,Manuel Vazques,7,23
Lleida,Felisa Sanchez,2,2
Lleida,José Maria Llopis,4,6
Lleida,Victor Anllada,7,13
Lleida,Victoria Setán,2,15
Lleida,Wenceslao Fernandez,1,16
Tarragona,Fernando Nadal,5,5


>__En modo ROWS__   
>cuando se especifica __CURRENT ROW__ en la definición del marco, significa que el marco comienza o acaba con la fila actual. 
>
>__En modo RANGE__  
>cuando se especifica __CURRENT ROW__ en la definición del marco, significa que el marco comienza o acaba con la primera o última fila del conjunto de filas representativas según estén ordenadas mediante ORDER BY.

Es importante destacar que el uso de la cláusula ROWS podría producir resultados inesperados si la cláusula ORDER BY no ordena las filas de forma única. Las opciones de RANGE están precisamente diseñadas para asegurar que las fi- las emparejadas sobre la base del ORDER BY sean tratadas de forma similar: cualquier par de filas que estén emparejadas pertenecerán o no al marco.

Las cláusulas offset __PRECEDING__ y __offset FOLLOWING__ solamente están disponibles en modo ROWS.  
Esto indica que 
* el marco comienza con la fila que se encuentra en la posición offset antes de la fila actual (offset PRECEDING) y 
* termina con la fila que se encuentra en la posición offset después de la fila actual (offset FOLLOWING). 

El valor de offset debe ser una expresión entera que no contenga variables, ni funciones de agregación ni analíticas. El valor tampoco puede ser nulo o negativo, si bien puede ser cero, indicando en este caso que se trata de la fila actual (CURRENT ROW).


__Ejemplo de uso de cláusula ROWS con offset__. 
Utilizaremos como base la consulta de suma acumulativa de asignaturas que hemos visto hasta ahora. La nueva consulta definida utiliza la cláusula ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING, lo que nos indica que el marco de la fila se establece desde una fila anterior a la fila actual hasta una fila posterior a la fila actual (en este caso, ambos offset se han especificado como 1).
> La __suma__ que aparece en cada fila se obtiene mediante la suma de las asignaturas del alumno inmediatamente anterior a la fila actual, al alumno inmediatamente posterior a la fila actual, y las asignaturas de la fila actual, siempre dentro de la partición establecida (CIUDAD).

In [76]:
SELECT 
    ciudad,
    nombre_apellido,
    num_asignaturas,
    SUM(num_asignaturas) OVER (PARTITION BY ciudad
                               ORDER BY nombre_apellido ASC
                               ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) AS suma
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,suma
Barcelona,Alejandra Martinez,4,7
Barcelona,Elena rodriguez,3,16
Barcelona,José Pérez,9,19
Barcelona,Manuel Vazques,7,16
Lleida,Felisa Sanchez,2,6
Lleida,José Maria Llopis,4,13
Lleida,Victor Anllada,7,13
Lleida,Victoria Setán,2,10
Lleida,Wenceslao Fernandez,1,3
Tarragona,Fernando Nadal,5,9


Tomando como ejemplo el alumno Elena Rodríguez:  
la suma de las asignaturas es 20, porque es la suma de las asignaturas de Alejandra Martínez (fila anterior, 4 asignaturas), José Pérez (fila posterior, 9 asignaturas) y Elena Rodríguez (fila actual, 7 asignaturas).

__RESTRICCIONES__  
Existen una serie de restricciones sobre la definición de marcos:  

>__frame_start__  
no puede tomar un valor UNBOUNDED FOLLOWING (es decir, no puede comenzar con la última fila de la partición),   
>__frame_end__  
no puede tomar un valor UNBOUNDED PRECEDING (es decir, no puede finalizar con la primera fila de la partición), y   
>__la opción seleccionada como frame_end__   
no puede referirse a una fila que aparezca antes que el valor de frame_start (como ejemplo, la opción RANGE BETWEEN CURRENT ROW AND value PRECEDING no estaría permitida).  
>
>__existing_window_name__  
En el caso de que se use el formato de ventana __existing_window_name__, este ha de referirse a una entrada en la lista de ventanas especificada mediante la cláusula WINDOW. Las llamadas a funciones analíticas con ventanas definidas mediante WINDOW se realizan de la siguiente manera:

In [None]:
function_name ([expression [, expression ...]]) OVER windows_name

function_name (*) OVER window_name

En este caso, __window_name__ referencia a una ventana especificada mediante la cláusula WINDOW de PostgreSQL dentro de la consulta. 
>Uno de los beneficios de usar esta cláusula es que permite referenciar la misma ventana en varias partes de la consulta, de forma que evitamos la duplicidad de cláusulas OVER y así evitar errores en la definición.
>

El funcionamiento de este tipo de llamadas es el siguiente: 
>se copia la definición de la ventana definida mediante esta cláusula, por lo que la ventana nueva no puede incluir su propio PARTITION BY, pero sí puede especificar su propio ORDER BY si la ventana que se utiliza como plantilla no lo tiene definido. La nueva ventana definida siempre usa su propio frame_clause, por lo que la ventana existente no puede especificar dicha cláusula.

La cláusula WINDOW permite no solamente crear código más legible, sino que además permite reutilizar las ventanas dentro de una misma consulta.

La forma que propone PostgreSQL para definir ventanas mediante la cláusula WINDOW es la siguiente:


In [None]:
WINDOW window_name AS ( window_definition ) [, ...]

Es importante destacar la diferencia en el uso de OVER en las dos formas que he- mos visto. En la primera forma, se utiliza OVER (window_definition), mien- tras que en el segundo se utiliza OVER window_name (ved que el primero uti- liza paréntesis y el otro no). El primero requiere de forma obligatoria la defini- ción de una ventana, mientras que en el segundo se requiere que dicha ven- tana esté definida como parte de la cláusula WINDOW.

__Ejemplo de utilización de la cláusula WINDOW__  
Al principio de esta sección se ha propuesto un ejemplo para obtener un listado de ciudades, alumnos y número de asignaturas ordenado por ciudad y nombre de alumno ascendentemente. 
>Para cada uno de los alumnos, se quería mostrar la media de asignaturas que tienen matriculados todos aquellos alumnos que residen en la misma ciudad que el alumno en cuestión. Una propuesta de consulta, utilizando funciones analíticas, sería la siguiente:

In [77]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    AVG(num_asignaturas) OVER (PARTITION BY ciudad) AS media
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,media
Barcelona,Alejandra Martinez,4,5.75
Barcelona,Elena rodriguez,3,5.75
Barcelona,José Pérez,9,5.75
Barcelona,Manuel Vazques,7,5.75
Lleida,Felisa Sanchez,2,3.2
Lleida,José Maria Llopis,4,3.2
Lleida,Victor Anllada,7,3.2
Lleida,Victoria Setán,2,3.2
Lleida,Wenceslao Fernandez,1,3.2
Tarragona,Fernando Nadal,5,5.66667


Esta misma consulta podría definirse de la siguiente forma utilizando la cláusula WINDOW:

In [39]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    AVG(num_asignaturas) OVER w AS media
FROM
    teoria.alumno
WINDOW w AS (PARTITION BY ciudad)
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,media
Barcelona,Alejandra Martinez,4,6.75
Barcelona,Elena rodriguez,7,6.75
Barcelona,José Pérez,9,6.75
Barcelona,Manuel Vazques,7,6.75
Lleida,Felisa Sanchez,2,3.2
Lleida,José Maria Llopis,2,3.2
Lleida,Victor Anllada,7,3.2
Lleida,Victoria Setán,4,3.2
Lleida,Wenceslao Fernandez,1,3.2
Tarragona,Fernando Nadal,5,5.66667


__NOTA__  
SGBD permite definir sus propias funciones analíticas utilizando alguna de las API que proporciona. Aunque es un tema que puede ser interesante para el estudiante, se ha considerado que está fuera del ámbito de este módulo didáctico.


## 3.4. Tipos de funciones analíticas en PostgreSQL

In [78]:
SELECT * FROM teoria.alumno

12 row(s) returned.


id_alumno,nombre_apellido,ciudad,edad,num_libros,num_asignaturas
1,Manuel Vazques,Barcelona,24,10,7
2,Elena rodriguez,Barcelona,22,6,3
3,José Pérez,Barcelona,25,4,9
4,Alejandra Martinez,Barcelona,18,11,4
5,Marina rodriguez,Tarragona,19,9,4
6,Fernando Nadal,Tarragona,21,8,5
7,Victoria Suarez,Tarragona,20,6,8
8,Victor Anllada,Lleida,23,7,7
9,Felisa Sanchez,Lleida,25,5,2
10,José Maria Llopis,Lleida,18,5,4


### 3.4.1. _Row number_
>Esta función asigna un número único a cada fila dentro de una partición, comenzando desde el valor 1, y de forma secuencial según la especificación de la cláusula ORDER BY. Esta función se define como row_number() y no acepta parámetros.

__Ejemplo de utilización de row_number()__  
>Obtener un listado con el nombre de la ciudad, el nombre y apellidos del alumno, y la posición del alumno en cada ciudad.  
>
>Utilizando el nombre y apellidos (alfabéticamente) como criterio de cálculo de posición.

In [79]:
SELECT
    ciudad,
    nombre_apellido,
    ROW_NUMBER() OVER (PARTITION BY ciudad
                      ORDER BY nombre_apellido ASC) AS rn
FROM
    TEORIA.alumno
ORDER BY
    ciudad ASC,
    nombre_apellido ASC

12 row(s) returned.


ciudad,nombre_apellido,rn
Barcelona,Alejandra Martinez,1
Barcelona,Elena rodriguez,2
Barcelona,José Pérez,3
Barcelona,Manuel Vazques,4
Lleida,Felisa Sanchez,1
Lleida,José Maria Llopis,2
Lleida,Victor Anllada,3
Lleida,Victoria Setán,4
Lleida,Wenceslao Fernandez,5
Tarragona,Fernando Nadal,1


Para cada ciudad (PARTITION BY),  
a cada uno de los alumnos se le asigna un número secuencial –la posición, que se obtiene mediante row_number()–  
en base al nombre y los apellidos ordenados alfabéticamente (ORDER BY).

__Ejemplo para obtener posision concreta__  
aquellos alumnos en la posición número 2 (utilizando el mismo criterio especificado anteriormente).  
> Hemos tenido que utilizar subconsultas. La razón principal es que, como se ha comentado anteriormente, no se permiten funciones analíticas como parte de la cláusula WHERE, por lo que el uso de subconsultas es necesario para aplicar condiciones sobre los resultados que nos propor-
cionan estas funciones.

In [80]:
SELECT
    ds.ciudad,
    ds.nombre_apellido
FROM
    (
        SELECT
            ciudad,
            nombre_apellido,
            ROW_NUMBER() OVER(PARTITION BY ciudad
                            ORDER BY nombre_apellido ASC) AS rn
        FROM
            teoria.alumno
    )ds
WHERE
    ds.rn = 2
ORDER BY
    ds.ciudad ASC,
    ds.nombre_apellido ASC

3 row(s) returned.


ciudad,nombre_apellido
Barcelona,Elena rodriguez
Lleida,José Maria Llopis
Tarragona,Marina rodriguez


### 3.4.2. Rank
Esta función realiza un __ranking__ de las filas de una partición con __huecos__.  
En otras palabras, esta función permite clasificar los elementos de un grupo en posiciones (primero, segundo, tercero, etc.), y si hay elementos con el mismo valor los empareja dentro de la misma posición, pero al inmediato inferior le da la posición en base al número de elementos existentes. Esta función se define como rank(), y no acepta parámetros.

__Ejemplo de utilización de rank()__
>Obtener un listado con el nombre de la ciudad, el nombre y apellidos del alumno, y el ranking en número de asignaturas de cada uno de los alumnos en cada ciudad. Este ranking se ha de obtener de forma que aquellos alumnos con más asignaturas aparezcan con una posición en el ranking superior.

In [81]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    RANK() OVER (PARTITION BY ciudad
                    ORDER BY num_asignaturas DESC) AS rk
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    rk ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,rk
Barcelona,José Pérez,9,1
Barcelona,Manuel Vazques,7,2
Barcelona,Alejandra Martinez,4,3
Barcelona,Elena rodriguez,3,4
Lleida,Victor Anllada,7,1
Lleida,José Maria Llopis,4,2
Lleida,Victoria Setán,2,3
Lleida,Felisa Sanchez,2,3
Lleida,Wenceslao Fernandez,1,5
Tarragona,Victoria Suarez,8,1


podemos ver, utilizando __Lleida__ como ejemplo, que 
* el alumno con más asignaturas (7) aparece como primero en el ranking solamente para dicha ciudad (existe una partición por CIUDAD). 
* Véase también la posición de los alumnos Felisa Sánchez y José Maria Llopis. Ambos alumnos tienen 2 asignaturas y un ranking asignado de 3, es decir, existe un empate. 
* El siguiente en número de asignaturas es Wenceslao Fernández, con una asignatura y un puesto 5 en el ranking.

> Puede sorprender que __rk__ salte de 3 a 5: en el caso de que haya un empate, el ranking de la siguiente fila tendrá asignado el número de posición de la fila dentro de dicha partición, dejando un hueco entre el último ranking utilizado en el empate y el número de posición de la fila.

### 3.4.3. Dense rank
Esta función realiza un ranking de las filas de una partición sin huecos.  
Al igual que la función rank(), esta función permite clasificar los elementos de un grupo en posiciones (primero, segundo, tercero, etc.). En el caso de que existan elementos con el mismo valor, los coloca dentro de la misma posición (emparejadas) y al inmediato inferior le da el correlativo siguiente a la clasifi- cación de posición. Esta función se define como dense_rank(), y no acepta parámetros.

__Ejemplo de utilización de dense_rank()__  
Vamos a utilizar el mismo requisito que en el ejemplo de la función rank(), salvo que vamos a utilizar la función dense_rank()

In [82]:
SELECT
    ciudad,
    nombre_apellido,
    num_asignaturas,
    DENSE_RANK() OVER (PARTITION BY ciudad
                    ORDER BY num_asignaturas DESC) AS rk
FROM
    teoria.alumno
ORDER BY
    ciudad ASC,
    rk ASC

12 row(s) returned.


ciudad,nombre_apellido,num_asignaturas,rk
Barcelona,José Pérez,9,1
Barcelona,Manuel Vazques,7,2
Barcelona,Alejandra Martinez,4,3
Barcelona,Elena rodriguez,3,4
Lleida,Victor Anllada,7,1
Lleida,José Maria Llopis,4,2
Lleida,Victoria Setán,2,3
Lleida,Felisa Sanchez,2,3
Lleida,Wenceslao Fernandez,1,4
Tarragona,Victoria Suarez,8,1


### 3.4.4. Lag
Esta función permite acceder a la información almacenada en alguna de las filas previas a la fila actual (__CURRENT ROW__) dentro de la partición. Esta función se define como lag(), y acepta los siguientes parámetros:

In [None]:
lag ( expression [, offset] [, default] );

>__expression__  
>cualquier valor a evaluar excepto funciones analíticas(por ejemplo, una columna de una tabla, una función escalar, etc.).
>
>__offset(opcional)__  
indica la posición de la fila previa a la que se va a acceder desde la fila actual en la partición. Por ejemplo, un valor de 3 indica que se va a acceder a la tercera fila previa a la fila actual. Si se omite, por defecto se asigna un valor 1 (la fila anterior).
>
>__default(opcional)__  
>el valor por defecto a asignar en el caso de que la fila a acceder esté fuera de los límites permitidos. Si se omite, por defecto se asigna un valor NULL.

__Ejemplo de utilización de lag()__  
Para el siguiente ejemplo, se pide obtener un listado de alumnos (nombre y apellidos), con su edad, y la edad del alumno que se encuentra dos posiciones por detrás, suponiendo que los alumnos están ordenados de forma alfabética ascendente. En el caso de que no exista información acerca de alumnos previos, se indicará con un valor por defecto de -1.


In [83]:
SELECT
    nombre_apellido,
    edad,
    LAG(edad, 2, -1)
        OVER (ORDER BY nombre_apellido ASC) AS edad_anterior
FROM
    teoria.alumno
ORDER BY
    nombre_apellido ASC,
    edad_anterior ASC

12 row(s) returned.


nombre_apellido,edad,edad_anterior
Alejandra Martinez,18,-1
Elena rodriguez,22,-1
Felisa Sanchez,25,18
Fernando Nadal,21,22
José Maria Llopis,18,25
José Pérez,25,21
Manuel Vazques,24,18
Marina rodriguez,19,25
Victor Anllada,23,24
Victoria Setán,23,19


> los dos primeros alumnos (Alejandra Martínez y Elena Rodríguez) no tienen alumnos en dos posiciones previas alfabéticamente, por lo que se asigna el valor por defecto especificado en la función (-1). 
>
>En cambio, el alumno Felisa Sánchez tiene una EDAD_ANTERIOR = 18, que es la edad del alumno dos posiciones atrás en orden alfabético (esto es, Alejandra Martínez).
>
>Podemos observar en este ejemplo que, a diferencia de los otros expuestos hasta este mo- mento, no se ha utilizado la cláusula PARTITION BY. Esto es así porque sobre la base del requisito especificado, todo el conjunto de datos de la tabla de alumnos es considerado como una única partición.

### 3.4.5. Lead
Al contrario que la función lag(), esta función permite acceder a la información almacenada en alguna de las filas posteriores a la fila actual dentro de la partición. Esta función se define como lead(), y acepta los siguientes pa- rámetros:

In [None]:
lead ( expression [, offset] [, default] );

>__expression__  
>cualquier valor a evaluar excepto funciones analíticas(por ejemplo, una columna de una tabla, una función escalar, etc.).
>
>__offset(opcional)__  
indicalaposicióndelafilaposterioralaqueseva a acceder desde la fila actual en la partición. Por ejemplo, un valor de 3 indica que se va a acceder a la tercera fila posterior a la fila actual. Si se omite, por defecto se asigna un valor 1 (la fila siguiente).
>
>__default(opcional)__  
el valor por defecto a asignar en el caso de que la fila a acceder esté fuera de los límites permitidos. Si se omite, por defecto se asigna un valor NULL.

__Ejemplo de utilización de lead()__  
En este ejemplo, utilizaremos el mismo criterio que en el ejemplo utilizado para la fun- ción lag(), pero en lugar de ser dos posiciones previas, serán dos posiciones posteriores y con el mismo valor por defecto.

In [84]:
SELECT 
    nombre_apellido,
    edad,
    LEAD(edad, 2, -1) OVER
        (ORDER BY nombre_apellido ASC) AS edad_posterior
FROM
    teoria.alumno
ORDER BY
    nombre_apellido ASC,
    edad_posterior ASC

12 row(s) returned.


nombre_apellido,edad,edad_posterior
Alejandra Martinez,18,25
Elena rodriguez,22,21
Felisa Sanchez,25,18
Fernando Nadal,21,25
José Maria Llopis,18,24
José Pérez,25,19
Manuel Vazques,24,23
Marina rodriguez,19,23
Victor Anllada,23,20
Victoria Setán,23,18


Ambas funciones __lag()__ y __lead()__ nos sirven para acceder a datos en diferentes posiciones dentro de la partición especificada sin necesidad de realizar operaciones de combinación (JOIN) con la misma tabla.

### 3.4.6. First value
Esta función devuelve el valor de una expresión asociado a la primera fila del marco definido en la consulta. Esta función se define como first_value(), y contiene el siguiente parámetro:

In [None]:
first_vakue ( expression );

>__expression__  
>cualquier valor a evaluar excepto funciones a nalíticas(por ejemplo, una columna de una tabla, una función escalar, etc.).

__Ejemplo de utilización de first_value()__  
Supongamos que tenemos que calcular para cada alumno la cantidad de libros máxima de entre todos los alumnos de cada ciudad, y calcular la diferencia entre ese valor y el valor de cada uno de los alumnos. Esta consulta podríamos crearla de la siguiente manera:

In [85]:
SELECT 
    ciudad,
    nombre_apellido,
    num_libros,
    FIRST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC
            RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS prim_valor,
    FIRST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC
            RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) - num_libros AS diff
FROM
     teoria.alumno
ORDER BY
    ciudad ASC,
    num_libros DESC

12 row(s) returned.


ciudad,nombre_apellido,num_libros,prim_valor,diff
Barcelona,Alejandra Martinez,11,11,0
Barcelona,Manuel Vazques,10,11,1
Barcelona,Elena rodriguez,6,11,5
Barcelona,José Pérez,4,11,7
Lleida,Victor Anllada,7,7,0
Lleida,Wenceslao Fernandez,6,7,1
Lleida,Felisa Sanchez,5,7,2
Lleida,José Maria Llopis,5,7,2
Lleida,Victoria Setán,5,7,2
Tarragona,Marina rodriguez,9,9,0


La columna Primer Valor calcula el número de libros máximo para Barcelona (la columna Ciudad define la partición). Podemos ver cómo este valor se repite para cada alumno en Barcelona. En la segunda columna Diferencia, vemos que se calcula la diferencia entre la columna Primer Valor y el número de libros que dicho alumno tiene.

Fijaos que, al contrario que los demás ejemplos propuestos hasta este momento, hemos especificado en la consulta la cláusula RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING, que define el marco de la partición para cada fila actual (CU- RRENT ROW). Aunque el resultado de la consulta para FIRST_VALUE sería el mismo si en este caso no se especificara (ya que el marco estaría definido por RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW, que es el valor por defecto en el caso de omisión para PostgreSQL), es muy importante destacar que en otros casos, si se omite, nos proporcionaría unos resultados incorrectos.

### 3.4.7. Last value
Esta función devuelve el valor de una expresión asociado a la última fila del marco definido en la consulta. Esta función se define como last_value(), y contiene el siguiente parámetro:

In [None]:
last_value( expression );

__expression__  
cualquier valor a evaluar excepto funciones analíticas (por ejemplo, una columna de una tabla, una función escalar, etc.).

__Ejemplo de utilización de last_value()__  
Supongamos que tenemos un requisito similar al ejemplo propuesto para first_value(), esto es, calcular para cada alumno la cantidad de libros mínima de en- tre todos los alumnos de cada ciudad, y calcular la diferencia entre ese valor y el valor de cada uno de los alumnos. En lugar de calcular la cantidad de libros máxima, se requiere calcular la cantidad de libros mínima. Esta consulta podríamos crearla de la siguiente manera:

In [86]:
SELECT 
    ciudad,
    nombre_apellido,
    num_libros,
    LAST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC
            RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS ult_valor, 
    num_libros - 
    LAST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC
            RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS diff
FROM
     teoria.alumno
ORDER BY
    ciudad ASC,
    num_libros DESC

12 row(s) returned.


ciudad,nombre_apellido,num_libros,ult_valor,diff
Barcelona,Alejandra Martinez,11,4,7
Barcelona,Manuel Vazques,10,4,6
Barcelona,Elena rodriguez,6,4,2
Barcelona,José Pérez,4,4,0
Lleida,Victor Anllada,7,5,2
Lleida,Wenceslao Fernandez,6,5,1
Lleida,Felisa Sanchez,5,5,0
Lleida,José Maria Llopis,5,5,0
Lleida,Victoria Setán,5,5,0
Tarragona,Marina rodriguez,9,6,3


En esta función es muy importante especificar la cláusula de marco.  
La razón principal es porque PostgreSQL establece un marco por defecto __RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW__. Si no se especificase esta cláusula, el valor de __Último Valor__ sería el valor mínimo encontrado desde el inicio de la partición hasta la fila actual. Veamos cómo serían los resultados en el caso de que no se especificase:

In [66]:
SELECT 
    ciudad,
    nombre_apellido,
    num_libros,
    LAST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC) AS ult_valor, 
    num_libros - 
    LAST_VALUE(num_libros) OVER
        (PARTITION BY ciudad ORDER BY num_libros DESC) AS diff
FROM
     teoria.alumno
ORDER BY
    ciudad ASC,
    num_libros DESC

12 row(s) returned.


ciudad,nombre_apellido,num_libros,ult_valor,diff
Barcelona,Alejandra Martinez,11,11,0
Barcelona,Manuel Vazques,10,10,0
Barcelona,Elena rodriguez,6,6,0
Barcelona,José Pérez,4,4,0
Lleida,Victor Anllada,7,7,0
Lleida,Wenceslao Fernandez,6,6,0
Lleida,Felisa Sanchez,5,5,0
Lleida,José Maria Llopis,5,5,0
Lleida,Victoria Setán,5,5,0
Tarragona,Marina rodriguez,9,9,0


no son los que deseábamos. Ved que Último Valor tiene el valor mínimo encontrado para cada ciudad desde el inicio de la partición hasta la fila actual, y no hasta el fin de la partición.

## 3.5. Uso de funciones de agregación como funciones analíticas
Además de las funciones analíticas explicadas anteriormente, PostgreSQL permite la utilización de funciones de agregación (como SUM, AVG o COUNT, entre otras) como funciones analíticas, tal y como se ha visto en alguno de los ejemplos vistos. En estos casos, la función se encarga de agregar las filas dentro del marco definido en la consulta.

Mediante el uso de funciones de agregación como funciones analíticas podemos solucionar problemas con alta complejidad de cálculo de manera más simple. Por ejemplo, podemos proporcionar solución a la necesidad de realizar sumas acumulativas. Veamos un ejemplo para clarificar este caso.

__Ejemplo de suma acumulativa utilizando SUM como función analítica__
>Supongamos que queremos obtener un listado de nombres de alumnos, el número de asignaturas en las que se han matriculado, y la suma acumulativa de las asignaturas de cada alumno, ordenada por nombre de alumno. Esta consulta se crearía de la siguiente manera:

In [87]:
SELECT
    nombre_apellido,
    num_asignaturas,
    SUM(num_asignaturas) OVER (ORDER BY nombre_apellido ASC
                               RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS suma_acumulativa
FROM
    teoria.alumno
ORDER BY
    nombre_apellido ASC

12 row(s) returned.


nombre_apellido,num_asignaturas,suma_acumulativa
Alejandra Martinez,4,4
Elena rodriguez,3,7
Felisa Sanchez,2,9
Fernando Nadal,5,14
José Maria Llopis,4,18
José Pérez,9,27
Manuel Vazques,7,34
Marina rodriguez,4,38
Victor Anllada,7,45
Victoria Setán,2,47


Ved que lo que se obtiene es la suma de los elementos dentro del marco definido, que engloba desde la primera fila de la partición (que es toda la tabla) hasta la fila actual que se procesa.

En estos casos, tenemos que tener cuidado de definir el marco de forma correcta. Si el marco se omite, por defecto se asume un marco __RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW__, que para el caso que hemos visto sería lo mismo. En cambio, si el marco se define diferente, podríamos obtener resultados que no son los esperados. La siguiente consulta realiza la suma acumulativa de asignaturas, con la diferencia de que el marco se ha definido desde el inicio hasta el fin de la partición (que es toda la tabla).

In [89]:
SELECT
    nombre_apellido,
    num_asignaturas,
    SUM(num_asignaturas) OVER (ORDER BY nombre_apellido ASC
    RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS suma_acumulativa
FROM
    teoria.alumno
ORDER BY
    nombre_apellido ASC

12 row(s) returned.


nombre_apellido,num_asignaturas,suma_acumulativa
Alejandra Martinez,4,56
Elena rodriguez,3,56
Felisa Sanchez,2,56
Fernando Nadal,5,56
José Maria Llopis,4,56
José Pérez,9,56
Manuel Vazques,7,56
Marina rodriguez,4,56
Victor Anllada,7,56
Victoria Setán,2,56
