In [2]:
-- connection: postgres://postgres:1234@localhost:5433/pec4

# 2. Common table expression
Cuando generamos consultas SQL, existen situaciones en las que necesitamos realizar operaciones o cálculos sobre un conjunto de datos que no existen en el sistema de forma inherente, sino que estos han de ser obtenidos median- te agregaciones, combinaciones entre tablas, filtros y cálculos sobre los datos existentes.

Una forma de obtener este conjunto de datos es mediante el uso de vistas, con las que conseguimos dividir aquellas consultas complejas en partes más sencillas, encapsulando así el código que necesitamos para obtener el subconjunto de datos de las tablas maestras que necesitamos. 
>El problema de las vistas es que son objetos permanentes en el sistema, lo que puede resultar un inconveniente a la hora de crear consultas no planificadas. Por ejemplo, en un entorno de producción (entornos que suelen ser estrictos y restringidos a la hora de crear objetos en la BD). 

Otra solución que los SGBD nos proporcionan es la de generar subconsultas. 
>Sin embargo, estas tienen el problema de que dificultan la lectura del código y su mantenimiento, y nos obliga, en ciertas situaciones, a repetir el mismo código en más de una ocasión, debido a la imposibilidad de referenciar una subconsulta a lo largo de la consulta principal. 

Para solventar esta problemática, se han introducido las __`common table expression`__, que nos ofrecen una forma más sencilla y elegante de generar consultas que requieren de datos no inherentes en el sistema, y que estos puedan referenciarse de manera sencilla.

## 2.1. Concepto

> Las __`CTE`__ (del inglés common table expression) son una funcionalidad que proporciona SQL para simplificar y facilitar la construcción de consultas complejas. Las CTE se crean a partir de la cláusula `WITH`.

Las `CTE`, mediante el uso de la cláusula `WITH`, nos permiten 
* definir consultas auxiliares para su uso en consultas más complejas mediante una única declaración. 

Estas consultas auxiliares permiten «romper» dicha consulta compleja en consultas más pequeñas y legibles, además de permitir la reutilización de estas pequeñas consultas en más de una ocasión dentro de una misma consulta. Podríamos decir que estas consultas auxiliares tienen un comportamiento similar a la construcción de tablas temporales, ya que se trata de consultas cuyos datos resultantes, de alguna manera, se guardan de forma temporal por el SGBD y se descartan una vez que la consulta ha finalizado su ejecución.

__Ejemplo de consulta CTE__  
Supongamos que tenemos la siguiente tabla de empleados. La columna __`Id Supervisor`__ es el identificador de empleado que actúa como supervisor. En el caso de que el empleado no tenga un supervisor asignado, esto significa que el empleado es el director general de la empresa.

In [11]:
CREATE TABLE teoria.empleados(
    Id_empleado   numeric primary key,
    Nombre        varchar(50) not null,
    Ciudad        varchar(50) not null,
    Salario_anual numeric     not null,
    Id_supervisor numeric     
);

In [14]:
INSERT INTO teoria.empleados(Id_empleado, Nombre, Ciudad, Salario_anual, Id_supervisor)
VALUES('1', ' Manuel Vázquez', 'Barcelona', '23500', '7'),
      ('2','Elena Rodríguez','Tarragona','16000','1'),
      ('3','José Pérez','Girona','17000','1'),
      ('4','Alejandra Martínez','Barcelona','22500','7'),
      ('5','Marina Rodríguez','Villanova','12000','4'),
      ('6','Fernando Nadal','Viladecans','13000','4'),
      ('7','Victoria Suarez','Tarragona','31000','10'),
      ('8','Víctor Anllada','Lleida','28000','10'),
      ('9','José María Llopis','Barcelona','29000','10'),
      ('10','Victoria Setan','Castelldefels','45000',null),
      ('11','Manuel Bertrán','Barcelona','21000','9');

In [15]:
SELECT * FROM teoria.empleados;

11 row(s) returned.


id_empleado,nombre,ciudad,salario_anual,id_supervisor
1,Manuel Vázquez,Barcelona,23500,7.0
2,Elena Rodríguez,Tarragona,16000,1.0
3,José Pérez,Girona,17000,1.0
4,Alejandra Martínez,Barcelona,22500,7.0
5,Marina Rodríguez,Villanova,12000,4.0
6,Fernando Nadal,Viladecans,13000,4.0
7,Victoria Suarez,Tarragona,31000,10.0
8,Víctor Anllada,Lleida,28000,10.0
9,José María Llopis,Barcelona,29000,10.0
10,Victoria Setan,Castelldefels,45000,


Dado este conjunto de datos, queremos 
> * obtener un listado de todos los empleados (nombre y ciudad), 
> * la diferencia entre el salario máximo y el salario del empleado, 
> * la diferencia entre el salario mínimo y el salario del empleado, 
> * y la diferencia entre el salario medio y el salario del empleado, 
> * ordenado por el identificador de empleado ascendentemente. 

El cálculo de los salarios máximo, mínimo y medio debe realizarse excluyendo al director general.  
Esta consulta se podría implementar de la siguiente manera:

In [18]:
SELECT 
    e1.nombre,
    e1.ciudad,
    e1.Salario_anual - (SELECT MAX(e2.Salario_anual)
                        FROM teoria.empleados e2
                        WHERE e2.id_supervisor IS NOT NULL) AS diferencia_max,
    e1.Salario_anual - (SELECT MIN(e3.Salario_anual)
                        FROM teoria.empleados e3
                        WHERE e3.id_supervisor IS NOT NULL) AS diferencia_min,
    e1.Salario_anual - (SELECT AVG(e4.Salario_anual)
                        FROM teoria.empleados e4
                        WHERE e4.id_supervisor IS NOT NULL) AS diferencia_avg
FROM 
    teoria.empleados e1
ORDER BY
    e1.id_empleado

11 row(s) returned.


nombre,ciudad,diferencia_max,diferencia_min,diferencia_avg
Manuel Vázquez,Barcelona,-7500,11500,2200
Elena Rodríguez,Tarragona,-15000,4000,-5300
José Pérez,Girona,-14000,5000,-4300
Alejandra Martínez,Barcelona,-8500,10500,1200
Marina Rodríguez,Villanova,-19000,0,-9300
Fernando Nadal,Viladecans,-18000,1000,-8300
Victoria Suarez,Tarragona,0,19000,9700
Víctor Anllada,Lleida,-3000,16000,6700
José María Llopis,Barcelona,-2000,17000,7700
Victoria Setan,Castelldefels,14000,33000,23700


Como podemos ver, el código para obtener los salarios máximo, mínimo y medio es muy similar:   
>las tres subconsultas utilizan la misma tabla y la misma condición en la cláusula WHERE. 
>
>En cambio, la consulta repite el mismo código varias veces (tabla y condiciones impuestas) en diferentes partes. 
>* ¿Qué pasaría si ahora tuviésemos que eliminar la condición de no incluir al director general? 
>* ¿Qué pasaría si en lugar de excluir al director general debiésemos excluir también a los empleados de Barcelona?  

En estos casos, tendríamos que modificar el código hasta en tres sitios diferentes, lo que sería en cierto modo ineficiente y difícil de mantener.  

__Utilizando una consulta CTE construiríamos la consulta de la siguiente manera__. 
>Ver que toda la lógica de la consulta está escrita en un lugar en concreto mediante la cláusula `WITH` (como si fuese una tabla temporal denominada salarios), y que esta es luego referenciada para calcular las diferencias.  
>
>En el caso de que necesitemos modificar los criterios de selección de los salarios, bastaría con modificar la definición de la consulta auxiliar llamada salarios. 
>
>De esta forma, se simplifica el código y se facilita tanto la lectura de este como su mantenimiento, además de mejorar el rendimiento de la consulta debido a que salarios se evalúa una única vez.

In [21]:
WITH salarios AS (
    SELECT 
        MAX(salario_anual) AS max_salario,
        MIN(salario_anual) AS min_salario,
        AVG(salario_anual) AS avg_salario
    FROM
        teoria.empleados
    WHERE
        id_supervisor IS NOT NULL
)

SELECT
    nombre,
    ciudad,
    salario_anual - (SELECT max_salario FROM salarios) AS diferencia_max,
    salario_anual - (SELECT min_salario FROM salarios) AS diferencia_min,
    salario_anual - (SELECT avg_salario FROM salarios) AS diferencia_avg
FROM
    teoria.empleados
ORDER BY
    id_empleado

11 row(s) returned.


nombre,ciudad,diferencia_max,diferencia_min,diferencia_avg
Manuel Vázquez,Barcelona,-7500,11500,2200
Elena Rodríguez,Tarragona,-15000,4000,-5300
José Pérez,Girona,-14000,5000,-4300
Alejandra Martínez,Barcelona,-8500,10500,1200
Marina Rodríguez,Villanova,-19000,0,-9300
Fernando Nadal,Viladecans,-18000,1000,-8300
Victoria Suarez,Tarragona,0,19000,9700
Víctor Anllada,Lleida,-3000,16000,6700
José María Llopis,Barcelona,-2000,17000,7700
Victoria Setan,Castelldefels,14000,33000,23700


## 2.2. Beneficios del uso de CTE _common table expression_
> * Facilitar la legibilidad y mantenimiento del código: esta es una característica muy importante, ya que nos permite definir cálculos complejos una única vez, y ser reutilizados en diferentes puntos de una misma consulta.
>
> * Generar y reutilizar código de forma más eficiente: una de las propiedades de las CTE es que se evalúan una sola vez por ejecución, por lo que si la consulta principal debe utilizar un cálculo complejo en más de una ocasión, ganamos en eficiencia en la ejecución de las consultas.
>
> * Construir consultas recursivas: esta característica es de las más importantes, ya que nos permite utilizar SQL para, entre otros, construir jerarquías de datos y, en general, resolver problemas complejos que requieran de recursividad.

## 2.3. Construcción de CTE en PostgreSQL

In [None]:
WITH [RECURSIVE] alias_1 [ ( column_1, column_2, ... ) ] AS ( query_1 ),
     [RECURSIVE] alias_2 [ ( column_1, column_2, ... ) ] AS ( query_2 ),
     ...
     [RECURSIVE] alias_n [ ( column_1, column_2, ... ) ] AS ( query_n )
main_query

Se declaran las consultas auxiliares que queremos definir utilizando la cláusula WITH, cada una de ellas con un alias específico. 

Podremos definir tantas consultas auxiliares como sean necesarias, y estas pueden referenciarse unas a otras, siempre y cuando la consulta referenciada esté declarada antes que la consulta que referencia. Es decir, la consulta definida como __alias_n__ solamente puede hacer referencia a las consultas definidas anteriormente (desde alias_1 a alias_n-1). Por último, se define lo que denominamos consulta principal (main_query).

>En PostgreSQL, es importante destacar que las consultas definidas en el WITH solamente se ejecutarán si son referenciadas en la consulta principal. Además, tanto las consultas auxiliares definidas como parte de la cláusula WITH como la consulta principal (main_query) pueden ser tanto expresiones SELECT como expresiones DML _data manipulation language_ (INSERT, UPDATE o DELETE).

### 2.3.1. Consultas recursivas
La cláusula opcional __`RECURSIVE`__ se utiliza para indicar a PostgreSQL que se trata de una consulta recursiva, es decir, que la consulta definida mediante la cláusula WITH puede referenciarse a sí misma.

In [None]:
WITH RECURSIVE alias [(column_1, column_2, ...)] AS (
    non_recursive_term
    [UNION | UNION ALL]
    recursive_term
)

SELECT expression FROM alias

* 1) Declaración de la consulta recursiva mediante la cláusula RECURSIVE, un alias y, opcionalmente, una lista de columnas que corresponderán con la lista de columnas resultado de la consulta.

* 2) Declaración de la parte no recursiva (non_recursive_term), que nunca podrá referenciar a la consulta recursiva.

* 3) UNION o UNION ALL, dependiendo de las necesidades: con UNION elimina- mos los duplicados, con UNION ALL los mantenemos.

* 4) Declaración de la parte recursiva (recursive_term), que sí podrá referen- ciar a la consulta recursiva, y es la que nos permite realizar la recursión (iteración).


__Ejemplo de consulta recursiva: jerarquía de empleados__. 

Supongamos que queremos obtener, para cada uno de los empleados, la estructura jerárquica en la empresa desde el director general hasta el susodicho empleado; esto es, el nombre del director general, el nombre del subordinado, el nombre del siguiente subordinado, etc. y así hasta llegar al empleado en cuestión. Para facilitar el ejemplo, se muestra en la figura siguiente la jerarquía de los datos de empleado de los que disponemos en el ejemplo.

<img src="img2/2.png" width=550> 

> Queremos que el resultado de la consulta nos devuelva, para cada empleado, una columna con el siguiente formato:
>
> __`Director General <- Empleado Nivel 1 <- Empleado Nivel 2 <- ...`__
>
> Utilizando de ejemplo al empleado Manuel Vázquez (con identifi- cador 1), la jerarquía asociada sería la siguiente: 
> 
> __`Victoria Setan <- Victoia Suarez <- Manuel Vázquez`__

Realizar esta consulta mediante SQL y sin utilizar CTE supondría realizar dos operaciones de combinación (JOIN) sobre la tabla de empleados: 
>* la primera para obtener al superior de Manuel Vázquez (que es Victoria Suárez), y 
>* la segunda para obtener el superior de Victoria Suárez (que es Victoria Setan, director general). 

La solución a este tipo de consultas es el uso de consultas recursivas. Suponiendo que tenemos que presentar la jerarquía para todos los empleados de la empresa, la consulta que nos proporciona los resultados deseados sería la que se muestra a continuación:

In [36]:
SELECT * FROM teoria.empleados;

11 row(s) returned.


id_empleado,nombre,ciudad,salario_anual,id_supervisor
1,Manuel Vázquez,Barcelona,23500,7.0
2,Elena Rodríguez,Tarragona,16000,1.0
3,José Pérez,Girona,17000,1.0
4,Alejandra Martínez,Barcelona,22500,7.0
5,Marina Rodríguez,Villanova,12000,4.0
6,Fernando Nadal,Viladecans,13000,4.0
7,Victoria Suarez,Tarragona,31000,10.0
8,Víctor Anllada,Lleida,28000,10.0
9,José María Llopis,Barcelona,29000,10.0
10,Victoria Setan,Castelldefels,45000,


In [4]:
WITH RECURSIVE jerarquias AS(
    /*terminos no recursivos*/
    SELECT
        id_empleado,
        nombre,
        id_supervisor,
        CAST (nombre AS TEXT) AS resultado
          /*CAST para poder almacenar, en una columna denominada "resultado", 
          todos los datos de la jerarquía. El CAST se realiza como un tipo 
          de dato TEXT, ya que desconocemos la longitud máxima en número 
          de caracteres que el formato deseado nos va a ocupar. */
    FROM
        teoria.empleados
    WHERE
        id_supervisor IS NULL /*-->nos permite identificar al último empleado 
                                   de la jerarquía (el director general)*/
    UNION ALL                 /*--> evitar la eliminación de duplicados*/
    /*terminos recursivos*/
    SELECT
        e.id_empleado,
        e.nombre,
        e.id_supervisor,
        CAST (j.resultado || ' <- ' || e.nombre AS TEXT) AS resultado
    FROM
        teoria.empleados e 
            INNER JOIN jerarquias j 
                ON ( e.id_supervisor = j.id_empleado )
)

SELECT
    nombre,
    resultado
FROM
    jerarquias
ORDER BY
    resultado

11 row(s) returned.


nombre,resultado
Victoria Setan,Victoria Setan
José María Llopis,Victoria Setan <- José María Llopis
Manuel Bertrán,Victoria Setan <- José María Llopis <- Manuel Bertrán
Victoria Suarez,Victoria Setan <- Victoria Suarez
Manuel Vázquez,Victoria Setan <- Victoria Suarez <- Manuel Vázquez
Elena Rodríguez,Victoria Setan <- Victoria Suarez <- Manuel Vázquez <- Elena Rodríguez
José Pérez,Victoria Setan <- Victoria Suarez <- Manuel Vázquez <- José Pérez
Alejandra Martínez,Victoria Setan <- Victoria Suarez <- Alejandra Martínez
Fernando Nadal,Victoria Setan <- Victoria Suarez <- Alejandra Martínez <- Fernando Nadal
Marina Rodríguez,Victoria Setan <- Victoria Suarez <- Alejandra Martínez <- Marina Rodríguez


In [None]:
WITH RECURSIVE alias [(column_1, column_2, ...)] AS (
    non_recursive_term
    [UNION | UNION ALL]
    recursive_term
)

SELECT expression FROM alias

---
__EJEMPLO CONSULTA RECURSIVA__:
* Primero evaluamos  __`non_recursive_term`__. Estos datos se almacenan en dos lugares: 
>* __`tabla intermedia`__ espacio destinado a los resultados de la consulta WITH 
>* __`tabla de trabajo`__ 
Los resultados que contienen ambas tablas se pueden ver a continuación:

<img src="img2/3.png" width=550> 

<img src="img2/4.png" width=550> 

* A __continuacion__ se realizan los siguientes pasos de forma iterativa:

>__Iteración 1__   
>
>Evalúa __`recursive_term`__ sustituye la llamada a la consulta recursiva por los datos que se almacenan en __tabla de trabajo__. Lo que se obtine en esta parte de la iteración son los empleados que tienen como supervisor a aquellos empleados que existen en la tabla de trabajo.

<img src="img2/5.png" width=750> 

> Aplica cláusula __UNION ALL__   
> entre estos resultados y los existentes en la tabla intermedia, guardándolos en esta última. 
>
> Como último paso, se eliminan los datos de la tabla de trabajo y se añaden los obtenidos en este paso. Al finalizar esta iteración, la tabla intermedia y la de trabajo aparecen ahora con los siguientes datos:

<img src="img2/6.png" width=750> 

>__Iteración 2__  
> De nuevo se evalúa la parte recursiva, al igual que la iteración anterior, proporcionando los empleados que tienen como supervisor a Victoria Suárez, Víctor Anllada o José María Llopis, que son los empleados que aparecen ahora en la tabla de trabajo.

<img src="img2/7.png" width=750> 

> Se aplica de nuevo __UNION__
* etc.  
* etc.  

Cuando se trabaja con consultas recursivas, es muy importante asegurarse de que, en algún momento, la parte recursiva no devuelva ninguna fila o corremos el riesgo de que se entre en un bucle infinito.

__LIMIT N__  
Una forma que nos puede ayudar a probar consultas que puedan acabar en un bucle infinito es limitar los resultados de la consulta utilizando la cláusula LIMIT N (donde N es el número de filas que la consulta puede devolver), siempre y cuando los datos de la consulta principal no se ordenen o se combinen con datos de otras tablas.

__Ejemplo de bucle infinito en una consulta recursiva__  
Supongamos que, en lugar de especificar con un valor nulo la falta de un supervisor, esto se especifica mediante la asignación del identificador del propio empleado. De esta forma, el director general (Victoria Setan) tendría como identificador de supervisor su propio identificador de empleado. Por lo tanto, necesitamos cambiar nuestra consulta por la que se muestra a continuación:

In [59]:
WITH RECURSIVE jerarquias AS(
    SELECT
        id_empleado,
        nombre,
        id_supervisor,
        CAST (nombre AS TEXT) AS resultado
    FROM
        teoria.empleados
    WHERE
        id_supervisor = 7  /*-->nos permite identificar al último empleado 
                                de la jerarquía que queremos*/
    UNION ALL
    SELECT
        e.id_empleado,
        e.nombre,
        e.id_supervisor,
        CAST (j.resultado || ' <- ' || e.nombre AS TEXT) AS resultado
    FROM
        teoria.empleados e INNER JOIN jerarquias j 
            ON ( e.id_supervisor = j.id_empleado )
)
SELECT
    nombre,
    resultado
FROM
    jerarquias
ORDER BY 
    resultado

6 row(s) returned.


nombre,resultado
Manuel Vázquez,Manuel Vázquez
Elena Rodríguez,Manuel Vázquez <- Elena Rodríguez
José Pérez,Manuel Vázquez <- José Pérez
Alejandra Martínez,Alejandra Martínez
Fernando Nadal,Alejandra Martínez <- Fernando Nadal
Marina Rodríguez,Alejandra Martínez <- Marina Rodríguez


In [62]:
WITH RECURSIVE jerarquias AS(
    SELECT
        id_empleado,
        nombre,
        id_supervisor,
        CAST (nombre AS TEXT) AS resultado
    FROM
        teoria.empleados
    WHERE
        id_supervisor = 7  /*nos permite identificar al último empleado 
                             de la jerarquía que queremos*/
    UNION ALL
    SELECT
        e.id_empleado,
        e.nombre,
        e.id_supervisor,
        CAST (j.resultado || ' <- ' || e.nombre AS TEXT) AS resultado
    FROM
        teoria.empleados e INNER JOIN jerarquias j 
            ON ( e.id_supervisor = j.id_empleado )
)
SELECT
    nombre,
    resultado
FROM
    jerarquias
LIMIT 4      /*nos permite limitar los bucles, pudiendo ver lo que la consulta 
              está generando en la tabla intermedia.*/

4 row(s) returned.


nombre,resultado
Manuel Vázquez,Manuel Vázquez
Alejandra Martínez,Alejandra Martínez
Elena Rodríguez,Manuel Vázquez <- Elena Rodríguez
José Pérez,Manuel Vázquez <- José Pérez


### 2.3.2. Consultas CTE con sentencias de manipulación de datos
Las sentencias __`DML`__ que forman parte del WITH se ejecutan exactamente una única vez, y siempre hasta ser completadas, independientemente de que la consulta principal haga referencia a los datos devueltos. Esta funcionalidad es diferente a la especificada anteriormente cuando la consulta dentro del WITH es un SELECT, ya que este se ejecuta solamente si es llamado desde la consulta principal.

__Ejemplo de funcionamiento consulta CTE con INSERT y DELETE__
> * Queremos eliminar los empleados con identificador __2 y 3__ (Elena Rodríguez y José Pérez respectivamente) porque ya no trabajan en nuestra empresa, 
>* y moverlos a una tabla de histórico de empleados (__empleado_hist__). 
>
>Podemos pensar en realizar estas dos operaciones mediante dos sentencias SQL: 
>* la primera, una inserción de dichos empleados en la tabla de histórico, y 
>* la segunda, un borrado de estos empleados en la tabla maestra, ambas operaciones como parte de una transacción.

In [None]:
START TRANSACTION;

INSERT INTO empleado_hist
SELECT * FROM teoria.empleados WHERE id_empleado IN (2, 3);

DELETE FROM empleado WHERE id_empleado IN (2, 3);

COMMIT;

> Esta misma operación podríamos haberla hecho mediante una consulta CTE:  
> http://www.postgresql.org/docs/9.3/static/queries-with.html
>
> La definición de DELETE se encarga de eliminar los empleados que han causado baja, devolviendo estas filas eliminadas mediante la cláusula RETURNING *, que son las filas que se devuelven al evaluar empleados_baja. Estas filas devueltas son las que se utilizan para la inserción en empleado_hist.

In [None]:
WICH empleado_baja AS(
    DELETE
FROM
    teoria.empelados
WHERE
    id_empleado IN (2,3)
    RETURNING
)
INSERT INTO empleado_hist
    SELECT
        *
    FROM
        empleados_baja