# Clase 3: SQL Avanzado

<a id="section_toc"></a> 
## Tabla de Contenidos

[1. `CASE`](#case)

[2. Subconsultas](#2-subconsultas)

[3. Consultas correlacionadas](#correlated)

[4. CTEs (Common Table Expressions)](#CTEs)
 

In [1]:
# Importa la extensión de JupySQL
%load_ext sql

# Conéctate a PostgreSQL usando psycopg2
%sql postgresql://postgres:1234@localhost:5432/gtfs

<a id="case"></a> 

# 1. `CASE`

Las sentencias `CASE` en SQL nos permiten definir diferentes resultados basados en diferentes condiciones. Son como las sentencias "if-then-else" en otros lenguajes de programación. La sintaxis básica de una sentencia CASE es la siguiente:

```sql
CASE
    WHEN condición1 THEN resultado1
    WHEN condición2 THEN resultado2
    ELSE resultado_por_defecto
END
```

Por ejemplo, podemos usar una sentencia CASE para clasificar los resultados de una consulta. Digamos que tenemos una tabla llamada usuarios con una columna edad. Podríamos usar una sentencia CASE para clasificar a los usuarios en diferentes grupos de edad:

```sql
SELECT
    nombre,
    edad,
    CASE
        WHEN edad < 18 THEN 'Menor'
        WHEN edad BETWEEN 18 AND 65 THEN 'Adulto'
        ELSE 'Jubilado'
    END AS grupo_edad
FROM
    usuarios;
```

Las sentencias CASE también se pueden usar con funciones agregadas como COUNT, SUM y AVG. Por ejemplo, podemos usar una sentencia CASE para contar el número de usuarios en cada grupo de edad:


```sql
SELECT
    COUNT(CASE WHEN edad < 18 THEN 1 END) AS menores,
    COUNT(CASE WHEN edad BETWEEN 18 AND 65 THEN 1 END) AS adultos,
    COUNT(CASE WHEN edad > 65 THEN 1 END) AS jubilados
FROM
    usuarios;
```

Estos son solo algunos ejemplos básicos de cómo se pueden usar las sentencias CASE en SQL con PostgreSQL. Las sentencias CASE son una herramienta muy versátil que se puede utilizar para una variedad de propósitos.

**Ejemplos con una base de datos GTFS Static de colectivos**:


1). Clasificar los viajes por IDA y VUELTA:

In [20]:
%%sql
SELECT
    trip_id,
    trip_short_name,
    CASE WHEN direction_id = 0 THEN 'IDA'
         WHEN direction_id = 1 THEN 'VUELTA'
         ELSE NULL
         END AS direccion

from static.trips

trip_id,trip_short_name,direccion
1-1,740G,IDA
2-1,740G,VUELTA
3-1,740H,IDA
4-1,740H,VUELTA
5-1,740I,IDA
6-1,740I,VUELTA
7-1,740J,IDA
8-1,740J,VUELTA
9-1,740K,IDA
10-1,740L,IDA


2). Contar la cantidad de viajes a Pilar y a Escobar

In [21]:
%%sql

SELECT 
    COUNT(CASE WHEN lower(trip_headsign) like '%pilar%' THEN 1 ELSE NULL END) as viajes_a_pilar,
    COUNT(CASE WHEN lower(trip_headsign) like '%escobar%' THEN 1 ELSE NULL END) as viajes_a_escobar

from static.trips


viajes_a_pilar,viajes_a_escobar
5143,2382


3). Contar la cantidad de viajes a Pilar y a Escobar totales y de ida solamente

In [22]:
%%sql

SELECT 
    COUNT(CASE WHEN lower(trip_headsign) LIKE '%pilar%' THEN 1 ELSE NULL END) as viajes_a_pilar_total,

    COUNT(CASE WHEN lower(trip_headsign) LIKE '%escobar%' THEN 1 ELSE NULL END) as viajes_a_escobar_total,
    COUNT(CASE WHEN lower(trip_headsign) LIKE '%pilar%' AND direction_id = 0 THEN 1 ELSE NULL END) as viajes_a_pilar_ida,
    COUNT(CASE WHEN lower(trip_headsign) LIKE '%escobar%' AND direction_id = 0 THEN 1 ELSE NULL END) as viajes_a_escobar_ida

from static.trips

viajes_a_pilar_total,viajes_a_escobar_total,viajes_a_pilar_ida,viajes_a_escobar_ida
5143,2382,2436,2197


# 2. Subconsultas

## ¿Qué es una subconsulta?

Una subconsulta es una consulta anidada dentro de otra consulta. Esencialmente, es una consulta que se ejecuta dentro de otra consulta.

La sintaxis básica de una subconsulta es la siguiente:

```sql
SELECT columna
FROM (SELECT columna
      FROM tabla) AS subconsulta;
```

Las subconsultas son útiles para realizar transformaciones intermedias de datos. Esto significa que puedes usar una subconsulta para manipular o filtrar datos antes de que se utilicen en la consulta principal.

### ¿Qué se puede hacer con las subconsultas?

Las subconsultas pueden aparecer en diferentes partes de una consulta SQL, incluyendo:

* `SELECT`: Para calcular valores o realizar comparaciones.

* `FROM`: Para tratar el resultado de una subconsulta como una tabla.

* `WHERE`: Para filtrar datos basándose en el resultado de una subconsulta.

* `GROUP BY`: También se pueden usar en el `HAVING` para filtrar dtos después de la agrupación.

Las subconsultas pueden devolver diferentes tipos de información:

* Cantidades escalares: Un solo valor, como un número o una cadena. Ejemplo: 3.14159, -2, 0.001.

* Listas: Un conjunto de valores. Se utilizan típicamente con el operador IN. Ejemplo: id IN (12, 25, 392, 401, 939).

* Tablas: Un conjunto de filas y columnas, similar a una tabla normal. Esto es especialmente útil en la cláusula FROM.

### ¿Por qué usar subconsultas?

* **Comparar grupos con valores resumidos**: Permiten comparar datos de un grupo específico con valores agregados o resumidos de un conjunto de datos mayor.

  * Ejemplo: Comparar el rendimiento de un equipo de fútbol con el rendimiento promedio de la liga en un año determinado.

* **Reformatear datos (Reshaping)**: Se pueden usar para transformar la estructura de los datos.

  * Ejemplo: Calcular el promedio mensual más alto de goles marcados en una liga de fútbol.

* **Combinar datos que no se pueden unir directamente**: En situaciones donde una unión (JOIN) no es posible o es compleja, una subconsulta puede ser una solución.

  * Ejemplo: Obtener los nombres de los equipos local y visitante en una tabla de resultados de partidos, donde la tabla original solo contiene los IDs de los equipos. Se usarían subconsultas para buscar los nombres de los equipos basándose en sus IDs.

En resumen, las subconsultas son una herramienta poderosa en SQL que permite realizar operaciones complejas de manipulación y filtrado de datos. Su flexibilidad para ubicarse en diferentes partes de la consulta y la capacidad de retornar distintos tipos de datos las hacen muy versátiles. Sin embargo, es importante considerar el rendimiento, especialmente con subconsultas correlacionadas que se ejecutan repetidamente.

## 1). Subquery en `FROM`

Las subconsultas en la cláusula `FROM` se utilizan para crear lo que a menudo se denomina una "tabla derivada" o "tabla virtual". Es decir, el resultado de la subconsulta se trata como una tabla a la que se le puede dar un alias y luego utilizar en la consulta principal, tal como se haría con una tabla normal. Esto es muy útil para reestructurar, transformar y pre-filtrar datos antes de aplicar la lógica principal de la consulta.

Algunos casos de uso de las subconsultas en FROM:

* **Reestructurar y transformar datos**: Puedes utilizar subconsultas para cambiar la forma en que se organizan los datos. Un ejemplo común es transformar datos de un formato "largo" a uno "ancho".

* **Pre-filtrar datos**: Las subconsultas en FROM son ideales para filtrar datos antes de que se apliquen las operaciones principales de la consulta. Esto puede mejorar el rendimiento, ya que reduce la cantidad de datos que la consulta principal debe procesar.

* **Calcular agregados de agregados**: Sirve para aplicar una función de agregación al resultado de otra función de agregación

**Ejemplo de Subquery en `FROM`**

Se podría utilizar esta técnica para responder la pregunta: ¿Cuál es la distancia recorrida en cada viaje?

En la tabla SHAPES, se encuentra para cada "shape_id" la distancia recorrida en cada punto del viaje

In [6]:
%%sql
SELECT *
FROM static.shapes

shape_id,shape_pt_lat,shape_pt_lon,shape_pt_sequence,shape_dist_traveled
477,-34.70845,-58.51738,222,14705.0
477,-34.708492,-58.51754,223,14720.3
477,-34.708728,-58.518612,224,14821.5
477,-34.708947,-58.519522,225,14908.0
477,-34.708985,-58.519685,226,14923.5
477,-34.709265,-58.520737,227,15024.2
477,-34.709522,-58.52183,228,15127.7
477,-34.709643,-58.522247,229,15168.0
477,-34.709672,-58.522345,230,15177.5
477,-34.710295,-58.52299,231,15267.9


Con esta tabla, se podría calcular cuál es la distancia recorrida total en cada "shape_id" (recorrido)

In [4]:
%%sql
SELECT 
    shape_id,
    MAX(shape_dist_traveled) distancia_total_recorrida

FROM static.shapes

GROUP BY
    shape_id

shape_id,distancia_maxima_recorrida
1798,11738.0
1489,65742.0
1269,30325.0
652,23939.0
273,51914.0
1560,21118.0
51,16369.0
951,15845.0
70,19243.0
1898,28398.0


Luego, podríamos hacer una **subconsulta** con la tabla anterior para calcular cuál es la distancia máxima recorrida de cada uno de los viajes





























































































In [41]:
%%time
%%sql
SELECT
    t.trip_id,
    t.trip_short_name,
    t.direction_id,
    d.distancia_total_recorrida
    
FROM (
        SELECT 
            shape_id,
            MAX(shape_dist_traveled) as distancia_total_recorrida

        FROM static.shapes

        GROUP BY
            shape_id
    ) d

INNER JOIN static.trips t ON t.shape_id = d.shape_id

CPU times: user 66.3 ms, sys: 67.1 ms, total: 133 ms
Wall time: 636 ms


trip_id,trip_short_name,direction_id,distancia_maxima_recorrida
1-1,740G,0,4398.0
2-1,740G,1,3601.0
3-1,740H,0,9725.0
4-1,740H,1,9681.0
5-1,740I,0,9738.0
6-1,740I,1,9326.0
7-1,740J,0,5588.0
8-1,740J,1,5665.0
9-1,740K,0,16639.0
10-1,740L,0,7975.0


Estos resultados pueden ser perfectamente obtenidos sin una subconsulta con el siguiente código:

In [42]:
%%time
%%sql
SELECT
    t.trip_id,
    t.trip_short_name,
    t.direction_id,
    MAX(d.shape_dist_traveled) as distancia_total_recorrida
    
FROM static.shapes d

INNER JOIN static.trips t ON t.shape_id = d.shape_id

GROUP BY 
    t.trip_id,
    t.trip_short_name,
    t.direction_id

CPU times: user 62.7 ms, sys: 96.7 ms, total: 159 ms
Wall time: 1min 7s


trip_id,trip_short_name,direction_id,distancia_maxima_recorrida
100000-1,466HI0154,0,13635.0
10000-1,1215HI0024,0,17950.0
100001-1,466HI0155,0,13635.0
100002-1,466HI0156,0,13635.0
100003-1,466HI0157,0,13635.0
100004-1,466HI0158,0,13635.0
100005-1,466HI0159,0,13635.0
100006-1,466HI0160,0,13635.0
100007-1,466HI0161,0,13635.0
100008-1,466HI0162,0,13635.0


Sin embargo, este código corrió más lento que en el caso de la subconsulta:

Tiempo de ejecución con subquery:
```
CPU times: user 66.3 ms, sys: 67.1 ms, total: 133 ms
Wall time: 636 ms
```

Tiempo de ejecución sin Subquery
```
CPU times: user 62.7 ms, sys: 96.7 ms, total: 159 ms
Wall time: 1min 7s
```

La query con subconsulta es más rápida porque realiza la agregación (`MAX()`) antes de hacer el `JOIN`, lo que reduce el número de filas que deben combinarse. Al procesar y agrupar los datos previamente en la subconsulta, el `JOIN` se ejecuta sobre un conjunto de datos más pequeño y optimizado, lo que disminuye el tiempo de procesamiento en comparación con la otra query que primero realiza el `JOIN` y luego agrupa los datos, procesando más filas en esa etapa inicial.



**Ejemplo2 de Subquery en `FROM`: Agregación de agregación**

Siguiendo la lógica del ejemplo anterior, se podría utilizar la subconsulta para responder a la pregunta: ¿Cuál es el promedio de las distancias recorridas de los viajes?

In [47]:
%%sql
SELECT
    AVG(distancia_total_recorrida) AS promedio_distancias_recorridas
    
FROM (
        SELECT 
            shape_id,
            MAX(shape_dist_traveled) as distancia_total_recorrida

        FROM static.shapes

        GROUP BY
            shape_id
    ) 

promedio_distancias_recorridas
25030.504102096627


Respuesta: En promedio, los recorridos de los colectivos de la ciudad de buenos aires son de 25 km.

### 2). Subquery en `SELECT`

Las subconsultas en la cláusula `SELECT` se utilizan para devolver un único valor que se mostrará como una columna en el conjunto de resultados. A diferencia de las subconsultas en `FROM` que generan tablas virtuales, las subconsultas en `SELECT` deben devolver un solo valor escalar. Esto las hace ideales para:

* **Incluir valores agregados para compararlos con valores individuales**: Puedes usar una subconsulta para calcular un valor agregado (como un promedio, una suma, un máximo, etc.) y mostrarlo junto a los valores individuales de cada fila. Esto permite comparaciones directas entre un valor individual y una métrica agregada.

* **Realizar cálculos matemáticos**: Las subconsultas en SELECT pueden utilizarse para realizar cálculos basados en el resultado de la subconsulta. Por ejemplo, podrías calcular la desviación de un valor individual respecto al promedio.

**Ejemplo de subconsulta en `SELECT`**

¿Cuál es el desvío de la distancia recorrida de cada viaje?

In [51]:
%%sql

SELECT 
    shape_id,
    MAX(shape_dist_traveled) -    (
                                    SELECT 
                                        AVG(distancia_total_recorrida) 
                                    
                                    FROM (
                                            SELECT shape_id,
                                                    MAX(shape_dist_traveled) as distancia_total_recorrida
                                            FROM static.shapes
                                            GROUP BY shape_id
                                        )
                                    ) AS desvio_respecto_al_promedio_de_la_distancia_recorrida
    

FROM static.shapes

GROUP BY
    shape_id


shape_id,desvio_respecto_al_promedio_de_la_distancia_recorrida
1798,-13292.504102096627
1489,40711.49589790337
1269,5294.495897903373
652,-1091.504102096627
273,26883.495897903373
51,-8661.504102096627
1560,-3912.5041020966273
951,-9185.504102096627
1898,3367.4958979033727
70,-5787.504102096627


Respuesta: El "Recorrido" (shape id) 1898 es 3.3 km más largo que el promedio. El recorrido 70 es 5.7 km más corto que el promedio. 

### 3). Subqueries en `WHERE` 

Las subconsultas en la cláusula `WHERE` se utilizan para filtrar los resultados de la consulta principal basándose en los resultados de otra consulta (la subconsulta). La subconsulta en `WHERE` actúa como un predicado, es decir, una expresión que se evalúa como verdadera o falsa para cada fila de la tabla principal. Solo las filas que cumplen la condición especificada por la subconsulta se incluyen en el resultado final.

Tipos de subconsultas en `WHERE`:

* **Subconsultas escalares**: Devuelven un único valor. Se usan con operadores de comparación como `=`, `!=`, `>`, `<`, `>=`, `<=`.

* **Subconsultas de múltiples filas**: Devuelven varias filas. Requieren operadores especiales como:

    * `IN`: Verifica si un valor está presente en el conjunto de resultados de la subconsulta.

    * `NOT IN`: Verifica si un valor no está presente en el conjunto de resultados de la subconsulta.

    * `ANY`: Compara un valor con cada valor devuelto por la subconsulta. La condición se cumple si la comparación es verdadera para al menos un valor de la subconsulta.

    * `ALL`: Compara un valor con cada valor devuelto por la subconsulta. La condición se cumple si la comparación es verdadera para todos los valores de la subconsulta.

* **Subconsultas correlacionadas**: Se ejecutan para cada fila de la tabla externa. La subconsulta se "correlaciona" con la consulta externa, ya que hace referencia a una columna de la tabla externa. (Lo vemos en la siguiente sección)



**Ejemplo de Subconsulta escalar en `WHERE`**

¿Cuál es la ruta que tiene la descripción más larga?

In [57]:
%%sql
SELECT *
FROM static.routes
WHERE route_id = (SELECT route_id FROM static.routes ORDER BY LENGTH(route_desc) DESC LIMIT 1);

route_id,agency_id,route_short_name,route_long_name,route_desc,route_type
517,79,88N,JNAMBA088,N-Expreso x Autop. y Av. Gral Rojo - Pza. Miserere - Av. Brig. y Gral. J. M. de Rosas: N - Expreso x Autop.(Av. Brig. Gral. JM de Rosas),3


**Ejemplo de subconsulta con mútiples filas con `IN` en `WHERE`**

¿Qué viajes pasan por la avenida Santa Fe?

In [69]:
%%sql
SELECT DISTINCT trip_id
FROM static.stop_times
WHERE stop_id IN (
                    SELECT stop_id
                    FROM static.stops
                    WHERE LOWER(stop_name) LIKE '%santa fe%'
                 )


trip_id
102408-1
102409-1
102410-1
102411-1
102412-1
102413-1
102414-1
102415-1
102416-1
102417-1


<a id="correlated"></a>
 
# 3. Consultas correlacionadas

A diferencia de las subconsultas regulares que se ejecutan una sola vez, las subconsultas correlacionadas se ejecutan repetidamente, una vez por cada fila procesada por la consulta externa. Esto se debe a que la subconsulta correlacionada hace referencia a una columna de la consulta externa, lo que significa que su resultado depende de la fila actual que se está procesando en la consulta externa.

**Características principales**:

* **Dependencia de la consulta externa**: La subconsulta contiene una referencia a una columna de la tabla de la consulta externa. Esta referencia crea una dependencia, haciendo que la subconsulta se ejecute para cada fila de la consulta externa.

* **Ejecución repetida**: Para cada fila de la consulta externa, la subconsulta se ejecuta sustituyendo la referencia a la columna externa por el valor real de esa columna en la fila actual.

* **Mayor complejidad y posible impacto en el rendimiento**: Debido a su ejecución repetida, las subconsultas correlacionadas pueden ser más costosas en términos de rendimiento que las subconsultas regulares, especialmente al tratar con grandes conjuntos de datos. Sin embargo, ofrecen una gran flexibilidad para realizar comparaciones y cálculos complejos.

**Sintaxis general**:

```SQL
SELECT columna1, columna2, ...
FROM tabla1 t1
WHERE condicion (
    SELECT columnaX
    FROM tabla2 t2
    WHERE t1.columnaA = t2.columnaB -- Correlación
);
```

La cláusula `WHERE t1.columnaA = t2.columnaB` establece la correlación entre la consulta externa (tabla1) y la subconsulta (tabla2).

**Consideraciones de rendimiento**:

Como se mencionó, las subconsultas correlacionadas pueden ser menos eficientes. Si el rendimiento es crítico, evalúa alternativas como:

* **Uniones (`JOINs`)**: En muchos casos, un JOIN puede lograr el mismo resultado que una subconsulta correlacionada de manera más eficiente.

* **Expresiones de Tabla Comunes (CTEs)**: Las CTEs pueden mejorar la legibilidad y, a veces, el rendimiento al separar la lógica de la subconsulta en una definición de CTE (Se verán en la próxima sección)

Aunque las subconsultas correlacionadas pueden ser más complejas, proporcionan una herramienta valiosa para realizar consultas sofisticadas cuando otras técnicas no son suficientes. Úsalas con precaución, teniendo en cuenta su impacto en el rendimiento y buscando alternativas cuando sea posible.



**Ejemplo de Consulta Correlacionada**
¿Cuales osn los colectivos que andan a una velocidad mayor que la velocidad promedio de todos los vehiculos en la misma ruta (route_id) y en la misma fecha(start_date)

In [12]:
%%time
%%sql
SELECT p1.vehicle_id, p1.speed, p1.route_id, p1.start_date
FROM realtime.positions p1
WHERE route_id IN ('1391', '1392', '1393', '1394') 
AND p1.speed > (
    SELECT AVG(speed)
    FROM realtime.positions p2
    WHERE p1.route_id = p2.route_id
      AND p1.start_date = p2.start_date
);



CPU times: user 180 ms, sys: 2.59 ms, total: 182 ms
Wall time: 3.01 s


**Explicación**

1. Consulta externa:

```sql
SELECT p1.vehicle_id, p1.speed, p1.route_id, p1.start_date
FROM realtime.positions p1
```
Esta es la consulta principal que selecciona el vehicle_id, la speed, la route_id y la start_date de la tabla realtime.positions. El alias p1 se utiliza para referirse a esta tabla en la subconsulta.

2. Clausula `WHERE` para reducir el universo:

```sql
WHERE route_id IN ('1391', '1392', '1393', '1394') 
```

Esta consulta se hace para reducir el universo total de análisis a 4 rutas para que la query corra más rápido solamente. Pero se podría hacer para toda la tabla sacandola.

3. Subconsulta correlacionada

```sql
WHERE p1.speed > (
    SELECT AVG(speed)
    FROM realtime.positions p2
    WHERE p1.route_id = p2.route_id
      AND p1.start_date = p2.start_date
)
```
Esta subconsulta calcula la velocidad promedio (AVG(speed)) de los vehículos. El alias p2 se utiliza para referirse a la tabla realtime.positions dentro de la subconsulta.

**En resumen, la consulta funciona así**:

La consulta externa itera sobre cada fila de la tabla realtime.positions (alias p1).

Para cada fila de p1, la subconsulta calcula la velocidad promedio de los vehículos que tienen la misma route_id y start_date que la fila actual de p1.

La cláusula WHERE de la consulta externa compara la velocidad de la fila actual de p1 con la velocidad promedio calculada por la subconsulta. Si la velocidad de p1 es mayor que el promedio, la fila se incluye en el resultado final.

Ejemplo:

Supongamos que tienes estas filas en realtime.positions:

| vehicle_id | speed | route_id | start_date  |
|------------|-------|----------|-------------|
| 1          | 20    | A        | 2024-10-26  |
| 2          | 25    | A        | 2024-10-26  |
| 3          | 15    | A        | 2024-10-26  |
| 4          | 30    | B        | 2024-10-26  |
| 5          | 25    | B        | 2024-10-26  |


Para el vehicle_id = 1, la subconsulta calcularía el promedio de velocidades para la route_id = A y start_date = 2024-10-26, que es (20 + 25 + 15) / 3 = 20. Como la velocidad del vehículo 1 es 20 (no mayor que 20), esta fila no se incluiría en el resultado.

Para el vehicle_id = 2, la subconsulta calcularía el mismo promedio (20). Como la velocidad del vehículo 2 es 25 (mayor que 20), esta fila sí se incluiría en el resultado.

Y así sucesivamente para cada fila.


Esto podría calcularse perfectamente con un `JOIN` y en vez de usar consulta correlacionada

In [13]:
%%time
%%sql
SELECT p1.vehicle_id, p1.speed, p1.route_id, p1.start_date
FROM realtime.positions p1
INNER JOIN (
    SELECT route_id, start_date, AVG(speed) as avg_speed
    FROM realtime.positions 
    GROUP BY route_id, start_date
    ) p2 
        ON p1.route_id = p2.route_id
        AND p1.start_date = p2.start_date
        AND p1.speed > p2.avg_speed

WHERE p1.route_id IN ('1391', '1392', '1393', '1394')
;



CPU times: user 17.3 ms, sys: 0 ns, total: 17.3 ms
Wall time: 68.9 ms


Como se puede ver, hacerlo con un `JOIN` demoró `68.9 ms` en vez de `3.01 s`, es decir, es mucho más efciente. Para tener en cuenta:

**Subconsultas Simples**:

* **Independientes**: Se pueden ejecutar de forma independiente de la consulta principal. El resultado de la subconsulta se calcula una sola vez y luego se utiliza en la consulta principal.

* **Evaluación única**: Se evalúan solo una vez durante la ejecución de la consulta completa. Esto las hace generalmente más eficientes que las subconsultas correlacionadas.

**Subconsultas Correlacionadas**:

* **Dependientes**: Dependen de la consulta principal. La subconsulta se ejecuta repetidamente, una vez por cada fila procesada por la consulta externa.

* **Evaluación en bucles**: Se evalúan en bucles, ya que se ejecutan para cada fila de la consulta principal. Esto puede tener un impacto significativo en el rendimiento, especialmente con tablas grandes.

* **Rendimiento**: Suelen ralentizar la ejecución de la consulta debido a la evaluación repetida. Se debe considerar su uso cuidadosamente y evaluar alternativas como JOINs o CTEs cuando sea posible.

**En resumen**:

Las subconsultas simples son más eficientes porque se ejecutan una sola vez. Las subconsultas correlacionadas, aunque más flexibles para ciertos tipos de comparaciones, pueden ser menos eficientes debido a su ejecución repetida. La elección entre una subconsulta simple y una correlacionada depende de los requisitos específicos de la consulta y las consideraciones de rendimiento.



<a id="CTEs"></a> 

# 4. CTEs (Common Table Expressions)

Las CTEs (Common Table Expressions), o Expresiones de Tabla Comunes, son como tablas temporales que existen solo durante la ejecución de una consulta. Se definen utilizando la cláusula WITH y se pueden usar para simplificar consultas complejas, especialmente aquellas que involucran múltiples subconsultas.

**Ventajas de usar CTEs**:

* **Legibilidad**: Las CTEs permiten dividir una consulta compleja en partes más pequeñas y lógicas, haciendo que el código sea más fácil de leer y entender. Esto es especialmente útil cuando se trabaja con subconsultas anidadas o múltiples niveles de agregación.

* **Organización**: Las CTEs ayudan a organizar la lógica de la consulta al nombrar y definir subconsultas de forma separada. Esto facilita el seguimiento del flujo de datos y la comprensión de la estructura general de la consulta.

* **Reutilización**: Una CTE se puede referenciar varias veces dentro de la misma consulta. Esto evita la repetición de código y simplifica la lógica cuando la misma subconsulta se necesita en diferentes partes de la consulta principal.

* **Modularidad**: Al separar la lógica en CTEs, puedes crear módulos de consulta reutilizables que se pueden combinar en consultas más complejas.

* **Recursión (en algunos sistemas)**: Algunos sistemas de gestión de bases de datos (como PostgreSQL) permiten CTEs recursivas, que son útiles para trabajar con datos jerárquicos.

**sintaxis**
```sql
WITH NombreCTE AS (
    -- Definición de la subconsulta
    SELECT columna1, columna2, ...
    FROM tabla
    WHERE condicion
),
OtroNombreCTE AS (
    -- Definición de otra subconsulta, opcionalmente referenciando la CTE anterior
    SELECT columnaA, columnaB, ...
    FROM OtraTabla
    INNER JOIN NombreCTE ON condicion_join
)
SELECT ... -- Consulta principal que utiliza las CTEs
FROM NombreCTE
INNER JOIN OtroNombreCTE ON ...;
```

**Ejemplo:**

La query de la distancia promedio recorrida puede ser reescrita en CTES de la siguiente forma:

In [14]:
%%sql
WITH distancia_total AS (
    /*
    CTE para calcular la distancia recorrida de cada recorrido
    */
    SELECT 
        shape_id,
        MAX(shape_dist_traveled) as distancia_total_recorrida

    FROM static.shapes

    GROUP BY
        shape_id
)
SELECT
    AVG(distancia_total_recorrida) AS promedio_distancias_recorridas
    
FROM distancia_total

promedio_distancias_recorridas
25030.504102096627


**Ejemplo 2:**
El CTE para calcular el desvío de la distancia recorrida puede ser reescrito como: 

In [18]:
%%sql
WITH distancia_total AS (
    /*
    CTE para calcular la distancia recorrida de cada recorrido
    */
    SELECT 
        shape_id,
        MAX(shape_dist_traveled) as distancia_total_recorrida

    FROM static.shapes

    GROUP BY
        shape_id
),

distancia_promedio AS (
    /*
    CTE para calcular el promedio total de cada recorrido
    */

    SELECT
        AVG(distancia_total_recorrida) AS promedio_distancias_recorridas
        
    FROM distancia_total
)

SELECT
    shape_id,
    MAX(shape_dist_traveled) - (select promedio_distancias_recorridas from distancia_promedio) AS desvio_respecto_al_promedio_de_la_distancia_recorrida

FROM static.shapes 

GROUP BY 
    shape_id


shape_id,?column?
1798,-13292.504102096627
1489,40711.49589790337
1269,5294.495897903373
652,-1091.504102096627
273,26883.495897903373
51,-8661.504102096627
1560,-3912.5041020966273
951,-9185.504102096627
70,-5787.504102096627
1898,3367.4958979033727


### ¿Por qué usar CTEs?

Las Expresiones de Tabla Comunes (CTEs) ofrecen varias ventajas que las convierten en una herramienta valiosa para escribir consultas SQL más eficientes y fáciles de mantener. Aquí te explico las razones principales para usar CTEs, basándome en los puntos que proporcionaste:

* **Ejecución única**: Una CTE se ejecuta solo una vez, incluso si se referencia varias veces en la consulta principal. Esto contrasta con las subconsultas regulares, que pueden ejecutarse repetidamente, especialmente en el contexto de subconsultas correlacionadas. La ejecución única de las CTEs puede mejorar significativamente el rendimiento, especialmente en consultas complejas.

* **Almacenamiento en memoria**: El resultado de una CTE se almacena en memoria. Esto permite un acceso más rápido a los datos cuando la CTE se referencia varias veces en la consulta principal. Sin embargo, es importante tener en cuenta que el almacenamiento en memoria puede ser un factor limitante si la CTE genera un conjunto de resultados muy grande.

* **Mejora del rendimiento de la consulta**: La combinación de la ejecución única y el almacenamiento en memoria puede resultar en una mejora notable del rendimiento de la consulta, especialmente en comparación con consultas que utilizan múltiples subconsultas o subconsultas correlacionadas.

* **Mejora de la organización de las consultas**: Las CTEs permiten dividir consultas complejas en bloques lógicos más pequeños y nombrados. Esto hace que la consulta sea más legible, fácil de entender y más fácil de mantener. En lugar de tener una gran subconsulta anidada, puedes dividir la lógica en varias CTEs, cada una con un nombre descriptivo que indica su propósito.

* **Referenciar otras CTEs**: Puedes referenciar una CTE dentro de la definición de otra CTE. Esto permite construir la lógica de la consulta paso a paso, creando una estructura modular y jerárquica. Cada CTE puede representar una etapa intermedia en el procesamiento de datos, lo que facilita el seguimiento del flujo de datos y la depuración de errores.

* **Auto-referencia (SELF JOIN con CTEs)**: Aunque no es exactamente un SELF JOIN en el sentido tradicional, puedes referenciar una CTE dentro de sí misma. Esto se conoce como una CTE recursiva y es particularmente útil para trabajar con datos jerárquicos, como estructuras de árbol o grafos. Permite recorrer la jerarquía de datos de forma iterativa hasta que se cumpla una condición específica.