In [1]:
#NOTEBOOK SETUP FOR sql (esto tiene que ejecutarse una vez por notebook)
#load_ext sql
%reload_ext sql 
%sql mysql+mysqlconnector://root:root@localhost:3306/sakila

## Combinando Datos de Múltiples Tablas

Hasta ahora, nos hemos enfocado en consultar datos de una sola tabla. Sin embargo, la verdadera fuerza de las bases de datos relacionales está en cómo conectan la información a través de sus relaciones.

La normalización nos ayuda a diseñar estructuras eficientes y sin redundancias, dividiendo los datos en varias tablas relacionadas. Pero, a la hora de analizar o presentar información útil y especializada, muchas veces necesitamos "romper" esa normalización: combinamos datos de distintas tablas para obtener respuestas concretas y adaptadas a nuestras necesidades. Ahora vamos a aprender cómo reunir y transformar esos datos dispersos en resultados realmente valiosos.

Existen tres formas principales de combinar tablas en SQL, cada una asociada a una parte clave de la consulta:

- Usando `JOIN` en la cláusula `FROM` para unir tablas explícitamente.
- Utilizando tablas derivadas (tipo de subconsulta que ocurre solo en la cláusula `FROM`).
- Aplicando subconsultas en la cláusula `WHERE` para filtrar datos en función de otras tablas.

Cada método tiene su propósito y nos permite adaptar la consulta según la información que queremos obtener.

### `JOIN`: El Arte de Reunir Tablas



¡Llegamos a una de las partes más esenciales de SQL! Hasta ahora, hemos trabajado con datos de una sola tabla. Pero el modelo relacional de bases de datos está diseñado para distribuir la información en múltiples tablas relacionadas.

Por ejemplo, la información de un alquiler está en la tabla `rental`, pero el nombre del cliente que lo realizó está en la tabla `customer`. Solo se relacionan ambos porque la tabla `rental` contiene como campo el ID del cliente. ¿Cómo los juntamos? ¡Con la cláusula `JOIN`! (Y aprovechándonos su interrelación FK-PK).

> **Modelo Mental Simple:** Imagina que tienes dos mesas. Una mesa (`rental`) tiene información de alquileres, y cada fila dice qué cliente hizo el alquiler (con un número de cliente). La otra mesa (`customer`) tiene información de clientes, y cada fila dice el número del cliente y su nombre. `JOIN` es como tomar una fila de la primera mesa, encontrar la fila que coincide con ese número en la segunda mesa, ¡y pegarlas juntas para crear una nueva fila con toda la información combinada!

La cláusula `JOIN` nos permite combinar filas de dos o más tablas basándose en una condición relacionada entre ellas (generalmente, la igualdad entre una Clave Primaria de una tabla y una Clave Foránea de otra).

La sintaxis básica es:

```sql
SELECT columnas_que_quieres -- Podés usar columnas de ambas tablas
FROM tabla_izquierda AS alias_izquierda
-- Acá viene la cláusula JOIN
JOIN tabla_derecha AS alias_derecha
ON condicion_de_union; -- La condición para "pegar" las filas (ej: PK = FK)

> **NOTA**:
>
> A partir de este momento, usar aliases se recomienda debido a que todo se vuelve más enchastroso sino.
> Por ejemplo, porque muchas veces la Llave Foránea es igual en nombre a la Clave Primaria de la otra tabla.



Es importante explicar que, siguiendo la regla de conjuntos, SQL maneja distintos tipos de JOINs.


#### `INNER JOIN`: La Intersección (Solo Coincidencias)

`INNER JOIN` (o simplemente `JOIN`, ya que `INNER` es el tipo por defecto si no especificas otro) es el tipo más común. Devuelve únicamente las filas donde la condición ON se cumple en ambas tablas.

Es decir, si una fila en la tabla de la izquierda no tiene una fila coincidente en la derecha (basado en la condición `ON`), esa fila no se incluirá en el resultado. Lo mismo ocurre si una fila en la tabla de la derecha no tiene coincidencia en la izquierda.

In [10]:
%%sql
-- Consulta que muestra la fecha de alquiler y el nombre y apellido del cliente,
-- combinando datos de las tablas de alquileres y clientes a través del identificador de cliente.
-- Solo se muestran las primeras 3 coincidencias.
SELECT
    r.rental_date,
    c.first_name,
    c.last_name
FROM
    rental AS r 
INNER JOIN customer AS c 
ON r.customer_id = c.customer_id
LIMIT 3; 

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


rental_date,first_name,last_name
2005-05-24 22:53:30,CHARLOTTE,HUNTER
2005-05-24 22:54:33,TOMMY,COLLAZO
2005-05-24 23:03:39,MANUEL,MURRELL


Como se puede apreciar, la consulta rompe con la primera regla de normalización ya que el nombre y apellido se repetirán si el mismo cliente realizó más de un alquiler. Esto no importa ya que en este caso, queremos ver esa infromación.

#### `LEFT JOIN` (Outer): Incluyendo al Lado Izquierdo

`LEFT JOIN` (también llamado `LEFT OUTER JOIN`) devuelve todas las filas de la tabla de la izquierda y las filas que coinciden de la tabla de la derecha.

Si una fila de la izquierda no tiene una coincidencia en la derecha, igualmente se incluirá en el resultado, pero las columnas que vengan de la tabla de la derecha se rellenarán con `NULL`.

Este JOIN es ideal para encontrar información "faltante" o para asegurar que se liste todo lo de un lado, incluso si no tiene relación en el otro.

In [13]:
%%sql
-- Ejemplo: Quiero una lista de *todos* los clientes y, si tuvieron un alquiler, la fecha.
-- Si un cliente nunca alquiló, su nombre aparecerá, pero rental_date será NULL.
SELECT
    c.first_name,
    c.last_name,
    r.rental_date -- Esta columna puede ser NULL si no hay coincidencia
FROM
    customer AS c -- Nuestra tabla izquierda (queremos TODAS sus filas)
LEFT JOIN rental AS r -- Nuestra tabla derecha
ON c.customer_id = r.customer_id
ORDER BY c.last_name, c.first_name
LIMIT 5;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
5 rows affected.


first_name,last_name,rental_date
RAFAEL,ABNEY,2005-05-26 01:34:28
RAFAEL,ABNEY,2005-05-28 19:14:09
RAFAEL,ABNEY,2005-06-16 20:17:20
RAFAEL,ABNEY,2005-06-17 03:36:02
RAFAEL,ABNEY,2005-06-19 18:04:18


> Uso práctico: Para encontrar los clientes que nunca han alquilado nada, puedes usar un `LEFT JOIN` y filtrar 
> donde las columnas de la tabla de la derecha sean `NULL`.

In [2]:
%%sql
-- Ejemplo: Encontrar clientes que nunca han realizado un alquiler.
SELECT
    c.first_name,
    c.last_name
FROM
    customer AS c
LEFT JOIN rental AS r ON c.customer_id = r.customer_id
WHERE r.rental_id IS NULL;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
0 rows affected.


first_name,last_name


#### `RIGHT JOIN` (Outer): Incluyendo al Lado Derecho

`RIGHT JOIN` (o `RIGHT OUTER JOIN`) es simétrico a `LEFT JOIN`. Devuelve todas las filas de la tabla de la derecha y las filas que coinciden de la izquierda. Si una fila de la derecha no tiene coincidencia en la izquierda, las columnas de la tabla de la izquierda se rellenarán con NULL.

En la práctica, `RIGHT JOIN` es menos común porque la mayoría de las veces puedes simplemente reescribir la consulta como un `LEFT JOIN` intercambiando las tablas en el `FROM` y el `JOIN`, lo cual muchos encuentran más intuitivo de leer (ya que el flujo de lectura suele ser de izquierda a derecha).

In [4]:
%%sql
-- Ejemplo: Esencialmente el mismo resultado que el primer INNER JOIN,
-- pero si hubiera alquileres sin cliente (lo cual no debería pasar por la FK),
-- aparecerían aquí con los campos del cliente en NULL.

SELECT
    r.rental_date,
    c.first_name, -- Esta columna puede ser NULL si hay un alquiler sin cliente
    c.last_name   -- Esta columna puede ser NULL si hay un alquiler sin cliente
FROM
    customer AS c -- Nuestra tabla izquierda
RIGHT JOIN rental AS r -- Nuestra tabla derecha (queremos TODAS sus filas)
ON c.customer_id = r.customer_id
LIMIT 3;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


rental_date,first_name,last_name
2005-05-24 22:53:30,CHARLOTTE,HUNTER
2005-05-24 22:54:33,TOMMY,COLLAZO
2005-05-24 23:03:39,MANUEL,MURRELL


#### `FULL OUTER JOIN`: Concepto sin Soporte Directo

MySQL no soporta la sintaxis `FULL OUTER JOIN` directamente. Un `FULL OUTER JOIN` devolvería todas las filas de ambas tablas, rellenando con NULL donde no hay coincidencias en el otro lado. 

> **NOTA**:
>
> Se puede simular usando `UNION` entre un `LEFT JOIN` y un `RIGHT JOIN`.

#### Encadenando JOINs

Se pueden unir varias tablas en una sola consulta. Para ello, solo basta añadir más cláusulas `JOIN`.

Por ejemplo, si queremos ver la fecha de alquiler, el título de la película alquilada y el nombre del cliente que la alquiló:


In [7]:
%%sql
SELECT
    r.rental_id,
    r.rental_date,
    f.title,       -- Viene de la tabla film
    c.first_name,  -- Viene de la tabla customer
    c.last_name
FROM
    rental AS r
JOIN customer AS c ON r.customer_id = c.customer_id 
JOIN inventory AS i ON r.inventory_id = i.inventory_id
JOIN film AS f ON i.film_id = f.film_id 
LIMIT 3;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


rental_id,rental_date,title,first_name,last_name
1,2005-05-24 22:53:30,BLANKET BEVERLY,CHARLOTTE,HUNTER
2,2005-05-24 22:54:33,FREAKY POCUS,TOMMY,COLLAZO
3,2005-05-24 23:03:39,GRADUATE LORD,MANUEL,MURRELL


### Subconsultas: Consultas dentro de Consultas

Una subconsulta (o subquery) es una consulta `SELECT` completa anidada dentro de otra consulta. La idea principal es que la consulta interna se ejecuta primero, y su resultado es utilizado por la consulta externa.

Son extremadamente útiles para filtrar datos basándose en los resultados de otra pregunta. 

Se las clasificará de dos maneras.

- Por un lado, según que devuelvan: Una Lista, Una Tabla o Un Escalar.
- Por otro lado, si la subconsulta ocurre dentro de  la cláusula `WHERE` o `FROM` (En esta sección se exploran las que filtran con `WHERE`)


#### Subconsultas que Devuelven una Lista (Con `IN`)

El uso más común es con el operador `IN`. La subconsulta devuelve una lista de valores, y la consulta externa filtra sus filas para mantener solo aquellas que coinciden con algún valor de esa lista.

In [9]:
%%sql
-- Pregunta: "¿Cuáles son los títulos de las películas en las que actuó 'PENELOPE GUINESS'?"

-- Paso 1 (Subconsulta): Obtener el film_id de todas las películas de esa actriz.

-- Paso 2 (Consulta Externa): Obtener los títulos de las películas cuyo film_id ESTÉ EN esa lista.
SELECT title
FROM film
WHERE film_id IN (
    SELECT film_id
    FROM film_actor
    WHERE actor_id = (SELECT actor_id FROM actor WHERE first_name = 'PENELOPE' AND last_name = 'GUINESS')
)
LIMIT 3; 

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


title
ACADEMY DINOSAUR
ANACONDA CONFESSIONS
ANGELS LIFE


#### Subconsultas que Devuelven un Único Valor (Escalares)

Si estás seguro de que tu subconsulta devolverá exactamente una fila y una columna, puedes usarla en una comparación directa.

In [10]:
%%sql
-- Actividad: "Mostrame todas las películas cuyo costo de reemplazo es mayor que el promedio"

-- Paso 1 (Subconsulta): Calcular el costo de reemplazo promedio.
-- (SELECT AVG(replacement_cost) FROM film) -> Devuelve un solo valor: 19.98

-- Paso 2 (Consulta Externa): Filtrar las películas donde el costo es mayor que ese valor.
SELECT title, replacement_cost
FROM film
WHERE replacement_cost > (SELECT AVG(replacement_cost) FROM film)
LIMIT 3;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


title,replacement_cost
ACADEMY DINOSAUR,20.99
AFFAIR PREJUDICE,26.99
AFRICAN EGG,22.99


### Relaciones o Tablas Derivadas


Ya vimos las subconsultas en la cláusula `WHERE`. Ahora vamos a ver un tipo especial y muy potente de subconsulta: la que se usa en la cláusula `FROM` (y a veces `JOIN`). Cuando hacemos esto, la llamamos una Tabla Derivada (o Relación Derivada).

> **NOTA**:
> Si bien son un tipo específico de subconsulta, debido al énfasis que se le dio en la cursada se discutirá el concepto este a fondo en una sección aparte (por eso no se discutió en la anterior).



#### ¿Cuándo usar una Tabla Derivada?
Vienen joya cuando necesitas primero agregar o calcular algo y luego unir ese resultado con otra tabla.

Por ejemplo, imaginate que "*Quiero ver el nombre de cada cliente, y, al lado, la suma total que ha gastado*". 

¿Cómo hacemos?

- No podemos hacer `SUM(amount)` y mostrar `first_name` en la misma consulta simple sin usar`GROUP BY`. 
- Y si usamos `GROUP BY`, ¿cómo sumamos los pagos? 

La solución es una tabla derivada.

>    **La idea clave**: 
>Una Tabla Derivada te permite tratar el resultado de una consulta (llamada consulta interna) como si fuera una tabla real y temporal. Esto es bastante conveniente para realizar consultas sobre datos filtrados (llamadas consultas externas).

#### Ejemplo 1: Tabla Derivada como un Simple Filtro Previo

A veces queremos aplicar un filtro a un conjunto de datos *antes* de unirlo con otra tabla.

La tabla derivada es perfecta para esto.

In [4]:
%%sql
-- Objetivo: Obtener la dirección completa de los clientes que están en la tienda 1.

SELECT
    a.address,
    clientes_tienda_1.first_name,
    clientes_tienda_1.last_name
FROM
    address AS a
JOIN
    -- Tabla Derivada: Creamos una tabla temporal que contiene solo los clientes de la tienda 1.
    (
        SELECT customer_id, first_name, last_name
        FROM customer
        WHERE store_id = 1
    ) AS clientes_tienda_1 -- El alias es obligatorio.
ON
    a.address_id = clientes_tienda_1.customer_id
LIMIT 3;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


address,first_name,last_name
47 MySakila Drive,MARY,SMITH
28 MySQL Boulevard,PATRICIA,JOHNSON
23 Workhaven Lane,LINDA,WILLIAMS


> **NOTA**:
>
> Este ejemplo se puede leer así:
>
> 1. Primero consulto nombre y apellido de cada cliente (Lo que llamamos subconsulta, consulta interna o tabla derivada) y lo guardo en `clientes_tienda_1`
>
> 2. Luego, en esa tabla resultante y para cada cliente, uno sus direcciones de la tabla address usando como *pegamento* los ID.
> 
> 3. Sobre este resultado selecciono las columnas de dirección, nombre y apellido (Esta sería la consulta externa).

De esta forma, `clientes_tienda_1` actua como una versión pre-filtrada de la tabla `customer`.

> **NOTA**:
> 
> Este ejemplo no es tan fiel a consultas que uno haría en la práctica (era con fines pedagógicos) como los que siguen ya que esto se puede realizar solo con JOIN, sin subconsultas:
>```sql   
>    SELECT
>        a.address,
>        c.first_name
>    FROM
>        address AS a
>    JOIN
>        customer AS c ON a.address_id = c.customer_id -- Primero une
>    WHERE
>        c.store_id = 1; -- Y luego filtra el resultado
>```


#### Ejemplo 2: Tabla Derivada con Agregación (Caso de Uso coomún)

Este es el superpoder de las tablas derivadas. Nos permiten primero resumir y agregar datos en una tabla temporal, y luego usar ese resumen para enriquecer otra tabla.

In [5]:
%%sql
-- Objetivo: Ver el nombre de cada cliente y, al lado, la suma total que ha gastado.

SELECT
    c.first_name,
    c.last_name,
    gastos_por_cliente.total_gastado -- Usamos la columna calculada de nuestra tabla derivada
FROM
    customer AS c
JOIN
    -- Tabla Derivada: Creamos un resumen con el ID de cada cliente y su gasto total.
    (
        SELECT customer_id, SUM(amount) AS total_gastado
        FROM payment
        GROUP BY customer_id
    ) AS gastos_por_cliente
ON
    c.customer_id = gastos_por_cliente.customer_id
ORDER BY
    gastos_por_cliente.total_gastado DESC
LIMIT 5;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
5 rows affected.


first_name,last_name,total_gastado
KARL,SEAL,221.55
ELEANOR,HUNT,216.54
CLARA,SHAW,195.58
RHONDA,KENNEDY,194.61
MARION,SNYDER,194.61


Acá respondemos la pregunta que nos hicimos más arriba.

**Esto funciona así**: 

La tabla derivada `gastos_por_cliente` no existe en la base de datos. La creamos al vuelo. Primero, la consulta interna calcula el gasto total para cada `customer_id` y lo agrupa. Luego, la consulta externa une esta tabla temporal con la tabla `customer` para obtener los nombres, mostrando un resultado que sería imposible de lograr en un solo paso simple.

#### Ejemplo 3: Tabla Derivada con Múltiples Agregaciones

Podemos hacer que nuestra tabla derivada sea tan compleja como necesitemos, calculando varias métricas a la vez.

Por ejemplo, imaginemos que necesitamos 

"*mostrar el título de cada película junto con el número total de veces que fue alquilada y el ingreso total que generó*":

In [7]:
%%sql
SELECT
    f.title,
    resumen_alquiler.cantidad_alquileres,
    resumen_alquiler.ingresos_totales
FROM
    film AS f
JOIN
    -- Tabla Derivada: Generamos un resumen por película con dos métricas agregadas.
    (
        SELECT
            i.film_id,
            COUNT(r.rental_id) AS cantidad_alquileres,
            SUM(p.amount) AS ingresos_totales
        FROM rental r
        JOIN inventory i ON r.inventory_id = i.inventory_id
        JOIN payment p ON r.rental_id = p.rental_id
        GROUP BY i.film_id
    ) AS resumen_alquiler
ON
    f.film_id = resumen_alquiler.film_id
ORDER BY
    resumen_alquiler.ingresos_totales DESC
LIMIT 3;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
3 rows affected.


title,cantidad_alquileres,ingresos_totales
TELEGRAPH VOYAGE,27,231.73
WIFE TURN,31,223.69
ZORRO ARK,31,214.69


Este ejemplo muestra una tabla derivada más compleja que requiere `JOINs` dentro de ella para poder calcular el resumen. La tabla `resumen_alquiler` se construye primero, uniendo `rental`, `inventory` y `payment` para luego agrupar por `film_id` y calcular las dos métricas. Finalmente, esta tabla de resúmenes se une con la tabla film para obtener los títulos.

> **NOTA**:
> Ojo! Poner alias en la tabla resultante es obligatorio (cuando la consulta es interna).

#### Ejemplo 4: ¿Siempre hay un `JOIN` dentro del `FROM`?


¡No! Este es un punto crucial que los ejemplos anteriores no dejaron claro, así que por las dudas hagamos uno que no tenga `JOINs` (aunque es verdad que casi siempre uno utiliza tablas derivadas para eventualmente combinarlas en otra tabla).

Propongamos el siguiente ejemplo:

" *Quiero obtener un resumen de los gastos de clientes, pero no me interesan sus nombres. Solo las estadísticas generales* "




In [8]:
%%sql
SELECT
    -- La consulta externa solo opera sobre la tabla derivada. No hay JOINs.
    AVG(total_gastado) AS promedio_de_gasto_total,
    MAX(total_gastado) AS maximo_gasto_de_un_cliente,
    MIN(total_gastado) AS minimo_gasto_de_un_cliente
FROM
    -- Nuestra tabla derivada es la ÚNICA fuente de datos para la consulta externa.
    (
        SELECT customer_id, SUM(amount) AS total_gastado
        FROM payment
        GROUP BY customer_id
    ) AS gastos_por_cliente;

 * mysql+mysqlconnector://root:***@localhost:3306/sakila
1 rows affected.


promedio_de_gasto_total,maximo_gasto_de_un_cliente,minimo_gasto_de_un_cliente
112.53182,221.55,50.85


Como se puede observar, esta consulta tiene dos partes:

- **Consulta Interna o Subconsulta** (que da origen a la tabla derivada): Cuanto gastó cada cliente.
- **Consulta Externa**: El promedio, el máximo y el mínimo de lo que gastaron todos los clientes en total.

Es una manera para hacer agregaciones sobre agregaciones.


### El Orden Lógico de una Consulta: La Receta de SQL

Cuando escribimos una consulta `SELECT` con todas sus partes, puede parecer un poco desordenado. Sin embargo, el motor de la base de datos no la lee en el orden en que la escribimos. Sigue un **orden de ejecución lógico** muy estricto para procesar la solicitud.

Entender esta "receta" es la clave para comprender por qué ciertas cosas funcionan (como usar un alias del `SELECT` en el `ORDER BY`) y por qué otras no (como usarlo en el `WHERE`).

Acá está ese orden en que SQL procesa lógicamente una consulta. Pensalo como una línea de ensamblaje de datos:

| Paso | Cláusula | Propósito (¿Qué hace en este paso?) |
| :--: | :--- | :--- |
| **1** | **`FROM` / `JOIN`** | **Construir la fuente de datos:** Se identifican las tablas base y se unen para crear un gran conjunto de datos combinado con todas las filas y columnas posibles. |
| **2** | **`WHERE`** | **Filtrar las filas:** Se recorre el gran conjunto de datos del paso 1 y se descartan todas las filas que no cumplen con la condición especificada. |
| **3** | **`GROUP BY`** | **Agrupar las filas restantes:** Las filas que sobrevivieron al filtro `WHERE` se agrupan en "cestas" según los valores de las columnas especificadas. |
 |**3b**|**Agregaciones**| Internamente, el motor ahora puede calcular los valores de las funciones de agregación para cada grupo.|
| **4** | **`HAVING`** | **Filtrar los grupos:** Se inspeccionan las "cestas" creadas en el paso 3 y se descartan todos los grupos que no cumplen con la condición de agregación. |
| **5** | **`SELECT`** | **Seleccionar y calcular las columnas finales:** ¡Solo ahora se procesa la lista de `SELECT`! Se eligen las columnas a mostrar y se ejecutan las funciones o cálculos (`CONCAT`, `SUM`, `CASE`, etc.) sobre los grupos restantes. **Aquí es donde se crean los alias de las columnas.** |
| **6** | **`ORDER BY`** | **Ordenar el resultado final:** Las filas y columnas finales generadas en el paso 5 se ordenan según lo especificado. |
| **7** | **`LIMIT`** | **Limitar la salida:** Se toman las filas ya ordenadas del paso 6 y se descartan todas las que excedan el límite especificado. |

#### Implicaciones Prácticas de este Orden

Esta secuencia lógica explica algunos comportamientos clave de SQL:

- **_¿Por qué NO puedo usar un alias del `SELECT` en un `WHERE`?_**
- **_¿Por qué SÍ puedo usar un alias del `SELECT` en un `ORDER BY`?_**
