# SQL con Python: JOIN

Hasta ahora hemos hecho queries sobre una única tabla, pero **¿y si queremos juntar datos de varias tablas?** Para eso están los JOINs. Para ello **necesitas tener uno o varios campos comunes entre ambas tablas, que se denominan CLAVES.** [como ya vimos en la lejana sesión inicial dedicada a bases de datos relacionales]

**¿Cuándo usarlos?** Por ejemplo, si tenemos una tabla con un conjunto de clientes y necesitamos añadirles campos nuevos, tendremos que acudir a otras tablas donde esté ese identificador de cliente y aplicar un JOIN. Es lo que se conoce como _pegar campos_ a otra tabla.

O imagina que tienes una tabla con todos tus pedidos, con muchos campos(ciudad, dirección, cliente…) y en otra tabla únicamente los números de pedido que no se llegaron a entregar. Si quieres filtrar dentro de tu tabla total de pedidos los que no se llegaron a entregar, podrías aplicar lo que se llama un **INNER JOIN** de manera que te quedes con lo común en ambas tablas, siendo tu clave el identificativo del pedido…

Veamos la teoría sobre los JOIN que existe, pero no te agobies con los nombres, no necesitas saber si estás haciend in inner, un outter o un left inner outter simpatetic join, lo que necesitas es saber como quieres juntar tus tablas y luego aplicar el concepto adecuado.

## Tipos de JOINS

Vamos a verlo primero con un ejemplo sencillo de dos tablas:

### Tabla 1: Empleados

| id_empleado | nombre   | id_departamento |
|-------------|----------|-----------------|
| 1           | Ana      | 10              |
| 2           | Carlos   | 20              |
| 3           | Diana    | 10              |
| 4           | Eduardo  | 30              |
| 5           | Luis     | -1              |

### Tabla 2: Departamentos

| id_departamento | nombre_departamento  |
|-----------------|----------------------|
| 10              | Marketing            |
| 20              | Ventas               |
| 30              | IT                   |
| 40              | Recursos Humanos     |

## Left (Outer) Join

1. Podemos hacerlo considerando únicamente la tabla_1 como directora es decir unimos a cada empleado los datos del departamento que corresponda con el id_departamento. El resultado sería:

| id_empleado | nombre   | id_departamento | nombre_departamento |
|-------------|----------|-----------------|----------------------|
| 1           | Ana      | 10              | Marketing            |
| 2           | Carlos   | 20              | Ventas               |
| 3           | Diana    | 10              | Marketing            |
| 4           | Eduardo  | 30              | IT                   |
| 5           | Luis     | -1              | NaN/Null             |

Hemos pegado el nombre del departamento correspondiente y a Luis un NaN o Null porque su departamento no existe en la tabla 2.

Bien a este JOIN en el que manda la tabla de la IZQUIERDA o primera tabla mencionada se le llama LEFT JOIN (que curioso verdad) y también LEFT OUTTER JOIN.

Su sintaxis en SQL sería algo como:


```sql
SELECT A.id_empleado, A.nombre, A.id_departamento,
       B.nombre_departamento
FROM Empleados AS A
LEFT JOIN Departamentos AS B
       ON A.id_departamento = B.id_departamento

## Right (outer) join

2. De igual manera, aunque quizás más contraintuitivo, podemos pegar a cada departamento los datos de los empleados que tengan igual id_departamento y NaN si no hay empleados en ese departamento. Quedaría así:

| id_empleado | nombre   | id_departamento | nombre_departamento  |
|-------------|----------|-----------------|----------------------|
| 1           | Ana      | 10              | Marketing            |
| 2           | Carlos   | 20              | Ventas               |
| 3           | Diana    | 10              | Marketing            |
| 4           | Eduardo  | 30              | IT                   |
| NaN         | NaN      | 40              | Recursos Humanos     |

Antes aparecían todos los elementos de la izquierda y no necesariamente todos los elementos de la derecha y ahora es al contrario: aparecen todos los elementos/filas de la tabla de la **derecha** y no todos los de la izquierda. Las tablas en ambos casos se completan con NaN/Nulls para los valores faltantes.

Es decir, aquí manda la tabla de la derecha. Es por eso que se denomina Right (outter) join.

```sql
SELECT A.id_empleado, A.nombre, A.id_departamento,
       B.nombre_departamento
FROM Empleados AS A
RIGHT JOIN Departamentos AS B
       ON A.id_departamento = B.id_departamento

## Inner Join

3. Un tercer caso, quizá más intuitivo que los dos anteriores, es quedarme solo con los datos de una y otra tabla que  
   en id en las dos. Es decir la intersección por id_departamento en este caso, y quedaría algo así como:

| id_empleado | nombre   | id_departamento | nombre_departamento |
|-------------|----------|-----------------|----------------------|
| 1           | Ana      | 10              | Marketing            |
| 2           | Carlos   | 20              | Ventas               |
| 3           | Diana    | 10              | Marketing            |
| 4           | Eduardo  | 30              | IT                   |

```sql
SELECT A.id_empleado, A.nombre, A.id_departamento, B.nombre_departamento 
FROM Empleados AS A
INNER JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento

## Full Outer Join

4. Igual que consigramos sólo las coincidencias podemos considerar unas y otras y hacer la  
unión de las salidas del left join y del right join:

| id_empleado | nombre    | id_departamento | nombre_departamento  |
|-------------|-----------|-----------------|----------------------|
| 1           | Ana       | 10              | Marketing            |
| 2           | Carlos    | 20              | Ventas               |
| 3           | Diana     | 10              | Marketing            |
| 4           | Eduardo   | 30              | IT                   |
| 5           | Luis      | -1              | NaN/Null             |
| NaN/Null    | Nan/Null  | 40              | Recursos Humanos     |

En esta tabla ya aparecen los empleados sin departamento y los departamentos sin empleados, eso sí con sus correspondientes campos a NaN.

La sintaxis es similar a las anteriores pero ahora usan FULL OUTTER JOIN:

```sql
SELECT A.id_empleado, A.nombre, A.id_departamento, B.nombre_departamento
FROM Empleados AS A
FULL OUTER JOIN Departamentos AS B
ON A.id_departamento = B.id_departamento

## Lo importante

Lo importante es lo que uno quiera hacer con las tablas:

- **Que tengo una tabla que "manda"** y quiero completarla en lo posible y con nulos si no hay datos en las otras tablas de las que quiero sacar información:  
  Necesitas un LEFT o un RIGHT JOIN dependiendo del orden en el que pongas la tabla "directora" (la que quieres completar). Si la pones en el FROM, entonces LEFT JOIN; si no, RIGHT JOIN.

- **Que quieres quedarte solo con las filas que no vayan a tener nulos**:  
  INNER JOIN (sólo te quedarás con las filas o información de una y otra tabla que coincidan, las que producen nulos se quitan).

- **Que quieres mezclar las dos tablas al completo** independientemente de donde se generen Nulos:  
  FULL JOIN.

## SQL con Python: JOIN Ejemplos (I)

Recuperemos nuestra base de datos de ventas online de música y juguemos con ella para ver un par de ejemplos del JOIN que más me gusta que es el LEFT, pero que sus matices aplican al resto.

## Preparación

Para poder trabajar los ejemplos necesitamos:
1. Importar los módulos necesarios
2. Conectar a la base de datos  
3. Crear el cursor
4. Recordar el modelo de datos de nuestra base de datos

Este último punto será necesario para entender qué tablas podemos cruzar (o sea hacer JOIN) entre sí para _pegar campos_. [Vamos a emplear una versión tuneada de la chinook original para que veas mejor el resultado de cada Join]

In [2]:
import pandas as pd
import sqlite3

ruta= "C:/Users/david/Downloads/chinook_joins.db"

# Conectamos con la base de datos chinook.db
connection = sqlite3.connect(ruta)

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_bootcamp = connection.cursor()

def sql_query(query):
    cursor_bootcamp.execute(query)
    ans = cursor_bootcamp.fetchall()
    names = [description[0] for description in cursor_bootcamp.description]
    return pd.DataFrame(ans, columns=names)

## Left Join (I)

Recuerda que este es el JOIN en el que manda la tabla de la **"izquierda"**, la que ponemos en el `FROM`. Es la tabla:
1. De la que queremos mantener **todas las filas**
2. A la que queremos pegarle campos de otra tabla
3. Donde si no hay cruce, los campos se rellenarán con nulos (`NULL` en SQL o `NaN` en Pandas)

In [3]:
# Uno bastante claro: Queremos pegar a las canciones el nombre del album al que pertenece.
# Manda la tabla de canciones (tracks)
# sobre el de álbumes (albums)
# Si te fijas en el modelo de datos la columna o clave de cruce es AlbumId (Foreing_Key)

query = '''
SELECT a.*, b.Title AS album_title
FROM tracks AS a
LEFT JOIN albums AS b
    ON a.AlbumId = b.AlbumId
'''

df_tracks_with_albums = sql_query(query)
df_tracks_with_albums

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice,album_title
0,1,For Those About To Rock (We Salute You),1,1,1,"Angus Young, Malcolm Young, Brian Johnson",343719,11170334,0.99,For Those About To Rock We Salute You
1,2,Balls to the Wall,2,2,1,,342562,5510424,0.99,Balls to the Wall
2,3,Fast As a Shark,3,2,1,"F. Baltes, S. Kaufman, U. Dirkscneider & W. Ho...",230619,3990994,0.99,Restless and Wild
3,4,Restless and Wild,3,2,1,"F. Baltes, R.A. Smith-Diesel, S. Kaufman, U. D...",252051,4331779,0.99,Restless and Wild
4,5,Princess of the Dawn,3,2,1,Deaffy & R.A. Smith-Diesel,375418,6290521,0.99,Restless and Wild
...,...,...,...,...,...,...,...,...,...,...
3498,3499,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...,343,2,24,,286741,4718950,0.99,Respighi:Pines of Rome
3499,3500,"String Quartet No. 12 in C Minor, D. 703 ""Quar...",344,2,24,Franz Schubert,139200,2283131,0.99,Schubert: The Late String Quartets & String Qu...
3500,3501,"L'orfeo, Act 3, Sinfonia (Orchestra)",345,2,24,Claudio Monteverdi,66639,1189062,0.99,Monteverdi: L'Orfeo
3501,3502,"Quintet for Horn, Violin, 2 Violas, and Cello ...",346,2,24,Wolfgang Amadeus Mozart,221331,3665114,0.99,Mozart: Chamber Music


In [4]:
df_tracks_with_albums.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3503 entries, 0 to 3502
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   TrackId       3503 non-null   int64  
 1   Name          3503 non-null   object 
 2   AlbumId       3503 non-null   int64  
 3   MediaTypeId   3503 non-null   int64  
 4   GenreId       3503 non-null   int64  
 5   Composer      2525 non-null   object 
 6   Milliseconds  3503 non-null   int64  
 7   Bytes         3503 non-null   int64  
 8   UnitPrice     3503 non-null   float64
 9   album_title   3316 non-null   object 
dtypes: float64(1), int64(6), object(3)
memory usage: 273.8+ KB


Observa que al llamar al método `info()`, el campo que hemos llamado `album_title` contiene valores nulos (`NaN`). Esto significa que:

1. **Algunos valores de `AlbumId`** en la tabla `tracks` (la de la "izquierda")  
   no existen en la tabla `albums`.

2. **Comportamiento del LEFT JOIN**:
   - Mantiene TODOS los registros de la tabla izquierda (`tracks`)
   - Cuando no encuentra coincidencia en la tabla derecha (`albums`):
     * Conserva los datos originales de `tracks`
     * Rellena los campos de `albums` con `NULL`/`NaN`


In [7]:
 faltan = df_tracks_with_albums.loc[df_tracks_with_albums.album_title.isna(),"AlbumId"].to_list()  # Muestra conteo de valores nulos

In [8]:
print(faltan)

[27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 27, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 39, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 67, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 73, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 162, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 202, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 215, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141, 141]


In [9]:
faltan = list(set(faltan))

# Lo convertimos a una lista de strings (porque lo vamos a necesitar a continuación)
faltan = [str(elemento) for elemento in faltan]

Y ahora hagamos un SELECT de la tabla albums con esos ids para ver que no existen, es decir nuestra función nos devolverá un dataframe vacío.

In [10]:
query = f'''
SELECT title
FROM albums
WHERE albumid in ({",".join(faltan)})  -- el ",".join(faltan) devuelve un string con los ...
'''
sql_query(query)

Unnamed: 0,Title


### Left Join (II)

Hagamos, para terminar, otro ejemplo de left join. Supón que queremos saber las canciones que hemos vendido. Sabiendo que la tabla que nos dice las ventas es _invoice_items_, hagamos un select para ver sus campos y si tenemos el dato del título.

In [11]:
query = '''
SELECT *
FROM invoice_items
'''
df_invoices = sql_query(query)
df_invoices

Unnamed: 0,InvoiceLineId,InvoiceId,TrackId,UnitPrice,Quantity
0,1,1,2,0.99,1
1,2,1,4,0.99,1
2,3,2,6,0.99,1
3,4,2,8,0.99,1
4,5,2,10,0.99,1
...,...,...,...,...,...
2235,2236,411,3136,0.99,1
2236,2237,411,3145,0.99,1
2237,2238,411,3154,0.99,1
2238,2239,411,3163,0.99,1


Nos falta, así que queremos recuperarlo de... ¿dónde? Si miras el modelo de datos, de la tabla  
tracks, pero ahora manda Invoice_Items, así que usando un LEFT JOIN, haríamos algo como:

In [13]:
query = '''
SELECT a.*, tracks.Name
FROM Invoice_Items AS a
LEFT JOIN tracks
    ON a.TrackId = tracks.TrackId
'''

df_invoices_with_names = sql_query(query)

df_invoices_with_names

Unnamed: 0,InvoiceLineId,InvoiceId,TrackId,UnitPrice,Quantity,Name
0,1,1,2,0.99,1,Balls to the Wall
1,2,1,4,0.99,1,Restless and Wild
2,3,2,6,0.99,1,Put The Finger On You
3,4,2,8,0.99,1,Inject The Venom
4,5,2,10,0.99,1,Evil Walks
...,...,...,...,...,...,...
2235,2236,411,3136,0.99,1,Looking For Love
2236,2237,411,3145,0.99,1,Sweet Lady Luck
2237,2238,411,3154,0.99,1,Feirinha da Pavuna/Luz do Repente/Bagaço da La...
2238,2239,411,3163,0.99,1,Samba pras moças


Perfecto, y ahora si quisieramos saber el top de ventas y sus ventas, podemos recurrir a Pandas:

In [14]:
df_invoices_with_names.Name.value_counts().nlargest(3)

Name
The Trooper            5
Sure Know Something    4
Eruption               4
Name: count, dtype: int64

## SQL con Python: JOIN Ejemplos (II)

## Preparación

Como en la sesión anterior, importamos librerías, creamos la conexión a la base de datos, creamos el cursor y nuestra función para lanzar queries. Además también recuperamos el modelo de datos para tener claro qué cruces pueden hacerse.

## Right Join

Este es el JOIN en el que manda la tabla de la **"derecha"**, la que ponemos detrás del `JOIN`. Es la tabla:
1. De la que queremos mantener **todas las filas**  
2. A la que queremos pegarle campos de otra tabla  
3. Donde si no hay cruce, los campos se rellenarán con nulos (`NULL` en SQL o `NaN` en Pandas)

In [18]:
### Hagamos el inverso del anterior pero por la derecha

query = '''
SELECT b.*, a.name
FROM tracks AS a
RIGHT JOIN albums AS b
ON a.albumid = b.albumid

'''

df_rj = sql_query(query)
df_rj

Unnamed: 0,AlbumId,Title,ArtistId,Name
0,1,For Those About To Rock We Salute You,1,For Those About To Rock (We Salute You)
1,2,Balls to the Wall,2,Balls to the Wall
2,3,Restless and Wild,2,Fast As a Shark
3,3,Restless and Wild,2,Restless and Wild
4,3,Restless and Wild,2,Princess of the Dawn
...,...,...,...,...
3311,343,Respighi:Pines of Rome,226,Pini Di Roma (Pinien Von Rom) \ I Pini Della V...
3312,344,Schubert: The Late String Quartets & String Qu...,272,"String Quartet No. 12 in C Minor, D. 703 ""Quar..."
3313,345,Monteverdi: L'Orfeo,273,"L'orfeo, Act 3, Sinfonia (Orchestra)"
3314,346,Mozart: Chamber Music,274,"Quintet for Horn, Violin, 2 Violas, and Cello ..."


Aquí las puntualizaciones son dos:

Aquí no hay albumid que sí esté en albums y no esté en tracks por eso no hay nulos en el campo name
Como ahora comprobaremos el número de registros ha crecido porque ahora hay tantas líneas por album como canciones tenga el album, mientras que la tabla anterior de albums el campo Albumid era único.

In [19]:
df_rj.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3316 entries, 0 to 3315
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   AlbumId   3316 non-null   int64 
 1   Title     3316 non-null   object
 2   ArtistId  3316 non-null   int64 
 3   Name      3316 non-null   object
dtypes: int64(2), object(2)
memory usage: 103.8+ KB


In [20]:
query = '''
SELECT *
FROM albums
'''

df_albums = sql_query(query)
df_albums.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 339 entries, 0 to 338
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   AlbumId   339 non-null    int64 
 1   Title     339 non-null    object
 2   ArtistId  339 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 8.1+ KB


In [21]:
print(df_albums.AlbumId.is_unique)
print(df_rj.AlbumId.is_unique)

True
False


## Inner Join

Veamos ahora un ejemplo de Inner Join, es decir aquel en el que sólo quiero quedarme con las filas que tengan valores comunes en las dos tablas (aquellas filas de una tabla cuyo identificador no aparezca en la clave de la otra no se tendrán en cuenta)


In [None]:
## # Vamos a quedarnos ahora con Las canciones para Las cuales sí haya disco


Aquí lo que podemos observar es:

1. No hay nulos, claro se cojen filas que existen en una y otra tabla.
2. Se ha reducido el número de salidas respecto al left join que hicimos (aunque no te des cuenta ahora si te haces una select de tracks podrás comprobar que tiene 3503 canciones). Ha quitado las canciones que no tienen album.

In [22]:
query = '''
SELECT tracks.*, albums.title
FROM tracks
INNER JOIN albums
ON tracks.AlbumId = albums.AlbumId
'''
df_inner = sql_query(query)
df_inner.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3316 entries, 0 to 3315
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   TrackId       3316 non-null   int64  
 1   Name          3316 non-null   object 
 2   AlbumId       3316 non-null   int64  
 3   MediaTypeId   3316 non-null   int64  
 4   GenreId       3316 non-null   int64  
 5   Composer      2367 non-null   object 
 6   Milliseconds  3316 non-null   int64  
 7   Bytes         3316 non-null   int64  
 8   UnitPrice     3316 non-null   float64
 9   Title         3316 non-null   object 
dtypes: float64(1), int64(6), object(3)
memory usage: 259.2+ KB


## Full join

El full join es el que se queda todos los cruces posibles (por valores existentes) aunque haya nulos.  
En el caso de sqlite3 no admite Full Join por lo que hay que simularlo. Como te dejo a continuación, pero dado que es un caso excepcional (trabajar con LEFT JOIN es casi lo más que vamos a hacer), no vamos a entrar en mucho más detalle  

[Nota: Excepcional en nuestro Bootcamp/Data Science, puede que como usuario de SQL en tu empresa o en tu vida tengas que hacer miles de Full Outer Join]