![image.png](attachment:image.png)

# SQL con Python: JOIN Ejemplos (II)


### Preparación

Como en la sesión anterior, importamos librerías, creamos la conexión a la base de datos, creamos el cursor y nuestra función para lanzar queries. Además también recuperamos el modelo de datos para tener claro que cruces pueden hacerse. 

In [1]:
import pandas as pd
import sqlite3

# Conectamos con la base de datos chinook.db
connection = sqlite3.connect("./data/chinook_joins.db")

# Obtenemos un cursor que utilizaremos para hacer las queries
cursor_bootcamp = connection.cursor()

In [2]:
def sql_query(query):
    cursor_bootcamp.execute(query)
    ans = cursor_bootcamp.fetchall()
    names = [description[0] for description in cursor_bootcamp.description]
    return pd.DataFrame(ans,columns=names)


![chinook_data_model.png](attachment:chinook_data_model.png)

### Right Join

Este es el JOIN en el que manda la tabla de la "derecha", la que ponemos detrás del  `JOIN`. Es la tabla de la que queremos mantener todas las filas y pegarle campos de otra tabla aunque no haya cruce, en cuyo caso se rellenarán con nulos (NULL o NaN si lo pasamos a Pandas)

In [3]:
# Hagamos el inverso del anterior pero por la derecha: Queremos pegar a cada disco las canciones
# Manda la tabla de álbumes (albums) 
# sobre el de canciones (tracks)
# Como en la sesión anterior la clave de cruce es AlbumId (Foreing_Key en tracks, Primary_Key en albums)
query = ''' 
SELECT b.*, a.name
FROM tracks AS a
RIGHT JOIN albums AS b
ON a.albumid = b.albumid
'''
df_rj = sql_query(query)

OperationalError: RIGHT and FULL OUTER JOINs are not currently supported

![image.png](attachment:c6cd5a46-6324-4525-92cc-1c8f6ad96f64.png)

In [None]:
df_rj.info()

![image.png](attachment:6b8b5f13-0748-40e3-90e6-6953c8bde053.png)

Aquí las puntualizaciones son dos:
1. Aquí no hay albumid que sí esté en albums y no esté en tracks por eso no hay nulos en el campo `name`
2. Como ahora comprobaremos el número de regitros ha crecido porque ahora hay tantas lineas por album como canciones tenga el album, mientras que la tabla anterior de albums el campo AlbumId era único.

In [None]:
query = ''' 
SELECT * 
FROM albums
'''
df_albums = sql_query(query)
df_albums.info()

![image.png](attachment:5baa2f4d-c85a-4831-b998-ce2c0aac6d66.png)

In [None]:
print(df_albums.AlbumId.isunique)
print(df_rj.AlbumId.is_unique)

![image.png](attachment:18a7c9d9-c98d-49a8-9828-8a11f70d78bb.png)

### Inner Join

Veamos ahora un ejemplo de Inner Join, es decir aquel en el que sólo quiero quedarme con las filas que tengan valores comunes en las dos tablas (aquellas filas de una tabla cuyo identificador no aparezca en la clave de la otra no se tendrán en cuenta)

In [None]:
# Vamos a quedarnos ahora con las canciones para las cuales si haya disco
query = '''
SELECT tracks.*, album.title
FROM tracks
INNER JOIN albums
ON tracks.AlbumId = albums.AlbumId
'''
df_inner = sql_query(query)
df_inner.info()

![image.png](attachment:88a66454-589d-4d96-8b78-cea9376f0d79.png)

Aquí lo que podemos observar es:
1. No hay nulos, claro se cogen filas que existen en una y otra tabla.
2. Se ha reducido el número de salidas respecto al left join que hicimos (aunque no te des cuenta ahora si te haces una select de tracks podrás comprobar que tiene  3503 cacniones). Ha quitado las canciones que no tienen album.

### Full join

El full join es el que se queda todos los cruces posibles (por valores existentes) aunque haya nulos. En el caso de sqlite3 no admite Full Join por lo que hay que simularlo. Como te dejo a continuación, pero dado que es un caso excepcional (trabajar con LEFT JOIN es casi lo más que vamos a hacer), no vamos a entrar en mucho más detalle

[Nota: Excepcional en nuestro Bootcamp/Data Science, puede que como usuario de SQL en tu empresa o en tu vida tengas que hacer miles de Full Outer Join]

In [None]:
#FULL JOIN
#FULL JOIN isn't supported in sqlite, 
#so we use a LEFT JOIN + RIGHT JOIN(inverse LEFT JOIN) as a workaround

query = '''
SELECT * 
FROM invoice_items AS a
LEFT JOIN tracks AS b
ON a.trackid = b.trackid
UNION ALL -- usa el union all que permite unir  la salida de dos queries por separado, no es una subquery una dentro de otra.
SELECT *
FROM tracks AS a
LEFT JOIN invoice_items AS b
ON a.trackid =b.trackid;
'''

sql_query(query)