
# Joins en Pandas

Los joins son una operacion esencial para trabajar con múltiples bases de datos al mismo tiempo. Las operaciones `join` nos permiten unir dos tablas, utilizando como referencia una columna común. 


En el mundo SQL, la unión de tablas se realiza a través de las operaciones JOIN. 

Pandas ofrece esta misma funcionalidad a través del método `.merge()` aplicado a uno de los DataFrames, y que toma como argumento el otro dataframe que queremos unir. 

Con el argumento `how`, especificaremos el tipo de join que queremos hacer. Los cuatro tipos principales de join se ilustran en la siguiente imagen:



<center><img src='https://miro.medium.com/max/1200/1*9eH1_7VbTZPZd9jBiGIyNA.png
' width="600"></center>


## Joins en la práctica


Supongamos que tenemos las dos siguientes tablas con artistas y álbumes:

In [9]:
# Importamos pandas
import pandas as pd


albums = pd.DataFrame({"titulo":["Sticky Fingers", "Pearl", "Abbey Road", "Uprising"],
                       "artista":["The Rolling Stones", "Janis Joplin", "The Beatles", "Bob Marley"],
                       "lanzamiento":[1971,1971,1969,1980],
                       "tracks":[10, 10, 17, 10]})

artists = pd.DataFrame({"artista":["The Beatles", "Janis Joplin", "The Rolling Stones", "Bob Dylan"],
                       "nacionalidad":["UK", "US", "UK","US"],
                       "albums":[12, 3, 31, 40],
                       "activo":[False,False,True,True]})

In [11]:
albums

Unnamed: 0,titulo,artista,lanzamiento,tracks
0,Sticky Fingers,The Rolling Stones,1971,10
1,Pearl,Janis Joplin,1971,10
2,Abbey Road,The Beatles,1969,17
3,Uprising,Bob Marley,1980,10


In [13]:
artists

Unnamed: 0,artista,nacionalidad,albums,activo
0,The Beatles,UK,12,False
1,Janis Joplin,US,3,False
2,The Rolling Stones,UK,31,True
3,Bob Dylan,US,40,True


### INNER JOIN
`Inner join` nos devuelve la unión de las tablas por la columna indicada, mostrando solo los valores coincidentes 

In [10]:
### inner join 
albums.merge(artists, how="inner", on="artista")

Unnamed: 0,titulo,artista,lanzamiento,tracks,nacionalidad,albums,activo
0,Sticky Fingers,The Rolling Stones,1971,10,UK,31,True
1,Pearl,Janis Joplin,1971,10,US,3,False
2,Abbey Road,The Beatles,1969,17,UK,12,False


### OUTER JOIN
`Outer join` nos devuelve las unión de las tablas por la columna común indicada, independientemente de que los valores coincidan o no

In [64]:
# outter join
albums.merge(artists, how="outer", on="artista")

Unnamed: 0,titulo,artista,lanzamiento,tracks,nacionalidad,albums,activo
0,Sticky Fingers,The Rolling Stones,1971.0,10.0,UK,31.0,True
1,Pearl,Janis Joplin,1971.0,10.0,US,3.0,False
2,Abbey Road,The Beatles,1969.0,17.0,UK,12.0,False
3,Uprising,Bob Marley,1980.0,10.0,,,
4,,Bob Dylan,,,US,40.0,True


### LEFT JOIN
`Left join` nos devuelve la unión de las tablas manteniendo exclusivamente los valores de la tabla que pasamos a la izquierda

In [12]:
# left join
albums.merge(artists, how="left", on="artista")

Unnamed: 0,titulo,artista,lanzamiento,tracks,nacionalidad,albums,activo
0,Sticky Fingers,The Rolling Stones,1971,10,UK,31.0,True
1,Pearl,Janis Joplin,1971,10,US,3.0,False
2,Abbey Road,The Beatles,1969,17,UK,12.0,False
3,Uprising,Bob Marley,1980,10,,,


### LEFT JOIN
`Left join` nos devuelve la unión de las tablas manteniendo exclusivamente los valores de la tabla que pasamos a la derecha. Realmente es lo mismo que el `left join` si cambiamos el orden de los datafrmes

In [14]:
# right join
albums.merge(artists, how="right", on="artista")

Unnamed: 0,titulo,artista,lanzamiento,tracks,nacionalidad,albums,activo
0,Abbey Road,The Beatles,1969.0,17.0,UK,12,False
1,Pearl,Janis Joplin,1971.0,10.0,US,3,False
2,Sticky Fingers,The Rolling Stones,1971.0,10.0,UK,31,True
3,,Bob Dylan,,,US,40,True


Hay muchos más parámetros que podemos meter a .merge(), pero lo básico es esto. Dejo la documentación [aquí](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)