<a href="https://colab.research.google.com/github/fralfaro/python_eda/blob/main/docs/pandas/032_merge_concat.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Merge y Concat 


## Concat

<img src="https://raw.githubusercontent.com/fralfaro/MAT281_2022/main/docs/lectures/data_manipulation/data_manipulation/images/merge_01.png"  align="center"/>


`concat()` es una función de Pandas que se utiliza para combinar DataFrames y Series en un solo objeto. Permite unir varios objetos a lo largo de un eje en particular con opciones para configurar la forma en que se realiza la concatenación. 

**Observación**: Se define la función `display_side_by_side` para poder imprimir dos o más dataframe lados a lado.


In [1]:
from IPython.display import display_html

def display_side_by_side(*args):
    html_str = ''
    for df in args:
        html_str += df.to_html()
        html_str += '&nbsp;&nbsp;&nbsp;&nbsp;'
    display_html(
        html_str.replace('table','table style="display:inline"'), 
        raw=True
    )

### Concatenar dos DataFrames verticalmente

In [2]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]})

result = pd.concat([df1, df2])
display_side_by_side(df1,df2,result)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6

Unnamed: 0,A,B
0,7,10
1,8,11
2,9,12

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,7,10
1,8,11
2,9,12


### Concatenar dos DataFrames horizontalmente

In [3]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]})

result = pd.concat([df1, df2], axis=1)
display_side_by_side(df1,df2,result)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6

Unnamed: 0,C,D
0,7,10
1,8,11
2,9,12

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


### Concatenar dos DataFrames verticalmente con distintas columnas 

In [4]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [7, 8, 9], 'C': [10, 11, 12]})

result = pd.concat([df1, df2])
display_side_by_side(df1,df2,result)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6

Unnamed: 0,A,C
0,7,10
1,8,11
2,9,12

Unnamed: 0,A,B,C
0,1,4.0,
1,2,5.0,
2,3,6.0,
0,7,,10.0
1,8,,11.0
2,9,,12.0


### Concatenar DataFrames con diferentes índices

In [5]:
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[0, 1, 2])
df2 = pd.DataFrame({'A': [7, 8, 9], 'B': [10, 11, 12]}, index=[3, 4, 5])

result = pd.concat([df1, df2])
display_side_by_side(df1,df2,result)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6

Unnamed: 0,A,B
3,7,10
4,8,11
5,9,12

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,7,10
4,8,11
5,9,12


## Merge

<img src="https://raw.githubusercontent.com/fralfaro/MAT281_2022/main/docs/lectures/data_manipulation/data_manipulation/images/merge_04.png"  align="center"/>

`merge()` es una función de Pandas que se utiliza para combinar dos o más DataFrames en un solo DataFrame. La función `merge()` combina los datos basándose en las columnas compartidas, también conocidas como claves. 

### Combinar dos DataFrames en función de una columna común

In [6]:
import pandas as pd

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(left, right, on='key')
display_side_by_side(left,right,result)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


### Combinar dos DataFrames en función de una columna común - con valores duplicados

In [7]:
import pandas as pd

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K0', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(left, right, on='key')
display_side_by_side(left,right,result)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K0,C1,D1
2,K2,C2,D2
3,K3,C3,D3

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K0,A0,B0,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


### Combinar dos DataFrames en función de múltiples columnas comunes

In [8]:
import pandas as pd

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

result = pd.merge(left, right, on=['key1', 'key2'])
display_side_by_side(left,right,result)

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K0,K1,C1,D1
2,K1,K0,C2,D2
3,K2,K1,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K1,A3,B3,C3,D3


### Unir dos DataFrames utilizando diferentes columnas en cada DataFrame

In [9]:
import pandas as pd

left = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'value1': [1, 2, 3, 4]})
right = pd.DataFrame({'key2': ['A', 'B', 'C', 'D'], 'value2': [5, 6, 7, 8]})

result = pd.merge(left, right, left_on='key1', right_on='key2')
display_side_by_side(left,right,result)

Unnamed: 0,key1,value1
0,A,1
1,B,2
2,C,3
3,D,4

Unnamed: 0,key2,value2
0,A,5
1,B,6
2,C,7
3,D,8

Unnamed: 0,key1,value1,key2,value2
0,A,1,A,5
1,B,2,B,6
2,C,3,C,7
3,D,4,D,8


### Combinar Dataframes utilizando el comando `how`

Existen distintos tipos de merge, para ello se utiliza la opción `how`, el cual especificica el tipo de cruce que se realizará.

* **left**: usa las llaves solo de la tabla izquierda
* **right**: usa las llaves solo de la tabla derecha
* **outer**: usa las llaves de la unión de  ambas tablas.
* **inner**: usa las llaves de la intersección de  ambas tablas.

<img src="https://miro.medium.com/max/1200/1*9eH1_7VbTZPZd9jBiGIyNA.png" width="480" height="480" align="center"/>


In [10]:
import pandas as pd

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [11]:
# left merge
result = pd.merge(left, right, how= 'left', on=['key1', 'key2'])
display_side_by_side(left,right,result)

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [12]:
# right merge
result = pd.merge(left, right, how='right', on=['key1', 'key2'])
display_side_by_side(left,right,result)

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [13]:
# outer merge
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
display_side_by_side(left,right,result)

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [14]:
# inner merge
result = pd.merge(left, right, how='inner', on=['key1', 'key2'])
display_side_by_side(left,right,result)

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


### Problemas de llaves duplicadas

Cuando se quiere realizar el cruce de dos tablas, pero an ambas tablas existe una columna (`key`) con el mismo nombre, para diferenciar la información entre la columna de una tabla y otra, pandas devulve el nombre de la columna con un guión bajo x (`key_x`) y otra con un guión bajo y (`key_y`)

In [15]:
left = pd.DataFrame({'A': [1, 2, 3], 'B': [1,2,3]})
right = pd.DataFrame({'A': [4, 5, 6], 'B': [1, 2, 3]})

result = pd.merge(left, right, on='B')
display_side_by_side(left,right,result)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3

Unnamed: 0,A,B
0,4,1
1,5,2
2,6,3

Unnamed: 0,A_x,B,A_y
0,1,1,4
1,2,2,5
2,3,3,6
