# Merge, Concat y Join

La siguiente imagen es una explicación grafica de como funciona la lógica de merge, concat y join

![Merge-Join](./imgs/merge-join.png)

In [1]:
import pandas as pd
import numpy as np

## Concat

Concatena `n` objetos de pandas (Series o DataFrames) en un eje (axis) determinado, donde:
- `axis = 0`: Filas
- `axis = 1`: Columnas
<br>

Port default concatena por filas.

In [2]:
df_1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3']})

df_2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                     'B': ['B4', 'B5', 'B6', 'B7'],
                     'C': ['C4', 'C5', 'C6', 'C7'],
                     'D': ['D4', 'D5', 'D6', 'D7']})

Concatenamos los `DataFrames` por el axis default(filas):

In [3]:
pd.concat([df_1, df_2])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


En el resultado anterior se observa como los indices se traslapan al nuevo `DataFrame`, para evita este comportamiento le mandamos el parámtro `ignore_index` en `True`:

In [5]:
pd.concat([df_1, df_2], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


Concatenar por columnas:

In [8]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


Al igual que la concatenación vertical, los indices columnares se traslapan al nuevo `DataFrame`, para evitarlo se le indica con el parámetro `ignore_index` en `True`:

In [9]:
pd.concat([df_1, df_2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


En esta ocasión las columnas ya no son "A, B, C y D" Ahora son números consecutivos desde 0 hasta 7.

---

## Merge

`Merge` a diferencia de `concat` es que esta función fusiona dos DataFrames de una manera más versatil, similiar a `SQL` y com ose ilustra en la imagen de arriba.

`DataFrames` de ejemplo para merge:

In [15]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

Fusiona ambos objetos de pandas:

In [16]:
izq.merge(der, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


Con el parámetro `on` se le indica al merge cual será la columna o indice con la que va a unir ambos DataFrames, por default pandas toma la columna que se repite en ambos DF

En dado caso las columnas por las cuales se requiera hacer la intersección tienen nombres distintos el paráametro `on` no va a funcionar, por esa razon estan otros dos parámetros alternativos en los cuales se le indica a la función cual será la columna clave de la izquierda y cual la columna clave de la rederecha.

In [17]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key_2': ['k0', 'k1', 'k2', 'k3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

Le indica que por la izuiqera unira con la lalve `key` y por la derecha con la llave `key_2`:

In [18]:
izq.merge(der, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,k3,C3,D3


¿Qué pasa cuando no hay coincidencia en los valores de las llaves?, en esos casos aplican los inner, left y righ joins.

In [19]:
izq = pd.DataFrame({'key': ['k0', 'k1', 'k2', 'k3'],
                    'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

der = pd.DataFrame({'key_2': ['k0', 'k1', 'k2', np.nan],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

Port default la función `merge` realiza un `inner`:

In [20]:
izq.merge(der, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


En el DF `der` el valor que estaba en la posición "k3" no hace match con ninguno de los elementos que se encuentran en la izquierda, por eso el el row con indice 3 ya no se muestra al hacer el merge.

Para obtener todos los datos del DF de la izquierda aplicamos un left join con mandando el valor `left` al parámetro `how`:

In [21]:
izq.merge(der, left_on='key', right_on='key_2', how='left')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,


El row del indice 3 para el DF `izq` que pertenece al key `k3` aparece con sus respectivos valores, en el caso del DF `der` aparecen valores `NaN` que nos indican que para el key  `k3` no encontró nada.

¿Si ahora se requiere hacerlo a la inversa?, entonces al parámetro `how` se le envía el valor `right`:

In [22]:
izq.merge(der, left_on='key', right_on='key_2', how='right')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,,,,,C3,D3


---

## Join - index match

Join es otra herramienta para hacer exactamente lo mismo que merge, una combinación. La diferencia es que join va a ir a los índices y no a columnas específicas.

In [23]:
izq_j = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']},
                   index=['k0', 'k1', 'k2'])

der_j = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']},
                   index=['k0', 'k2', 'k3'])


Combinación del DataFrame `izq_j` con `der_j`:

In [25]:
izq_j.join(der_j)

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


Join por default une los DataFrame con el tipo `left join`, por esa razón en el resultado anterior observamos todos los index de `izq_j` y solo el indice de `der_j` que coincide con el correspondiente al otro DF.

Join por derecha:

In [26]:
izq_j.join(der_j, how='right')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
k3,,,C2,D2


Como resultado del righ join obtenemos todos los indices del DF `der_j`.

Con un `outer join` obtenemos todos los elementos de todos los indices de cada DataFrame:

In [27]:
izq_j.join(der_j, how='outer')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1
k3,,,C2,D2


Sin olvidar al `inner join` que nos regresa unicamente las coincidencias (intersección) entre ambos DataFrames:

In [28]:
izq_j.join(der_j, how='inner')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1


[Documentación de concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) <br>
[Documentación de merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) <br>
[Documentación de join](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)