# Merge, join, concatenate and compare

#### pandas proporciona varias facilidades para combinar fácilmente Series o DataFrame con varios tipos de lógica de conjuntos para los índices y la funcionalidad de álgebra relacional en el caso de operaciones de tipo unión/fusión. Además, pandas también proporciona utilidades para comparar dos Series o DataFrame y resumir sus diferencias.

## Concatenar objetos con concat()

#### La función concat() (en el espacio de nombres principal de pandas) hace todo el trabajo pesado de realizar operaciones de concatenación a lo largo de un eje mientras realiza una lógica de conjunto opcional (unión o intersección) de los índices (si los hay) en los otros ejes.

In [1]:
import numpy as np
import pandas as pd

In [2]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)

In [3]:
df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)

In [4]:
df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11],
)

In [5]:
frames = [df1, df2, df3]

In [6]:
result = pd.concat(frames)

In [7]:
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [8]:
# Estas son todas las opciones de la funcion concat()
#pd.concat(

#    objs,
#    axis=0,
#    join="outer",
#    ignore_index=False,
#    keys=None,
#    levels=None,
#    names=None,
#    verify_integrity=False,
#    copy=True,
#)

In [9]:
result = pd.concat(frames, keys=["x", "y", "z"])

In [10]:
# Cuando le asignamos "keys" a una tabla concatenada, estas keys tienen funcion de indice jerarquico
result.loc["y"]

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


## Establecer la union entre los ejes en los otros ejes - join='outer' y join='inner'

#### Al unir varios DataFrames, tiene la opción de manejar los otros ejes (aparte del que se está concatenando). Esto se puede hacer de las siguientes dos maneras:

#### 1. Tomar la unión de todos ellos, join='outer'. Esta es la opción predeterminada ya que da como resultado una pérdida de información cero.
#### 2. Tomar la intersección, join='inner'.

In [11]:
df4 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

In [12]:
result = pd.concat([df1, df4], axis=1)

In [13]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [14]:
# Ahora hagamos un concat pero aplicando join='inner'
# El inner join, solo nos mostrara los resultados que coinciden en cada tabla
result = pd.concat([df1, df4], axis=1, join="inner")

In [15]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [16]:
# Por último, supongamos que solo quisiéramos reutilizar el índice exacto del DataFrame original
result = pd.concat([df1, df4], axis=1).reindex(df1.index)

In [17]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [18]:
# Del mismo modo, podríamos indexar antes de la concatenación
pd.concat([df1, df4.reindex (df1.index)], axis = 1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


## Ignorar índices en el eje de concatenación

#### Para los objetos DataFrame que no tienen un índice significativo, es posible que desee agregarlos e ignorar el hecho de que pueden tener índices superpuestos. Para hacer esto, use el argumento ignore_index

In [19]:
result = pd.concat([df1, df4], ignore_index=True, sort=False)

In [20]:
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


## Concatenar series y data frames

#### Puede concatenar una combinación de objetos Series y DataFrame. La serie se transformará en DataFrame con el nombre de la columna como nombre de la serie.

In [21]:
s1 = pd.Series(["X0", "X1", "X2", "X3"], name="X")

In [22]:
result = pd.concat([df1, s1], axis=1)

In [23]:
result

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3


In [24]:
s2 = pd.Series(["_0", "_1", "_2", "_3"])

In [25]:
result = pd.concat([df1, s2, s2, s2], axis=1)

In [26]:
result

Unnamed: 0,A,B,C,D,0,1,2
0,A0,B0,C0,D0,_0,_0,_0
1,A1,B1,C1,D1,_1,_1,_1
2,A2,B2,C2,D2,_2,_2,_2
3,A3,B3,C3,D3,_3,_3,_3


In [27]:
# Pasar ignore_index=True eliminará todas las referencias de nombres.
result = pd.concat([df1, s1], axis=1, ignore_index=True)

In [28]:
result

Unnamed: 0,0,1,2,3,4
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3


## Concantenar con group keys

#### Un uso bastante común del argumento de las claves es anular los nombres de las columnas al crear un nuevo marco de datos basado en la serie existente. Observe cómo el comportamiento predeterminado consiste en dejar que el DataFrame resultante herede el nombre de la Serie principal, cuando estas existieron.

In [29]:
s3 = pd.Series([0, 1, 2, 3], name="foo")

In [30]:
s4 = pd.Series([0, 1, 2, 3])

In [31]:
s5 = pd.Series([0, 1, 4, 5])

In [32]:
pd.concat([s3, s4, s5], axis=1)

Unnamed: 0,foo,0,1
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


In [33]:
# A través del argumento de las "keys", podemos anular los nombres de las columnas existentes.
pd.concat([s3, s4, s5], axis=1, keys=["red", "blue", "yellow"])

Unnamed: 0,red,blue,yellow
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


In [34]:
result = pd.concat(frames, keys=["x", "y", "z"])

In [35]:
# También puede pasar un diccionario a concat, en cuyo caso las "keys" del diccionario se utilizarán para el argumento 
# de las "keys" (a menos que se especifiquen otras claves), y crearan un Multindex

In [36]:
pieces = {"x": df1, "y": df2, "z": df3}

In [37]:
result = pd.concat(pieces)

In [38]:
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [39]:
result = pd.concat(pieces, keys=["z", "y"])

In [40]:
result

Unnamed: 0,Unnamed: 1,A,B,C,D
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9
z,10,A10,B10,C10,D10
z,11,A11,B11,C11,D11
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7


In [41]:
# El MultiIndex creado tiene niveles que se construyen a partir de las claves pasadas y el índice de las piezas de DataFrame
result.index.levels

FrozenList([['z', 'y'], [4, 5, 6, 7, 8, 9, 10, 11]])

In [42]:
# Si desea especificar otros niveles (como ocurrirá ocasionalmente), puede hacerlo usando el argumento de niveles
result = pd.concat(
    pieces, keys=["x", "y", "z"], levels=[["z", "y", "x", "w"]], names=["group_key"])

In [43]:
result

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
group_key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [44]:
result.index.levels

FrozenList([['z', 'y', 'x', 'w'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

## Agregar filas a un DataFrame

#### Si tiene una serie que desea agregar como una sola fila a un DataFrame, puede convertir la fila en un DataFrame y usar concat

In [45]:
s2 = pd.Series(["X0", "X1", "X2", "X3"], index=["A", "B", "C", "D"])

In [46]:
result = pd.concat([df1, s2.to_frame().T], ignore_index=True)

In [47]:
result
# Debe usar ignore_index con este método para indicarle a DataFrame que descarte su índice. 
# Si desea conservar el índice, debe construir un DataFrame indexado adecuadamente y agregar o concatenar esos objetos.

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


## DataFrame con estilo de base de datos (SQL) o joining/merging de Series

#### pandas proporciona una sola función, merge(), como punto de entrada para todas las operaciones estándar de combinación de bases de datos entre DataFrame o objetos Series 

In [48]:
# pd.merge(
#    left,                left: A DataFrame or named Series object.
#    right, right:        Another DataFrame or named Series object.
#    how="inner",         how: One of 'left', 'right', 'outer', 'inner', 'cross'. Defaults to inner. 
#    on=None, on:         Column or index level names to join on
#    left_on=None,        left_on: Columns or index levels from the left DataFrame or Series to use as keys.
#    right_on=None, right_on: Columns or index levels from the right DataFrame or Series to use as keys.
#    left_index=False, left_index: If True, use the index (row labels) from the left DataFrame or Series as its join key(s)
#    right_index=False, right_index: Same usage as left_index for the right DataFrame or Series
#    sort=True,           sort: Sort the result DataFrame by the join keys in lexicographical order. 
#    suffixes=("_x", "_y"), suffixes: A tuple of string suffixes to apply to overlapping columns. Defaults to ('_x', '_y').
#    copy=True,           copy: Always copy data (default True) from the passed DataFrame or named Series objects, even when reindexing is not necessary
#    indicator=False,     indicator: Add a column to the output DataFrame called _merge with information on the source of each row.
#    validate=None,)      validate : string, default None. If specified, checks if merge is of specified type.


#### El método join() relacionado utiliza merge internamente para la combinación de índice sobre índice (de forma predeterminada) y columna(s) sobre índice. Si se está uniendo solo en el índice, es posible que desee usar DataFrame.join para ahorrarse algo de escritura.

## Breve introducción a los métodos de fusión (álgebra relacional)

In [49]:
left = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)

In [50]:
right = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

In [51]:
result = pd.merge(left, right, on = 'key')

In [52]:
result

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


#### Aquí hay un ejemplo más complicado con múltiples claves de combinación. Solo están presentes las teclas que aparecen a la izquierda y a la derecha (la intersección), ya que how='inner' por defecto.

In [53]:
left = pd.DataFrame(
    {
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)

In [54]:
right = pd.DataFrame(
    {
        "key1": ["K0", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K0", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

In [55]:
result = pd.merge(left, right, on=["key1", "key2"])

In [56]:
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [57]:
#### El argumento "how" para fusionar especifica cómo determinar qué claves se incluirán en la tabla resultante. 
# Si una combinación de teclas no aparece en las tablas izquierda o derecha, los valores en la tabla unida serán NA.

##### left            LEFT OUTER JOIN          Use keys from left frame only
##### right           RIGHT OUTER JOIN         Use keys from right frame only
##### outer           FULL OUTER JOIN          Use union of keys from both frames
##### inner           INNER JOIN               Use intersection of keys from both frames
##### cross           CROSS JOIN               Create the cartesian product of rows of both frames

In [58]:
result = pd.merge(left, right, how="left", on=["key1", "key2"])

In [59]:
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [60]:
result = pd.merge(left, right, how="right", on=["key1", "key2"])

In [61]:
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [62]:
result = pd.merge(left, right, how="outer", on=["key1", "key2"])

In [63]:
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [64]:
result = pd.merge(left, right, how="inner", on=["key1", "key2"])

In [65]:
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [66]:
result = pd.merge(left, right, how="cross")

In [67]:
result

Unnamed: 0,key1_x,key2_x,A,B,key1_y,key2_y,C,D
0,K0,K0,A0,B0,K0,K0,C0,D0
1,K0,K0,A0,B0,K1,K0,C1,D1
2,K0,K0,A0,B0,K1,K0,C2,D2
3,K0,K0,A0,B0,K2,K0,C3,D3
4,K0,K1,A1,B1,K0,K0,C0,D0
5,K0,K1,A1,B1,K1,K0,C1,D1
6,K0,K1,A1,B1,K1,K0,C2,D2
7,K0,K1,A1,B1,K2,K0,C3,D3
8,K1,K0,A2,B2,K0,K0,C0,D0
9,K1,K0,A2,B2,K1,K0,C1,D1


In [68]:
# Puede fusionar una Serie multiindexada y un DataFrame, si los nombres del MultiIndex 
# corresponden a las columnas del DataFrame.

In [69]:
df = pd.DataFrame({"Let": ["A", "B", "C"], "Num": [1, 2, 3]})

In [70]:
df

Unnamed: 0,Let,Num
0,A,1
1,B,2
2,C,3


In [71]:
ser = pd.Series(
    ["a", "b", "c", "d", "e", "f"],
    index=pd.MultiIndex.from_arrays(
        [["A", "B", "C"] * 2, [1, 2, 3, 4, 5, 6]], names=["Let", "Num"]
    ),
)

In [72]:
ser

Let  Num
A    1      a
B    2      b
C    3      c
A    4      d
B    5      e
C    6      f
dtype: object

In [73]:
# Ahora vamos a unir la Serie y el Data Frame
pd.merge(df, ser.reset_index(), on=["Let", "Num"])

Unnamed: 0,Let,Num,0
0,A,1,a
1,B,2,b
2,C,3,c


In [74]:
# Veamos otro ejemplo con "keys" duplicadas
left = pd.DataFrame({"A": [1, 2], "B": [2, 2]})
right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})
result = pd.merge(left, right, on="B", how="outer")

In [75]:
result

Unnamed: 0,A_x,B,A_y
0,1,2,4
1,1,2,5
2,1,2,6
3,2,2,4
4,2,2,5
5,2,2,6


## Comprobar los "keys/ID" duplicados con "validate"

#### Los usuarios pueden usar el argumento de validación para verificar automáticamente si hay duplicados inesperados en sus claves de combinación

In [76]:
left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})
right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [77]:
# Ahora vamos a comprobar si los "keys" son unicos, o estan repetidos
# result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")
# MergeError: Merge keys are not unique in right dataset; not a one-to-one merge

#### Si el usuario conoce los duplicados en el DataFrame derecho pero quiere asegurarse de que no haya duplicados en el DataFrame izquierdo, puede usar el argumento validate='one_to_many' en su lugar, que no generará una excepción.

In [78]:
pd.merge(left, right, on="B", how="outer", validate="one_to_many")

Unnamed: 0,A_x,B,A_y
0,1,1,
1,2,2,4.0
2,2,2,5.0
3,2,2,6.0


## Aplicando join a índices

#### DataFrame.join() es un método conveniente para combinar las columnas de dos DataFrames indexados potencialmente de manera diferente en un solo DataFrame de resultado.

In [79]:
left = pd.DataFrame(
    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
)

In [80]:
right = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
)

In [81]:
# Ahora vamos a unir los data frame en base a su indice
result = left.join(right)

In [82]:
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [83]:
result = left.join(right, how = "outer")

In [84]:
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [85]:
result = left.join(right, how="inner")

In [86]:
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


In [87]:
# Podemos hacer lo mismo utilizando la funcion merge(), pero la sintaxis seria mas complicada
result = pd.merge(left, right, left_index=True, right_index=True, how="outer")

In [88]:
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [89]:
# Ahora con el inner join
result = pd.merge(left, right, left_index=True, right_index=True, how="inner")

In [90]:
result

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


## Unir columnas key en un índice

#### join() toma un argumento on opcional que puede ser una columna o varios nombres de columna, que especifica que el DataFrame pasado debe alinearse en esa columna en el DataFrame.

In [91]:
left = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "key": ["K0", "K1", "K0", "K1"],
    }
)

In [92]:
right = pd.DataFrame({"C": ["C0", "C1"], "D": ["D0", "D1"]}, index=["K0", "K1"])

In [93]:
result = left.join(right, on="key")

In [94]:
result

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K0,C0,D0
3,A3,B3,K1,C1,D1


In [96]:
result = pd.merge(
    left, right, left_on="key", right_index=True, how="left", sort=False
)

In [97]:
result

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K0,C0,D0
3,A3,B3,K1,C1,D1


In [100]:
result.loc[:, ['key', 'A', 'B', 'C', 'D']]

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K0,A2,B2,C0,D0
3,K1,A3,B3,C1,D1


#### Para unirse en varias claves, el DataFrame pasado debe tener un MultiIndex

In [101]:
left = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
    }
)

In [102]:
index = pd.MultiIndex.from_tuples(
    [("K0", "K0"), ("K1", "K0"), ("K2", "K0"), ("K2", "K1")]
)

In [103]:
right = pd.DataFrame(
    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=index
)

In [104]:
result = left.join(right, on=["key1", "key2"])

In [105]:
result

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A3,B3,K2,K1,C3,D3


In [106]:
# Podemos aplicar un "inner join"
result = left.join(right, on=["key1", "key2"], how="inner")

In [107]:
result

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
2,A2,B2,K1,K0,C1,D1
3,A3,B3,K2,K1,C3,D3


## Merge aplicado a una combinación de columnas y niveles de índice

#### Las cadenas pasadas como los parámetros on, left_on y right_on pueden hacer referencia a nombres de columna o nombres de nivel de índice. Esto permite fusionar instancias de DataFrame en una combinación de niveles de índice y columnas sin restablecer los índices.

In [108]:
left_index = pd.Index(["K0", "K0", "K1", "K2"], name="key1")

In [109]:
left = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "key2": ["K0", "K1", "K0", "K1"],
    },
    index=left_index,
)

In [110]:
right_index = pd.Index(["K0", "K1", "K2", "K2"], name="key1")

In [112]:
right = pd.DataFrame(
    {
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
        "key2": ["K0", "K0", "K0", "K1"],
    },
    index=right_index,
)

In [113]:
# Utilizamos "on" para indicarle a la función "merge", que haga en join, en base a dos keys especificas
result = left.merge(right, on=["key1", "key2"])

In [114]:
result

Unnamed: 0_level_0,A,B,key2,C,D
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
K0,A0,B0,K0,C0,D0
K1,A2,B2,K0,C1,D1
K2,A3,B3,K1,C3,D3


## Columnas de valores superpuestas

#### El argumento de combinación de sufijos toma una tupla de la lista de cadenas para agregar a los nombres de las columnas superpuestas en los marcos de datos de entrada para eliminar la ambigüedad de las columnas de resultados

In [115]:
left = pd.DataFrame({"k": ["K0", "K1", "K2"], "v": [1, 2, 3]})

In [116]:
right = pd.DataFrame({"k": ["K0", "K0", "K3"], "v": [4, 5, 6]})

In [117]:
result = pd.merge(left, right, on="k")

In [118]:
result

Unnamed: 0,k,v_x,v_y
0,K0,1,4
1,K0,1,5


In [119]:
result = pd.merge(left, right, on="k", suffixes=("_l", "_r"))

In [120]:
result

Unnamed: 0,k,v_l,v_r
0,K0,1,4
1,K0,1,5


#### DataFrame.join() tiene argumentos lsuffix y rsuffix que se comportan de manera similar.

In [123]:
left = left.set_index("k")

In [124]:
right = right.set_index("k")

In [125]:
result = left.join(right, lsuffix="_l", rsuffix="_r")

In [126]:
result

Unnamed: 0_level_0,v_l,v_r
k,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,1,4.0
K0,1,5.0
K1,2,
K2,3,


## Join con múltiples Data Frames

#### También se puede pasar una lista o tupla de DataFrames a join() para unirlos en sus índices.

In [127]:
right2 = pd.DataFrame({"v": [7, 8, 9]}, index=["K1", "K1", "K2"])

In [128]:
result = left.join([right, right2])

In [129]:
result

Unnamed: 0,v_x,v_y,v
K0,1,4.0,
K0,1,5.0,
K1,2,,7.0
K1,2,,8.0
K2,3,,9.0


## Combinar valores dentro de las columnas Series o DataFrame - combine_first() y update()

#### Otra situación bastante común es tener dos objetos Series o DataFrame indexados de forma similar (o indexados de manera similar) y querer "parchar" valores en un objeto a partir de valores para índices coincidentes en el otro.

In [130]:
df1 = pd.DataFrame(
    [[np.nan, 3.0, 5.0], [-4.6, np.nan, np.nan], [np.nan, 7.0, np.nan]]
)

In [131]:
df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5.0, 1.6, 4]], index=[1, 2])

In [133]:
# Podemos utilizar combine_first()
result = df1.combine_first(df2)

In [134]:
result

Unnamed: 0,0,1,2
0,,3.0,5.0
1,-4.6,,-8.2
2,-5.0,7.0,4.0


In [135]:
df1.update(df2)

In [136]:
df1

Unnamed: 0,0,1,2
0,,3.0,5.0
1,-42.6,,-8.2
2,-5.0,1.6,4.0


## Merge de series temporales

### merge_ordered() 

#### Una función merge_ordered() permite combinar series de tiempo y otros datos ordenados. En particular, tiene una palabra clave opcional fill_method para completar/interpolar datos faltantes

In [137]:
left = pd.DataFrame(
    {"k": ["K0", "K1", "K1", "K2"], "lv": [1, 2, 3, 4], "s": ["a", "b", "c", "d"]}
)

In [138]:
right = pd.DataFrame({"k": ["K1", "K2", "K4"], "rv": [1, 2, 3]})

In [139]:
pd.merge_ordered(left, right, fill_method="ffill", left_by="s")

Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,1.0,a,1.0
2,K2,1.0,a,2.0
3,K4,1.0,a,3.0
4,K1,2.0,b,1.0
5,K2,2.0,b,2.0
6,K4,2.0,b,3.0
7,K1,3.0,c,1.0
8,K2,3.0,c,2.0
9,K4,3.0,c,3.0


### merge_asof() 

#### Un merge_asof() es similar a un left join ordenado, excepto que hacemos coincidir la key más cercana en lugar de las keys iguales. Para cada fila en el DataFrame izquierdo, seleccionamos la última fila en el DataFrame derecho cuya key "on" es menor que la key izquierda. Ambos DataFrames deben ordenarse por clave.

In [140]:
trades = pd.DataFrame(
    {
        "time": pd.to_datetime(
            [
                "20160525 13:30:00.023",
                "20160525 13:30:00.038",
                "20160525 13:30:00.048",
                "20160525 13:30:00.048",
                "20160525 13:30:00.048",
            ]
        ),
        "ticker": ["MSFT", "MSFT", "GOOG", "GOOG", "AAPL"],
        "price": [51.95, 51.95, 720.77, 720.92, 98.00],
        "quantity": [75, 155, 100, 100, 100],
    },
    columns=["time", "ticker", "price", "quantity"],
)

In [141]:
trades

Unnamed: 0,time,ticker,price,quantity
0,2016-05-25 13:30:00.023,MSFT,51.95,75
1,2016-05-25 13:30:00.038,MSFT,51.95,155
2,2016-05-25 13:30:00.048,GOOG,720.77,100
3,2016-05-25 13:30:00.048,GOOG,720.92,100
4,2016-05-25 13:30:00.048,AAPL,98.0,100


In [142]:
quotes = pd.DataFrame(
    {
        "time": pd.to_datetime(
            [
                "20160525 13:30:00.023",
                "20160525 13:30:00.023",
                "20160525 13:30:00.030",
                "20160525 13:30:00.041",
                "20160525 13:30:00.048",
                "20160525 13:30:00.049",
                "20160525 13:30:00.072",
                "20160525 13:30:00.075",
            ]
        ),
        "ticker": ["GOOG", "MSFT", "MSFT", "MSFT", "GOOG", "AAPL", "GOOG", "MSFT"],
        "bid": [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
        "ask": [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03],
    },
    columns=["time", "ticker", "bid", "ask"],
)

In [143]:
quotes

Unnamed: 0,time,ticker,bid,ask
0,2016-05-25 13:30:00.023,GOOG,720.5,720.93
1,2016-05-25 13:30:00.023,MSFT,51.95,51.96
2,2016-05-25 13:30:00.030,MSFT,51.97,51.98
3,2016-05-25 13:30:00.041,MSFT,51.99,52.0
4,2016-05-25 13:30:00.048,GOOG,720.5,720.93
5,2016-05-25 13:30:00.049,AAPL,97.99,98.01
6,2016-05-25 13:30:00.072,GOOG,720.5,720.88
7,2016-05-25 13:30:00.075,MSFT,52.01,52.03


In [144]:
# Ahora vamos aplicar la funcion merge_asof()
pd.merge_asof(trades, quotes, on="time", by="ticker")

Unnamed: 0,time,ticker,price,quantity,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,


In [145]:
pd.merge_asof(trades, quotes, on="time", by="ticker", tolerance=pd.Timedelta("2ms"))

Unnamed: 0,time,ticker,price,quantity,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,,
2,2016-05-25 13:30:00.048,GOOG,720.77,100,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,


## Comparar objetos - compare() 

In [146]:
df = pd.DataFrame(
    {
        "col1": ["a", "a", "b", "b", "a"],
        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
        "col3": [1.0, 2.0, 3.0, 4.0, 5.0],
    },
    columns=["col1", "col2", "col3"],
)

In [147]:
df

Unnamed: 0,col1,col2,col3
0,a,1.0,1.0
1,a,2.0,2.0
2,b,3.0,3.0
3,b,,4.0
4,a,5.0,5.0


In [148]:
df2 = df.copy()

In [149]:
df2.loc[0, "col1"] = "c"

In [150]:
df2.loc[2, "col3"] = 4.0

In [151]:
df2

Unnamed: 0,col1,col2,col3
0,c,1.0,1.0
1,a,2.0,2.0
2,b,3.0,4.0
3,b,,4.0
4,a,5.0,5.0


In [152]:
df.compare(df2)

Unnamed: 0_level_0,col1,col1,col3,col3
Unnamed: 0_level_1,self,other,self,other
0,a,c,,
2,,,3.0,4.0


In [153]:
df.compare(df2, align_axis=0)

Unnamed: 0,Unnamed: 1,col1,col3
0,self,a,
0,other,c,
2,self,,3.0
2,other,,4.0


In [154]:
# Si desea conservar todas las filas y columnas originales, establezca el argumento keep_shape en True.
df.compare(df2, keep_shape=True)

Unnamed: 0_level_0,col1,col1,col2,col2,col3,col3
Unnamed: 0_level_1,self,other,self,other,self,other
0,a,c,,,,
1,,,,,,
2,,,,,3.0,4.0
3,,,,,,
4,,,,,,
