# CLASE 2.4: COMBINACIÓN DE DATAFRAMES.
---
**Pandas** nos provee de varias herramientas para combinar fácilmente tanto series como DataFrames, considerando para ello varias lógicas inherentes al tipo de unión que queramos realizar, y que en general suelen depender de los índices que caracterizan a la data almacenada en estas estructuras de datos. Tales lógicas pueden (o no) considerar elementos de álgebra relacional que son típicos en operaciones de *joining* y *merging* propios de bases de datos, y que son un elemento central en lenguajes de consulta como SQL.

## Concatenación.
La función `pd.concat()` corresponde a la herramienta fundamental, provista por **Pandas**, para llevar a cabo las operaciones generales de concatenación de series y/o DataFrames. De manera opcional, permite establecer condiciones importantes para la concatenación que son propias de la necesidad que podamos tener: Ya sea elegir el eje respecto del cual se efectúa la concatenación (como siempre, mediante el argumento `axis`), además de ciertas opciones relativas a la lógica de unión de las estructuras de interés en función de sus índices.

### Concatenación básica.
La opción más sencilla de concatenación de series o DataFrames mediante el uso de la función `pd.concat()` simplemente exige que las estructuras a concatenar sean imputadas por medio de una lista de Python. Definamos algunos DataFrames para ejemplificar su uso:

In [1]:
import pandas as pd

In [2]:
# Una función que nos permitirá construir DataFrames perfectos para ejemplificar las funciones
# de combinación provistas por Pandas.
def make_df(cols, ind):
    """
    Una función que permite construir rápidamente un DataFrame, conformado por índices a nuestro
    gusto, columnas listadas por letras desde la A, en orden lexicográfico, y valores iguales a
    la correspondiente letra que caracteriza a la columna, y el número de la columna respectiva.
    """
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [3]:
# Construiremos tres DataFrames para jugar con ellos.
df1 = make_df(cols="ABCD", ind=[0, 1, 2, 3])
df2 = make_df(cols="ABCD", ind=[4, 5, 6, 7])
df3 = make_df(cols="ABCD", ind=[8, 9, 10, 11])

Además, definiremos una clase llamada `Display()` para mostrar el resultado de todas las operaciones de unión que realicemos, apoyándonos de un *templat* en HTML:

In [4]:
class Display(object):
    """
    Representación en pantalla de objetos de tipo HTML. Muy útil para poder mostrar varios DataFrames al
    mismo tiempo.
    """
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_()) for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a)) for a in self.args)

Mostramos pues nuestros DataFrames en pantalla, usando nuestra clase:

In [5]:
Display("df1", "df2", "df3")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


Y ya podemos revisar cómo funciona, en primera instancia, la función `pd.concat()`. Como comentamos previamente, esta función requiere, como mínimo, especificar los DataFrames (o series) a unir mediante una lista de Python. El argumento `axis` permite controlar el eje respecto del cual se realiza la concatenación:

In [6]:
# Concatenación con respecto a las filas.
df_conc_rows = pd.concat([df1, df2, df3], axis=0)

In [7]:
# Concatenación con respecto a las columnas.
df_conc_cols = pd.concat([df1, df2, df3], axis=1)

In [8]:
# Los resultados de estas concatenaciones.
Display("df_conc_rows", "df_conc_cols")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


Observamos que, en su forma más simple, la función `pd.concat()` funciona de manera similar a `np.concatenate()`. Toma todos los DataFrames (o series) especificados y los une, ya sea con respecto al eje de filas o columnas, tomando siempre como referencia los índices que describen dichos ejes. Por esta razón, la concatenación conforme el eje de las filas (`pd.concat([df1, df2, df3], axis=0)`) genera un nuevo DataFrame sin ninguna entrada vacía (`nan`), ya que todos los DataFrames a concatenar comparten el mismo índice de columnas, pero no sus índices sus índices de filas. Debido a esto, la concatenación conforme el eje de las columnas (`pd.concat([df1, df2, df3], axis=1)`) presenta siempre `nan` en aquellas posiciones donde tales índices de fila no están definidos para los DataFrames a unir.

La función `pd.concat()` puede recibir una serie de argumentos que permiten controlar el resultado de la concatenación. Por ejemplo, podemos usar el argumento `keys`, el cual corresponde a una lista de índices (idealmente con tantos elementos como DataFrames a unir), para que, de esa manera, se genere una concatenación tal que cada elemento que conforma la unión quede vinculado a una llave de primer nivel. De esta manera, el resultado de la concatenación será un DataFrame multinivel que permite identificar rápidamente los elementos de la unión:

In [9]:
Display("pd.concat([df1, df2, df3], keys=['x', 'y', 'z', 'w'], axis=0)")

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


Por lo tanto, podemos seleccionar rápidamente los "pedazos" que constituyen la unión:

In [10]:
result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z'], axis=0)
result.loc["x"]

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


### Opciones derivadas del álgebra de conjuntos.
Cuando "pegamos" múltiples DataFrames mediante el uso de la función `pd.concat()`, podemos controlar la forma en la cual se genera esta operación. Tales *formas* guardan relación con cuanta información deseamos preservar a la hora de integrar dos o más DataFrames en uno sólo. La opción por defecto de `pd.concat()` es una unión que preserva absolutamente todos los datos (índices y valores) de los DataFrames de entrada, lo que equivale a una **operación algebraica de unión** entre todos estos conjuntos de datos. En en lenguaje de las bases de datos, esta operación se conoce como *unión exterior* (**outer join**), y es controlada por el argumento `join`:

In [11]:
Display("pd.concat([df1, df2, df3], axis=0, join='outer')")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Sin embargo, podemos cambiar esta lógica. Si ponemos `join="inner"`, la función `pd.concat()` generará como resultado un DataFrame que sólo preserva los índices en común entre sus elementos de entrada. Es decir, ejecutará una **operación algebraica de intersección** entre todos los conjuntos de datos. En el lenguaje de las bases de datos, esta operación se conoce como *unión interior* (**inner join**).

Mostraremos esto creando un nuevo DataFrame:

In [12]:
# Creamos un nuevo DataFrame.
df4 = make_df(cols="BDF", ind=[2, 3, 6, 7])

Veamos que ocurre cuando intersectamos los DataFrames `df1`y `df4` con respecto al eje de las columnas:

In [13]:
# Intersección entre df1 y df4.
result = pd.concat([df1, df4], axis=1, join='inner')
Display("df1", "df4", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


Observemos que el resultado de la concatenación anterior (`join=inner`) preserva únicamente aquellos valores que están asignados a índices en común de todos los DataFrames que se imputan en la función `pd.concat()`. Lo anterior genera una **pérdida de información** que debemos estar dispuestos a aceptar en caso de aplicar esta operación.

En términos de integridad del resultado, podemos observar que esta operación, además, genera duplicaciones de índices que se dan en las columnas en común de ambos DataFrames. Podemos evitar este tipo de resultados si le indicamos a la función `pd.concat()` que cualquier resultado cuyos índices estén duplicados levante un error de valor (`VaueError`), lo que puede setearse mediante el argumento Booleano `verify_integrity`, cuyo valor por defecto es `False`. De esta manera:

In [14]:
try:
    result = pd.concat([df1, df4], axis=1, join='inner', verify_integrity=True)
except ValueError as e:
    print(e)

Indexes have overlapping values: Index(['B', 'D'], dtype='object')


Observamos pues que, como el resultado de intersección de los DataFrames `df1` y `df4` posee índices dupicados, el uso de `verify_integrity=True` levanta un error.

Puede ocurrir, igualmente, que los índices de los DataFrames que queremos concatenar no sean de nuestro interés o no tengan algún significado importante. En este caso, podemos ignorar el hecho de que el resultado de la concatenación presente índices superpuestos usando el argumento Booleano `ignore_index` en la función `pd.concat()`:

In [15]:
# Unión ignorando índices superpuestos.
result = pd.concat([df1, df4], axis=0, ignore_index=True)

In [16]:
Display("df1", "df4", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


### Concatenación de DataFrames y series.
Podemos usar la función `pd.concat()` para unir objetos de **Pandas** que tengan dimensiones diferentes, como lo son los DataFrames y las series. En este caso, la serie será transformada *tras bambalinas* en un DataFrame, tomando el nombre la misma (definido por su atributo `name`) con el rótulo de su única columna:

In [17]:
s1 = pd.Series(data=[f"Z{j}" for j in range(4)], name="Z")
result = pd.concat([df1, s1], axis=1)

In [18]:
Display("df1", "pd.DataFrame(s1)", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,Z
0,Z0
1,Z1
2,Z2
3,Z3

Unnamed: 0,A,B,C,D,Z
0,A0,B0,C0,D0,Z0
1,A1,B1,C1,D1,Z1
2,A2,B2,C2,D2,Z2
3,A3,B3,C3,D3,Z3


Si concatenamos series que no tienen definido su atributo `name`, las columnas respectivas en las cuales se asignarán tales series serán rotuladas de manera genérica, partiendo por el valor 0:

In [19]:
s2 = pd.Series(data=[f"k{j}" for j in range(4)])
result = pd.concat([df1, s2, s2, s2], axis=1)

In [20]:
Display("df1", "pd.DataFrame(s2)", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,0
0,k0
1,k1
2,k2
3,k3

Unnamed: 0,A,B,C,D,0,1,2
0,A0,B0,C0,D0,k0,k0,k0
1,A1,B1,C1,D1,k1,k1,k1
2,A2,B2,C2,D2,k2,k2,k2
3,A3,B3,C3,D3,k3,k3,k3


Por otro lado, si seteamos `ignore_index=True` en la función `pd.concat()`, se descartará cualquier referencia construida previamente para nombrar a las correspondientes series o DataFrames:

In [21]:
result = pd.concat([df1, s1], axis=1, ignore_index=True)

In [22]:
Display("df1", "pd.DataFrame(s1)", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,Z
0,Z0
1,Z1
2,Z2
3,Z3

Unnamed: 0,0,1,2,3,4
0,A0,B0,C0,D0,Z0
1,A1,B1,C1,D1,Z1
2,A2,B2,C2,D2,Z2
3,A3,B3,C3,D3,Z3


Con frecuencia, se usa el argumento `keys` para sobreescribir los nombres de las columnas resultantes de una concatenación. Esto es especialmente útil cuando se construye un DataFrame a partir de la concatenación de varias series, ya que, de otro modo, el DataFrame resultante hereda los nombres de cada serie (definidos en su atributo `name`):

In [23]:
# Definimos tres series individuales que contatenaremos en un DataFrame.
s3 = pd.Series(data=[0, 1, 2, 3], name="alpha")
s4 = pd.Series(data=[5, 6, 7, 8], name="beta")
s5 = pd.Series(data=[9, 10, 11, 12], name="gamma")

In [24]:
# Hacemos la contatenación y sobreescribimos los nombres de las series.
result = pd.concat([s3, s4, s5], axis=1, keys=["x", "y", "z"])

In [25]:
# Mostramos el resultado en pantalla.
Display("result")

Unnamed: 0,x,y,z
0,0,5,9
1,1,6,10
2,2,7,11
3,3,8,12


## Combinaciones de tipo base de datos con `pd.merge()`.
Un atributo esencial de **Pandas** corresponde a sus operaciones de combinación de series y DataFrames siguiendo una lógica de bases de datos relacionales, de la misma forma que lenguajes de consulta como SQL lo hacen en general. Si alguna vez hemos trabajado con bases de datos, quizás nos sea familiar este tipo de interacción entre estructuras de datos de **Pandas**. En este caso, la interfaz principal de combinación es la función `pd.merge()`, para la cual ejemplificaremos varios casos de uso.

La función `pd.merge()` dispone de varios argumentos, siendo los obligatorios `left` y `right`, que corresponde a las series y/o DataFrames que deseamos combinar, y que se asocian con las posiciones izquierda y derecha de la combinación, respectivamente. Adicional a estos argumentos, tenemos algunos parámetros opcionales que vale la pena comentar antes de empezar a escribir algo de código:

- `how`, que nos permite establecer el tipo de interacción entre los elementos a combinar. Por defecto, su valor es `inner`, que hace referencia a una combinación de tipo *inner join* (intersección). Veremos otras opciones a medida que vayamos comentando algunos ejemplos.
- `on`, que permite definir el índice de fila o columna, en un nivel determinado, respecto del cual se hará la combinación. Por lo tanto, debe existir en ambos DataFrames o series especificados en los argumentos `left` y `right`. De no especificarse, **Pandas** inferirá esta referencia a partir la intersección de los índices de filas y colunas entre las series y/o DataFrames a combinar.
- `left_on` y `right_on`, que corresponden a los índices de fila o columna, en un nivel determinado, de la serie o DataFrame especificado en el argumento `left` o `right`, respectivamente, que serán usados como llaves en el DataFrame o serie resultante de la combinación.

Por supuesto, existen más argumentos que podemos imputar en la función `pd.merge()`, y que veremos conforme vayamos ejempificando los correspondientes casos de uso.

Al realizar combinaciones mediante la función `pd.merge()`, el resultado de dicha operación será del mismo tipo que el objeto imputado en el argumento `left`. De esta manera, si `left` especifica un DataFrame, el resultado de la aplicación de la función `pd.merge()` será también un DataFrame.

### Categorías de combinación.
El diseño de la función `pd.merge()` y su forma de operar es conocido en el campo del **álgebra relacional**, el cual es un conjunto formal de reglas para la manipulación de conjuntos de datos en formato de tablas (con una cierta cantidad de filas y columnas), y constituye el fundamento conceptual de la mayoría de las operaciones disponibles en las bases de datos. La fuerza del enfoque basado álgebra relacional reside en el hecho de nos propone varias operaciones básicas fundamentales, las que finalmente conforman los bloques constructivos de otras operaciones de mayor complejidad que podemos realizar sobre cualquier conjunto de datos. Con esta batería de operaciones fundamentales, aplicadas de manera eficiente sobre una base de datos u otro programa, podremos generar operaciones más complejas simplemente componiendo tales operaciones con funciones más sencillas.

La función `pd.merge()` permite implementar varias lógicas de combinación de estructuras de datos de **Pandas** y que es importante conocer a la perfección para entender la forma de operar de esta función:

**a) Lógica de tipo "one-to-one"**: Unión más común de todas, en la cual asumimos que la correspondencia entre índices siempre es de uno a uno. Por lo tanto, para efectuar una unión con esta lógica, los índices de cada serie o DataFrame de entrada no pueden contener duplicados. Consideremos, a fin de ejemplificar este caso, los siguientes DataFrames:

In [26]:
# DataFrames con los que comprobaremos la lógica "one-to-one", los que representan ciertas
# características de algunos puntos de extracción en una mina subterránea.
df1 = pd.DataFrame({
    "PEX": ["N01S03", "N01S04", "N01S05", "N01S06"],
    "estado": ["operativo", "colgado", "operativo", "cerrado"]
})
df2 = pd.DataFrame({
    "PEX": ["N01S05", "N01S03", "N01S06", "N01S04"],
    "altura": [180, 220, 180, 210]
})

# Mostramos estos DataFrames en pantalla.
Display("df1", "df2")

Unnamed: 0,PEX,estado
0,N01S03,operativo
1,N01S04,colgado
2,N01S05,operativo
3,N01S06,cerrado

Unnamed: 0,PEX,altura
0,N01S05,180
1,N01S03,220
2,N01S06,180
3,N01S04,210


Si generamos la combinación de estos DataFrames mediante la función `pd.merge()`, obtendremos:

In [27]:
# Combinacion de estos DataFrames.
result = pd.merge(left=df1, right=df2)

In [28]:
# Mostramos en pantalla esta combinación.
Display("result")

Unnamed: 0,PEX,estado,altura
0,N01S03,operativo,220
1,N01S04,colgado,210
2,N01S05,operativo,180
3,N01S06,cerrado,180


La función `pd.merge()` reconoce, en este caso, que cada uno de los DataFrames que se imputan en la misma tiene una columna con el mismo rótulo, llamada `"PEX"`, y sucesivamente genera la combinación entre ambos tomando como referencia a dicha columna. Notemos que el orden original de los valores asociados a la columna respecto de la cual se hace la combinación no necesariamente se preservará en el resultado.

Notemos que las operaciones llevadas a cabo mediante la función `pd.merge()` permiten explicitar el rótulo de la columna que se toma como referencia en la combinación. De este modo, si bien resulta obvio, podemos replantear la combinación explicitando el uso de la columna `"PEX"` como referencia de la unión mediante el argumento `on`, lo que naturalmente nos llevará al mismo resultado:

In [29]:
# Combinacion de estos DataFrames.
result = pd.merge(left=df1, right=df2, on="PEX", sort=True)

In [30]:
# Mostramos en pantalla esta combinación.
Display("df1", "df2", "result")

Unnamed: 0,PEX,estado
0,N01S03,operativo
1,N01S04,colgado
2,N01S05,operativo
3,N01S06,cerrado

Unnamed: 0,PEX,altura
0,N01S05,180
1,N01S03,220
2,N01S06,180
3,N01S04,210

Unnamed: 0,PEX,estado,altura
0,N01S03,operativo,220
1,N01S04,colgado,210
2,N01S05,operativo,180
3,N01S06,cerrado,180


**b) Lógica de tipo many-to-one:** Corresponde a una unión tal que una de las columnas respecto de las cuales ésta se realiza contiene valores duplicados. En este caso, la función `pd.merge()` preservará dichos valores duplicados de manera apropiada:

In [31]:
# Creamos un DataFrame con ciertos valores duplicados.
df3 = pd.DataFrame({
    "PEX": ["N01S05", "N01S03", "N01S06", "N01S04"],
    "condicion": ["disponible", "disponible", "no disponible", "disponible"]
})

In [32]:
# Combinamos el resultado anterior con este DataFrame.
result_2 = pd.merge(left=result, right=df3, on="PEX", sort=True)

In [33]:
# Mostramos el resultado en pantalla.
Display("result", "df3", "result_2")

Unnamed: 0,PEX,estado,altura
0,N01S03,operativo,220
1,N01S04,colgado,210
2,N01S05,operativo,180
3,N01S06,cerrado,180

Unnamed: 0,PEX,condicion
0,N01S05,disponible
1,N01S03,disponible
2,N01S06,no disponible
3,N01S04,disponible

Unnamed: 0,PEX,estado,altura,condicion
0,N01S03,operativo,220,disponible
1,N01S04,colgado,210,disponible
2,N01S05,operativo,180,disponible
3,N01S06,cerrado,180,no disponible


**c) Lógica de tipo many-to-many:** Corresponde a una unión para la cual las columnas respecto de las cualés ésta se realiza contienen valores duplicados. En este caso, la función `pd.merge()`, al igual que en el caso anterior, preserva tales valores duplicados de manera adecuada:

In [34]:
# Creamos un DataFrame con los mismos índices que df1.
df4 = pd.DataFrame({
    "PEX": ["N01S03", "N01S04", "N01S05", "N01S06"],
    "tonelaje": [1290, 1223, 2450, 2102]
})

In [35]:
# Combinamos df1 con df4.
result_3 = pd.merge(left=df1, right=df4, on="PEX", sort=True)

In [36]:
# Mostramos el resultado en pantalla.
Display("df1", "df4", "result_3")

Unnamed: 0,PEX,estado
0,N01S03,operativo
1,N01S04,colgado
2,N01S05,operativo
3,N01S06,cerrado

Unnamed: 0,PEX,tonelaje
0,N01S03,1290
1,N01S04,1223
2,N01S05,2450
3,N01S06,2102

Unnamed: 0,PEX,estado,tonelaje
0,N01S03,operativo,1290
1,N01S04,colgado,1223
2,N01S05,operativo,2450
3,N01S06,cerrado,2102


Vamos a observar un ejemplo un tanto más complicado, en el cual realizaremos la combinación de dos DataFrames con respecto a dos índices existentes en ambos. Debido a que la función `pd.merge()` genera una intrsección de tales índices por defecto a la hora de generar la correspondiente combinación (lo que está definido por el argumento `how="inner"`), solamente los valores de estos índices presentes simultáneamente en ambos DataFrames se preservarán en el resultado de la combinación:

In [37]:
# Construimos un par de DataFrames para testear una combinación con más de una llave.
df5 = pd.DataFrame({
    "calle": ["N01", "N01", "N02", "N03"],
    "zanja": ["01S", "02S", "01S", "01S"],
    "estado": ["operativo", "colgado", "operativo", "cerrado"],
    "altura": [180, 220, 180, 210]
})
df6 = pd.DataFrame({
    "calle": ["N01", "N02", "N02", "N03"],
    "zanja": ["02S", "03S", "04S", "02S"],
    "tonelaje": [1350, 1150, 2200, 2090],
    "utilización": [66.7, 100.0, 33.3, 50.0]
})

In [38]:
# Combinamos estoa DataFrames con respecto a las llaves relativas a la calle y zanja que
# referencian cada punto de extracción.
result_4 = pd.merge(left=df5, right=df6, on=["calle", "zanja"])

In [39]:
# Mostramos en pantalla esta combinación.
Display("df5", "df6", "result_4")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización
0,N01,02S,colgado,220,1350,66.7


Observemos que la combinación anterior se realiza con respecto a las columnas `"calle"` y `"zanja"`, las que existen en ambos DataFrames a combinar. Debido a que, por defecto, la combinación se realiza mediante una lógica de tipo "inner join" (es decir, `hoy="inner"`), la función `pd.merge()` busca la intersección de los valores respectivos en estas columnas, siendo ésta únicamente la fila indexada en la posición `1` en `df5`, y la fila indexada en la posición `0` en `df6`. Por esa razón, la combinación así definida solo tiene una única fila, como se observa en el DataFrame `result_4`.

Las tres lógicas contempladas por la función `pd.merge()` pueden ser utilizadas con otras herramientas de **Pandas** para implementar, de esta manera, un amplio abanico de funcionalidades. Sin embargo, en la práctica, los conjuntos de datos que encontremos en el mundo real casi nunca son tan limpios y ordenados como los que hemos puesto de ejemplo anteriormente. Por lo tanto, debemos tener siempre en consideración toda la batería de herramientas que hemos desarrollado en el marco de la manipulación y limpieza de datos.

### Esquemas relacionales de combinación.
Como ya comentamos anteriormente, el parámetro `how` permite especificar cuáles serán los valores que serán incluidos en el resultado de la función `pd.merge()`. Si una combinación de valores **no aparece** en el DataFrame o serie definido en `inner` o `right`, los valores correspondientes a dicha combinación será expresados como `nan` en el resultado de la función `pd.merge()`. En la Tabla (4.1) se observa un resumen de todas las opciones disponibles de combinación para el parámetro `how`:

<p style="text-align: center;">Tabla (4.1): Opciones de combinación disponibles para la combinación de DataFrames o series</p>

| Valor del parámetro `how` | Descripción                                                                   |
| ------------------------- | ----------------------------------------------------------------------------- |
| `left`                    | Usamos sólo valores relativos a columnas del DataFrame `left`.                |
| `right`                   | Usamos sólo valores relativos a columnas del DataFrame `right`.               |
| `outer`                   | Usamos la **unión** de los valores relativos a ambos DataFrames.              |
| `inner`                   | Usamos la **intersección** de los valores relativos a ambos DataFrames.       |
| `cross`                   | Creamos el **producto cartesiano** relativo a las filas de ambos DataFrames. |

En la Fig. (4.1) se observa un esquema de todos estos tipos de combinaciones.

<p style="text-align: center;"><img src="figures/fig_4_1.png" width="1000"></p>
<p style="text-align: center;">Fig. (4.1): Diagramas que ilustran las distintas combinaciones de la Tabla (4.1)</p>

Vamos a usar los DataFrames `df5` y `df6` para ilustrar cómo se verían, en la práctica, todas estas combinaciones.

In [40]:
# Intersección.
inner_join = pd.merge(left=df5, right=df6, on=["calle", "zanja"], how="inner")
Display("df5", "df6", "inner_join")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización
0,N01,02S,colgado,220,1350,66.7


In [41]:
# Unión.
outer_join = pd.merge(left=df5, right=df6, on=["calle", "zanja"], how="outer")
Display("df5", "df6", "outer_join")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización
0,N01,01S,operativo,180.0,,
1,N01,02S,colgado,220.0,1350.0,66.7
2,N02,01S,operativo,180.0,,
3,N03,01S,cerrado,210.0,,
4,N02,03S,,,1150.0,100.0
5,N02,04S,,,2200.0,33.3
6,N03,02S,,,2090.0,50.0


In [42]:
# Unión por la izquierda.
left_join = pd.merge(left=df5, right=df6, on=["calle", "zanja"], how="left")
Display("df5", "df6", "left_join")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización
0,N01,01S,operativo,180,,
1,N01,02S,colgado,220,1350.0,66.7
2,N02,01S,operativo,180,,
3,N03,01S,cerrado,210,,


In [43]:
# Unión por la derecha.
right_join = pd.merge(left=df5, right=df6, on=["calle", "zanja"], how="right")
Display("df5", "df6", "right_join")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización
0,N01,02S,colgado,220.0,1350,66.7
1,N02,03S,,,1150,100.0
2,N02,04S,,,2200,33.3
3,N03,02S,,,2090,50.0


In [44]:
# Unión cruzada (no se especifica el parámetro on).
cross_join = pd.merge(left=df5, right=df6, how="cross")
Display("df5", "df6", "cross_join")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle_x,zanja_x,estado,altura,calle_y,zanja_y,tonelaje,utilización
0,N01,01S,operativo,180,N01,02S,1350,66.7
1,N01,01S,operativo,180,N02,03S,1150,100.0
2,N01,01S,operativo,180,N02,04S,2200,33.3
3,N01,01S,operativo,180,N03,02S,2090,50.0
4,N01,02S,colgado,220,N01,02S,1350,66.7
5,N01,02S,colgado,220,N02,03S,1150,100.0
6,N01,02S,colgado,220,N02,04S,2200,33.3
7,N01,02S,colgado,220,N03,02S,2090,50.0
8,N02,01S,operativo,180,N01,02S,1350,66.7
9,N02,01S,operativo,180,N02,03S,1150,100.0


Notemos que, al setear el parámetro `how="cross"`, debemos prescindir de especificar columnas respecto de las cuales se hace la combinación, ya que este esquema genera una unión de todos contra todos (como comentamos previamente, matemáticamente corresponde a un producto cartesiano).

### Chequeo de valores duplicados.
Es posible utilizar el argumento `validate` en la función `pd.merge()` para chequear si es que existen valores duplicados en las columnas respecto de las cuales se realizará la combinación correspondiente, suponiendo que no deseamos que tales duplicados existan en el resultado de la combinación. El chequeo de valores duplicados es apropiado para ahorrar memoria y disminuir los tiempos de ejecución en las operaciones de combinación, debido a que podemos evitar duplicar ciertos cálculos. También resulta una buena práctica para asegurarnos de que el resultado de una combinación es tal y como lo esperábamos.

Debido a que las uniones de tipo one-to-one exigen la unicidad de los valores respecto de los cuales generamos una combinación, podemos setear el argumento `validate` en `"one_to_one"` precisamente para asegurarnos de que, efectivamente, esta sea la lógica de combinación. Por ejemplo:

In [45]:
# Sabemos que df1 y df2 cumplen con tener valores no duplicados en las columnas "PEX", por
# lo que, al combinarlos, la lógica subyacente a esta operación es del tipo "one-to-one".
result = pd.merge(left=df1, right=df2, how="outer", validate="one_to_one")

In [46]:
Display("df1", "df2", "result")

Unnamed: 0,PEX,estado
0,N01S03,operativo
1,N01S04,colgado
2,N01S05,operativo
3,N01S06,cerrado

Unnamed: 0,PEX,altura
0,N01S05,180
1,N01S03,220
2,N01S06,180
3,N01S04,210

Unnamed: 0,PEX,estado,altura
0,N01S03,operativo,220
1,N01S04,colgado,210
2,N01S05,operativo,180
3,N01S06,cerrado,180


Por supuesto, si intentamos validar una lógica incorrecta, **Pandas** levantará un error de combinación (denominado `MergeError`):

In [47]:
# Creamos DataFrames con columnas con valores duplicados.
df7 = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]})
df8 = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [48]:
# Mostramos estos DataFrames en pantalla.
Display("df7", "df8")

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3

Unnamed: 0,A,B
0,4,2
1,5,2
2,6,2


In [49]:
# Claramente, si combinamos estos DataFrames en una lógica de tipo "one-to-one", con respecto
# a la columna "B" se levantará un error, ya que esa lógica no aplica si hay valores duplicados
# en ambos DataFrames.
try:
    result = pd.merge(df7, df8, on="B", how="outer", validate="one_to_one")
except pd.errors.MergeError as e:
    print(e)

Merge keys are not unique in right dataset; not a one-to-one merge


### Indicador del tipo de combinación.
La función `pd.merge()` acepta un argumento llamado `indicator`, el cual es de tipo Booleano. Si `indicator=True`, el resultado de la combinación incorporará una columna llamada `"_merge"`, la que indicará el tipo de combinación realizada en relación a la o las columnas respectivas, en función de la posición de cada DataFrame de entrada:

In [50]:
# Unión con indicador.
outer_join_w_indicator = pd.merge(left=df5, right=df6, on=["calle", "zanja"], how="outer", indicator=True)
Display("df5", "df6", "outer_join_w_indicator")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización,_merge
0,N01,01S,operativo,180.0,,,left_only
1,N01,02S,colgado,220.0,1350.0,66.7,both
2,N02,01S,operativo,180.0,,,left_only
3,N03,01S,cerrado,210.0,,,left_only
4,N02,03S,,,1150.0,100.0,right_only
5,N02,04S,,,2200.0,33.3,right_only
6,N03,02S,,,2090.0,50.0,right_only


Los valores que toma la columna `"_merge"`, como podemos observar, son tres: `left_only` cuando el valor respectivo asociado a la o las columnas respecto de la(s) cual(es) se realiza la combinación en `pd.merge()` sólo está definido en el DataFrame imputado en el argumento `left`; `right_only` cuando el valor respectivo asociado a la o las columnas respecto de la(s) cual(es) se realiza la combinación en `pd.merge()` sólo está definido en el DataFrame imputado en el argumento `right`; y `both` cuando tales valores están definidos en ambos DataFrames de entrada.

De esta manera, vemos que la primera fila en el DataFrame resultante (`outer_join_w_indicator`) tiene asignado el valor `left`, debido a que las columnas `"calle"` y `"zanja"` sólo tienen definida la combinación de valores `N01` y `01S` en el DataFrame `df5`, que es el que pasamos a `pd.merge()` conforme el argumento `left`.

El argumento `indicator` en la función `pd.merge()` también acepta valores de tipo string, los cuales corresponderán al nombre asociado a la columna indicadora:

In [51]:
# Unión con indicador cuyo rótulo de columna se especifica de forma explícita.
outer_join_w_indicator = pd.merge(
    left=df5, right=df6, on=["calle", "zanja"], how="outer", indicator="indicator"
)
Display("df5", "df6", "outer_join_w_indicator")

Unnamed: 0,calle,zanja,estado,altura
0,N01,01S,operativo,180
1,N01,02S,colgado,220
2,N02,01S,operativo,180
3,N03,01S,cerrado,210

Unnamed: 0,calle,zanja,tonelaje,utilización
0,N01,02S,1350,66.7
1,N02,03S,1150,100.0
2,N02,04S,2200,33.3
3,N03,02S,2090,50.0

Unnamed: 0,calle,zanja,estado,altura,tonelaje,utilización,indicator
0,N01,01S,operativo,180.0,,,left_only
1,N01,02S,colgado,220.0,1350.0,66.7,both
2,N02,01S,operativo,180.0,,,left_only
3,N03,01S,cerrado,210.0,,,left_only
4,N02,03S,,,1150.0,100.0,right_only
5,N02,04S,,,2200.0,33.3,right_only
6,N03,02S,,,2090.0,50.0,right_only


### Especificación de las columnas referenciadoras de una combinación.
En algunos casos, podríamos estar interesados en combinar dos DataFrames y que las columnas respecto de las cuales queremos hacer dicha combinación tengan rótulos distintos en ambos DataFrames. En este caso, podemos espeficar los nombres de estas columnas usando los argumentos `left_on` y `right_on`:

In [52]:
# Construimos un DataFrame que usaremos para ejemplificar lo anterior.
df8 = pd.DataFrame({
    "punto_extraccion": ["N01S05", "N01S03", "N01S04", "N01S06"],
    "altura": [225, 210, 180, 130]
})

In [53]:
# Generamos la combinación de df1 y df8.
result = pd.merge(left=df1, right=df8, left_on="PEX", right_on="punto_extraccion")

In [54]:
# Mostramos los resultados de la combinación.
Display("df1", "df8", "result")

Unnamed: 0,PEX,estado
0,N01S03,operativo
1,N01S04,colgado
2,N01S05,operativo
3,N01S06,cerrado

Unnamed: 0,punto_extraccion,altura
0,N01S05,225
1,N01S03,210
2,N01S04,180
3,N01S06,130

Unnamed: 0,PEX,estado,punto_extraccion,altura
0,N01S03,operativo,N01S03,210
1,N01S04,colgado,N01S04,180
2,N01S05,operativo,N01S05,225
3,N01S06,cerrado,N01S06,130


Observamos que, al generar la combinación de esta forma, las columnas especificadas por los argumentos `left_on` y `right_on` quedan integradas en el resultado, lo que puede ser un problema. Por esa razón, puede ser buena idea eliminar una de ellas, ya que puede darse el caso, como ahora, en que sus valores son exactamente los mismos.

### Combinación respecto de índices de filas.
Finalizaremos esta sección mostrando como usar la función `pd.merge()` para generar combinaciones de DataFrames respecto de sus índices de filas. Para ello, podemos usar los argumentos `left_index` y `right_index`, los que permiten especificar los índices asociados a los DataFrames pasados en los argumentos `left` y `right`, respectivamente, que se usarán como referencia de la correspondiente combinación:

In [55]:
# Definimos un par de DataFrames para ejemplificar lo anterior.
df1 = make_df(cols="UVWX", ind=[0, 1, 2, 3])
df2 = make_df(cols="WXYZ", ind=[1, 2, 3, 4])

In [56]:
# Generamos la combinación respecto de sus índices.
result = pd.merge(left=df1, right=df2, how="inner", left_index=True, right_index=True)

In [57]:
# Mostramos los resultados de la combinación.
Display("df1", "df2", "result")

Unnamed: 0,U,V,W,X
0,U0,V0,W0,X0
1,U1,V1,W1,X1
2,U2,V2,W2,X2
3,U3,V3,W3,X3

Unnamed: 0,W,X,Y,Z
1,W1,X1,Y1,Z1
2,W2,X2,Y2,Z2
3,W3,X3,Y3,Z3
4,W4,X4,Y4,Z4

Unnamed: 0,U,V,W_x,X_x,W_y,X_y,Y,Z
1,U1,V1,W1,X1,W1,X1,Y1,Z1
2,U2,V2,W2,X2,W2,X2,Y2,Z2
3,U3,V3,W3,X3,W3,X3,Y3,Z3


Observamos que, debido a que `1`, `2` y `3` son las columnas en común en ambos DataFrames, la combinación anterior dará como resultado otro DataFrame cuyas filas estarán asociados a los valores asociados a estos índices de fila en común. Como `"W"` y `"X"`, además, son columnas en común en `df1` y `df2`, **Pandas** asigna un sufijo asociado a la correspondencia de estas columnas con cada DataFrame de entrada: `"W_x"` hace referencia a la columna `"W"` de `df1`, `"W_y"` hace referencia a la columna `"W"` de `df2`.

## Comentarios finales.
Las herramientas desarrolladas en esta sección nos permiten conjugar la información de cualquier número de fuentes en formato de series y/o DataFrames, y expresarla en nuevas series y/o DataFrames que recojan dicha información conforme cualquier lógica dependiente de los valores de las columnas que referencian cada combinación, o bien, del álgebra relacional inherente a tales combinaciones.

En la próxima sección, añadiremos el manejo de tiempos, fechas y objetos similares a nuestra caja de herramientas de **Pandas**, a fin de poder manipular información relativa a series de tiempo. Por supuesto, ésto implicará redescubrir algunas operaciones de indexación y selección de datos, y descubrir otras nuevas, tales como la creación de ventanas móviles de tiempo y desplazamientos.