# A mezclar cosas

*Este notebook se basa en la user guide de Pandas de [Merge, join, concatenate and compare!](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)*

*Autor: Ander*

En muchas ocasiones nos vamos a encontrar con datos de varias fuentes distintas que vamos a querer unir para trabajar con todos ellos. Vamos a ver las distintas formas que tenemos para unir todas esas fuentes de datos.

In [47]:
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [48]:
import pandas as pd

In [49]:
df1 = pd.DataFrame(
    {
          "A": ["A0", "A1", "A2", "A3"],
          "B": ["B0", "B1", "B2", "B3"],
          "C": ["C0", "C1", "C2", "C3"],
          "D": ["D0", "D1", "D2", "D3"],
      },
      index=[0, 1, 2, 3],
  )
  

df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)


df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11],
)

display("df1", "df2", "df3")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


## Metodo concat()

In [50]:
pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


El método concat como su propio nombre indica nos sirve para concatenar una lista de objetos que le pasemos. El método tiene varios parametros que nos sirven para poder configurar como hacemos esa concatenación y si queremos añadirle alguna configuración extra.

### keys

El parametro **keys** nos añade un indice jerarquico para saber el origen de cada fila en el objeto resultante

In [51]:
concat_with_keys = pd.concat([df1, df2, df3], keys= ["origen_1", "origen_2", "origen_3"])
concat_with_keys

Unnamed: 0,Unnamed: 1,A,B,C,D
origen_1,0,A0,B0,C0,D0
origen_1,1,A1,B1,C1,D1
origen_1,2,A2,B2,C2,D2
origen_1,3,A3,B3,C3,D3
origen_2,4,A4,B4,C4,D4
origen_2,5,A5,B5,C5,D5
origen_2,6,A6,B6,C6,D6
origen_2,7,A7,B7,C7,D7
origen_3,8,A8,B8,C8,D8
origen_3,9,A9,B9,C9,D9


Podemos hacer la misma operación de las keys si los datos se los pasamos como si fuera un diccionario

In [52]:
dict_keys = {"origen_1": df1, "origen_2": df2, "origen_3": df3}

concat_with_dict_keys = pd.concat(dict_keys)

display("concat_with_keys", "concat_with_dict_keys")

Unnamed: 0,Unnamed: 1,A,B,C,D
origen_1,0,A0,B0,C0,D0
origen_1,1,A1,B1,C1,D1
origen_1,2,A2,B2,C2,D2
origen_1,3,A3,B3,C3,D3
origen_2,4,A4,B4,C4,D4
origen_2,5,A5,B5,C5,D5
origen_2,6,A6,B6,C6,D6
origen_2,7,A7,B7,C7,D7
origen_3,8,A8,B8,C8,D8
origen_3,9,A9,B9,C9,D9

Unnamed: 0,Unnamed: 1,A,B,C,D
origen_1,0,A0,B0,C0,D0
origen_1,1,A1,B1,C1,D1
origen_1,2,A2,B2,C2,D2
origen_1,3,A3,B3,C3,D3
origen_2,4,A4,B4,C4,D4
origen_2,5,A5,B5,C5,D5
origen_2,6,A6,B6,C6,D6
origen_2,7,A7,B7,C7,D7
origen_3,8,A8,B8,C8,D8
origen_3,9,A9,B9,C9,D9


In [53]:
concat_with_keys.loc['origen_1']

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


El concat hace una copia completa de los datos y eso es costoso por lo que cuantas menos veces utilicemos la función mejor será para el rendimiento de nuestro código.

Si podemos hacer las modificiaciones de nuestros objetos previamente y despues concatenar todos a la vez nuestro rendimiento será mejor.

In [54]:
def modificar_esquinas(df):
    
    copy_df = df.copy()

    copy_df.iloc[0, 0] = 'Esquina'
    copy_df.iloc[-1, -1] = 'Esquina'
    copy_df.iloc[0, -1] = 'Esquina'
    copy_df.iloc[-1, 0] = 'Esquina'
    
    return(copy_df)

In [55]:
%%timeit
'''
Modificar, guardar y luego concatenar todo de una, siempre mejor
'''
df_list = [df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
           df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3]

df_final = modificar_esquinas(df1)

for df in df_list:
    
    df = modificar_esquinas(df)
    
    df_final = pd.concat([df_final, df])
    
df_final

59.5 ms ± 7.86 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [56]:
%%timeit
df_list = [df1, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
           df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3,
          df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3, df2, df3]

df_modificados = [modificar_esquinas(df) for df in df_list]
df_final = pd.concat(df_modificados)
df_final

30.6 ms ± 4.15 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [57]:
modificar_esquinas(df1)

Unnamed: 0,A,B,C,D
0,Esquina,B0,C0,Esquina
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,Esquina,B3,C3,Esquina


### axis

Podemos decidir si queremos juntar nuestros dataframes de forma "horizontal" o "vertical". Por defecto concat toma **axis=0** que lo que hace es unir los dataframes uno debajo del siguiente. Si queremos unirlo por columnas utilizaremos **axis=1**. 

In [58]:
df4 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

In [60]:
result = pd.concat([df1, df4], axis=1)

display("df1", "df4", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [61]:
result = pd.concat([df1, df4], axis=0)

display("df1", "df4", "result")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


Si vamos a utilizar *concat* con *axis=0* podemos utilizar en su lugar el método **append**

In [62]:
with_concat = pd.concat([df1, df2, df3], axis=0)
with_append = df1.append([df2, df3])
display("with_concat", "with_append")

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Recordemos un par de puntos del Clean Code:
>*Cada concepto debe tener asignada una única palabra*

>*Conceptos distintos deben tener asignadas palabras distintas*

Pues aquí nos encontramos a python haciendo lo que le da la gana...

Veamos como funcionaba el método append sobre listas

In [63]:
df1 = df1.append(df2)

In [64]:
lista = [1,2]

#lista_append = lista.append(3)
lista.append(3)

df1_append = df1.append(df2)

print(lista)
#print(lista_append)
display("df1", "df1_append")

[1, 2, 3]


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
4,A4,B4,C4,D4
5,A5,B5,C5,D5


### ignore_index

Si no queremos que nos mantenga los indices originales podemos decirle que los ignore y utilice un indice del 0 a N

In [65]:
without_index = pd.concat([df1, df4], ignore_index=True)
with_index = pd.concat([df1, df4], ignore_index=False)

display('df1', 'df4', 'with_index', 'without_index')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,
6,A6,B6,C6,D6,
7,A7,B7,C7,D7,
2,,B2,,D2,F2
3,,B3,,D3,F3

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,
6,A6,B6,C6,D6,
7,A7,B7,C7,D7,
8,,B2,,D2,F2
9,,B3,,D3,F3


Que es lo que pasa si lo utilizamos con **axis=1**

In [66]:
without_index = pd.concat([df1, df4], ignore_index=True, axis=1)
with_index = pd.concat([df1, df4], ignore_index=False, axis=1)

display('with_index', 'without_index')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
4,A4,B4,C4,D4,,,
5,A5,B5,C5,D5,,,
6,A6,B6,C6,D6,B6,D6,F6
7,A7,B7,C7,D7,B7,D7,F7

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
4,A4,B4,C4,D4,,,
5,A5,B5,C5,D5,,,
6,A6,B6,C6,D6,B6,D6,F6
7,A7,B7,C7,D7,B7,D7,F7


### Mezclando DataFrames y Series

Añadir una serie como una nueva columna

In [67]:
s1 = pd.Series(["X0", "X1", "X2", "X3"], name = "X")
pd.concat([df1, s1], axis=1)

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,
6,A6,B6,C6,D6,
7,A7,B7,C7,D7,


Añadir una serie como una nueva fila

In [68]:
s1 = pd.Series(["X0", "X1", "X2", "X3"], index = ['A', 'B', 'C', 'D'])
df1.append(s1, ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,X0,X1,X2,X3


### keys en series

A diferencia de con DataFrames con Series las keys sirven para modificar el nombre de las columnas

In [69]:
s3 = pd.Series([0, 1, 2, 3], name="foo")
s4 = pd.Series([0, 1, 2, 3])
s5 = pd.Series([0, 1, 4, 5])

with_keys = pd.concat([s3, s4, s5], keys = ['a', 'b', 'c'], axis=1)
without_keys = pd.concat([s3, s4, s5], axis=1)

display("with_keys", "without_keys")

Unnamed: 0,a,b,c
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5

Unnamed: 0,foo,0,1
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


## Método merge()

El método merge esta implementado para juntar diferentes fuentes de datos con una lógica de código similar a la que podemos encontrarnos en SQL

In [73]:
aulas = pd.DataFrame(
    {
        "aula": ['1.1', '1.2', '2.1', '2.2', '2.3', 'AUDITORIO', 'SANDBOX'],
        "capacidad": [16, 24, 16, 24, 12, 32, None],
        "planta": ["1", "1", "2", "2", "2", "-1", "0"]
    }
)


prom = pd.DataFrame(
    {
        "aula": ["2.1", "AUDITORIO", "2.3", "2.1", "1.1", "1.2", "2.2", "2.2", None, "IESE"],
        "prof": ["Dani", "David", "JL", "JR", "Carlos", "Miriam", "Gabriel", "Fran", None, "Alberto"],
        "vertical": ["ds", "fs", "ux", "ds", "cyber", "ux", "ds", "ds", "marketing", "ds"],
        "tipo": ["ft", "ft", "ft", "pt", "ft", "ft", "ft", "pt", "ft", None]
    }
)

display("aulas", "prom")

Unnamed: 0,aula,capacidad,planta
0,1.1,16.0,1
1,1.2,24.0,1
2,2.1,16.0,2
3,2.2,24.0,2
4,2.3,12.0,2
5,AUDITORIO,32.0,-1
6,SANDBOX,,0

Unnamed: 0,aula,prof,vertical,tipo
0,2.1,Dani,ds,ft
1,AUDITORIO,David,fs,ft
2,2.3,JL,ux,ft
3,2.1,JR,ds,pt
4,1.1,Carlos,cyber,ft
5,1.2,Miriam,ux,ft
6,2.2,Gabriel,ds,ft
7,2.2,Fran,ds,pt
8,,,marketing,ft
9,IESE,Alberto,ds,


### on

Al método merge le tenemos que indicar cual va a ser la columna de union entre los dos dataFrames

In [78]:
pd.merge(aulas, prom, left_on = 'aula', right_on = 'aula')

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo
0,1.1,16.0,1,Carlos,cyber,ft
1,1.2,24.0,1,Miriam,ux,ft
2,2.1,16.0,2,Dani,ds,ft
3,2.1,16.0,2,JR,ds,pt
4,2.2,24.0,2,Gabriel,ds,ft
5,2.2,24.0,2,Fran,ds,pt
6,2.3,12.0,2,JL,ux,ft
7,AUDITORIO,32.0,-1,David,fs,ft


Si el nombre de la columna de la izquierda y de la derecha son iguales podemos simplificarlo y utilizar el atributo **on**

In [79]:
pd.merge(aulas, prom, on = 'aula')

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo
0,1.1,16.0,1,Carlos,cyber,ft
1,1.2,24.0,1,Miriam,ux,ft
2,2.1,16.0,2,Dani,ds,ft
3,2.1,16.0,2,JR,ds,pt
4,2.2,24.0,2,Gabriel,ds,ft
5,2.2,24.0,2,Fran,ds,pt
6,2.3,12.0,2,JL,ux,ft
7,AUDITORIO,32.0,-1,David,fs,ft


Merge es un método que esta en namespace de pandas pero se puede llamar tambien desde un dataframe

In [80]:
aulas.merge(prom)

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo
0,1.1,16.0,1,Carlos,cyber,ft
1,1.2,24.0,1,Miriam,ux,ft
2,2.1,16.0,2,Dani,ds,ft
3,2.1,16.0,2,JR,ds,pt
4,2.2,24.0,2,Gabriel,ds,ft
5,2.2,24.0,2,Fran,ds,pt
6,2.3,12.0,2,JL,ux,ft
7,AUDITORIO,32.0,-1,David,fs,ft


Podemos unir dataframes por más de una columna

In [81]:
left = pd.DataFrame(
    {
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)


right = pd.DataFrame(
    {
        "key1": ["K0", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K0", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

result = pd.merge(left, right, on = ['key1', 'key2'])
display("left", "right", "result")

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


### How

Como ya vimos en SQL al unir dos tablas o dataframe hay distintas formas de hacerlo, left, right, inner, outer. Vamos a ver cuales son las diferencias

In [82]:
left = pd.merge(aulas, prom, on = 'aula', how = 'left', indicator = True)
right = pd.merge(aulas, prom, on = 'aula', how = 'right', indicator = True)
inner = pd.merge(aulas, prom, on = 'aula', how = 'inner', indicator = True)
outer = pd.merge(aulas, prom, on = 'aula', how = 'outer', indicator = True)

display('left', 'right', 'inner', 'outer')

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo,_merge
0,1.1,16.0,1,Carlos,cyber,ft,both
1,1.2,24.0,1,Miriam,ux,ft,both
2,2.1,16.0,2,Dani,ds,ft,both
3,2.1,16.0,2,JR,ds,pt,both
4,2.2,24.0,2,Gabriel,ds,ft,both
5,2.2,24.0,2,Fran,ds,pt,both
6,2.3,12.0,2,JL,ux,ft,both
7,AUDITORIO,32.0,-1,David,fs,ft,both
8,SANDBOX,,0,,,,left_only

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo,_merge
0,2.1,16.0,2.0,Dani,ds,ft,both
1,AUDITORIO,32.0,-1.0,David,fs,ft,both
2,2.3,12.0,2.0,JL,ux,ft,both
3,2.1,16.0,2.0,JR,ds,pt,both
4,1.1,16.0,1.0,Carlos,cyber,ft,both
5,1.2,24.0,1.0,Miriam,ux,ft,both
6,2.2,24.0,2.0,Gabriel,ds,ft,both
7,2.2,24.0,2.0,Fran,ds,pt,both
8,,,,,marketing,ft,right_only
9,IESE,,,Alberto,ds,,right_only

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo,_merge
0,1.1,16.0,1,Carlos,cyber,ft,both
1,1.2,24.0,1,Miriam,ux,ft,both
2,2.1,16.0,2,Dani,ds,ft,both
3,2.1,16.0,2,JR,ds,pt,both
4,2.2,24.0,2,Gabriel,ds,ft,both
5,2.2,24.0,2,Fran,ds,pt,both
6,2.3,12.0,2,JL,ux,ft,both
7,AUDITORIO,32.0,-1,David,fs,ft,both

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo,_merge
0,1.1,16.0,1.0,Carlos,cyber,ft,both
1,1.2,24.0,1.0,Miriam,ux,ft,both
2,2.1,16.0,2.0,Dani,ds,ft,both
3,2.1,16.0,2.0,JR,ds,pt,both
4,2.2,24.0,2.0,Gabriel,ds,ft,both
5,2.2,24.0,2.0,Fran,ds,pt,both
6,2.3,12.0,2.0,JL,ux,ft,both
7,AUDITORIO,32.0,-1.0,David,fs,ft,both
8,SANDBOX,,0.0,,,,left_only
9,,,,,marketing,ft,right_only


Podemos utilizar el left en lugar del right si permutamos el orden de los df

In [83]:
left_1 = pd.merge(aulas, prom, on = 'aula', how = 'left')
left_2 = pd.merge(prom, aulas, on = 'aula', how = 'right')

display("left_1", "left_2")

Unnamed: 0,aula,capacidad,planta,prof,vertical,tipo
0,1.1,16.0,1,Carlos,cyber,ft
1,1.2,24.0,1,Miriam,ux,ft
2,2.1,16.0,2,Dani,ds,ft
3,2.1,16.0,2,JR,ds,pt
4,2.2,24.0,2,Gabriel,ds,ft
5,2.2,24.0,2,Fran,ds,pt
6,2.3,12.0,2,JL,ux,ft
7,AUDITORIO,32.0,-1,David,fs,ft
8,SANDBOX,,0,,,

Unnamed: 0,aula,prof,vertical,tipo,capacidad,planta
0,1.1,Carlos,cyber,ft,16.0,1
1,1.2,Miriam,ux,ft,24.0,1
2,2.1,Dani,ds,ft,16.0,2
3,2.1,JR,ds,pt,16.0,2
4,2.2,Gabriel,ds,ft,24.0,2
5,2.2,Fran,ds,pt,24.0,2
6,2.3,JL,ux,ft,12.0,2
7,AUDITORIO,David,fs,ft,32.0,-1
8,SANDBOX,,,,,0


### Uniendo por indice

In [84]:
left = pd.DataFrame(
    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
)


right = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
)

right_without_index = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"], "K":["K0", "K2", "K3"]}
)


display("left", "right", "right_without_index")

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3

Unnamed: 0,C,D,K
0,C0,D0,K0
1,C2,D2,K2
2,C3,D3,K3


In [85]:
pd.merge(left, right, left_index = True, right_index = True)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


In [86]:
pd.merge(left, right_without_index, left_index = True, right_on = 'K')

Unnamed: 0,A,B,C,D,K
0,A0,B0,C0,D0,K0
1,A2,B2,C2,D2,K2


En muchas ocasiones la union que queremos hacer siempre va a ser utilizando los indices, para lo que se ha creado el método **join**. Cuidado que el método join utiliza por defecto la union *left*

In [88]:
with_merge = pd.merge(left, right, left_index = True, right_index = True)
with_join = left.join(right, how='inner')

display("with_merge", "with_join")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


Cuidado con el **on** del **join**, solo afecta al dataframe que llama al método.

In [42]:
right_without_index.join(left, on = 'K')

Unnamed: 0,C,D,K,A,B
0,C0,D0,K0,A0,B0
1,C2,D2,K2,A2,B2
2,C3,D3,K3,,


In [89]:
left.join(right_without_index, on = 'K')

KeyError: 'K'

## Método compare

In [90]:
prom_2022 = prom.copy()

prom_2022.iloc[0, 0] = 'AUDITORIO'
prom_2022.iloc[8, 1] = 'Paco'
prom_2022

Unnamed: 0,aula,prof,vertical,tipo
0,AUDITORIO,Dani,ds,ft
1,AUDITORIO,David,fs,ft
2,2.3,JL,ux,ft
3,2.1,JR,ds,pt
4,1.1,Carlos,cyber,ft
5,1.2,Miriam,ux,ft
6,2.2,Gabriel,ds,ft
7,2.2,Fran,ds,pt
8,,Paco,marketing,ft
9,IESE,Alberto,ds,


In [91]:
prom

Unnamed: 0,aula,prof,vertical,tipo
0,2.1,Dani,ds,ft
1,AUDITORIO,David,fs,ft
2,2.3,JL,ux,ft
3,2.1,JR,ds,pt
4,1.1,Carlos,cyber,ft
5,1.2,Miriam,ux,ft
6,2.2,Gabriel,ds,ft
7,2.2,Fran,ds,pt
8,,,marketing,ft
9,IESE,Alberto,ds,


In [92]:
prom_2022.compare(prom)

Unnamed: 0_level_0,aula,aula,prof,prof
Unnamed: 0_level_1,self,other,self,other
0,AUDITORIO,2.1,,
8,,,Paco,
