#### Fusión de Dataframes

In [None]:
# merge() este método se usa para unir dos DataFrames utilizando columnas o índices comunes.

# primer parámetro, es el dataframe a la izquierda
# segundo parámetro, es el dataframe a la derecha

# how=, el método merge() acepta el parámetro how= que indica el tipo de unión que se va a realizar
    # Inner: Devuelve solo las filas donde hay coincidencias en ambos DataFrames.
    # Left: Devuelve todas las filas del DataFrame de la izquierda y las filas coincidentes del DataFrame de la derecha.
    # Right: Devuelve todas las filas del DataFrame de la derecha y las filas coincidentes del DataFrame de la izquierda.
    # Outer: Devuelve todas las filas cuando hay una coincidencia en uno de los DataFrames.

# on=, indica la columna o indice en el que se basa la unión

# left_on= y right_on=, indica las columnas específicas de cada DataFrame en las que se basa la unión.

# left_index y right_index: Si se deben usar los índices en lugar de las columnas para la unión.

import pandas as pd

estudiantes = pd.DataFrame([{"Nombre":"Alicia", "Estudios":"Física"},
                            {"Nombre":"Carolina", "Estudios":"Psicología"},
                            {"Nombre":"Marcos", "Estudios":"Matemáticas"}])

estudiantes =  estudiantes.set_index("Nombre")
print(estudiantes.head())

empleados = pd.DataFrame([{"Nombre":"Alicia", "Cargo":"Evaluadora"},
                            {"Nombre":"Marta", "Cargo":"RRHH"},
                            {"Nombre":"Marcos", "Cargo":"Gestor"}])

empleados = empleados.set_index("Nombre")
print(estudiantes.head())

pd.merge(estudiantes, empleados, how="outer", left_index=True, right_index=True)

In [None]:
# cuando unimos dos dataframe nos devuelven una lista con todos los registros, en el ejemplo 
# anterior, como Marta no estaba en ningunos estudios y Carolina no tenia ningun cargo estos valores
# se representan como NaN

# si queremos obtener la intersección de los dos dataframes utilizamos how="inner" para obtener los 
# registros que tengan tanto cargo como estudios
pd.merge(estudiantes, empleados, how="inner", left_index=True, right_index=True)

In [None]:
# otro ejemplo de uso sería si queremos obtener una lista de todos los estudiantes, tenga cargo o no
# pero en caso de que tengan cargo también queremos que nos devuelva los detalles de sus estudios
# para esto utilizamos how="left"
pd.merge(estudiantes, empleados, how="left", left_index=True, right_index=True)

In [None]:
# de igual forma, con how="right" obtendremos todos los empleados y sus detalles de estudios 
# en caso de que los tubieran
pd.merge(estudiantes, empleados, how="right", left_index=True, right_index=True)

In [None]:
# no es necesario usar indices para hacer las uniones, con on= podemos asignar una columna que
# esté en los dos dataframes para realizar la unión sobre ella

# reseteamos los indices para que no sea Nombres
estudiantes.reset_index()
empleados.reset_index()

pd.merge(estudiantes, empleados, how="right", on="Nombre")

In [None]:
# La función merge preserva esta información, pero agrega un _x o _y para ayudar a diferenciar entre cuál
# índice correspondía a qué columna de datos. El _x siempre es la información del DataFrame de la izquierda, 
# y el _y es siempre la información del DataFrame de la derecha.

estudiantes = pd.DataFrame([{"Nombre":"Alicia", "Estudios":"Física", "Ubicacion":"Edificio 2"},
                            {"Nombre":"Carolina", "Estudios":"Psicología", "Ubicacion":"Edificio 1"},
                            {"Nombre":"Marcos", "Estudios":"Matemáticas", "Ubicacion":"Edificio 3"}])

empleados = pd.DataFrame([{"Nombre":"Alicia", "Cargo":"Evaluadora", "Ubicacion":"Edificio 213"},
                            {"Nombre":"Marta", "Cargo":"RRHH", "Ubicacion":"Edificio 212"},
                            {"Nombre":"Marcos", "Cargo":"Gestor", "Ubicacion":"Edificio 121"}])

pd.merge(estudiantes, empleados, how="left", on="Nombre")

In [None]:
# concat(): este método se usa para concatenar DataFrames a lo largo de un eje (filas o columnas).
# mientras que con merge() uniamos los dataframes un al lado de otro con con concat() los apilamos

    # axis: Especifica el eje a lo largo del cual se concatenan los DataFrames. 0 para filas 
    # (predeterminado), 1 para columnas.
    # keys: Crea un índice jerárquico utilizando las claves proporcionadas.
    # join: Especifica cómo se deben unir los DataFrames. Puede ser 'inner' o 'outer'.

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']})

print(df1)
print(df2)

In [None]:
# concatenar a lo largo de las filas (axis=0)
pd.concat([df1, df2], axis=0)

In [None]:
# concatenar a lo largo de las columnas (axis=1)
pd.concat([df1, df2], axis=1)

In [None]:
# concatenar con índice jerarquico usando keys=
pd.concat([df1, df2], keys=['x', 'y'])

In [None]:
# concatenación con múltiple índice jerárquico
pd.concat([df1, df2], keys=['batch1', 'batch2'], names=['Batch', 'Row ID'])