In [2]:
import pandas as pd
import numpy as np

## join, Merge, and Combine Datasets Using pandas
Unir, fusionar y combinar conjuntos de datos con pandas

El procesamiento de datos se vuelve fundamental al entrenar un modelo de aprendizaje automático sólido. En ocasiones, necesitamos reestructurar y agregar nuevos datos a los conjuntos de datos para aumentar la eficiencia de los datos.

En este artículo, veremos cómo combinar y fusionar varios conjuntos de datos con los mismos nombres de columna y con nombres de columna diferentes.

Utilizaremos las siguientes funciones de la biblioteca pandas para llevar a cabo estas operaciones.

pandas.concat()
pandas.merge()
pandas.DataFrame.join()



## Preparación de datos de muestra
Crearemos conjuntos de datos de muestra utilizando pandas.DataFrame() y luego realizaremos operaciones de concatenación en ellos.

In [3]:
# Primer diccionario de datos
data = {
    "Name": ["Sachin", "Siya", "Abhishek", "Rishu"],
    "Role": ["Python Developer", "Python Developer", "PHP Developer", "C++ Developer"],
    "Experience": [3, 3, 2, 4],
    "Qualification": ["Graduate", "Graduate", "Graduate", "Post-Graduate"]
}

# Segundo diccionario de datos
data1 = {
    "Name": ["Yashwant", "Sanjana", "Yogesh", "Alisha"],
    "Role": ["Data Analyst", "ML Engineer", "Data Scientist", "Business Analyst"],
    "Experience": [2, 6, 4, 7],
    "Qualification": ["Post-Graduate", "Graduate", "Graduate", "Post-Graduate"],
    "Salary": [36000, 40000, 40000, 35000],
    "No_of_awards": [0, 1, 3, 4]
}

# Creación de los DataFrames
df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data1)

# Guardar los DataFrames en archivos CSV
df1.to_csv('employee.csv', index=False)
df2.to_csv('employee1.csv', index=False)



El código  generará dos conjuntos de datos a partir de data y data1 usando pd.DataFrame(data) y pd.DataFrame(data1) y los almacenará en las variables df1 y df2.

Luego, utilizando la función .to_csv(), df1 y df2 se guardarán en formato CSV como 'employee.csv' y 'employee1.csv' respectivamente

Los datps se veran de la siguiente manera:

In [4]:
dt = pd.read_csv('employee.csv')
dt

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate


In [5]:
dt1=pd.read_csv('employee1.csv')
dt1

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Sanjana,ML Engineer,6,Graduate,40000,1
2,Yogesh,Data Scientist,4,Graduate,40000,3
3,Alisha,Business Analyst,7,Post-Graduate,35000,4


## Combinación de datos con concat()

Podemos utilizar la biblioteca pandas para analizar, modificar y hacer otras cosas con nuestros datos CSV (valores separados por comas). La biblioteca incluye la función concat() que utilizaremos para realizar la concatenación de múltiples conjuntos de datos.

Hay dos ejes en los que se pueden concatenar los conjuntos de datos: el eje de filas y el eje de columnas.

![image.png](attachment:image.png)

## Combinar datos a lo largo del eje de filas 
Anteriormente creamos dos conjuntos de datos denominados 'employee.csv' y 'employee1.csv'. Los concatenaremos horizontalmente, lo que significa que los datos se unirán a lo largo de las filas.

combine = pd.concat([dt, dt1])

El código anterior demuestra el uso básico de la función concat(). Pasamos una lista de conjuntos de datos (objetos) que se combinarán a lo largo del eje de filas de forma predeterminada.

In [6]:
combine = pd.concat([dt, dt1])
combine

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


La función concat() acepta algunos parámetros que afectan la concatenación de los datos.

Los índices de los datos se toman de sus datos correspondientes, como se ve en el resultado anterior. ¿Cómo creamos un nuevo índice de datos?

## El parámetro ignore_index
Cuando se establece ignore_index=True, se crea un nuevo índice de 0 a n-1. El valor predeterminado es Falso, por lo que se repitieron los índices en el ejemplo anterior.

set_index = pd.concat([dt, dt1], ignore_index=True)

In [7]:
set_index = pd.concat([dt, dt1], ignore_index=True)
set_index

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
4,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
5,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
6,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
7,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Como se muestra en la imagen de arriba, el conjunto de datos contiene un nuevo índice que va de 0 a 7.

## El parámetro join
En la data anterior, podemos ver que faltan los primeros cuatro puntos de datos de las columnas Salary y No_of_awards.

Esto se debe al parámetro join, que de forma predeterminada está configurado en "outer", lo que une los datos exactamente como están. Si está configurado en "inner", se eliminan los datos que no coinciden con otro conjunto de datos.

inner_join = pd.concat([dt, dt1], join="inner")

In [8]:
inner_join = pd.concat([dt, dt1], join="inner")
inner_join

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate
0,Yashwant,Data Analyst,2,Post-Graduate
1,Sanjana,ML Engineer,6,Graduate
2,Yogesh,Data Scientist,4,Graduate
3,Alisha,Business Analyst,7,Post-Graduate


## El parámetro keys
El parámetro keys crea un índice a partir de las claves que se utiliza para diferenciar e identificar los datos originales en los objetos concatenados.

keys = pd.concat([dt, dt1], keys=["Dataset1", "Dataset2"])

In [9]:
keys = pd.concat([dt, dt1], keys=["Dataset1", "Dataset2"])
keys

Unnamed: 0,Unnamed: 1,Name,Role,Experience,Qualification,Salary,No_of_awards
Dataset1,0,Sachin,Python Developer,3,Graduate,,
Dataset1,1,Siya,Python Developer,3,Graduate,,
Dataset1,2,Abhishek,PHP Developer,2,Graduate,,
Dataset1,3,Rishu,C++ Developer,4,Post-Graduate,,
Dataset2,0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
Dataset2,1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
Dataset2,2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
Dataset2,3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Los conjuntos de datos se concatenaron y se creó un índice de varios niveles, donde el primer nivel representa el índice más externo (Dataset1 y Dataset2 de las claves) y el segundo nivel representa el índice original.

## Combinar datos a lo largo del eje de columnas
En la sección anterior, los conjuntos de datos se concatenaron a lo largo del eje de filas o de manera horizontal, pero en este enfoque los uniremos verticalmente o a lo largo del eje de columnas utilizando el parámetro axis.

El parámetro axis se establece en 0 o "index" de manera predeterminada, lo que concatena los conjuntos de datos a lo largo del eje de filas, pero si cambiamos su valor a 1 o "columns", concatena los conjuntos de datos a lo largo del eje de columnas.

In [10]:
combine_vertically = pd.concat([dt, dt1], axis="columns")
combine_vertically

Unnamed: 0,Name,Role,Experience,Qualification,Name.1,Role.1,Experience.1,Qualification.1,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Siya,Python Developer,3,Graduate,Sanjana,ML Engineer,6,Graduate,40000,1
2,Abhishek,PHP Developer,2,Graduate,Yogesh,Data Scientist,4,Graduate,40000,3
3,Rishu,C++ Developer,4,Post-Graduate,Alisha,Business Analyst,7,Post-Graduate,35000,4


In [11]:
combine_vertically2 = pd.concat([dt, dt1], axis=1)
combine_vertically2

Unnamed: 0,Name,Role,Experience,Qualification,Name.1,Role.1,Experience.1,Qualification.1,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Siya,Python Developer,3,Graduate,Sanjana,ML Engineer,6,Graduate,40000,1
2,Abhishek,PHP Developer,2,Graduate,Yogesh,Data Scientist,4,Graduate,40000,3
3,Rishu,C++ Developer,4,Post-Graduate,Alisha,Business Analyst,7,Post-Graduate,35000,4


## Fusión de datos con merge() 
La función pandas.merge() fusiona datos de uno o más conjuntos de datos en función de columnas o índices comunes.

Trabajaremos en un conjunto de datos diferentes que creamos y que contiene la información que se muestra en la siguiente imagen.

In [12]:
dt1 = pd.read_csv('detail.csv')
dt1

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification
0,A1,DX13,Sachin,Python Developer,3,Graduate
1,A2,DX11,Siya,Python Developer,3,Graduate
2,A3,DX29,Abhishek,PHP Developer,2,Graduate
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate


In [13]:
dt2=pd.read_csv('detail_ext.csv')
dt2

Unnamed: 0,Id,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,23,36000,0
1,A2,DX11,23,40000,1
2,A3,DX29,27,40000,3
3,A6,DX30,30,35000,4


# La función merge() 
toma los parámetros izquierdo y derecho, que son conjuntos de datos que se fusionarán.

# El parámetro how
Ahora podemos especificar el tipo de fusión que queremos realizar en estos conjuntos de datos proporcionando el parámetro how. El parámetro how permite cinco tipos diferentes de fusiones:

- inner: Predeterminado. Solo incluye los valores que coinciden de ambos conjuntos de datos.
- outer: Incluye todos los valores de ambos conjuntos de datos, pero completa los valores faltantes con NaN (no un número).
- left: Incluye todos los valores del conjunto de datos izquierdo y reemplaza cualquier valor faltante en el conjunto de datos derecho con NaN.
- right: Incluye todos los valores del conjunto de datos derecho y reemplaza cualquier valor faltante en el conjunto de datos izquierdo con NaN.
- cross: Crea el producto cartesiano, lo que significa que la cantidad de filas creadas será igual al producto de los recuentos de filas de ambos conjuntos de datos. Si ambos conjuntos de datos tienen cuatro filas, entonces cuatro por cuatro (4 * 4) es igual a dieciséis (16) filas.

Ejemplos
Realizar inner merge 

In [14]:
inner_merging = pd.merge(dt1, dt2, how="inner")
inner_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,DX29,27,40000,3


Podemos ver que solo se han incluido valores con el mismo Id de ambos conjuntos de datos.

## Performing outer merge

In [15]:
outer_merging = pd.merge(dt1, dt2, how="outer")
outer_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3.0,Graduate,DX13,23.0,36000.0,0.0
1,A2,DX11,Siya,Python Developer,3.0,Graduate,DX11,23.0,40000.0,1.0
2,A3,DX29,Abhishek,PHP Developer,2.0,Graduate,DX29,27.0,40000.0,3.0
3,A4,DX30,Rishu,C++ Developer,4.0,Post-Graduate,,,,
4,A6,,,,,,DX30,30.0,35000.0,4.0


En el caso de una fusión externa, se incluyeron todos los valores de ambos conjuntos de datos y los campos faltantes se completaron con NaN.

## Performing left merge

In [16]:
left_merging = pd.merge(dt1, dt2, how="left")
left_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,DX13,23.0,36000.0,0.0
1,A2,DX11,Siya,Python Developer,3,Graduate,DX11,23.0,40000.0,1.0
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,DX29,27.0,40000.0,3.0
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate,,,,


Los valores coincidentes del conjunto de datos derecho (dt2) se fusionaron en el conjunto de datos izquierdo (dt1) y no se encontraron los valores de las últimas cuatro columnas (Project_id_final, Age, Salary y No_of_awards) para A4, por lo que se completaron con NaN

Performing right merge

In [17]:
right_merging = pd.merge(dt1, dt2, how="right")
right_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3.0,Graduate,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3.0,Graduate,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2.0,Graduate,DX29,27,40000,3
3,A6,,,,,,DX30,30,35000,4


Los valores coincidentes del conjunto de datos izquierdo (dt1) se fusionaron en el conjunto de datos derecho (dt2) y no se encontraron los valores de las primeras cinco columnas (Project_id_initial, Nombre, Rol, Experiencia y Calificación) para A6, por lo que se completaron con NaN.

## Fusión cruzada de conjuntos de datos
El parámetro how tiene cinco tipos diferentes de fusión, uno de los cuales es una fusión cruzada.

Como se indicó anteriormente, genera el producto cartesiano, con la cantidad de filas formadas igual al producto de los recuentos de filas de ambos conjuntos de datos. Observe la siguiente ilustración para comprender mejor.

![image.png](attachment:image.png)

In [18]:
cross_merging = pd.merge(dt1, dt2, how="cross")
cross_merging

Unnamed: 0,Id_x,Project_id_initial,Name,Role,Experience,Qualification,Id_y,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,A1,DX13,23,36000,0
1,A1,DX13,Sachin,Python Developer,3,Graduate,A2,DX11,23,40000,1
2,A1,DX13,Sachin,Python Developer,3,Graduate,A3,DX29,27,40000,3
3,A1,DX13,Sachin,Python Developer,3,Graduate,A6,DX30,30,35000,4
4,A2,DX11,Siya,Python Developer,3,Graduate,A1,DX13,23,36000,0
5,A2,DX11,Siya,Python Developer,3,Graduate,A2,DX11,23,40000,1
6,A2,DX11,Siya,Python Developer,3,Graduate,A3,DX29,27,40000,3
7,A2,DX11,Siya,Python Developer,3,Graduate,A6,DX30,30,35000,4
8,A3,DX29,Abhishek,PHP Developer,2,Graduate,A1,DX13,23,36000,0
9,A3,DX29,Abhishek,PHP Developer,2,Graduate,A2,DX11,23,40000,1


Ambos conjuntos de datos tienen cuatro filas cada uno, y cada fila de dt1 se repite cuatro veces (número de filas de dt2), lo que da como resultado un conjunto de datos de dieciséis filas.

## Los parámetros on, left_on y right_on

El parámetro on acepta el nombre de una columna o índice (fila) para realizar la unión. Puede ser un solo nombre o una lista de nombres.

Los parámetros left_on y right_on toman el nombre de una columna o índice (fila) del conjunto de datos izquierdo y derecho para realizar la unión. Se utilizan cuando ambos conjuntos de datos tienen diferentes nombres de columna para realizar la unión.

## Cómo fusionar conjuntos de datos en la misma columna
Para fusionar los conjuntos de datos según la misma columna, podemos usar el parámetro on y pasar el nombre de columna común que ambos conjuntos de datos deben tener.

merging_on_same_column = pd.merge(dt1, dt2, on='Id')

Estamos fusionando los conjuntos de datos dt1 y dt2 en función de la columna "Id" que ambos comparten.

In [19]:
merging_on_same_column = pd.merge(dt1, dt2, on='Id')
merging_on_same_column

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,DX29,27,40000,3


Se fusionaron los valores de la columna Id coincidentes de ambos conjuntos de datos y se eliminaron los valores no coincidentes.

## Cómo fusionar conjuntos de datos en diferentes columnas
Para fusionar diferentes columnas en los conjuntos de datos izquierdo y derecho, utilice los parámetros left_on y right_on.

left_right_merging = pd.merge(dt1, dt2, left_on="Project_id_initial", right_on='Project_id_final')

La columna de unión es la columna "Project_id_initial" del conjunto de datos izquierdo (dt1) y la columna "Project_id_final" del conjunto de datos derecho (dt2). Los valores compartidos por ambas columnas se utilizarán para fusionarlas.

In [20]:
left_right_merging = pd.merge(dt1, dt2, left_on="Project_id_initial", right_on='Project_id_final')
left_right_merging

Unnamed: 0,Id_x,Project_id_initial,Name,Role,Experience,Qualification,Id_y,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,A1,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,A2,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,A3,DX29,27,40000,3
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate,A6,DX30,30,35000,4


Como podemos ver, el conjunto de datos incluye ambas columnas, así como filas coincidentes basadas en los valores comunes en las columnas "Project_id_initial" y "Project_id_final".

## Cambiar el sufijo de la columna
Si observa que el conjunto de datos fusionado tiene dos columnas de Id denominadas Id_x e Id_y, esto se debe al parámetro suffixes, que tiene los valores predeterminados _x e _y, y cuando se encuentran nombres de columnas superpuestos en los conjuntos de datos izquierdo y derecho, se les asignan los valores predeterminados como sufijo.

chg_suffix = pd.merge(dt1, dt2, suffixes=["_1", "_2"], left_on="Project_id_initial", right_on='Project_id_final')

Esto agregará los sufijos "_1" y "_2" a las columnas superpuestas. Debido a que ambos conjuntos de datos tienen el mismo nombre de columna Id, la columna Id aparecerá como Id_1 en el conjunto de datos de la izquierda e Id_2 en el conjunto de datos de la derecha.

In [21]:
chg_suffix = pd.merge(dt1, dt2, suffixes=["_1", "_2"], left_on="Project_id_initial", right_on='Project_id_final')
chg_suffix 

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,A1,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,A2,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,A3,DX29,27,40000,3
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate,A6,DX30,30,35000,4


# #Unir conjuntos de datos mediante join()
El método join() funciona en el objeto DataFrame y une las columnas en función de los valores de índice. Realicemos una operación de unión básica en el conjunto de datos.

dt1.join(dt2, lsuffix="_1", rsuffix="_2")

Las columnas del conjunto de datos dt2 se unirán con el conjunto de datos dt1 en función de los valores del índice.

In [22]:
dt1.join(dt2, lsuffix="_1", rsuffix="_2")

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,A1,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,A2,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,A3,DX29,27,40000,3
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate,A6,DX30,30,35000,4


Dado que los valores de índice de ambos conjuntos de datos son los mismos, es decir, 0, 1, 2 y 3, es por eso que obtuvimos todas las filas.

Los parámetros del método join() se pueden usar para manipular el conjunto de datos. El método join(), al igual que la función merge(), incluye los parámetros how y on.

- how: el valor predeterminado es left join. Es lo mismo que el parámetro how de la función merge(), pero la diferencia es que realiza uniones basadas en índices.
- on: se requiere un nombre de índice o columna para realizar la unión en el índice del conjunto de datos especificado.
- lsuffix y rsuffix: se utilizan para agregar el sufijo a las columnas superpuestas de los conjuntos de datos izquierdo y derecho.

Ejemplos

## Left join on an index

dt1.join(dt2.set_index("Id"), on="Id", how="left")
dt1.join(dt2.set_index("Id"), on="Id")

En el código anterior, utilizamos set_index('Id') para establecer la columna Id del conjunto de datos dt2 como índice y realizamos una unión a la izquierda (how="left") en la columna Id (on="Id") entre dt1 y dt2.

Esto unirá los valores coincidentes en la columna Id del conjunto de datos dt2 con la columna Id del conjunto de datos dt1. Si falta algún valor, se completará con NaN.

In [23]:
dt1.join(dt2.set_index("Id"), on="Id", how="left")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,DX13,23.0,36000.0,0.0
1,A2,DX11,Siya,Python Developer,3,Graduate,DX11,23.0,40000.0,1.0
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,DX29,27.0,40000.0,3.0
3,A4,DX30,Rishu,C++ Developer,4,Post-Graduate,,,,


Es lo mismo que cuando usamos la función merge(), pero esta vez estamos uniendo en función del índice.

## Unión derecha en un índice

In [24]:
dt1.join(dt2.set_index("Id"), on="Id", how="right")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0.0,A1,DX13,Sachin,Python Developer,3.0,Graduate,DX13,23,36000,0
1.0,A2,DX11,Siya,Python Developer,3.0,Graduate,DX11,23,40000,1
2.0,A3,DX29,Abhishek,PHP Developer,2.0,Graduate,DX29,27,40000,3
,A6,,,,,,DX30,30,35000,4



Unimos el conjunto de datos dt1 con el índice del conjunto de datos dt2 según la columna Id. Obtuvimos NaN en las primeras cinco columnas para A6 porque no se especificaron valores en el conjunto de datos dt1.

## Inner join on an index

dt1.join(dt2.set_index("Id"), on="Id", how="inner")

In [25]:
dt1.join(dt2.set_index("Id"), on="Id", how="inner")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,DX13,23,36000,0
1,A2,DX11,Siya,Python Developer,3,Graduate,DX11,23,40000,1
2,A3,DX29,Abhishek,PHP Developer,2,Graduate,DX29,27,40000,3


Los conjuntos de datos se unieron en función de los valores de índice coincidentes, es decir, ambos conjuntos de datos dt1 y dt2 comparten A1, A2 y A3, por lo que se unieron los valores correspondientes a estos índices.

## Outer join on an index

dt1.join(dt2.set_index("Id"), on="Id", how="outer")

In [26]:
dt1.join(dt2.set_index("Id"), on="Id", how="outer")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0.0,A1,DX13,Sachin,Python Developer,3.0,Graduate,DX13,23.0,36000.0,0.0
1.0,A2,DX11,Siya,Python Developer,3.0,Graduate,DX11,23.0,40000.0,1.0
2.0,A3,DX29,Abhishek,PHP Developer,2.0,Graduate,DX29,27.0,40000.0,3.0
3.0,A4,DX30,Rishu,C++ Developer,4.0,Post-Graduate,,,,
,A6,,,,,,DX30,30.0,35000.0,4.0


Realizamos la unión externa, que incluyó todas las filas de ambos conjuntos de datos en función del Id. Se completaron los valores correspondientes y los valores faltantes se completaron con NaN.

## Cross Join

dt1.join(dt2, how="cross", lsuffix="_1", rsuffix="_2")

No pasamos el parámetro on, sino que definimos cómo se deben unir los datos (how="cross"). El conjunto de datos resultante será el producto de los recuentos de filas de ambos conjuntos de datos.

In [27]:
dt1.join(dt2, how="cross", lsuffix="_1", rsuffix="_2")

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,DX13,Sachin,Python Developer,3,Graduate,A1,DX13,23,36000,0
1,A1,DX13,Sachin,Python Developer,3,Graduate,A2,DX11,23,40000,1
2,A1,DX13,Sachin,Python Developer,3,Graduate,A3,DX29,27,40000,3
3,A1,DX13,Sachin,Python Developer,3,Graduate,A6,DX30,30,35000,4
4,A2,DX11,Siya,Python Developer,3,Graduate,A1,DX13,23,36000,0
5,A2,DX11,Siya,Python Developer,3,Graduate,A2,DX11,23,40000,1
6,A2,DX11,Siya,Python Developer,3,Graduate,A3,DX29,27,40000,3
7,A2,DX11,Siya,Python Developer,3,Graduate,A6,DX30,30,35000,4
8,A3,DX29,Abhishek,PHP Developer,2,Graduate,A1,DX13,23,36000,0
9,A3,DX29,Abhishek,PHP Developer,2,Graduate,A2,DX11,23,40000,1


Conclusión
Aprendimos a usar pandas.concat(), pandas.merge() y pandas.DataFrame.join() para combinar, fusionar y unir DataFrames.

La función concat() de pandas es una opción ideal para combinar DataFrames debido a su simplicidad. Sin embargo, si queremos tener más control sobre cómo se unen los datos y en qué columna del DataFrame, la función merge() es una buena opción. Si queremos unir datos en función del índice, debemos usar el método join().