En este artículo, veremos cómo combinar y fusionar varios conjuntos de datos con el mismo nombre de columna o con nombres diferentes. Usaremos las siguientes funciones Pandas de la biblioteca para realizar estas operaciones.

- pandas.concat()
- pandas.merge()
- pandas.dataFrame.join()

### Preparación de datos de muestra

Crearemos conjuntos de datos de muestra utilizando pandas.DataFrame() y luego realizaremos operaciones de concatenación en ellos.

In [41]:
import pandas as pd

data = {
    "Name":["Sachin","Siya","Abhishek","Rishu"],
    "Role":["Python Developer","Python Developer","PHP Developer","C++ Developer"],
    "Experience":["3","3","2","4"],
    "Qualification":["Graduate","Graduate","Graduate","Post-Graduate"]
}

data1 = {
    "Name":["Yashwant", "Sanjana", "Yogesh", "Alisha"],
    "Role":["Data Analyst", "ML Engineer", "Data Scientist", "Business Analyst"],
    "Experience":["2","6","4","7"],
    "Qualification":["Post-Graduate", "Graduate", "Graduate", "Post-Graduate"],
    "Salary":[36000, 40000, 40000, 35000],
    "No_of_awards":[0, 1, 3, 4]
}

df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data1)

print(df1)
print()
df2


       Name              Role Experience  Qualification
0    Sachin  Python Developer          3       Graduate
1      Siya  Python Developer          3       Graduate
2  Abhishek     PHP Developer          2       Graduate
3     Rishu     C++ Developer          4  Post-Graduate



Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Sanjana,ML Engineer,6,Graduate,40000,1
2,Yogesh,Data Scientist,4,Graduate,40000,3
3,Alisha,Business Analyst,7,Post-Graduate,35000,4


In [4]:
df1.to_csv('Archivos/employee.csv', index= False) 
# 'index= False' - No se incluirá la fiula index en la primera 
df2.to_csv('Archivos/employee1.csv', index= False) 

El código anterior generará dos conjuntos de datos a partir de data y data1 utilizando pd.DataFrame(data) y pd.DataFrame(data1) y los almacenará en las variables df1 y df2.

Luego, utilizando la función .to_csv(), df1 y df2 se guardarán en el formato CSV como 'employee.csv'y 'employee1.csv' respectivamente.

Los datos que creamos se muestran como sigue a continuación:

In [19]:
dt= pd.read_csv('Archivos/employee.csv')

dt

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate


In [20]:
dt1= pd.read_csv('Archivos/employee1.csv')

dt1

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Sanjana,ML Engineer,6,Graduate,40000,1
2,Yogesh,Data Scientist,4,Graduate,40000,3
3,Alisha,Business Analyst,7,Post-Graduate,35000,4


### Combinación de datos mediante concat()

Podemos utilizar la biblioteca de pandas para analizar, modificar y hacer otras cosas con nuestros datos CSV (valores separados por comas). La biblioteca incluye la función concat() que utilizaremos para realizar la concatenación de múltiples conjuntos de datos.

Hay dos ejes en los que se pueden concatenar los conjuntos de datos: el eje de filas y el eje de columnas.

<img src="img/Articulo_1_diagram_1.png">

### Combinar datos a lo largo de la fila

Anteriormente creamos dos conjuntos de datos denominados 'employee.csv'y 'employee1.csv'. Los concatenaremos horizontalmente, lo que significa que los datos se empalmarán en las filas.



In [21]:
combinar= pd.concat([dt, dt1])

combinar

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


La función concat() acepta algunos parámetros que afectan la concatenación de los datos.

Los índices de los datos se toman de sus datos correspondientes, como se ve en el resultado anterior. ¿Cómo creamos un nuevo índice de datos?

### El parámetro ignore_index

Cuando 'ignore_index=True' se establece, se crea un nuevo índice de que comienza desde 0 y se incrementa a 1 hasta la ultima fila concatenada. El valor predeterminado es, 'False'.

In [22]:
set_index= pd.concat([dt, dt1], ignore_index= True)

set_index

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
4,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
5,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
6,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
7,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Como puede observarse, el conjunto de datos tiene un  uevao ìndice que va de '0' a '7'

### El parámetro 'join'

En el resultado de arriba, podemos ver que faltan los primeros cuatro puntos de datos para las columnas 'Salaryy .No_of_awards'

Esto se debe al parámetro 'join', que por defecto está configurado en , "outer" que une los datos exactamente como están. Si está configurado en "inner", se eliminan los datos que no coinciden con otro conjunto de datos.

In [23]:
inner_join= pd.concat([dt, dt1], join= "inner")

inner_join

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate
0,Yashwant,Data Analyst,2,Post-Graduate
1,Sanjana,ML Engineer,6,Graduate
2,Yogesh,Data Scientist,4,Graduate
3,Alisha,Business Analyst,7,Post-Graduate


### El parámetro 'keys'

El parámetro 'keys' crea un índice a partir de las claves que se utiliza para diferenciar e identificar los datos originales en los objetos concatenados.

In [24]:
keys= pd.concat([dt, dt1], keys= ["Dataset1","Dataset2"])
keys

Unnamed: 0,Unnamed: 1,Name,Role,Experience,Qualification,Salary,No_of_awards
Dataset1,0,Sachin,Python Developer,3,Graduate,,
Dataset1,1,Siya,Python Developer,3,Graduate,,
Dataset1,2,Abhishek,PHP Developer,2,Graduate,,
Dataset1,3,Rishu,C++ Developer,4,Post-Graduate,,
Dataset2,0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
Dataset2,1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
Dataset2,2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
Dataset2,3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Los conjuntos de datos se concatenaron y se creó un índice multinivel, donde el primer nivel representa el índice más externo ( Dataset1 y Dataset2 del keys) y el segundo nivel representa el índice original.

### Combinar datos a lo largoo del eje de la columna

Los conjuntos de datos se concatenaron a lo largo del eje de filas u horizontalmente en la sección anterior, pero en este enfoque los uniremos verticalmente o a lo largo del eje de columnas usando el parámetro 'axis'.

El parámetro 'axis' se establece en '0' de forma predeterminada, lo que concatena los conjuntos de datos a lo largo del eje de filas, pero si cambiamos su valor a 1o "columns", concatena los conjuntos de datos a lo largo del eje de columnas.



In [25]:
combine_vertically= pd.concat([dt, dt1], axis= "columns")

combine_vertically

Unnamed: 0,Name,Role,Experience,Qualification,Name.1,Role.1,Experience.1,Qualification.1,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Siya,Python Developer,3,Graduate,Sanjana,ML Engineer,6,Graduate,40000,1
2,Abhishek,PHP Developer,2,Graduate,Yogesh,Data Scientist,4,Graduate,40000,3
3,Rishu,C++ Developer,4,Post-Graduate,Alisha,Business Analyst,7,Post-Graduate,35000,4


### Fusionar datos usando 'merge()'

La función 'pandas.merge()' fusiona datos de uno o más conjuntos de datos según índices o columnas comunes.

Operaremos sobre un conjunto de datos diferente que creamos y que contiene la información.

In [42]:
dt1= pd.read_csv("Archivos/detail.csv")

dt1

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification
0,A1,Dx13,Sachin,Python Developer,3,Graduate
1,A2,Dx11,Siya,Python Developer,3,Graduate
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate


In [43]:
dt2= pd.read_csv("Archivos/detail_ext.csv")

dt2

Unnamed: 0,Id,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,23,36000,0
1,A2,Dx11,23,40000,1
2,A3,Dx30,27,40000,3
3,A6,Dx29,30,35000,4


La función 'merge()' toma parámetros 'left', 'right' para los conjuntos de datos que se fusionarán.

### El parámetro 'how'

Ahora podemos especificar el tipo de fusión que queremos realizar en estos conjuntos de datos proporcionando el parámetro 'how'. El parámetro 'how' permite cinco tipos diferentes de fusiones:

 - inner: Predeterminado. Solo incluye los valores que coinciden en ambos conjuntos de datos.

- outer: Incluye todos los valores de ambos conjuntos de datos, pero completa los valores faltantes con NaN (No es un número).

- left: Incluye todos los valores del conjunto de datos izquierdo y reemplaza cualquier valor faltante en el conjunto de datos derecho con NaN.

- right: Incluye todos los valores del conjunto de datos derecho y reemplaza cualquier valor faltante en el conjunto de datos izquierdo con NaN.

- cross: Crea el producto cartesiano, lo que significa que la cantidad de filas creadas será igual al producto de los recuentos de filas de ambos conjuntos de datos. Si ambos conjuntos de datos tienen cuatro filas, entonces cuatro por cuatro ( 4 * 4) es igual a dieciséis ( 16) filas.

### Ejemplos

#### Realizar la fusión 'inner'

In [30]:
inner_merging= pd.merge(dt1, dt2, how="inner")

inner_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,Dx30,27,40000,3


Podemos ver que por el 'id' solo se han incluido valores iguales de ambos conjuntos.

#### Realizar la fusión 'outer'

In [32]:
outer_merging= pd.merge(dt1, dt2, how="outer")

outer_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3.0,Graduate,Dx13,23.0,36000.0,0.0
1,A2,Dx11,Siya,Python Developer,3.0,Graduate,Dx11,23.0,40000.0,1.0
2,A3,Dx29,Abhishek,PHP Developer,2.0,Graduate,Dx30,27.0,40000.0,3.0
3,A4,Dx30,Rushu,C++ Developer,4.0,Post-Graduate,,,,
4,A6,,,,,,Dx29,30.0,35000.0,4.0


En el caso de una fusión 'outer', se incluyeron todos los valores de ambos conjuntos de datos y los campos faltantes se completaron con NaN.

#### Realizar la fusión 'left'

In [33]:
left_merging= pd.merge(dt1, dt2, how="left")

left_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,Dx13,23.0,36000.0,0.0
1,A2,Dx11,Siya,Python Developer,3,Graduate,Dx11,23.0,40000.0,1.0
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,Dx30,27.0,40000.0,3.0
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate,,,,


Los valores coincidentes del conjunto de datos derecho (dt2) se fusionaron en el conjunto de datos izquierdo (dt1) y los valores de las últimas cuatro columnas ( Project_id_final, Age, Salary, y No_of_awards) no se encontraron para A4, por lo que se completaron con NaN.

#### Realizar la fusión 'right'


In [34]:
right_merging= pd.merge(dt1, dt2, how="right")

right_merging

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3.0,Graduate,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3.0,Graduate,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2.0,Graduate,Dx30,27,40000,3
3,A6,,,,,,Dx29,30,35000,4


Los valores coincidentes del conjunto de datos izquierdo (dt1) se fusionaron en el conjunto de datos derecho (dt2) y los valores de las primeras cinco columnas ( Project_id_initial, Name, Role, Experiencey Qualification) no se encontraron para A6, por lo que se completaron con NaN.

#### Fusión 'cross' de conjuntos de datos

El parámetro 'how' tiene cinco tipos diferentes de fusión, uno de los cuales es una función 'cross'.

Como se indicó anteriormente, genera el producto cartesiano, con la cantidad de filas formadas igual al producto de los recuentos de filas de ambos conjuntos de datos. Observe la siguiente ilustración para comprender mejor.

<img src="img/Articulo_1_diagram_2.png">

In [35]:
cross_merging= pd.merge(dt1, dt2, how="cross")

cross_merging

Unnamed: 0,Id_x,Project_id_initial,Name,Role,Experience,Qualification,Id_y,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,A1,Dx13,23,36000,0
1,A1,Dx13,Sachin,Python Developer,3,Graduate,A2,Dx11,23,40000,1
2,A1,Dx13,Sachin,Python Developer,3,Graduate,A3,Dx30,27,40000,3
3,A1,Dx13,Sachin,Python Developer,3,Graduate,A6,Dx29,30,35000,4
4,A2,Dx11,Siya,Python Developer,3,Graduate,A1,Dx13,23,36000,0
5,A2,Dx11,Siya,Python Developer,3,Graduate,A2,Dx11,23,40000,1
6,A2,Dx11,Siya,Python Developer,3,Graduate,A3,Dx30,27,40000,3
7,A2,Dx11,Siya,Python Developer,3,Graduate,A6,Dx29,30,35000,4
8,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A1,Dx13,23,36000,0
9,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A2,Dx11,23,40000,1


Ambos conjuntos de datos tienen cuatro filas cada uno, y cada fila dt1 se repite cuatro veces (número de filas de dt2), lo que da como resultado un conjunto de datos de dieciséis filas.

### Los parámetros on, left_on & right_on, 

El parámetro 'on' acepta el nombre de una columna o índice (fila) al que se realizará la unión. Puede ser un solo nombre o una lista de nombres.

El parámetro 'left_on' 'and' 'right_on' toma el nombre de una columna o índice (fila) del conjunto de datos izquierdo y derecho para realizar la unión. Se utilizan cuando ambos conjuntos de datos tienen diferentes nombres de columna para realizar la unión.

#### Fusionar conjuntos de datos en la misma columna

Para fusionar los conjuntos de datos basados ​​en la misma columna, podemos usar el parámetro 'on' y pasar el nombre de columna común que deben tener ambos conjuntos de datos.

Estamos fusionando conjuntos de datos 'dt1' y 'dt2' nos basamos en la 'Id' columna que ambos comparten.

In [45]:
merging_on_same_column= pd.merge(dt1, dt2, on="Id")
merging_on_same_column

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,Dx30,27,40000,3


Se fusionaron los valores de columna coincidentes 'Id' de ambos conjuntos de datos y se eliminaron los valores no coincidentes.

#### Fusionar conjuntos de datos en diferentes columnas

Para fusionar diferentes columnas en los conjuntos de datos izquierdo y derecho, utilice los parámetros 'left_on' y 'right_on'.

La columna de unión es la columna "Project_id_initial" del conjunto de datos izquierdo (dt1) y la columna "Project_id_final" del conjunto de datos derecho ( dt2). Los valores compartidos por ambas columnas se utilizarán para fusionarlas.

In [47]:
left_right_merging= pd.merge(dt1, dt2, left_on="Project_id_initial", right_on="Project_id_final")

left_right_merging

Unnamed: 0,Id_x,Project_id_initial,Name,Role,Experience,Qualification,Id_y,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,A1,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,A2,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A6,Dx29,30,35000,4
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate,A3,Dx30,27,40000,3


Como podemos ver, el conjunto de datos incluye ambas columnas, así como filas coincidentes basadas en los valores comunes en las columnas "Project_id_initial" y "Project_id_final".

### Cambiar el sufijo de la columna

Si observa que el conjunto de datos fusionado tiene dos columnas 'Id' etiquetadas como 'Id_x' y 'Id_y', esto se debe al parámetro 'suffixes' , que tiene valores predeterminados '_x' y '_y', y cuando se encuentran nombres de columnas superpuestos en los conjuntos de datos izquierdo y derecho, se les agrega el sufijo de valores predeterminados.

Esto agregará los sufijos "_1"y "_2" a las columnas superpuestas. Debido a que ambos conjuntos de datos tienen el mismo nombre de columna 'Id', la columna 'Id' aparecerá en 'Id_1' el conjunto de datos izquierdo y en 'Id_2' el derecho.

In [49]:
chg_suffix= pd.merge(dt1, dt2, left_on="Project_id_initial", right_on="Project_id_final", suffixes=["_1","_2"])

chg_suffix

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,A1,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,A2,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A6,Dx29,30,35000,4
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate,A3,Dx30,27,40000,3


### Unir conjuntos de datos mediante join()

El método 'join()' funciona en el objeto 'DataFrame' y une las columnas en función de los valores del índice. Realicemos una operación de unión básica en el conjunto de datos.

Las columnas del conjunto de datos 'dt2' se unirán con el conjunto de datos 'dt1' en función de los valores del índice.

In [50]:
dt1.join(dt2, lsuffix="_1", rsuffix="_2")

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,A1,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,A2,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A3,Dx30,27,40000,3
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate,A6,Dx29,30,35000,4


Dado que los valores de índice de ambos conjuntos de datos son los mismos, es decir 0, 1, 2, y 3, es por eso que obtuvimos todas las filas.

Los parámetros del método join()  se pueden utilizar para manipular el conjunto de datos. El método join(), al igual que la función merge(), incluye parámetros 'how' y 'on'.

- how: El valor predeterminado es 'left join'. Es el mismo que el parámetro 'how' de la función 'merge()', pero la diferencia es que realiza uniones basadas en índices.

- on: Se requiere un nombre de columna o índice para unirse al índice en el conjunto de datos especificado.

- lsuffixy rsuffix: Se utiliza para agregar el sufijo a las columnas superpuestas de los conjuntos de datos izquierdo y derecho.

### Ejemplos

#### Unión 'left' en un índice

In [51]:
dt1.join(dt2.set_index("Id"), on="Id")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,Dx13,23.0,36000.0,0.0
1,A2,Dx11,Siya,Python Developer,3,Graduate,Dx11,23.0,40000.0,1.0
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,Dx30,27.0,40000.0,3.0
3,A4,Dx30,Rushu,C++ Developer,4,Post-Graduate,,,,


Es lo mismo que cuando usamos la función merge(), pero esta vez nos unimos según el índice.

#### Unión 'right' en un índice

In [52]:
dt1.join(dt2.set_index("Id"), on="Id", how="right")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0.0,A1,Dx13,Sachin,Python Developer,3.0,Graduate,Dx13,23,36000,0
1.0,A2,Dx11,Siya,Python Developer,3.0,Graduate,Dx11,23,40000,1
2.0,A3,Dx29,Abhishek,PHP Developer,2.0,Graduate,Dx30,27,40000,3
,A6,,,,,,Dx29,30,35000,4


Unimos el conjunto de datos 'dt1' con el índice del conjunto de datos 'dt2' según la columna 'Id'. Obtuvimos 'NaN' en las primeras cinco columnas porque en 'A6' no había valores especificados en el conjunto de datos 'dt1'

#### Unión 'inner' en un índice

In [53]:
dt1.join(dt2.set_index("Id"), on="Id", how="inner")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,Dx13,23,36000,0
1,A2,Dx11,Siya,Python Developer,3,Graduate,Dx11,23,40000,1
2,A3,Dx29,Abhishek,PHP Developer,2,Graduate,Dx30,27,40000,3


Los conjuntos de datos se unieron en función de los valores de índice coincidentes, es decir, ambos conjuntos de datos 'dt1' y 'dt2' comparte, 'A1', 'A2' y 'A3', por lo que se unieron los valores correspondientes a estos índices.

#### Unión 'outer' en un índice

In [54]:
dt1.join(dt2.set_index("Id"), on="Id", how="outer")

Unnamed: 0,Id,Project_id_initial,Name,Role,Experience,Qualification,Project_id_final,Age,Salary,No_of_awards
0.0,A1,Dx13,Sachin,Python Developer,3.0,Graduate,Dx13,23.0,36000.0,0.0
1.0,A2,Dx11,Siya,Python Developer,3.0,Graduate,Dx11,23.0,40000.0,1.0
2.0,A3,Dx29,Abhishek,PHP Developer,2.0,Graduate,Dx30,27.0,40000.0,3.0
3.0,A4,Dx30,Rushu,C++ Developer,4.0,Post-Graduate,,,,
,A6,,,,,,Dx29,30.0,35000.0,4.0


Realizamos la unión 'outer', que incluyó todas las filas de ambos conjuntos de datos en función de 'Id'. Se completaron los valores correspondientes y los valores faltantes se completaron con 'NaN'.

#### Unión 'cross'

No pasamos el parámetro 'on', sino que definimos cómo se deben unir los datos ( how="cross"). El conjunto de datos resultante será el producto de los recuentos de filas de ambos conjuntos de datos.

In [55]:
dt1.join(dt2, how="cross", lsuffix="_1", rsuffix="_2")

Unnamed: 0,Id_1,Project_id_initial,Name,Role,Experience,Qualification,Id_2,Project_id_final,Age,Salary,No_of_awards
0,A1,Dx13,Sachin,Python Developer,3,Graduate,A1,Dx13,23,36000,0
1,A1,Dx13,Sachin,Python Developer,3,Graduate,A2,Dx11,23,40000,1
2,A1,Dx13,Sachin,Python Developer,3,Graduate,A3,Dx30,27,40000,3
3,A1,Dx13,Sachin,Python Developer,3,Graduate,A6,Dx29,30,35000,4
4,A2,Dx11,Siya,Python Developer,3,Graduate,A1,Dx13,23,36000,0
5,A2,Dx11,Siya,Python Developer,3,Graduate,A2,Dx11,23,40000,1
6,A2,Dx11,Siya,Python Developer,3,Graduate,A3,Dx30,27,40000,3
7,A2,Dx11,Siya,Python Developer,3,Graduate,A6,Dx29,30,35000,4
8,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A1,Dx13,23,36000,0
9,A3,Dx29,Abhishek,PHP Developer,2,Graduate,A2,Dx11,23,40000,1


### Conclusión

Aprendimos a utilizar pandas.concat(), pandas.merge() y pandas.DataFrame.join() para combinar, fusionar y unir DataFrames.

La función 'concat()' en pandas es una opción ideal para combinar los 'DataFrames' debido a su simplicidad. Sin embargo, si queremos tener más control sobre cómo se unen los datos y en qué columna del 'DataFrame', la función 'merge()' es una buena opción. Si queremos unir datos en función del índice, deberíamos usar el método 'join()'.