En este artículo, veremos cómo combinar y fusionar varios conjuntos de datos con el mismo nombre de columna o con nombres diferentes. Usaremos las siguientes funciones Pandas de la biblioteca para realizar estas operaciones.

- pandas.concat()
- pandas.merge()
- pandas.dataFrame.join()

### Preparación de datos de muestra

Crearemos conjuntos de datos de muestra utilizando pandas.DataFrame() y luego realizaremos operaciones de concatenación en ellos.

In [3]:
import pandas as pd

data = {
    "Name":["Sachin","Siya","Abhishek","Rishu"],
    "Role":["Python Developer","Python Developer","PHP Developer","C++ Developer"],
    "Experience":["3","3","2","4"],
    "Qualification":["Graduate","Graduate","Graduate","Post-Graduate"]
}

data1 = {
    "Name":["Yashwant", "Sanjana", "Yogesh", "Alisha"],
    "Role":["Data Analyst", "ML Engineer", "Data Scientist", "Business Analyst"],
    "Experience":["2","6","4","7"],
    "Qualification":["Post-Graduate", "Graduate", "Graduate", "Post-Graduate"],
    "Salary":[36000, 40000, 40000, 35000],
    "No_of_awards":[0, 1, 3, 4]
}

df1 = pd.DataFrame(data)
df2 = pd.DataFrame(data1)

print(df1)
print()
df2


       Name              Role Experience  Qualification
0    Sachin  Python Developer          3       Graduate
1      Siya  Python Developer          3       Graduate
2  Abhishek     PHP Developer          2       Graduate
3     Rishu     C++ Developer          4  Post-Graduate



Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Sanjana,ML Engineer,6,Graduate,40000,1
2,Yogesh,Data Scientist,4,Graduate,40000,3
3,Alisha,Business Analyst,7,Post-Graduate,35000,4


In [4]:
df1.to_csv('Archivos/employee.csv', index= False) 
# 'index= False' - No se incluirá la fiula index en la primera 
df2.to_csv('Archivos/employee1.csv', index= False) 

El código anterior generará dos conjuntos de datos a partir de data y data1 utilizando pd.DataFrame(data) y pd.DataFrame(data1) y los almacenará en las variables df1 y df2.

Luego, utilizando la función .to_csv(), df1 y df2 se guardarán en el formato CSV como 'employee.csv'y 'employee1.csv' respectivamente.

Los datos que creamos se muestran como sigue a continuación:

In [5]:
dt= pd.read_csv('Archivos/employee.csv')
dt

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate


In [6]:
dt1= pd.read_csv('Archivos/employee1.csv')
dt1

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Sanjana,ML Engineer,6,Graduate,40000,1
2,Yogesh,Data Scientist,4,Graduate,40000,3
3,Alisha,Business Analyst,7,Post-Graduate,35000,4


### Combinación de datos mediante concat()

Podemos utilizar la biblioteca de pandas para analizar, modificar y hacer otras cosas con nuestros datos CSV (valores separados por comas). La biblioteca incluye la función concat() que utilizaremos para realizar la concatenación de múltiples conjuntos de datos.

Hay dos ejes en los que se pueden concatenar los conjuntos de datos: el eje de filas y el eje de columnas.

<img src="img/Articulo_1_diagram_1.png">

### Combinar datos a lo largo de la fila

Anteriormente creamos dos conjuntos de datos denominados 'employee.csv'y 'employee1.csv'. Los concatenaremos horizontalmente, lo que significa que los datos se empalmarán en las filas.



In [8]:
combinar= pd.concat([dt, dt1])
combinar

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


La función concat() acepta algunos parámetros que afectan la concatenación de los datos.

Los índices de los datos se toman de sus datos correspondientes, como se ve en el resultado anterior. ¿Cómo creamos un nuevo índice de datos?

### El parámetro ignore_index

Cuando 'ignore_index=True' se establece, se crea un nuevo índice de que comienza desde 0 y se incrementa a 1 hasta la ultima fila concatenada. El valor predeterminado es, 'False'.

In [10]:
set_index= pd.concat([dt, dt1], ignore_index= True)
set_index

Unnamed: 0,Name,Role,Experience,Qualification,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,,
1,Siya,Python Developer,3,Graduate,,
2,Abhishek,PHP Developer,2,Graduate,,
3,Rishu,C++ Developer,4,Post-Graduate,,
4,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
5,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
6,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
7,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Como puede observarse, el conjunto de datos tiene un  uevao ìndice que va de '0' a '7'

### El parámetro 'join'

En el resultado de arriba, podemos ver que faltan los primeros cuatro puntos de datos para las columnas 'Salaryy .No_of_awards'

Esto se debe al parámetro 'join', que por defecto está configurado en , "outer" que une los datos exactamente como están. Si está configurado en "inner", se eliminan los datos que no coinciden con otro conjunto de datos.

In [11]:
inner_join= pd.concat([dt, dt1], join= "inner")
inner_join

Unnamed: 0,Name,Role,Experience,Qualification
0,Sachin,Python Developer,3,Graduate
1,Siya,Python Developer,3,Graduate
2,Abhishek,PHP Developer,2,Graduate
3,Rishu,C++ Developer,4,Post-Graduate
0,Yashwant,Data Analyst,2,Post-Graduate
1,Sanjana,ML Engineer,6,Graduate
2,Yogesh,Data Scientist,4,Graduate
3,Alisha,Business Analyst,7,Post-Graduate


### El parámetro 'keys'

El parámetro 'keys' crea un índice a partir de las claves que se utiliza para diferenciar e identificar los datos originales en los objetos concatenados.

In [12]:
keys= pd.concat([dt, dt1], keys= ["Dataset1","Dataset2"])
keys

Unnamed: 0,Unnamed: 1,Name,Role,Experience,Qualification,Salary,No_of_awards
Dataset1,0,Sachin,Python Developer,3,Graduate,,
Dataset1,1,Siya,Python Developer,3,Graduate,,
Dataset1,2,Abhishek,PHP Developer,2,Graduate,,
Dataset1,3,Rishu,C++ Developer,4,Post-Graduate,,
Dataset2,0,Yashwant,Data Analyst,2,Post-Graduate,36000.0,0.0
Dataset2,1,Sanjana,ML Engineer,6,Graduate,40000.0,1.0
Dataset2,2,Yogesh,Data Scientist,4,Graduate,40000.0,3.0
Dataset2,3,Alisha,Business Analyst,7,Post-Graduate,35000.0,4.0


Los conjuntos de datos se concatenaron y se creó un índice multinivel, donde el primer nivel representa el índice más externo ( Dataset1 y Dataset2 del keys) y el segundo nivel representa el índice original.

### Combinar datos a lo largoo del eje de la columna

Los conjuntos de datos se concatenaron a lo largo del eje de filas u horizontalmente en la sección anterior, pero en este enfoque los uniremos verticalmente o a lo largo del eje de columnas usando el parámetro 'axis'.

El parámetro 'axis' se establece en '0' de forma predeterminada, lo que concatena los conjuntos de datos a lo largo del eje de filas, pero si cambiamos su valor a 1o "columns", concatena los conjuntos de datos a lo largo del eje de columnas.



In [13]:
combine_vertically= pd.concat([dt, dt1], axis= "columns")
combine_vertically

Unnamed: 0,Name,Role,Experience,Qualification,Name.1,Role.1,Experience.1,Qualification.1,Salary,No_of_awards
0,Sachin,Python Developer,3,Graduate,Yashwant,Data Analyst,2,Post-Graduate,36000,0
1,Siya,Python Developer,3,Graduate,Sanjana,ML Engineer,6,Graduate,40000,1
2,Abhishek,PHP Developer,2,Graduate,Yogesh,Data Scientist,4,Graduate,40000,3
3,Rishu,C++ Developer,4,Post-Graduate,Alisha,Business Analyst,7,Post-Graduate,35000,4
