#unir diferentes fuentes de datos en Pandas : método concat()

In [3]:
import pandas as pd

df_1 = pd.DataFrame(
    {
        'Nombre' : ['Juan', 'Ana', 'Jose', 'Arturo'],
        'Edad' : [25, 18, 23, 27],
        'Genero' : ['M', 'F', 'M', 'M'],
    }
)

df_2 = pd.DataFrame({
    'Departamento' : ['Ventas', 'Marketing', 'RRHH'],
    'Empleados' : [32, 12, 15]
})

print(df_1)
print()
print(df_2)


   Nombre  Edad Genero
0    Juan    25      M
1     Ana    18      F
2    Jose    23      M
3  Arturo    27      M

  Departamento  Empleados
0       Ventas         32
1    Marketing         12
2         RRHH         15


In [None]:
# Concatenar vérticalmente con axis=0

df_concat = pd.concat([df_1, df_2], axis=0, ignore_index=True)
print(df_concat)

   Nombre  Edad Genero Departamento  Empleados
0    Juan  25.0      M          NaN        NaN
1     Ana  18.0      F          NaN        NaN
2    Jose  23.0      M          NaN        NaN
3  Arturo  27.0      M          NaN        NaN
4     NaN   NaN    NaN       Ventas       32.0
5     NaN   NaN    NaN    Marketing       12.0
6     NaN   NaN    NaN         RRHH       15.0


In [None]:
# Concatenar horizontalmente con axis=1

df_concat = pd.concat([df_1, df_2], axis=1)
print(df_concat)

   Nombre  Edad Genero Departamento  Empleados
0    Juan    25      M       Ventas       32.0
1     Ana    18      F    Marketing       12.0
2    Jose    23      M         RRHH       15.0
3  Arturo    27      M          NaN        NaN


In [None]:
# Combinar Dataframes con nombres de columnas diferentes

df_3 = pd.DataFrame({
    'Nombre' : ['Juan', 'Ana', 'Jose', 'Arturo'],
    'Edad' : [25, 18, 23, 27],
    'Cargo' : ['Director', 'Asistente', 'Agente', 'Ejecutivo'],
})

df_4 = pd.concat([df_1, df_3], axis=1)
print(df_4)

   Nombre  Edad Genero  Nombre  Edad      Cargo
0    Juan    25      M    Juan    25   Director
1     Ana    18      F     Ana    18  Asistente
2    Jose    23      M    Jose    23     Agente
3  Arturo    27      M  Arturo    27  Ejecutivo


#Métodos para integrar datos en Pandas

#merge()
permite combinar 2DataFrames basándose en una o más claves. Similar a "join" en SQL :
- inner join : sólo se conservan las filas que tienen correspondencia en ambos DF.
- outer join : se conservan todas las filas, llenando con NaN donde no haya coincidencia.
- left join : se conservan todas las filas de DTde la izq y sólo las coincidentes de la derecha.
- right join : se conservan todas las filas de Df de la derecha y sólo las coincidentes del de la izquierda.

In [11]:
df_a = pd.DataFrame({
    'Key' : ['A', 'B', 'C'],
    'Value_A' : [6, 2, 3],
})

df_b = pd.DataFrame({
    'Key' : ['B', 'C', 'D'],
    'Value_B' : [4, 5, 6],
})

print(df_a)
print()
print(df_b)
print()

# aplicando inner
result_merge_inner = pd.merge(df_a, df_b, on='Key', how='left')
print()
print("inner join : \n", result_merge_inner)


  Key  Value_A
0   A        6
1   B        2
2   C        3

  Key  Value_B
0   B        4
1   C        5
2   D        6


inner join : 
   Key  Value_A  Value_B
0   A        6      NaN
1   B        2      4.0
2   C        3      5.0


# join() otra forma de combinar DF, especialmente útil para cuando queremos combinarlos utilizando sus índices. Es una forma sencilla y predeterminada de generar un left join

In [None]:
# es posible establecer un DF como índice y luego unir

df_a.set_index('Key', inplace=True)
df_b.set_index('Key', inplace=True)

result_join = df_a.join(df_b, how='inner')
print(result_join)

     Value_A  Value_B
Key                  
B          2        4
C          3        5
