# DataFrame - Concatenar (unir)

- Concatenar es un método de pandas
- Se pueden unir objetos DataFrame o Series dependiendo de un eje: Horizontal o Vertical (ya sea una columna o un índice)
- Se puede uniir mas de dos dataframes

In [88]:
import pandas as pd

In [89]:
df_productos = pd.DataFrame(  data =  [('Maq2', 'negro', 177, 124, 996),
                            ('Maq1', 'negro', 337, 333, 136),
                            ('Maq2', 'blanco', 448, 75, 172)],
                    columns=['Producto', 'Tipo', 'Altura', 'Longitud', 'Peso']
                )

df_ventas = pd.DataFrame({  'Mes': ['Enero', 'Enero', 'Febrero', 'Marzo', 'Marzo'],
                'Tipo': ['Blanco', 'Negro', 'Blanco', 'Negro', 'Blanco'],
                'Cantidad': [2, 5, 6, 2, 1]
                })

df_ventas_2 = pd.DataFrame({  'Mes': ['Marzo', 'Abril', 'Mayo', 'Junio', 'Julio', 'Agosto', 'Septiembre'],
                'Tipo': ['Negro', 'Blanco', 'Negro', 'Blanco', 'Blanco', 'Amarillo', 'Azul'],
                'Cantidad': [2, 5, 6, 2, 1, 8, 3],
                'Vendedor': ['Juan', 'Pedro', 'Lucas', 'Mateo', 'Juan', 'Pedro', 'Lucas']
                })

In [90]:
print(f'Tabla ventas periodo 1:')
df_ventas


Tabla ventas periodo 1:


Unnamed: 0,Mes,Tipo,Cantidad
0,Enero,Blanco,2
1,Enero,Negro,5
2,Febrero,Blanco,6
3,Marzo,Negro,2
4,Marzo,Blanco,1


In [91]:
print(f'\nTabla ventas periodo 2:')
df_ventas_2


Tabla ventas periodo 2:


Unnamed: 0,Mes,Tipo,Cantidad,Vendedor
0,Marzo,Negro,2,Juan
1,Abril,Blanco,5,Pedro
2,Mayo,Negro,6,Lucas
3,Junio,Blanco,2,Mateo
4,Julio,Blanco,1,Juan
5,Agosto,Amarillo,8,Pedro
6,Septiembre,Azul,3,Lucas


## Sintaxis

In [92]:
# pd.concat(objs, axis=0, join='outer', ignore_index=False,)

## objs = lista [ ] de df a concatenar
## axis = 0 para filas (por defecto), 1 para columnas
## join: outer (union) (por defecto), inner (intersección)
## ignore_index = False respeta los indices actuales (por defecto), True crea un indice nuevo

## Cuando queremos agrupar df que comparten columnas o indices

In [93]:
# Cuando se hace horizontal, el eje es axis=0 (por defecto):    - se puede poner o no y el resultado será el mismo

## Al DataFrame 1 se le añaden las filas del DataFrame 2, solo se apilan en la parte inferior
## Ver que se repiten los indices ya que por defecto es ignore_index=True
## Se agregan las columnas de DataFrame 2 que no existan en DataFrame 1
## Donde no hay datos relacionados se pone un NaN
df_ventas_consolidado = pd.concat([df_ventas, df_ventas_2])
print(f'\nTabla ventas consolidado:')
df_ventas_consolidado


Tabla ventas consolidado:


Unnamed: 0,Mes,Tipo,Cantidad,Vendedor
0,Enero,Blanco,2,
1,Enero,Negro,5,
2,Febrero,Blanco,6,
3,Marzo,Negro,2,
4,Marzo,Blanco,1,
0,Marzo,Negro,2,Juan
1,Abril,Blanco,5,Pedro
2,Mayo,Negro,6,Lucas
3,Junio,Blanco,2,Mateo
4,Julio,Blanco,1,Juan


In [94]:
# Cuando se hace horizontal, el eje es axis=1

## Concatenando por columnas    # usar axis=1
## Al DataFrame 1 se le añaden las columnas del DataFrame 2
## Se agregan las filas (indices) de DataFrame 2 que no existan en DataFrame 1
## Donde no hay datos relacionados se pone un NaN

#### Esta concatenación tiene mas sentido cuando tenemos columnas diferentes en cada dataframe

df_ventas_consolidado = pd.concat([df_ventas, df_ventas_2], axis=1)
print(f'\nTabla ventas consolidado:')
df_ventas_consolidado


Tabla ventas consolidado:


Unnamed: 0,Mes,Tipo,Cantidad,Mes.1,Tipo.1,Cantidad.1,Vendedor
0,Enero,Blanco,2.0,Marzo,Negro,2,Juan
1,Enero,Negro,5.0,Abril,Blanco,5,Pedro
2,Febrero,Blanco,6.0,Mayo,Negro,6,Lucas
3,Marzo,Negro,2.0,Junio,Blanco,2,Mateo
4,Marzo,Blanco,1.0,Julio,Blanco,1,Juan
5,,,,Agosto,Amarillo,8,Pedro
6,,,,Septiembre,Azul,3,Lucas


In [95]:
# Union entre los DataFrames    # usar join='outer' (por defecto) se puede poner o no poner y ejecuta lo mismo


df_ventas_consolidado = pd.concat([df_ventas, df_ventas_2], join='outer')
print(f'\nTabla ventas -unión-:')
df_ventas_consolidado


Tabla ventas -unión-:


Unnamed: 0,Mes,Tipo,Cantidad,Vendedor
0,Enero,Blanco,2,
1,Enero,Negro,5,
2,Febrero,Blanco,6,
3,Marzo,Negro,2,
4,Marzo,Blanco,1,
0,Marzo,Negro,2,Juan
1,Abril,Blanco,5,Pedro
2,Mayo,Negro,6,Lucas
3,Junio,Blanco,2,Mateo
4,Julio,Blanco,1,Juan


In [96]:
# intersección entre los DataFrames    # usar join='inner'

## con axis=0 solo las columnas que tengan ambos df
## con axis=1 solo las filas (indices) que tengan ambos df
## Como es una intersección no existen datos nulos o NaN, ya que está trayendo solo aquellos que datos que se relacionan en ambos df

df_ventas_consolidado = pd.concat([df_ventas, df_ventas_2], join='inner', axis=0)
print(f'\nTabla ventas -unión-:')
df_ventas_consolidado


Tabla ventas -unión-:


Unnamed: 0,Mes,Tipo,Cantidad
0,Enero,Blanco,2
1,Enero,Negro,5
2,Febrero,Blanco,6
3,Marzo,Negro,2
4,Marzo,Blanco,1
0,Marzo,Negro,2
1,Abril,Blanco,5
2,Mayo,Negro,6
3,Junio,Blanco,2
4,Julio,Blanco,1


In [97]:
# Restablecer un nuevo indice para el df  # usar ignore_index=True

df_ventas_consolidado = pd.concat([df_ventas, df_ventas_2], ignore_index=True)
print(f'\nTabla ventas -unión-:')
df_ventas_consolidado


Tabla ventas -unión-:


Unnamed: 0,Mes,Tipo,Cantidad,Vendedor
0,Enero,Blanco,2,
1,Enero,Negro,5,
2,Febrero,Blanco,6,
3,Marzo,Negro,2,
4,Marzo,Blanco,1,
5,Marzo,Negro,2,Juan
6,Abril,Blanco,5,Pedro
7,Mayo,Negro,6,Lucas
8,Junio,Blanco,2,Mateo
9,Julio,Blanco,1,Juan


## Cuando las tablas a unir tienen diferentes columnas o indices

In [98]:
#### La concatenación tiene mas sentido cuando tenemos columnas diferentes en cada dataframe, y agrupando por columnas (axis=0)

# Recordemos la manera de actuar del .concat
## Al DataFrame 1 se le añaden las filas del DataFrame 2, solo se apilan en la parte inferior
## Ver que se repiten los indices ya que por defecto es ignore_index=True
## Se agregan las columnas de DataFrame 2 que no existan en DataFrame 1
## Donde no hay datos relacionados se pone un NaN

In [110]:
## Solo a modo de ilustración ya que este no es el mejor ejemplo porque ambas tablas contienen una columna Tipo (en ese caso seria mejor hacer un .merge)
print(f'Tabla ventas periodo 1: \n{df_ventas}')
print(f'\nTabla productos: \n{df_productos}')

# Concatenar método de pandas
df_ventas_consolidado = pd.concat([df_ventas, df_productos], axis=1)
print(f'\nTabla consolidado ventas 1 y productos: \n{df_ventas_consolidado}')

Tabla ventas periodo 1: 
       Mes    Tipo  Cantidad
0    Enero  Blanco         2
1    Enero   Negro         5
2  Febrero  Blanco         6
3    Marzo   Negro         2
4    Marzo  Blanco         1

Tabla productos: 
  Producto    Tipo  Altura  Longitud  Peso
0     Maq2   Negro     177       124   996
1     Maq1   Negro     337       333   136
2     Maq2  Blanco     448        75   172

Tabla consolidado ventas 1 y productos: 
       Mes    Tipo  Cantidad Producto    Tipo  Altura  Longitud   Peso
0    Enero  Blanco         2     Maq2   Negro   177.0     124.0  996.0
1    Enero   Negro         5     Maq1   Negro   337.0     333.0  136.0
2  Febrero  Blanco         6     Maq2  Blanco   448.0      75.0  172.0
3    Marzo   Negro         2      NaN     NaN     NaN       NaN    NaN
4    Marzo  Blanco         1      NaN     NaN     NaN       NaN    NaN
