<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/12_union_de_dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Operaciones de integración de datos.

*Pandas* permite realizar operaciones que permiten añadir columnas y/o filas a los dataframes.


In [71]:
import pandas as pd
import datetime
import numpy as np

In [72]:
df1 = pd.DataFrame({'Centro': [1520, 1640, 1043],
                    'Sur':    [1422, 1673, 1534],
                    'Oriente':[1021, 1073, 1100]},
                    index=("lunes", "martes", "miércoles"))
df1

Unnamed: 0,Centro,Sur,Oriente
lunes,1520,1422,1021
martes,1640,1673,1073
miércoles,1043,1534,1100


In [73]:
df2 = pd.DataFrame({'Centro': [1321, 1459, 1875],
                    'Sur':    [1622, 1841, 1920],
                    'Oriente':[1500, 1432, 1491]},
                    index=("jueves", "viernes", "sábado"))
df2

Unnamed: 0,Centro,Sur,Oriente
jueves,1321,1622,1500
viernes,1459,1841,1432
sábado,1875,1920,1491


In [74]:
df3 = pd.DataFrame({'Centro':[2210],
                    'Matriz':[3120]},
                    index=['lunes'])
df3

Unnamed: 0,Centro,Matriz
lunes,2210,3120


## La función ```pd.concat()```.

La función ```pd.concat()```permite realizar operaciones generales de integración.

```
pd.concat(<dfs>, axis=<eje>, join=<modo>, keys=<id cols>, sort=<bool>)
```

* ```<dfs>``` una lista con dataframes de *Pandas*.
* ```<eje>``` es un objeto de tipo ```int``` que indica el eje de la concatenación. El argumento por defecto es ```0``` (filas).
* ```<modo>```  es un objeto de tipo ```str```, indica cómo se combinarán los elementos:
    * ```'inner'```: si los elementos coinciden en ambos dfs
    * ```'outer'``` , ***Valor por defecto***.
* ```id cols``` es una colección (p.e. lista) de objetos ```str``` que serán utilizados para crear identificadores de indíces superiores en las columnas *(ver ejemplo)*.


**Ejemplos:**

In [75]:
# unir df1 y df2 con las opciones por defecto (axis=0)
pd.concat([df1, df2])

Unnamed: 0,Centro,Sur,Oriente
lunes,1520,1422,1021
martes,1640,1673,1073
miércoles,1043,1534,1100
jueves,1321,1622,1500
viernes,1459,1841,1432
sábado,1875,1920,1491


In [76]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,Centro,Sur,Oriente,Centro.1,Sur.1,Oriente.1
lunes,1520.0,1422.0,1021.0,,,
martes,1640.0,1673.0,1073.0,,,
miércoles,1043.0,1534.0,1100.0,,,
jueves,,,,1321.0,1622.0,1500.0
viernes,,,,1459.0,1841.0,1432.0
sábado,,,,1875.0,1920.0,1491.0


In [77]:
semanales = pd.concat([df1, df2], axis=1, keys=['semana 1', 'semana 2'])
semanales

Unnamed: 0_level_0,semana 1,semana 1,semana 1,semana 2,semana 2,semana 2
Unnamed: 0_level_1,Centro,Sur,Oriente,Centro,Sur,Oriente
lunes,1520.0,1422.0,1021.0,,,
martes,1640.0,1673.0,1073.0,,,
miércoles,1043.0,1534.0,1100.0,,,
jueves,,,,1321.0,1622.0,1500.0
viernes,,,,1459.0,1841.0,1432.0
sábado,,,,1875.0,1920.0,1491.0


In [78]:
semanales['semana 1']['Centro']

Unnamed: 0,Centro
lunes,1520.0
martes,1640.0
miércoles,1043.0
jueves,
viernes,
sábado,


In [79]:
print(type(semanales))

<class 'pandas.core.frame.DataFrame'>


In [80]:
semanales.shape

(6, 6)

In [81]:
# unir dataframes del modo outer (por defecto)
pd.concat([df1, df3], keys=['Semana 1', 'Semana 2'], axis=1)

Unnamed: 0_level_0,Semana 1,Semana 1,Semana 1,Semana 2,Semana 2
Unnamed: 0_level_1,Centro,Sur,Oriente,Centro,Matriz
lunes,1520,1422,1021,2210.0,3120.0
martes,1640,1673,1073,,
miércoles,1043,1534,1100,,


In [82]:
# Utilizando el modo inner
pd.concat([df1, df3], keys=['Semana 1', 'Semana 2'], axis=1, join="inner")

Unnamed: 0_level_0,Semana 1,Semana 1,Semana 1,Semana 2,Semana 2
Unnamed: 0_level_1,Centro,Sur,Oriente,Centro,Matriz
lunes,1520,1422,1021,2210,3120


## El método ```pd.DataFrame.join()```.

El método ```pd.DataFrame.join()``` regresa un nuevo dataframe al cual se le ha añadido las columnas de otro dataframe.

```
<dataframe1>.join(<dataframe2>, lsuffix=<izquierdo>, rsuffix=<derecho>, how=<modo>)
```
    
Donde:

* ```<dataframe 1>``` y ```<dataframe 2>``` son dataframes de *Pandas*.
* Los parámetros de `lsuffix` y `rsuffix`, añaden un sufijo a los identificadores de columna. Es obligatorio, para diferenciarlos, cuando los identificadores de columna de ambos dataframes coinciden:
  * ```<izquierdo>``` es un objeto de tipo ```str``` que corresponderá al elemento de la izquierda.
  * ```<derecho>``` es un objeto de tipo ```str``` que corresponderá al elemento de la derecha.
* ```<modo>``` es un objeto de tipo ```str``` que indica la forma en la que se combinarán los elementos del dataframe resultante y puede ser:
  * ```'left'``` toma como referencia los indices (de fila) del dataframe1. ***Valor por defecto***.
  * ```'right'``` toma como referencia los indices (de fila) del dataframe2 y va a ajustar el tamaño al de dicho dataframe a sus índices.
  * ```'inner'``` toma como referencia únicamente a los índices (de fila) compartidos entre los dataframes.
  * ```'outer'``` toma como referencia a todos los índices (de fila) de los dataframes, sin repetir.

Los elementos faltantes serán sustituidos por ```np.NaN```.


**Ejemplo:**

In [99]:
# Crear df1 y df2
df1 = pd.DataFrame({'animal':['zorro', 'conejo', 'liebre', 'halcón'],
                    'población':[12, 436, 315, 7]}).set_index('animal')

df1

Unnamed: 0_level_0,población
animal,Unnamed: 1_level_1
zorro,12
conejo,436
liebre,315
halcón,7


In [100]:
# Crear df1 y df2
df2 = pd.DataFrame({'animal':['conejo', 'jabalí', 'venado', 'jaguar', 'águila', 'halcón'],
                        'población':[2015, 450, 56, 2, 30, 25]}).set_index('animal')

df2

Unnamed: 0_level_0,población
animal,Unnamed: 1_level_1
conejo,2015
jabalí,450
venado,56
jaguar,2
águila,30
halcón,25


In [101]:
# unir df1 y df2 con valores por defecto how='left'
# Toma como referencia los identificadores del df1
df1.join(df2,
         lsuffix='_df1',
         rsuffix='_df2') # definimos lsuffix y rsuffix para difer
# Se muestra solo 'zorro', 'conejo', 'liebre' y 'halcón'

Unnamed: 0_level_0,población_df1,población_df2
animal,Unnamed: 1_level_1,Unnamed: 2_level_1
zorro,12,
conejo,436,2015.0
liebre,315,
halcón,7,25.0


* La siguiente celda regresará un dataframe usando el argumento ```how='right'```.

In [102]:
# Tomar como referencia los identificadores de df2
df1.join(df2,
         lsuffix='_df1',
         rsuffix='_df2',
         how='right')
# No se muestra 'zorro' ni 'liebre' porque no existe en df2

Unnamed: 0_level_0,población_df1,población_df2
animal,Unnamed: 1_level_1,Unnamed: 2_level_1
conejo,436.0,2015
jabalí,,450
venado,,56
jaguar,,2
águila,,30
halcón,7.0,25


* La siguiente celda regresará un dataframe usando el argumento ```how='inner'```.

In [87]:
# Tomar como referencia identificadores en comun de ambos dataframes
df1.join( df2,
          lsuffix='_df1',
          rsuffix='_df2',
          how='inner')

Unnamed: 0_level_0,población_df1,población_df2
animal,Unnamed: 1_level_1,Unnamed: 2_level_1
conejo,436,2015
halcón,7,25


* La siguiente celda regresará un dataframe usando el argumento ```how='outer'```.

In [103]:
# Toma como referencia identificadores de ambos dataframes sin repetir
df1.join( df2,
          lsuffix='_df1',
          rsuffix='_df2',
          how='outer')

Unnamed: 0_level_0,población_df1,población_df2
animal,Unnamed: 1_level_1,Unnamed: 2_level_1
conejo,436.0,2015.0
halcón,7.0,25.0
jabalí,,450.0
jaguar,,2.0
liebre,315.0,
venado,,56.0
zorro,12.0,
águila,,30.0


## El método ```pd.DataFrame.merge()```.

Crea un nuevo dataframe a partir de la relación entre dos dataframes indicando las columnas de elementos coincidentes. *Similar a SQL*


```
<df 1>.merge(<df 2>, left_on=<identif-df1>, right_on=<identif-df2>, on=<identif-concidente> how=<modo>)
```

Donde:

* ```<df 1>``` y ```<df 2>``` son dataframes de *Pandas*.
* ```<identif-df1>``` es un objeto ```<str>``` que corresponde al identificador de una columna de ```<df 1>```.
* ```<identif-df2>``` es un objeto ```<str>``` que corresponde al identificador de una columna de ```<df 2>```.
* ```<identif-concidente>``` es un objeto ```<str>``` que corresponde al identificador de una columna tanto de ```<df 1>``` como de ```<df 2>```.
* ```<modo>``` es el modo en el que se realizará la combinación y puede ser:

    * ```'inner'```: elementos coincidente en ambos, ***valor por defecto***.
    * ```'outer'```: todos los elementos
    * ```'left'``` : solo elementos coincidentes del df-1
    * ```'right'```: solo elementos coincidentes del df-2
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

**Ejemplo:**

In [104]:
# Crear una dataframe 'cliente'
clientes = pd.DataFrame(
    { 'id':  (19232, 19233, 19234, 19235, 19236),
      'nombre': ('Adriana', 'Marcos', 'Rubén', 'Samuel', 'Martha'),
      'primer ap' : ('Sánchez', 'García', 'Rincón', 'Oliva', 'Martínez'),
      'suc_origen': ('CDMX01', 'CDMX02', 'CDMX02', 'CDMX01', 'CDMX03')
    })
clientes

Unnamed: 0,id,nombre,primer ap,suc_origen
0,19232,Adriana,Sánchez,CDMX01
1,19233,Marcos,García,CDMX02
2,19234,Rubén,Rincón,CDMX02
3,19235,Samuel,Oliva,CDMX01
4,19236,Martha,Martínez,CDMX03


In [105]:
# crear un dataframe 'sucursales'
sucursales = pd.DataFrame(
    {'clave': ('CDMX01', 'CDMX02', 'MTY01', 'GDL01'),
     'nombre':('Galerías', 'Centro', 'Puerta de la Silla', 'Minerva Plaza')})
sucursales

Unnamed: 0,clave,nombre
0,CDMX01,Galerías
1,CDMX02,Centro
2,MTY01,Puerta de la Silla
3,GDL01,Minerva Plaza


In [106]:
# crear al dataframe 'facturas'
facturas = pd.DataFrame(
    { 'folio':(15234, 15235, 15236, 15237, 15238, 15239, 15240, 15241, 15242),
      'sucursal':('CDMX01', 'MTY01', 'CDMX02', 'CDMX02', 'MTY01', 'GDL01',
                  'CDMX02', 'MTY01', 'GDL01'),
      'monto':(1420.00, 1532.00, 890.00, 1300.00, 3121.47, 1100.5, 12230, 230.85, 1569),
      'fecha':( datetime.datetime(2019,3,11,17,24), datetime.datetime(2019,3,24,14,46),
                datetime.datetime(2019,3,25,17,58), datetime.datetime(2019,3,27,13,11),
                datetime.datetime(2019,3,31,10,25), datetime.datetime(2019,4,1,18,32),
                datetime.datetime(2019,4,3,11,43),  datetime.datetime(2019,4,4,16,55),
                datetime.datetime(2019,4,5,12,59)),
      'cliente':(19234, 19232, 19235, 19233, 19236, 19237, 19232, 19233, 19232)})

facturas

Unnamed: 0,folio,sucursal,monto,fecha,cliente
0,15234,CDMX01,1420.0,2019-03-11 17:24:00,19234
1,15235,MTY01,1532.0,2019-03-24 14:46:00,19232
2,15236,CDMX02,890.0,2019-03-25 17:58:00,19235
3,15237,CDMX02,1300.0,2019-03-27 13:11:00,19233
4,15238,MTY01,3121.47,2019-03-31 10:25:00,19236
5,15239,GDL01,1100.5,2019-04-01 18:32:00,19237
6,15240,CDMX02,12230.0,2019-04-03 11:43:00,19232
7,15241,MTY01,230.85,2019-04-04 16:55:00,19233
8,15242,GDL01,1569.0,2019-04-05 12:59:00,19232


* Mezclar los dataframes clientes y sucursales

In [92]:
# Meclar clientes y sucursales
clientes.merge(sucursales, left_on='suc_origen', right_on='clave')

Unnamed: 0,id,nombre_x,primer ap,suc_origen,clave,nombre_y
0,19232,Adriana,Sánchez,CDMX01,CDMX01,Galerías
1,19233,Marcos,García,CDMX02,CDMX02,Centro
2,19234,Rubén,Rincón,CDMX02,CDMX02,Centro
3,19235,Samuel,Oliva,CDMX01,CDMX01,Galerías


In [93]:
# Mezclar facturas y clientes
facturas.merge(clientes, left_on="cliente", right_on="id")

Unnamed: 0,folio,sucursal,monto,fecha,cliente,id,nombre,primer ap,suc_origen
0,15234,CDMX01,1420.0,2019-03-11 17:24:00,19234,19234,Rubén,Rincón,CDMX02
1,15235,MTY01,1532.0,2019-03-24 14:46:00,19232,19232,Adriana,Sánchez,CDMX01
2,15236,CDMX02,890.0,2019-03-25 17:58:00,19235,19235,Samuel,Oliva,CDMX01
3,15237,CDMX02,1300.0,2019-03-27 13:11:00,19233,19233,Marcos,García,CDMX02
4,15238,MTY01,3121.47,2019-03-31 10:25:00,19236,19236,Martha,Martínez,CDMX03
5,15240,CDMX02,12230.0,2019-04-03 11:43:00,19232,19232,Adriana,Sánchez,CDMX01
6,15241,MTY01,230.85,2019-04-04 16:55:00,19233,19233,Marcos,García,CDMX02
7,15242,GDL01,1569.0,2019-04-05 12:59:00,19232,19232,Adriana,Sánchez,CDMX01


In [107]:
# Mezclar facturas y clientes, CONSIDERANDO DOS COLUMNAS para la mezcla
facturas.merge(clientes, left_on=["cliente", "sucursal"],
               right_on=["id", "suc_origen"])
# El dataframe resultante contendrá exclusivamente aquellos elementos
# en los que exista coincidencia en ambas relaciones.

Unnamed: 0,folio,sucursal,monto,fecha,cliente,id,nombre,primer ap,suc_origen
0,15237,CDMX02,1300.0,2019-03-27 13:11:00,19233,19233,Marcos,García,CDMX02


## El método ```pd.DataFrame.combine()```.

Este método combina dos dataframes e incluye una función la cual permitre decidir cual valor es que se respeta.

```
<dataframe 1>.combine(<dataframe 2>, <funcion>)
```

Donde:

* ```<funcion>``` es una función que comparará renglón por renglón ambos dataframes.

In [115]:
df1 = pd.DataFrame({'A': [0, 0], 'B': [4, 4]})
df2 = pd.DataFrame({'A': [1, 1], 'B': [3, 3]})

In [116]:
df1

Unnamed: 0,A,B
0,0,4
1,0,4


In [117]:
df2

Unnamed: 0,A,B
0,1,3
1,1,3


In [118]:
take_smaller = lambda s1, s2: s1 if s1.sum() < s2.sum() else s2

In [119]:
df1.combine(df2, take_smaller)

Unnamed: 0,A,B
0,0,3
1,0,3
