[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Uniones y mezclas de *dataframes*.

*Pandas* permite realizar operaciones que permiten unir y mezclar *dataframes* por su columnas y/o renglones a dataframes existentes.

Este capítulo explorará:

* El método ```pd.DataFrame.join()```  de los dataframes de *Pandas*.
* La función ```pd.concat()```.
* El método ```pd.DataFrame.append()``` de los dataframes de *Pandas*.

In [None]:
import pandas as pd
import numpy as np

## El método ```pd.DataFrame.join()```.

El método ```pd.DataFrame.join()``` regresa un nuevo *dataframe* al cual se le ha añadido el contenido de otro *dataframe* que se ingresa como argumento. 

Este método no mezcla a los *dataframes*, sino que crea un índice izquierdo, correspondiente al *dataframe* que contiene al método, y otro derecho, correspondiente al *dataframe* que e ingresa como argumento. El modo en el que se añade  dependiendo de paramétos adicionales que se ingresen.

```
df.join(<dataframe>, lsuffix=<izquierdo>, rsuffix=<derecho>, how=<modo>)
```
    
Donde:

* ```<dataframe>``` es un *dataframe* de *Pandas*, correspondiente al *dataframe* de la derecha.
* ```<izquierdo>``` es un objeto de tipo ```str``` que corresponderá al título del elemento de la izquierda.
* ```<derecho>``` es un objeto de tipo ```str``` que corresponderá al título del elemento de la derecha.
* ```<modo>``` es un objeto de tipo ```str``` que indica la forma en la que se combinarán los elementos del dataframe resultante y puede ser:
    * ```'left'```, el cual es el argumento por defecto.
    * ```'right'```.
    * ```'inner'```.
    * ```'outer'```.

Este método procurará hacer que los índices y columnas compartidas entre los dataframes compaginen. En caso de que los índices y/o columnas sean distintos, los elementos faltantes serán sustituidos por ```np.NaN```.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html

**Ejemplo:**

* La siguiente celda creará al *dataframe* ```region_1``` con la siguiente estructura.
    * Contendrá la columna ```'animal'```.
    * Contendrá el índice con identificador ```'poblacion'``` que a su vez contiene los índices ```'zorro'```, ```'conejo'```, ```liebre``` y ```'halcón'```.

In [None]:
region_1 = pd.DataFrame({'animal':['zorro', 
                     'conejo', 
                     'liebre', 
                     'halcón'],
          'población':[12,
                      436,
                      315,
                      7]}).set_index('animal')

In [None]:
region_1

* La siguiente celda creará al dataframe ```region_2``` con la siguiente estructura.
    * Contendrá la columna ```'animal'```.
    * Contendrá el índice con identificador ```'poblacion'``` que a su vez contiene los índices ```'conejo'```, ```'jabalí'```, ```venado```, ```'jaguar'```, ```'águila``` y ```'halcón'```.

In [None]:
region_2 = pd.DataFrame({'animal':['conejo',
                                  'jabalí',
                                  'venado',
                                  'jaguar',
                                  'águila',
                                  'halcón'],
                        'población':[2015,
                                     450,
                                     56,
                                     2,
                                     30,
                                     25]}).set_index('animal')

In [None]:
region_2

### Argumentos para el parámetro ```how```.

* ```'left'``` toma como referencia a los índice del *dataframe* que contiene al método y los colocará en la columna de la izquierda. Si el *dataframe* que se ingresa como argumento tiene índices con el mismo nombre que el da, los alineará en la columna de la derecha. Este es el argumento por defecto del parámetro ```how```.
* ```'right'``` toma como referencia a los índices *dataframe* que se ingresa como argumento y los colocará en la columna de la derecha. Si el *dataframe* que contiene al método tiene índices con el mismo nombre, los alineará en la columna de la izquierda.
* ```'inner'``` toma como referencia únicamente a los índices compartidos entre ambos *dataframes*.
* ```'outer'``` toma como referencia a todos los índices de ambos *dataframes*.

**Ejemplos:**

* La siguiente celda regresará un dataframe usando el método ```region_1.join()```.
    * Ingresando al *dataframe* ```region_2``` como argumento.
    * Definiendo ```'region 1'``` para el sufijo del título de la columna de la izquierda.
    * Definiendo ```'region 2'``` para el sufijo del título de la columna de la derecha.
    * No se definirán argumentos para el parámetro ```how```.

In [None]:
region_1.join(region_2,
              lsuffix=' region 1',
              rsuffix=' region 2')

* La siguiente celda regresará un dataframe usando el método ```region_1.join()```.
    * Ingresando al *dataframe* ```region_2``` como argumento.
    * Definiendo ```'region 1'``` para el sufijo del título de la columna de la izquierda.
    * Definiendo ```'region 2'``` para el sufijo del título de la columna de la derecha.
    * Definiendo el argumento ```how='left'```.

In [None]:
region_1.join(region_2,
              lsuffix=' region 1',
              rsuffix=' region 2',
              how='left')

* La siguiente celda regresará un dataframe usando el método ```region_1.join()```.
    * Ingresando al *dataframe* ```region_2``` como argumento.
    * Definiendo ```'region 1'``` para el sufijo del título de la columna de la izquierda.
    * Definiendo ```'region 2'``` para el sufijo del título de la columna de la derecha.
    * Definiendo el argumento ```how='right'```.

In [None]:
region_1.join(region_2,
              lsuffix=' region 1',
              rsuffix=' region 2',
              how='right')

* La siguiente celda regresará un dataframe usando el método ```region_1.join()```.
    * Ingresando al *dataframe* ```region_2``` como argumento.
    * Definiendo ```'region 1'``` para el sufijo del título de la columna de la izquierda.
    * Definiendo ```'region 2'``` para el sufijo del título de la columna de la derecha.
    * Definiendo el argumento ```how='inner'```.

In [None]:
region_1.join(region_2,
              lsuffix=' region 1',
              rsuffix=' region 2',
              how='inner')

* La siguiente celda regresará un dataframe usando el método ```region_1.join()```.
    * Ingresando al *dataframe* ```region_2``` como argumento.
    * Definiendo ```'region 1'``` para el sufijo del título de la columna de la izquierda.
    * Definiendo ```'region 2'``` para el sufijo del título de la columna de la derecha.
    * Definiendo el argumento ```how='outer'```.

In [None]:
region_1.join(region_2,
              lsuffix=' region 1',
              rsuffix=' region 2',
              how='outer')

## La función ```pd.concat()```.

La función ```pd.concat()```permite realizar operaciones generales de concatenación.

```
pd.concat(<df_1>, <df_2>, axis=<eje>, join=<modo>, keys=<id cols>, sort =<bool>)
```

* ```<df_1>``` y ```<df_2>``` son dataframes de *Pandas*.
* ```<eje>``` es un objeto de tipo ```int``` que indica el eje de la concatenación. El argumento por defecto es ```axis=0``` (renglones).
* ```<modo>``` es un objeto de tipo ```str``` que indica la forma en la que se combinarán los elementos del dataframe resultante y puede ser:
    * ```'inner'```.
    * ```'outer'``` , el cual es el argumento por defecto.
* ```<id cols>``` es una colección de objetos ```str``` que serán utilizados para crear identificadores de indíces superiores en las columnas.
* El parámetro ```sort``` corresponde a un valor booleano.
   * En caso de que el argumento sea ```sort=True```, el *dataframe* resultante será ordenado por los índices de forma ascendente.
   * En caso de que el argumento sea ```sort=False```  (valor por defecto), el *dataframe* resultante será ordenado por los índices de forma ascendente.
   
   
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

**Ejemplos:**

* La siguiente celda creará al *dataframe* ```marco_1``` con la siguiente estructura.
    * Contendrá las columnas ```'Centro'```, ```'Sur'``` y ```'Oriente'```.
    * Contendrá los índices ```'lunes'```, ```'martes'``` y ```'miércoles'```.

In [None]:
indice_1 = ("lunes", "martes", "miércoles")
marco_1 = pd.DataFrame({'Centro':[1520, 
                                 1640, 
                                 1043], 
                       'Sur':[1422, 
                              1673, 
                              1534],
                      'Oriente':[1021,
                                1073,
                                1100]},
                      index=indice_1)

In [None]:
marco_1

* La siguiente celda creará al *dataframe* ```marco_2``` con la siguiente estructura.
    * Contendrá las columnas ```'Centro'```, ```'Sur'``` y ```'Oriente'```.
    * Contendrá los índices ```'jueves'```, ```'viernes'``` y ```'sábado'```.

In [None]:
indice_2 = ("jueves", "viernes", "sábado")
marco_2 = pd.DataFrame({'Centro':[1321, 
                                 1459, 
                                 1875], 
                       'Sur':[1622, 
                              1841, 
                              1920],
                      'Oriente':[1500,
                                1432,
                                1491]},
                      index=indice_2)

In [None]:
marco_2

* La siguiente celda regresará un *dataframe* creado a partir de aplicar la función ```pd.concat()``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_3``` como los dos únicos argumentos y se utilizarán los argumentos por defecto de la función.

In [None]:
pd.concat([marco_1, marco_2])

* La siguiente celda regresará un *dataframe* creado a partir de aplicar la función ```pd.concat()``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_2``` como los dos primeros argumentos.
    * Se ingresará el argumento ```axis=1```, por lo que la concatenación se realizará en el eje de las columnas.
    * Esta concatenación creará columnas que se repiten.
* El *dataframe*  resultante sustituirá lo valores faltantes con ```pd.NaN```.

In [None]:
pd.concat([marco_1, marco_2], axis=1)

* La siguiente celda regresará un *dataframe* creado a partir de aplicar la función ```pd.concat()``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_2``` como los dos primeros argumentos.
    * Se ingresará el argumento ```axis=1```, por lo que la concatenación se realizará en el eje de las columnas.
    * Se ingresará el argumento ```sort=True```, por lo que los renglones serán ordenados en función de los índices de forma ascendente.
* El *dataframe*  resultante tendrá columnas con identificadores que se repiten.
* El *dataframe*  resultante sustituirá lo valores faltantes con ```pd.NaN```.

In [None]:
* La siguiente celda regresará un *dataframe* creado a partir de aplicar la función ```pd.concat()``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_2``` como los dos primeros argumentos.
    * Se ingresará el argumento ```axis=1```, por lo que la concatenación se realizará en el eje de las columnas.
    * Se ingresará el argumento ```sort=True```, por lo que los renglones serán ordenados en función de los índices de forma ascendente.
* El *dataframe*  resultante tendrá columnas con identificadores que se repiten.
* El *dataframe*  resultante sustituirá lo valores faltantes con ```pd.NaN```. pd.concat([marco_1, marco_2], axis=1, sort=True)

* La siguiente celda creará un *dataframe* llamado ```semanales``` a partir de aplicar la función ```pd.concat()``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_2``` como los dos primeros argumentos.
    * Se ingresará el argumento ```axis=1```, por lo que la concatenación se realizará en el eje de las columnas.
    * Se ingresará el argumento ```sort=True```, por lo que los renglones serán ordenados en función de los índices de forma ascendente.
* El *dataframe*  resultante tendrá columnas con identificadores que se repiten.
* El *dataframe*  resultante sustituirá lo valores faltantes con ```pd.NaN```.
* La siguiente celda regresará un *dataframe* con las dos columnas con identificador ```'Centro'``` a partir del *dataframe* creado por ``` pd.concat([marco_1, marco_2], axis=1, sort=False```.

In [None]:
 pd.concat([marco_1, marco_2], axis=1, sort=False)['Centro']

* La siguiente celda creará un *dataframe* a partir de aplicar la función ```pd.concat()``` al que se le asignará el nombre ```semanales``` de la siguiente manera:
    * Se ingresarán ```marco_1``` y ```marco_2``` como los dos primeros argumentos.
    * Se ingresará el argumento ```axis=1```.
    * Se ingresará el argumento ```keys=['semana 1', 'semana 2']```.
    * Se ingresará el argumento ```sort=True```.

In [None]:
semanales = pd.concat([marco_1, marco_2], axis=1, 
                      keys=['semana 1', 'semana 2'],
                      sort=False)

* El *dataframe* ```semanales``` contiene un índice con dos niveles para las columnas. 
* El primer nivel corresponde a los identificadores:
    * ```'semana 1'``` y ```'semana 2'```.
* Dentro de cada elemento del primer nivel están los identificadores:
    * ```'Centro'```.
    * ```'Sur'```.
    * ```'Oriente'```.

In [None]:
semanales

* La siguiente celda regresará las columnas correspondientes al identificador ```'semana 1'``` del dataframe ```semanales```.

In [None]:
semanales['semana 1']

* La siguiente celda regresará la columna con identificador ```'Centro'``` correspondientes al identificador ```'semana 1'``` del dataframe ```semanales```.

In [None]:
semanales['semana 1']['Centro']

## El método ```pd.DataFrame.append()```.

El método ```pd.DataFrame.append()``` regresa un nuevo dataframe al cual se le ha añadido en el eje ```1``` (columnas) el contenido de una estructura compatible. 

```
<dataframe>.append(<objeto>)
```

Donde:

* ```<dataframe>``` es un dataframe de *Pandas*.
* ```<objeto>``` es un dataframe, objeto tipo ```dict``` u otro objeto compatible que puede ser transformado en un dataframe.

Este método procurará hacer que los índices y coluimnas compartidas entre el *dataframe* y el objeto ingresado como argumento se compaginen. En caso de que los índices y/o columnas sean distintos, los elementos faltantes serán sustituidos por ```np.NaN```.

La documentación del método ```pd.DataFrame.append()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html


**NOTA:** El método ```df.append()``` está siendo descontinuado y se deberá de utilizar la función ```pd.concat()``` en su lugar.

**Ejemplos:**

* La siguiente celda regresará un dataframe usando el método ```marco_1.append()``` e ingresando ```marco_2``` como argumento. Dicho dataframe tendrá la siguiente estructura:

    * Contendrá las columnas ```'Centro'```, ```'Sur'``` y ```'Oriente'```.
    * Contendrá los índices ```lunes```, ```martes```, ```miércoles```, ```'jueves'```, ```'viernes'``` y ```'sábado'```.

* Se utilizarán los dataframes ```marco_1``` y ```marco_2``` definidos previamente.

In [None]:
marco_1

In [None]:
marco_2

* La siguiente celda ejecutará al método ```marco_1.append()```, ingresando al *dataframe* ```marco_2```como argumento.

In [None]:
marco_1.append(marco_2)

* La siguiente celda creará al dataframe ```marco_3``` con la siguiente estructura.
    * Contendrá las columnas ```'Centro'```, ```'Matriz'```.
    * Contendrá el índice ```'domingo'```.

In [None]:
marco_3 = pd.DataFrame({'Centro':[2210],
                        'Matriz':[3120]},
                      index=['Domingo'])

In [None]:
marco_3

* La siguiente celda regresará un dataframe a partir del método ```marco_1.append(marco_2).append()```, ingresando ```marco_3``` como argumento. Dicho dataframe tendrá la siguiente estructura:

    * Contendrá las columnas ```'Centro'```, ```'Sur'```, ```'Oriente'``` y ```'Matriz'```.
    * Contendrá los índices ```lunes```, ```martes```, ```miércoles```, ```'jueves'```, ```'viernes'```, ```'sábado'``` y  ```Domingo```.
    * Aquellos elementos que no correspondan serán sutituidos por ```np.NaN```.

In [None]:
marco_1.append(marco_2).append(marco_3)

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>