# Data Wrangling I

## Objetivos

1. Establecer la importancia del Data Wrangling en la analítica de datos.
2. Realizar operaciones para modificar y limpiar datos usando `pandas`.
3. Realizar operaciones para unir bases de datos usando `pandas`.

# Modificar y limpiar datos utilizando `pandas`

## 1. Modificar cadenas de texto contenidas en `Series` utilizando la librería `pandas`

En `pandas`, las cadenas de texto contenidas en una `Serie` (o en columnas de un `DataFrame`) heredan varios métodos propios de los objetos de tipo cadena de texto. Para acceder a ellos los llamamos del módulo `Series.str` (o `DataFrame.str`).
    
A continuación explicamos la documentación de algunos de los métodos más comunes: `split`, `get_dummies`, `capitalize`, `lower`, `upper` y `strip`.

* `split`: divide cada cadena de la `Serie` cada vez que encuentra la subcadena especificada en el parámetro `pat`. Utilizamos el parámetro `n` para limitar la cantidad de divisiones que realizamos las cadenas. Utilizamos el parámetro `expand` para retornar los segmentos de las cadenas en un `DataFrame` (`expand = True`) o en una `Serie` de listas (`expand = false`). <br><br>

* `get_dummies`: crea un `DataFrame` donde las columnas corresponden a cada uno de los valores únicos de la `Serie`, las filas corresponden a los elementos de la `Serie` y los valores son binarios (`0` o `1`) dependiendo de si el elemento toma el valor que indica la columna.<br><br>

* `capitalize`: revisa si el primer caracter de cada cadena es una letra minúscula y lo convierte en mayúscula y vuelve minúscula el resto de las letras en la cadena.    <br><br>

* `lower`: convierte todas las letras de cada cadena en minúsculas.<br><br>
    
* `upper`: convierte todas las letras de cada cadena en mayúsculas.    <br><br>
    
* `strip`: elimina del inicio y del final de cada cadena de la `Serie`, la subcadena especificada en el parámetro `to_strip`. Si la subcadena no es especificada, por defecto se supone la subcadena `" "` (espacio).

Importamos el paquete `pandas`.

In [1]:
import pandas as pd

##### Ejemplo 1

En la siguiente celda de código declaramos una `Serie` con el nombre de algunos libros. Se nos pide que extraigamos el artículo del título de los libros que se encuentran dentro del `DataFrame`.

In [2]:
serie_libros = pd.Series(["El Extranjero", "La Peste", "La Caída"])
serie_articulos = serie_libros.str[
    :2
]  # Tomamos los primeros dos caracteres del título.
serie_articulos

0    El
1    La
2    La
dtype: object

Puede cumplirse lo mismo con el método `split`, como se ve a continuación:

In [3]:
serie_articulos = serie_libros.str.split(" ", expand=True)
serie_articulos[0]

0    El
1    La
2    La
Name: 0, dtype: object

## 2. Representar fechas utilizando la librería `datetime`

Una de las grandes ventajas de la programación de rutinas de código en Python es la versatilidad que ofrece. El caso de la manipulación de información temporal no es la excepción, en tanto Python permite representar los principales formatos de fechas que se usan en lenguajes de manipulación de bases de datos como SQL. El principal módulo a importar para trabajar con fechas es `datetime`. 

### 2.1. El módulo `datetime`

La principal característica del módulo `datetime` es que permite trabajar simultáneamente con fechas (*Dates*) y tiempos (*Time*). Es decir, al crear un objeto con el módulo `datetime`, este contendrá la información de la fecha (día, mes y año) y un registro detallado del dato de tiempo (hora, minuto, segundo, microsegundo). Para importar el módulo `datetime` se puede usar la siguiente sintaxis:

    from datetime import datetime
    
Esta sintaxis permite declarar de forma directa objetos de tipo `datetime` ya que importa los métodos del módulo (y no todo el paquete) `datetime`. Así, resulta innecesario referenciar nuevamente un objeto de este módulo. Para declarar una fecha se usa la siguiente sintaxis, empleando valores enteros como argumentos: 

    fecha = datetime(año, mes, dia)
    
A esta fecha se le asignará por defecto la primera hora del día (00:00:00). Si se desea, también se puede especificar el total de la información como en la siguiente declaración:

    tiempo = datetime(año, mes, dia, hora, minuto, segundo, microsegundo)
    
A continuación, trabajaremos los principales métodos del módulo `datetime`.


### 2.2. Métodos de los objetos tipo `datetime`

|<center>Métodos</center>|<center>Descripción</center>|
|:-|:-|
|`weekday()`| Obtiene el día de la semana correspondiente a la fecha|
|`isoweekday()`| Obtiene el día de la semana correspondiente a la fecha en formato ISO|
|`__format__(formato)` | Confiere a un `datetime` el `formato` especificado|
|`replace()` | Permite modificar cualquiera de los valores de una fecha particular (año, mes, dia)|

### 2.3 Métodos del módulo `datetime`

|<center>Métodos</center>|<center>Descripción</center>|
|:-|:-|
|`stftime(formato)` | Retorna una cadena de texto con la información de la fecha según el `formato` especificado|
|`strptime(cadena_fecha)` | Crea un `datetime` con base en una fecha descrita por una cadena de texto (`cadena_fecha`)|

Para usar los métodos `stftime` y `strptime` se usan las siguientes convenciones:

|<center>Convención</center>|<center>Descripción</center>|
|:-:|:-|
|`'%a'`|Referencia los primeros caracteres del día de la semana 'Wed'|
|`'%A'`|Referencia el nombre completo 'Wednesday' |
|`'%B'`|Referencia el nombre completo del mes 'Septiembre'|
|`'%w'`|Referencia el día de la semana con números del 0 al 6 donde el Domingo es el 0 |
|`'%m'`|Referencia el número del mes del '01' al '12' |
|`'%p'`|Referencia la hora en formato AM/PM|
|`'%y'`|Referencia el año usando únicamente los últimos dos dígitos |
|`'%Y'`|Referencia el año usando todos los dígitos |
|`'%Z'`|Referencia la zona horaria|
|`'%z'`|Referencia la zona horaria en formato UTC|
|`'%j'`|Referencia el día del año del '001' al '366' |
|`'%W'`|Referencia el día |
|`'%U'`|Referencia el número de la semana en el año desde el '00' hasta el '53'|

Ejemplificaremos el uso de los métodos `strftime` y `strptime` según estas.

Importamos el módulo `datetime`.

In [4]:
from datetime import datetime

##### Ejemplo 2

Vamos a convertir la cadena de texto con formato `"%y-%m-%d"` en un objeto `datetime`.

In [5]:
cadena_fecha = "18-12-31"
fecha = datetime.strptime(cadena_fecha, "%y-%m-%d")
fecha

datetime.datetime(2018, 12, 31, 0, 0)

También se habría podido lograr esta fecha con la cadena de texto que contiene todos los dígitos del año:

In [6]:
cadena_fecha = "2018-12-31"
fecha = datetime.strptime(cadena_fecha, "%Y-%m-%d")
fecha

datetime.datetime(2018, 12, 31, 0, 0)

Recuerde que también se puede recuperar la cadena de texto original sobre la cual se creó la fecha usando el método `strftime`.

In [7]:
cadena_fecha = datetime.strftime(fecha, "%Y-%m-%d")
cadena_fecha  # tipo: cadena de texto

'2018-12-31'

### 2.3. Columnas con formato de fechas

Una vez conocemos el procedimiento para transformar cadenas de texto en objetos `datetime` podemos pensar en cómo transformar columnas o `Series` de enteros o cadenas de texto en fechas. La manera más frecuente es por medio del método `to_datetime` de `pandas`: 

    to_datetime(arg = cadena_fecha, UTC = None, format = None)

A continuación, describimos el uso de los parámetros.

* `arg`: cadena de texto, entero, lista, arreglo o fecha (`datetime`) a transformar en una fecha (`datetime`). <br><br>

* `UTC`: especifica la zona horaria.<br><br>

* `format`: recibe una cadena de texto que indica el formato de la fecha según las convenciones.

##### Ejemplo 3

En la celda de código a continuación, importamos el índice de los títulos de deuda pública de los TES de Corto Plazo para los años comprendidos entre el 2010 y 2019. Estos datos fueron descargados directamente de la página de la Bolsa de Valores de Colombia disponible en las referencias. Declaramos un `DataFrame` indexado por su columna `"fecha"`.

Empecemos inspeccionando la base de datos:

In [8]:
dfTES = pd.read_excel("Indices.xls", index_col=0, header=1)
dfTES.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2902 entries, nan to nan
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Fecha                2902 non-null   int64  
 1   Indice               2902 non-null   object 
 2   Valor Hoy            2902 non-null   float64
 3   Valor Ayer           2902 non-null   float64
 4   Variacion %          2902 non-null   float64
 5   VariaciÃ³n Absoluta  2902 non-null   float64
 6   Variacion 12 meses   2902 non-null   float64
 7   VariaciÃ³n Anual     2902 non-null   float64
dtypes: float64(6), int64(1), object(1)
memory usage: 204.0+ KB


Notamos que la base de datos está indexada por el número de fila, por lo que podemos indexar el `DataFrame` en la fecha sin perder información, como se muestra a continuación:

In [9]:
dfTES.index = pd.to_datetime(dfTES["Fecha"], format="%Y%m%d")
dfTES.index

DatetimeIndex(['2010-01-01', '2010-01-02', '2010-01-03', '2010-01-04',
               '2010-01-05', '2010-01-06', '2010-01-07', '2010-01-08',
               '2010-01-09', '2010-01-10',
               ...
               '2019-12-16', '2019-12-17', '2019-12-18', '2019-12-19',
               '2019-12-20', '2019-12-23', '2019-12-24', '2019-12-26',
               '2019-12-27', '2019-12-30'],
              dtype='datetime64[ns]', name='Fecha', length=2902, freq=None)

Como el índice es de tipo `datetime`, podemos utilizar los métodos de este módulo. Por ejemplo, `weekday` para el día de la semana.

In [10]:
dfTES.index.weekday

Index([4, 5, 6, 0, 1, 2, 3, 4, 5, 6,
       ...
       0, 1, 2, 3, 4, 0, 1, 3, 4, 0],
      dtype='int32', name='Fecha', length=2902)

## 3. Imputar datos faltantes en un `DataFrame`, utilizando la librería `pandas`.

### 3.1. Representación de datos faltantes dentro de Python

Python cuenta con dos alternativas para representar datos faltantes: el objeto `None` y el valor `nan` (*Not a Number*) del paquete `numpy`. El valor `nan` es almacenado como un objeto de tipo `float`. Así, podemos aplicar métodos de `numpy` sobre arreglos numéricos, incluso si contienen valores `nan`. Dado que `nan` es un elemento del paquete, podemos asignarlo a variables o invocarlo de la misma manera que cualquier método o constante.

Importemos el paquete `numpy`.

In [11]:
import numpy as np

Al aplicar métodos de `numpy` sobre arreglos que contienen valores `nan`, el resultado suele ser `nan`.

In [12]:
numeros = np.array([1, 2, 3, 4, np.nan])
promedio = np.mean(numeros)
promedio

nan

Pese a no ser un número, `nan` es de tipo numérico (`float`).

In [13]:
type(np.nan)

float

En este caso, para poder calcular el promedio utilizamos el método `nanmean`, el cual omite los valores `nan`.

In [14]:
numeros = np.array([1, 2, 3, 4, np.nan])
promedio = np.nanmean(numeros)
promedio

2.5

Ninguno de estos métodos sirve para un objeto `None`, ya que `numpy` no lo tiene definido como de tipo numérico. Veamos un ejemplo.

In [15]:
numeros = np.array([1, 2, 3, 4, None])
try:
    np.mean(numeros)
except:
    print("El arreglo tiene valores faltantes.")
try:
    np.nanmean(numeros)
except:
    print("El arreglo contiene valores no numéricos.")

El arreglo tiene valores faltantes.
El arreglo contiene valores no numéricos.


### 3.2. Imputar datos faltantes utilizando la librería `pandas `

Debido a que `numpy` puede operar sobre los objetos `nan` y no sobre los `None`, `pandas` representa los datos faltantes en una `Serie` con el valor `nan`. Al introducir valores faltantes dentro de una `Serie`, `pandas` transforma el tipo de dato para que sea compatible con el de los valores `nan`. 

Al introducir un valor `nan` a una `Serie`, `pandas`:

* convierte la `Serie` en tipo `float`, si este es una `Serie` de enteros.<br><br>
* convierte la `Serie` en tipo `object`, si este es una `Serie` de valores lógicos.<br><br>
* conserva el tipo de la `Serie`, si este es de tipo `float` u `object`.

**Nota:** recuerda que toda la información aplicable a una `Serie` es igualmente aplicable a una columna de un `DataFrame`.

##### Ejemplo 4

Para ilustrar el cambio de tipo de dato, creamos una `Serie` con los enteros del 1 al 10. Ya creado, reemplazamos el primer elemento por un `nan`.

In [16]:
numeros = pd.Series(range(11), dtype=int)
numeros[0] = np.nan
numeros

0      NaN
1      1.0
2      2.0
3      3.0
4      4.0
5      5.0
6      6.0
7      7.0
8      8.0
9      9.0
10    10.0
dtype: float64

Confirmamos que la `Serie` en la variable `numeros` pasó de ser de tipo entero a ser de tipo `float`. Ahora bien, ¿cómo haríamos para detectar los faltantes y después eliminarlos o reemplazarlos?. Hay varias maneras, una de ellas es usar los métodos `notnull` e `isnull`. Estos métodos generan una `Serie` de booleanos que identifican los datos faltantes con el valor de `True` para el método `isnull` y `False` para el método `notnull`. El siguiente ejemplo ilustra el uso del método `notnull`.

##### Ejemplo 5

Vamos a usar el método `notnull` para eliminar los datos faltantes de la `Serie` en la celda de código:

In [17]:
numeros = pd.Series([*range(5), np.nan, *range(6, 10), np.nan])
numeros

0     0.0
1     1.0
2     2.0
3     3.0
4     4.0
5     NaN
6     6.0
7     7.0
8     8.0
9     9.0
10    NaN
dtype: float64

In [18]:
numeros = numeros[numeros.notnull()]
numeros  # Se quitaron las filas con índices 5 y 10

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

### 3.3. Métodos para imputar faltantes utilizando la librería `pandas`

Existen dos métodos en `pandas` para manipular los datos faltantes: `dropna` y `fillna`.

#### Método `dropna`

Este método elimina aquellas columnas o filas que contengan entradas `nan`. 

    DataFrame.dropna(axis = 0, how = 'any', thresh = 0, subset = DataFrame.columns)

* `axis`: indica si aplicar el método sobre sobre las filas (`axis = 0`) o sobre las columnas (`axis = 1`). Por defecto es sobre las filas.<br><br>

* `how`: <br><br>
    * `how = 'any'`: elimina la fila o la columna si contiene al menos un faltante.
    * `how = 'all'`: elimina la fila o la columna si solo contiene faltantes.<br><br>

* `thresh`: elimina todas las filas o columnas con más datos faltantes que el umbral (de tipo `int`) especificado. <br><br>

* `subset`: permite seleccionar un subconjunto de columnas o de filas sobre el cual aplicar el método.

##### Ejemplo 6

A continuación, declaramos un `DataFrame` para ejemplificar el uso del método `dropna`.

In [19]:
tabla_numeros = pd.DataFrame(
    [[1, np.nan, np.nan, 2], [np.nan, np.nan, 1, np.nan], [np.nan, 0, np.nan, 2]],
    columns=["A", "B", "C", "D"],
)
tabla_numeros

Unnamed: 0,A,B,C,D
0,1.0,,,2.0
1,,,1.0,
2,,0.0,,2.0


Utilizamos el método `dropna` para eliminar aquellas filas que solo contienen datos faltantes en el subconjunto de columnas `A` y `C`.

In [20]:
tabla_numeros.dropna(how="all", subset=["A", "C"])

Unnamed: 0,A,B,C,D
0,1.0,,,2.0
1,,,1.0,


#### Método `fillna`

    DataFrame.fillna(value = None, method = None, axis = None, inplace = False, limit = 0)

* `value`: indica el valor o diccionario de valores para imputar en las entradas `nan`.<br><br>

* `method`:<br><br>
    * `method = 'ffil'`: (*forward fill*) rellena cada dato faltante con el dato no faltante anterior.   
    * `method = 'bfill'`: (*backward fill*) rellena cada dato faltante con el dato no faltante siguiente.<br><br>

* `axis`: <br><br>
    * `0`: aplica el método sobre las filas.
    * `1`: aplica el método sobre las columnas.<br><br>

* `inplace`:<br><br>
    * `inplace = True`: aplica los cambios sobre la variable que invoca el método.
    * `inplace = False`: aplica los cambios sobre una copia de la variable que invoca el método.<br><br>

* `limit`: limita el número máximo de datos a imputar hacia adelante (o hacia atrás), según lo especificado en el parámetro `method`.

##### Ejemplo 7

Vamos a completar los datos del siguiente `DataFrame` reemplazando los valores faltantes por su anterior no faltante en la misma fila.

In [21]:
tabla_numeros = pd.DataFrame(
    [[1, np.nan, np.nan, 2], [np.nan, np.nan, 1, np.nan], [np.nan, 0, np.nan, 2]],
    columns=["A", "B", "C", "D"],
)
tabla_numeros

Unnamed: 0,A,B,C,D
0,1.0,,,2.0
1,,,1.0,
2,,0.0,,2.0


Para esto, debemos especificar `axis = 1`. Además, como utilizaremos los valores precedentes, especificamos `method = ffill`.

In [22]:
tabla_numeros = tabla_numeros.fillna(axis=1, method="ffill")
tabla_numeros

Unnamed: 0,A,B,C,D
0,1.0,1.0,1.0,2.0
1,,,1.0,1.0
2,,0.0,0.0,2.0


##### Ejemplo 8

Imputamos cada una de las entradas faltantes (columna `A`, fila `1`; columna `A`, fila `2`; columna `B` , fila `1`) del objeto `tabla_numeros` con el valor del promedio de la columna a la que pertenece.

In [23]:
tabla_numeros = tabla_numeros.fillna(tabla_numeros.mean())
tabla_numeros

Unnamed: 0,A,B,C,D
0,1.0,1.0,1.0,2.0
1,1.0,0.5,1.0,1.0
2,1.0,0.0,0.0,2.0



# Unir bases de datos utilizando `pandas`

La información para analizar un problema no siempre se encuentra toda en un mismo archivo. Por lo anterior, es necesario unir la información disponible de múltiples fuentes en una misma base de datos. A continuación, expondremos los métodos disponibles en `pandas` para llevar a cabo esa tarea.

## 4. Unir bases de datos 

Unir bases de datos significa consolidar la información existente en dos o más bases de datos de acuerdo con la coincidencia, bien sea de sus columnas, o de sus filas.

### 4.1. Unir bases de datos por coincidencia de columnas

#### Método `append`

Agrega a un `DataFrame` las filas de otro según coincidan las columnas en los dos.

    DataFrame.append(other, ignore_index = False, verify_integrity = False, sort = False) 

Debido a que se usa la coincidencia de columnas. Si el `DataDrame` que llama el método tiene $n$ filas y el `DataFrame` por parámetro tiene $m$ filas, el `DataFrame` resultante tendrá $n+m$ filas. A continuación una explicación de los parámetros.

* `other`: el `DataFrame` a unir. <br><br>

* `ignore_index`: es `False` por defecto.<br><br>

    * `ignore_index = True`: la base de datos resultante no tendrá en cuenta los índices de ninguno de los dos `DataFrame` y asignará un índice numérico desde $0$ hasta $n+m-1$.

    * `ignore_index = False`: el índice de la base de datos resultante conserva los índices de los dos `DataFrame` originales.<br><br>

* `verify_integrity`: solo aplica si `ignore_index = False`. Por defecto, `verify_index = False`.<br><br>

    * `verify_integrity = True`: arroja `ValueError` si en el `DataFrame` resultante hay indices duplicados.

    * `verify_integrity = False`: permite tener índices repetidos en el `DataFrame` resultante.<br><br>

* `sort`: Por defecto, `sort = False`.<br><br>

    * `sort = True`: asigna un orden lexicográfico a las columnas del `DataFrame` resultante.

    * `sort = False`: preserva el orden en el que aparecen las columnas de los `DataFrame` originales.

##### Ejemplo 9

En la celda de código encontramos dos `DataFrame`. Se nos pide unirlos con base en la coincidencia de sus columnas. Las columnas del `DafaFrame` resultante deben estar ordenadas.

In [24]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=["B", "A"])

df2 = pd.DataFrame([[3, 2, 4], [3, 4, 6]], columns=["C", "A", "B"])

Usamos el método `concat`, ingresando como parámetro `df2` y estableciendo `sort = True` para ordenar las columnas.

In [26]:
pd.concat([df, df2], sort=True)

Unnamed: 0,A,B,C
0,2,1,
1,4,3,
0,2,4,3.0
1,4,6,3.0


### 4.2. Unir bases de datos por coincidencia de filas

Estos métodos agregan a un `DataFrame` las columnas de otro según coincidan las filas en los dos.

#### Método `join`

Agrega a un `DataFrame` las columnas de otro según coincidan los indices en los dos. Puede usarse una columna en lugar de su índice para el `DataFrame` que llama al método.

    DataFrame.join(other, on = None, how = 'left', lsuffix = '', rsuffix = '', sort = False)

A continuación una explicación de los parámetros.

* `other`: el `DataFrame` a unir.<br><br>

* `on`: permite usar una o varias columnas del `DataFrame` que llama al método para encontrar las coincidencias. De no especificarla, se encuentran las coincidencias en los índices.<br><br>

* `how`: es `"left"` por defecto.<br><br>

    * `how = "left"`: el `DataFrame` resultante tendrá el mismo número de filas que el `DataFrame` que llama al método, ya que se usan solo las coincidencias con el índice o columna de este `Dataframe`.

    * `how = "right"`: el `DataFrame` resultante tendrá el mismo número de filas que el `DataFrame` entra por parámetro, ya que se usan solo las coincidencias con el índice o columna de este `Dataframe`.

    * `how = "outer"`: el `DataFrame` resultante tendrá todas las filas de ambos `DataFrame`, ya que se aceptan todas las coincidencias y no coincidencias de ambos `DataFrame`. 

    * `how = "inner"`: el `DataFrame` resultante solo tendrá los índices que existan en ambos `DataFrame`.<br><br>

* `lsufix`: si hay una o más columnas que tienen el mismo nombre en ambos `DataFrames`, se le puede asignar un sufijo a las columnas del `DataFrame` que llama al método para así diferenciarlas de las columnas del otro `DataFrame`.<br><br>

* `rsuffix`: si hay una o más columnas que tienen el mismo nombre en ambos `DataFrame`, se les puede asignar un sufijo a las columnas del `DataFrame` que entra por parámetro para así diferenciarlas de las columnas del `DataFrame` que llama al método.<br><br>
 
* `sort`: es `False` por defecto.<br><br>

    * `sort = True`: asigna un orden lexicográfico a las filas del `DataFrame` resultante.

    * `sort = False`: preserva el orden en el que aparecen las filas de los `DataFrame` originales.

#### Método `merge`

Agrega a un `DataFrame` las columnas de otro según coincidan los indices en los dos. Puede usarse una columna en lugar de su índice para ambos `DataFrame`. En este sentido, `merge` es más flexible que `join`, puesto que permite usar las coincidencias con las columnas del otro `DataFrame`.

    DataFrame.merge(right, how = 'inner', on = None, left_on = None, right_on = None, left_index = False, right_index = False, sort = False, suffixes = ('_x', '_y'), indicator = False)

A continuación una explicación de los parámetros. 

* `right`: el `DataFrame` a unir.<br><br>

* `how`: se tienen las mismas opciones que con el método `join`: `"left"`, `"right"`, `"outer"` e `"inner"`.<br><br>

* `on`: nombre de una columna que se encuentre en ambos `DataFrame` para identificar las coincidencias de la unión. Alternativamente pueden usarse los parámetros `left_on` (o `left_index`) y `right_on` (o `right_index`).<br><br>

* `left_on`: nombres de las columnas del `DataFrame` que llama al método, utilizadas para identificar las coincidencias.<br><br>

* `right_on`: nombres de las columnas del `DataFrame` que entra por parámetro, utilizadas para identificar las coincidencias.<br><br>

* `left_index`: es `False` por defecto.<br><br>

    * `left_index = True`: especifica que se usa el índice del `DataFrame` que llama al método, para identificar las coincidencias.

    * `left_index = False`: toma las columnas especificadas en `on` o en `left_on`.<br><br>

* `right_index`: es `False` por defecto.<br><br>

    * `right_index = True`: especifica que se usa el índice del `DataFrame` que entra por parámetro, para identificar las coincidencias.

    * `right_index = False`: toma las columnas especificadas en `on` o en `right_on`.<br><br>

* `sort`: es `False` por defecto.<br><br>

    * `sort = True`: asigna un orden lexicográfico a las filas del `DataFrame` resultante.

    * `sort = False`: preserva el orden en el que aparecen las filas de los `DataFrame` originales.<br><br>

* `suffixes`: recibe una tupla de dos posiciones con los sufijos que se usarán para distinguir en caso de que existan columnas de nombre repetido.<br><br>

* `indicator`: agrega una columna que indica el `DataFrame` del cual proviene la fila.

#### Uniones uno a uno

Recordemos que la llave de una base de datos es una columna cuyos registros no se repiten. Podemos usar esta llave para indexar nuestro `DataFrame` y este puede estar compuesto por una o más columnas.

La unión uno a uno se hace entre dos bases de datos de acuerdo con las coincidencias entre las llaves de ambas. Se entiende como una unión uno a uno, ya que en ambas bases de datos las llaves deben ser únicas y por lo tanto no existen coincidencias repetidas.

##### Ejemplo 10

Consideremos los siguientes `DataFrame`.

In [27]:
df = pd.DataFrame([[1, 2], [3, 4], [1, 2]], columns=["A", "B"])

df2 = pd.DataFrame([[3, 2, 4], [3, 4, 1]], columns=["C", "D", "E"])

Debemos agregar a `df` las columnas de `df2` según coincidencia de índices uno a uno, preservar todas las filas de `df` y solo las filas que coinciden de `df2`.

Utilicemos el método `merge`, especificando que la unión será por coincidencias interiores (que suceden en ambos) y activando las opciones de `left_index` y `right_index`.

In [28]:
df3 = df.merge(df2, how="inner", left_index=True, right_index=True)
df3

Unnamed: 0,A,B,C,D,E
0,1,2,3,2,4
1,3,4,3,4,1


Alternativamente, podemos utilizar el método `join`. Con este solo necesitamos dos argumentos, puesto que por defecto se usa el índice para la coincidencia de filas de los `DataFrame`.

In [29]:
df3 = df.join(df2, how="inner")
df3

Unnamed: 0,A,B,C,D,E
0,1,2,3,2,4
1,3,4,3,4,1


#### Uniones uno a $n$

La unión uno a $n$ se hace entre dos bases de datos de acuerdo con las coincidencias entre la llave de la primera y una columna cualquiera de la segunda (esta columna puede contener valores repetidos). Se entiende como una unión uno a $n$, ya que para cada registro de la llave de la primera base de datos pueden existir hasta $n$ coincidencias en la segunda.

##### Ejemplo 11

Consideremos los siguientes `DataFrames`.

In [30]:
df = pd.DataFrame(
    [
        ["Juan", "Contabilidad", 2100],
        ["Ignacio", "Ingeniería", 2000],
        ["Andrea", "Ingeniería", 2000],
    ],
    columns=["Empleado", "Equipo", "Salario"],
)

df2 = pd.DataFrame(
    [["Ingeniería", "Alex"], ["Contabilidad", "Antonia"]],
    columns=["Equipo", "Supervisor"],
)

Debemos agregar a `df` las columnas de `df2` según coincidencia de índices uno a $n$, preservar todas las filas de `df` y solo las filas que coinciden de `df2`.

Utilicemos el método `merge`, especificando que la unión será por coincidencias interiores (que suceden en ambos), y que la columna `"Equipo"` existe en ambos `DataFrames`.

In [31]:
df3 = df.merge(df2, how="inner", on="Equipo")
df3

Unnamed: 0,Empleado,Equipo,Salario,Supervisor
0,Juan,Contabilidad,2100,Antonia
1,Ignacio,Ingeniería,2000,Alex
2,Andrea,Ingeniería,2000,Alex


Habriamos podido especificar cuál columna usar en cada `DataFrame`, pero esto no fue necesario puesto que las columnas tienen el mismo nombre.

In [None]:
df3 = df.merge(df2, how="inner", left_on="Equipo", right_on="Equipo")
df3

Si quisieramos usar el método `join` debemos indexar el segundo `DataFrame` según su columna con la que evaluamos las coincidencias.

In [None]:
df2 = df2.set_index("Equipo")
df3 = df.join(df2, how="inner", on="Equipo")
df3

#### Uniones $n$ a 1 

Es equivalente a una unión uno a $n$, donde la columna seleccionada para las coincidencias de la primera base de datos puede tener valores repetidos y las coincidencias con la segunda base de datos se evalúan utilizando su llave.

#### Uniones $n$ a $n$ 

La unión $n$ a $n$ se hace entre dos bases de datos de acuerdo con las coincidencias entre una columna (o grupo de columnas) de la primera y una columna (o grupo de columnas) de la segunda. Se entiende como una unión $n$ a $n$, ya que para cada registro (repetido o no) de la primera base de datos pueden existir hasta $n$ coincidencias en la segunda. No es relevante que en una o en otra se evalúe la coincidencia de una llave.

Es importante mencionar que este tipo de unión es poco común y en ocasiones hasta desaconsejado por algunos programas especializados en manejo de datos (Stata, 2013).

##### Ejemplo 12

Consideramos los siguientes `DataFrame`.

In [None]:
df = pd.DataFrame(
    [["Juan", "Tennis"], ["Ignacio", "Tennis"], ["Andrea", "Baloncesto"]],
    columns=["Alex", "Deporte"],
)

df2 = pd.DataFrame(
    [
        ["Tennis", "Raquetas"],
        ["Tennis", "Pelotas"],
        ["Baloncesto", "Balón"],
        ["Baloncesto", "Red"],
        ["Natación", "Piscina"],
    ],
    columns=["Deporte", "Implemento"],
)

Debemos unir los `DataFrame` de la celda de código en una relación $n$ a $n$ entre las columnas `"Tutoriales"`. Además debemos emplear todas las coincidencias.

Debemos agregar a `df`las columnas de `df2` según coincidencia de índices $n$ a $n$, preservar todas las filas de `df` y todas las filas de `df2`.

Utilizamos el método `merge`: 

In [None]:
df3 = df.merge(df2, how="outer", on="Deporte")
df3

Declaramos `"Deporte"` como el índice para poder utilizar el método `join`.

In [None]:
df2 = df2.set_index("Deporte")
df3 = df.join(df2, how="outer", on="Deporte")
df3

### 4.3 Unir bases de datos por coincidencia de filas o columnas

#### Método `concat `

Agrega por coincidencia de filas o columnas (no ambas al tiempo) y permite flexibilidad para nombrar los índices y las columnas.

    concat(objs, axis = 0, join = 'outer', ignore_index = False, keys = None, sort = False)

* `objs`: en este caso no hay un `DataFrame` que llame al método. Para este argumento debe incluirse una lista con dos o más `DataFrame` para unir.<br><br>

* `axis`: es `0` por defecto.<br><br>

    * `axis = 0`: define la unión de los `DataFrame` por coincidencia de filas.
    * `axis = 1`: define la unión de los `DataFrame` por coincidencia de columnas.<br><br>

* `join`: es `"outer"` por defecto.<br><br>

    * `join = "inner"`: permite únicamente permite coincidencias mutuas.
    * `join = "outer"`: permite la totalidad de las filas de ambos.<br><br>

* `ignore_index`: es `False` por defecto.<br><br>

    * `ignore_index = True`: la base de datos resultante no tendrá en cuenta los índices de ninguno de los dos `DataFrame` y asignará un índice numérico.

    * `ignore_index = False`: el índice de la base de datos resultante conserva los índices de los dos `DataFrame` originales. <br><br>

* `keys`: con el objetivo de conservar las columnas o los índices de ambas bases de datos se le puede asignar una llave por cada `DataFrame`, de tal manera que se pueda construir un índice múltiple o columnas múltiple. Los índices y columnas pasan de ser sencillos a representarse con tuplas.<br><br>

* `sort`: es `False` por defecto.<br><br>

    * `sort = True`: asigna un orden lexicográfico a las filas o columnas del `DataFrame` resultante.

    * `sort = False`: preserva el orden en el que aparecen las filas o columnas de los `DataFrame` originales.

##### Ejemplo 13

Consideramos los siguientes `DataFrame`.

In [None]:
df = pd.DataFrame([[1, 2], [3, 4], [1, 3]], columns=["A", "B"])

df2 = pd.DataFrame([[3, 2, 4], [3, 4, 6], [1, 0, 1]], columns=["B", "C", "E"])

Debemos unir los `DataFrame` por coincidencia de columnas y crear un índice múltiple (de tipo tupla) para diferenciar la información proveniente de cada uno de ellos.

In [None]:
df3 = pd.concat([df, df2], keys=["d1", "d2"], sort=True)
df3

El índice del `DataFrame` está compuesto por tuplas, y no por valores sencillos como en los `DataFrame` vistos anteriormente.

In [None]:
df3.index

Ahora, uniremos los `DataFrame` por coincidencia de filas y crearemos un índice múltiple (de tipo tupla) para diferenciar la información proveniente de cada uno de ellos.

In [None]:
df4 = pd.concat([df, df2], axis=1, keys=["d1", "d2"], sort=True)
df4

Las columnas del `DataFrame` están compuestas por tuplas, y no por valores sencillos como en los `DataFrame` vistos anteriormente.

In [None]:
df4.columns

## Referencias

Bolsa de Valores de Colombia (2020). Índices de TES de Corto Plazo [Base deDatos]. Recuperado el 14 de diciembre de 2020 de :
https://www.bvc.com.co/pps/tibco/portalbvc

Python (2021). Documentación sobre `datetime`. Recuperado el 29 de diciembre de 2021 de: 
https://docs.python.org/es/3/library/datetime.html

Stata (2021). Documentación sobre Merge. Recuperado el 29 de diciembre de 2021 de: 
https://www.stata.com/manuals13/dmerge.pdf

J. VanderPlas (2016) Python Data Science Handbook: Essential Tools for Working with Data O'Reilly Media, Inc.