# Data Wrangling II

## Objetivos

1. Identificar las funciones de manipulación de datos de `pandas`.
2. Hacer un repaso de algunas de las más usadas.


# Explorar bases de datos

Explorar bases de datos es uno de los pasos esenciales en cualquier proyecto de analítica de datos, pues nos permite identificar aspectos útiles del caso de estudio.

## 1. Indexar un `DataFrame`

Entre los aspectos a detallar al explorar una base de datos, se encuentra la llave o el *ID* que distingue un registro de otro. Esta llave no siempre se conoce de antemano o, en ocasiones, deseamos modificarla.

Para distinguir una observación (o fila) de otra en un `DataFrame`, `pandas` define un objeto de tipo `Index` (o `MultiIndex`).

Al analizar datos generalmente requerimos que el índice de un `DataFrame` corresponda a una llave de la base de datos. Todo registro debe tener asignada una llave única, con el fin de distinguirlo de los demás registros. En ocasiones debemos usar más de una característica del registro para crear una llave, es decir, debemos definir un índice de múltiples niveles.

Importamos el paquete `pandas`.

In [65]:
import numpy as np
import pandas as pd

Veamos el siguiente ejemplo para considerar un caso en el que se necesite más de una columna para indexar un `DataFrame`: 

##### Ejemplo 1 

En la siguiente celda de código declaramos un `DataFrame` que contiene información de algunas personas.

In [66]:
nombres = pd.DataFrame(
    [
        ["Jorge", "Suárez", 28, "Bogotá"],
        ["Laura", "Poveda", 37, "Lima"],
        ["Pablo", "Stecco", 30, "Lima"],
        ["Jorge", "Poveda", 30, "Bogotá"],
    ],
    columns=["Nombre", "Apellido", "Edad", "Ciudad"],
)
nombres

Unnamed: 0,Nombre,Apellido,Edad,Ciudad
0,Jorge,Suárez,28,Bogotá
1,Laura,Poveda,37,Lima
2,Pablo,Stecco,30,Lima
3,Jorge,Poveda,30,Bogotá


Si bien es posible utilizar la columna `"nombre"` para indexar la base de datos, este índice no sería una llave, puesto que uno de los valores del índice (`"Jorge"`) corresponde a más de un registro:
* `["Jorge", "Suárez", 28, "Bogotá"]` y
* `["Jorge", "Poveda", 30, "Bogotá"]`.

In [67]:
nombres.index = nombres["Nombre"]
nombres.loc["Jorge"]

Unnamed: 0_level_0,Nombre,Apellido,Edad,Ciudad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jorge,Jorge,Suárez,28,Bogotá
Jorge,Jorge,Poveda,30,Bogotá


Dado que queremos utilizar el nombre para construir la llave de nuestra base de datos, podemos agregar a cada valor del índice el apellido del registro y así evitar valores duplicados.

In [68]:
nombres_indice = pd.Index(data=nombres[["Nombre", "Apellido"]])
nombres.index = nombres_indice

nombres

Unnamed: 0,Nombre,Apellido,Edad,Ciudad
"(Jorge, Suárez)",Jorge,Suárez,28,Bogotá
"(Laura, Poveda)",Laura,Poveda,37,Lima
"(Pablo, Stecco)",Pablo,Stecco,30,Lima
"(Jorge, Poveda)",Jorge,Poveda,30,Bogotá


Con la modificación anterior podemos referirnos a la información de `"Jorge Suárez"` o de `"Jorge Poveda"`.

In [69]:
nombres.loc[[("Jorge", "Poveda")]]

Unnamed: 0,Nombre,Apellido,Edad,Ciudad
"(Jorge, Poveda)",Jorge,Poveda,30,Bogotá


### 1.1. Objeto de tipo `MultiIndex`

La clase `MultiIndex` permite crear un índice múltiple para los registros de un `DataFrame` o un `Series`. Podemos declarar objetos de tipo `MultiIndex` a partir de métodos que reciben diferentes tipos de objeto por parámetro.


|Métodos|<center>Descripción</center>|
|:-:|:-|
|`from_arrays`| A partir de un arreglo de arreglos|
|`from_product`| A partir del producto cartesiano de estructuras de datos|
|`from_tuples`| A partir de una lista de tuplas|
|`from_frame`| A partir de la lista actual con otra lista|

##### Ejemplo 2

Creamos un `MultiIndex` a partir de las columnas `"nombre"` y `"apellido"`y lo utilizamos para indexar el `DataFrame` contenido en la variable `nombres`.

Usamos el método `from_arrays`.

In [70]:
nombres_indice = pd.MultiIndex.from_arrays([nombres["Nombre"], nombres["Apellido"]])
nombres_indice

MultiIndex([('Jorge', 'Suárez'),
            ('Laura', 'Poveda'),
            ('Pablo', 'Stecco'),
            ('Jorge', 'Poveda')],
           names=['Nombre', 'Apellido'])

Después usamos el método `reindex` para asignar el nuevo `MultiIndex`. 

In [71]:
nombres.reindex(nombres_indice)

Unnamed: 0_level_0,Unnamed: 1_level_0,Nombre,Apellido,Edad,Ciudad
Nombre,Apellido,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Jorge,Suárez,Jorge,Suárez,28,Bogotá
Laura,Poveda,Laura,Poveda,37,Lima
Pablo,Stecco,Pablo,Stecco,30,Lima
Jorge,Poveda,Jorge,Poveda,30,Bogotá


También podemos nombrar columnas que tengan múltiples niveles a partir de un objeto `MultiIndex`.

##### Ejemplo 3

A continuación importamos una base de datos llamada `"Bid-Cornell.csv"` que reúne información sobre un grupo de ciudadanos y los medios de comunicación que utilizan para informarse sobre noticias generales o noticias acerca del COVID-19.

In [72]:
df_covid_19 = pd.read_csv("BID-Cornell.csv", index_col=0)
df_covid_19

Unnamed: 0_level_0,medios_noti_redessociales,medios_noti_chat,medios_noti_periodicos,medios_noti_tv,medios_noti_radio,medios_covid_redessociales,medios_covid_chat,medios_covid_periodicos,medios_covid_tv,medios_covid_radio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1000060.0,Siempre,Siempre,Casi siempre,A veces,Nunca,Siempre,Siempre,Siempre,A veces,Nunca
1000734.0,Casi siempre,A veces,A veces,Casi siempre,Casi siempre,Casi siempre,Casi siempre,A veces,Casi siempre,Casi siempre
1000120.0,Nunca,A veces,A veces,Siempre,Siempre,Nunca,A veces,A veces,Siempre,Siempre
1000235.0,Siempre,Siempre,A veces,A veces,A veces,Siempre,Siempre,Nunca,A veces,Nunca
1000828.0,Casi siempre,A veces,A veces,A veces,A veces,Casi siempre,Casi siempre,A veces,A veces,Nunca
...,...,...,...,...,...,...,...,...,...,...
17001614.0,A veces,A veces,Casi siempre,Siempre,Casi siempre,Nunca,A veces,Casi siempre,Siempre,Casi siempre
17017448.0,Siempre,Siempre,A veces,A veces,Nunca,Siempre,Siempre,A veces,A veces,Nunca
17013032.0,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Casi siempre,Siempre,Siempre,Siempre
17014760.0,Siempre,Siempre,Siempre,Casi siempre,Casi siempre,Siempre,Siempre,Siempre,Casi siempre,Casi siempre


Los nombres de las columnas de `df_covid_19` están estructurados de la siguiente manera:

0. Prefijo:

    * Medios de comunicación (`"medios"`).


1. Contexto de la información: 

    * Noticias generales (`"noti"`).
    * Noticias sobre el COVID-19 (`"covid"`).
    
    
2. Medio de comunicación empleado:

    * Redes Sociales (`"redessociales"`).
    * Chat (`"chat"`).
    * Periodicos (`"periodicos"`).
    * TV (`"tv"`).
    * Radio (`"radio"`).

Por ejemplo, `"medios_noti_redessociales"` representa que el medio de comunicación utilizado para informarse acerca de noticias generales es las redes sociales.

Podemos utilizar un objeto `MultiIndex` para nombrar las columnas con un mejor orden, coherente con la estructura descrita. Seccionamos el nombre de cada columna donde coincidan guiones bajos (`"_"`) empleando métodos de `pandas` para columnas con datos de tipo `str`.

In [73]:
df_covid_19.columns = df_covid_19.columns.str[7:]
indice_multiple_columnas = df_covid_19.columns.str.split("_", expand=True)
indice_multiple_columnas

MultiIndex([( 'noti', 'redessociales'),
            ( 'noti',          'chat'),
            ( 'noti',    'periodicos'),
            ( 'noti',            'tv'),
            ( 'noti',         'radio'),
            ('covid', 'redessociales'),
            ('covid',          'chat'),
            ('covid',    'periodicos'),
            ('covid',            'tv'),
            ('covid',         'radio')],
           )

In [74]:
df_covid_19.columns = indice_multiple_columnas
df_covid_19

Unnamed: 0_level_0,noti,noti,noti,noti,noti,covid,covid,covid,covid,covid
Unnamed: 0_level_1,redessociales,chat,periodicos,tv,radio,redessociales,chat,periodicos,tv,radio
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1000060.0,Siempre,Siempre,Casi siempre,A veces,Nunca,Siempre,Siempre,Siempre,A veces,Nunca
1000734.0,Casi siempre,A veces,A veces,Casi siempre,Casi siempre,Casi siempre,Casi siempre,A veces,Casi siempre,Casi siempre
1000120.0,Nunca,A veces,A veces,Siempre,Siempre,Nunca,A veces,A veces,Siempre,Siempre
1000235.0,Siempre,Siempre,A veces,A veces,A veces,Siempre,Siempre,Nunca,A veces,Nunca
1000828.0,Casi siempre,A veces,A veces,A veces,A veces,Casi siempre,Casi siempre,A veces,A veces,Nunca
...,...,...,...,...,...,...,...,...,...,...
17001614.0,A veces,A veces,Casi siempre,Siempre,Casi siempre,Nunca,A veces,Casi siempre,Siempre,Casi siempre
17017448.0,Siempre,Siempre,A veces,A veces,Nunca,Siempre,Siempre,A veces,A veces,Nunca
17013032.0,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Casi siempre,Siempre,Siempre,Siempre
17014760.0,Siempre,Siempre,Siempre,Casi siempre,Casi siempre,Siempre,Siempre,Siempre,Casi siempre,Casi siempre


De esta manera, si queremos tener acceso a la información sobre el uso de las redes sociales como medio de comunicación para informarse sobre el COVID-19, podemos usar el método `loc`.

In [75]:
df_covid_19.loc[:, ("covid", "redessociales")]

id
1000060.0          Siempre
1000734.0     Casi siempre
1000120.0            Nunca
1000235.0          Siempre
1000828.0     Casi siempre
                  ...     
17001614.0           Nunca
17017448.0         Siempre
17013032.0         Siempre
17014760.0         Siempre
17003990.0    Casi siempre
Name: (covid, redessociales), Length: 216092, dtype: object

## 2. Filtrar bases de datos utilizando la librería `pandas`

### 2.1. Filtrado de posiciones no consecutivas

Si las posiciones que queremos seleccionar no son consecutivas, debemos representarlas en una lista. A continuación, vemos un ejemplo de esto.

##### Ejemplo 5

Se nos solicita mostrar un `DataFrame` que contenga únicamente las 10 primeras y las 10 últimas observaciones del `DataFrame` `df_covid_19`.

In [76]:
posiciones_filas = list(range(10)) + list(range(-10, 0))
df_10_y_10 = df_covid_19.iloc[posiciones_filas, :]
df_10_y_10

Unnamed: 0_level_0,noti,noti,noti,noti,noti,covid,covid,covid,covid,covid
Unnamed: 0_level_1,redessociales,chat,periodicos,tv,radio,redessociales,chat,periodicos,tv,radio
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1000060.0,Siempre,Siempre,Casi siempre,A veces,Nunca,Siempre,Siempre,Siempre,A veces,Nunca
1000734.0,Casi siempre,A veces,A veces,Casi siempre,Casi siempre,Casi siempre,Casi siempre,A veces,Casi siempre,Casi siempre
1000120.0,Nunca,A veces,A veces,Siempre,Siempre,Nunca,A veces,A veces,Siempre,Siempre
1000235.0,Siempre,Siempre,A veces,A veces,A veces,Siempre,Siempre,Nunca,A veces,Nunca
1000828.0,Casi siempre,A veces,A veces,A veces,A veces,Casi siempre,Casi siempre,A veces,A veces,Nunca
1000352.0,A veces,A veces,Siempre,Casi siempre,Casi siempre,A veces,A veces,Siempre,Siempre,Siempre
1000746.0,Casi siempre,Casi siempre,Casi siempre,Casi siempre,Nunca,Casi siempre,Casi siempre,Casi siempre,Casi siempre,Nunca
1000079.0,Siempre,Siempre,Siempre,Nunca,A veces,Siempre,Siempre,Siempre,Nunca,A veces
1000110.0,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre
1000221.0,Casi siempre,A veces,Siempre,Siempre,Nunca,Casi siempre,A veces,Siempre,Siempre,Nunca


##### Ejemplo 6

Se nos solicita mostrar un `DataFrame` que contenga únicamente las 3 primeras columnas y de la columna 6 en adelante del `DataFrame` `df_covid_19`.

In [77]:
posiciones_columnas = list(range(3)) + list(range(5, len(df_covid_19.columns)))
df_3_y_6_en_adelante = df_covid_19.iloc[:, posiciones_columnas]
df_3_y_6_en_adelante

Unnamed: 0_level_0,noti,noti,noti,covid,covid,covid,covid,covid
Unnamed: 0_level_1,redessociales,chat,periodicos,redessociales,chat,periodicos,tv,radio
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1000060.0,Siempre,Siempre,Casi siempre,Siempre,Siempre,Siempre,A veces,Nunca
1000734.0,Casi siempre,A veces,A veces,Casi siempre,Casi siempre,A veces,Casi siempre,Casi siempre
1000120.0,Nunca,A veces,A veces,Nunca,A veces,A veces,Siempre,Siempre
1000235.0,Siempre,Siempre,A veces,Siempre,Siempre,Nunca,A veces,Nunca
1000828.0,Casi siempre,A veces,A veces,Casi siempre,Casi siempre,A veces,A veces,Nunca
...,...,...,...,...,...,...,...,...
17001614.0,A veces,A veces,Casi siempre,Nunca,A veces,Casi siempre,Siempre,Casi siempre
17017448.0,Siempre,Siempre,A veces,Siempre,Siempre,A veces,A veces,Nunca
17013032.0,Siempre,Siempre,Siempre,Siempre,Casi siempre,Siempre,Siempre,Siempre
17014760.0,Siempre,Siempre,Siempre,Siempre,Siempre,Siempre,Casi siempre,Casi siempre


### 2.2. Filtrado por niveles 

El objeto `IndexSlice` nos permite indicar, para cada nivel de un objeto `MultiIndex`, qué elementos queremos incluir.

##### Ejemplo 7

A partir de la base de datos del BID, nos solicitan seleccionar las columnas que tengan información de noticias generales (`"noti"`) sobre el uso del `"chat"` o `"tv"`:

In [78]:
df_covid_19.loc[:, pd.IndexSlice["noti", ("chat", "tv")]]

Unnamed: 0_level_0,noti,noti
Unnamed: 0_level_1,chat,tv
id,Unnamed: 1_level_2,Unnamed: 2_level_2
1000060.0,Siempre,A veces
1000734.0,A veces,Casi siempre
1000120.0,A veces,Siempre
1000235.0,Siempre,A veces
1000828.0,A veces,A veces
...,...,...
17001614.0,A veces,Siempre
17017448.0,Siempre,A veces
17013032.0,Siempre,Siempre
17014760.0,Siempre,Casi siempre


### 2.3. Filtrado condicional

El filtrado condicional nos permite indicarle a un `DataFrame`, mediante un arreglo de objetos tipo `bool`, cuales elementos incluir. Podemos declarar un arreglo de objetos tipo `bool` aplicando, término a término, los operadores relacionales (`==`, `!=`, `>`, `<`, `>=`, `<=`) o lógicos (`&`, `|`, `~`) que ya conoces.

A continuación, encuentras un ejemplo utilizando un operador relacional:

```python
np.array([2, 2, 3, 4]) >= 3

>>> array([False, False, True, True])
```

A continuación, encuentras un ejemplo utilizando un operador lógico:

```python
np.array([True, False, False, True]) | np.array([False, True, False, True])

>>> array([ True,  True, False,  True])
```

Veamos un ejemplo de cómo aplicar filtrado condicional a las filas de un `DataFrame`.

##### Ejemplo 8

Seleccionemos los registros correspondientes a personas menores de 35 años, oriundas de `"Lima"`.

In [79]:
nombres[(nombres["Edad"] <= 35) & (nombres["Ciudad"] == "Lima")]

Unnamed: 0,Nombre,Apellido,Edad,Ciudad
"(Pablo, Stecco)",Pablo,Stecco,30,Lima


Veamos un ejemplo de cómo aplicar filtrado condicional a las columnas de un `DataFrame`.

##### Ejemplo 9

Seleccionemos los registros correspondientes a personas menores de 35 años, oriundas de `"Lima"`, exluyendo las columnas cuyo nombre tenga menos de 6 caracteres.

Para esto, utilizamos el atributo `loc`.

In [80]:
nombres.loc[
    (nombres["Edad"] <= 35) & (nombres["Ciudad"] == "Lima"),
    nombres.columns.str.len() > 5,
]

Unnamed: 0,Nombre,Apellido,Ciudad
"(Pablo, Stecco)",Pablo,Stecco,Lima


# Modificar bases de datos  

Al finalizar la exploración de una base de datos procedemos a modificarla. En esta sección expandimos la explicación de los métodos de la librería `pandas` vistos anteriormente y presentamos métodos adicionales para integrarlos en procesos de modificación de bases de datos. 

La librería `pandas` nos permite importar archivos en múltiples formatos para procesarlos como un `DataFrame`. Entre estos formatos, se encuentran los archivos de tipo texto, de tipo binario y de tipo SQL. En las referencias encuentras la lista completa de métodos de lectura y escritura según el tipo de archivo. A manera de ejemplo expondremos el método `read_fwf` el cuál permite procesar archivos de ancho fijo. 

    pd.read_fwf(filepath_or_buffer, colspecs, **kwds)

* **filepath_or_buffer:** ruta del archivo de texto a procesar.  

* **colspecs:** lista de tuplas que identifica la posición donde empieza y termina cada columna. Especificando `colspecs = 'infer'` el método infiere las columnas del archivo. 

* ** **kwds:** indica que podemos especificar los parámetros disponibles en el método `read_csv`. 

El archivo `"mfh.txt"` (*Major foreign holders*) el cual contiene la distribución del monto de títulos del tesoro americano de los Estados Unidos que se encuentra en cuentas afuera de su país. Dado que este es un archivo de ancho fijo, utilizaremos parte del código que aprendimos anteriormente para obtener las posiciones de inicio y de fin de las columnas que conforman el archivo.

In [81]:
with open("mfh.txt", "r") as mfh:
    # Leemos el archivo y lo almacenamos en una sola cadena de caracteres
    mfh = mfh.read()
    # Seleccionamos la cadena de caracteres que se encuentra entre la palabra 'Period' y la palabra 'Grand'
    mfh = mfh.split("PERIOD")[1].split("Grand")[0]
    # Declaramos una lista con las líneas de nuestra cadena de caracteres
    lista_mfh = mfh.splitlines()
    # Nos quedamos únicamente con las líneas no vacías
    lista_mfh = [x for x in lista_mfh if x]

# Lista vacía para almacenar las posiciones de inicio de cada columna de números.
lista_inicio_cols = []
# Lista vacía para almacenar la última posición de cada columna de números.
lista_fin_cols = []
# Cadena de caracteres que almacena la fila de guíones contenida en el archivo.
fila_guiones = lista_mfh[2]
# Variable de tipo entero para marcar el inicio de la busqueda a partir de cada columna.
inicio_columna = 0
# Variable de tipo lógica para indicar si ya llegamos al final de la lista.
criterio_parada = True

while criterio_parada:
    # Declaramos el inicio de una nueva columna encontrando la palabra guión.
    pos_inicio = inicio_columna + fila_guiones[inicio_columna:].find("-")
    # Declaramos el ancho de la columna encontrando el siguiente espacio vacío.
    ancho_columna = fila_guiones[pos_inicio:].find(" ")
    # Si encuentra dicho espacio
    if ancho_columna != -1:
        # Almacenamos la posición de inicio de la columna.
        lista_inicio_cols.append(pos_inicio)
        # Declaramos la posición final de la columna.
        pos_final = pos_inicio + ancho_columna
        # Almacenamos la posición final de la columna.
        lista_fin_cols.append(pos_final)
        # Actualizamos el inicio de la columna para la siguiente iteración.
        inicio_columna = pos_final
    # Si no se pudo encontrar mas espacios no se se sigue iterando ya que no hay mas columnas.
    else:
        criterio_parada = False

ancho_cols = [(0, lista_inicio_cols[0])] + list(zip(lista_inicio_cols, lista_fin_cols))
ancho_cols

[(0, 32),
 (32, 38),
 (40, 46),
 (48, 54),
 (56, 62),
 (64, 70),
 (72, 78),
 (80, 86),
 (88, 94),
 (96, 102),
 (104, 110),
 (112, 118),
 (120, 126)]

In [82]:
mfh = pd.read_fwf(
    "mfh.txt",
    skiprows=range(8),
    skipfooter=21,
    colspecs=ancho_cols,
    index_col=[0],
    header=[0, 1],
)
# Eliminamos las dos primeras entradas ya que no contienen información relevante.
mfh = mfh[1:-2]
mfh

Unnamed: 0_level_0,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Country,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Japan,1276.2,1278.4,1293.0,1261.5,1260.4,1266.5,1272.6,1268.6,1211.8,1155.2,1160.6,1168.5
"China, Mainland",1061.7,1068.0,1073.4,1074.4,1083.7,1072.8,1081.6,1092.3,1078.6,1069.9,1089.1,1101.5
United Kingdom,428.9,419.9,424.7,445.6,445.8,429.2,469.7,477.1,450.3,392.1,400.5,412.7
Ireland,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4
Brazil,265.1,265.0,265.7,264.1,264.4,259.5,264.4,285.9,283.3,281.8,293.3,298.5
Luxembourg,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0
Switzerland,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2
Hong Kong,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6
Cayman Islands,231.6,228.9,222.3,224.0,216.7,213.0,209.4,228.2,225.1,238.2,234.2,236.8
Belgium,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6


Al observar el `DataFrame` de la celda anterior nos damos cuenta que sería deseable rotular correctamente los niveles de las columnas y el índice, para esto podemos usar el método `rename_axis`: 

In [83]:
mfh = mfh.rename_axis("Pais")
mfh = mfh.rename_axis(["Mes", "Año"], axis=1)
mfh

Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Japan,1276.2,1278.4,1293.0,1261.5,1260.4,1266.5,1272.6,1268.6,1211.8,1155.2,1160.6,1168.5
"China, Mainland",1061.7,1068.0,1073.4,1074.4,1083.7,1072.8,1081.6,1092.3,1078.6,1069.9,1089.1,1101.5
United Kingdom,428.9,419.9,424.7,445.6,445.8,429.2,469.7,477.1,450.3,392.1,400.5,412.7
Ireland,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4
Brazil,265.1,265.0,265.7,264.1,264.4,259.5,264.4,285.9,283.3,281.8,293.3,298.5
Luxembourg,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0
Switzerland,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2
Hong Kong,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6
Cayman Islands,231.6,228.9,222.3,224.0,216.7,213.0,209.4,228.2,225.1,238.2,234.2,236.8
Belgium,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6


## 3. Métodos para la modificación de bases de datos  

### 3.1. Método `set_index` 

Permite utilizar una o varias columnas para sustituir o modificar el índice de un `DataFrame`. Además de columnas podemos utilizar arreglos de `pandas` (`Series` e `Index`) o de arreglos de `numpy`. 

    pandas.DataFrame.set_index(keys, drop, append, inplace, verify_integrity)

* **keys:** indica la(s) llave(s) a usar como nuevo índice.

* **drop:** elimina del `DataFrame` las columnas que se emplearon como llaves en el método. Por defecto es `True`.

* **append:** preseva el índice original de la base de datos y le agrega la llave ingresada por parámetro. Por defecto es `False`.


* **inplace:** por defecto es `False`. <br><br>
    * `inplace = True`: retorna `None` y  ejecuta las operaciones sobre el dataframe oríginal. <br>
    * `inplace = False`: retorna una copia del `DataFrame` con las modificaciones. <br><br>
    
* **verify_integrity:** solo aplica si ignore_index = False. Por defecto, `verify_integrity = False`.<br><br>
    * `verify_integrity = True`: arroja ValueError si en el DataFrame resultante hay indices duplicados.<br>
    * `verify_integrity = False`: permite tener índices repetidos en el DataFrame resultante.<br><br>

**Nota:** si utilizamos un arreglo externo al dataframe, debemos asegurarnos que tenga el mismo tamaño que el que tiene actualmente el `DataFrame`.

##### Ejemplo 10

Requerimos analizar como se distribuye la tenencia de los títulos del tesoros entre dos grupos de países: los países miembros de la OECD y los países llamados paraísos fiscales. Ambos grupos no son mutuamente excluyentes por lo que pueden haber coincidencias entre ambos. A continuación, se encuentra declarada una lista para cada grupo de países.

In [84]:
lista_paraisos_fiscales = [
    "Belgium",
    "Ireland",
    "Luxembourg",
    "Malta",
    "Netherlands",
    "Cayman Island",
    "Singapore",
    "Puerto Rico",
    "Hong Kong",
    "Switzerland",
]

lista_oecd = [
    "Austria",
    "Australia",
    "Belgium",
    "Canada",
    "Chile",
    "Colombia",
    "Czech Republic",
    "Denmark",
    "Estonia",
    "Finland",
    "France",
    "Germany",
    "Greece",
    "Hungary",
    "Iceland",
    "Ireland",
    "Israel",
    "Italy",
    "Japan",
    "Korea",
    "Latvia",
    "Lithuania",
    "Luxembourg",
    "Mexico",
    "Netherlands",
    "New Zealand",
    "Norway",
    "Poland",
    "Portugal",
    "Slovak Republic",
    "Slovenia",
    "Spain",
    "Sweden",
    "Switzerland",
    "Turkey",
    "United Kingdom",
    "United States",
]

Creamos las columnas correspondientes para posteriormente añadirlas al índice.

In [85]:
mfh.loc[mfh.index.isin(lista_oecd), "OECD"] = "Pertenece"
mfh

Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct,OECD
Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019,Unnamed: 13_level_1
Pais,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Japan,1276.2,1278.4,1293.0,1261.5,1260.4,1266.5,1272.6,1268.6,1211.8,1155.2,1160.6,1168.5,Pertenece
"China, Mainland",1061.7,1068.0,1073.4,1074.4,1083.7,1072.8,1081.6,1092.3,1078.6,1069.9,1089.1,1101.5,
United Kingdom,428.9,419.9,424.7,445.6,445.8,429.2,469.7,477.1,450.3,392.1,400.5,412.7,Pertenece
Ireland,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4,Pertenece
Brazil,265.1,265.0,265.7,264.1,264.4,259.5,264.4,285.9,283.3,281.8,293.3,298.5,
Luxembourg,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0,Pertenece
Switzerland,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2,Pertenece
Hong Kong,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6,
Cayman Islands,231.6,228.9,222.3,224.0,216.7,213.0,209.4,228.2,225.1,238.2,234.2,236.8,
Belgium,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6,Pertenece


In [86]:
# Creamos las columnas "Clasificación Fiscal" y "OECD"
mfh.loc[:, "Clasificación_Fiscal"] = "Tributación Regular"
mfh.loc[:, "OECD"] = "No pertenece"
# Definimos cuales países son considerado paraisos fiscales y cuáles son miembros de la OECD
mfh.loc[
    mfh.index.isin(lista_paraisos_fiscales), "Clasificación_Fiscal"
] = "Paraiso Fiscal"
mfh.loc[mfh.index.isin(lista_oecd), "OECD"] = "Pertenece"
# Utilizamos set_index para añadir estas columnas al índice
mfh.set_index(keys=["Clasificación_Fiscal", "OECD"], append=True, inplace=True)
mfh

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Japan,Tributación Regular,Pertenece,1276.2,1278.4,1293.0,1261.5,1260.4,1266.5,1272.6,1268.6,1211.8,1155.2,1160.6,1168.5
"China, Mainland",Tributación Regular,No pertenece,1061.7,1068.0,1073.4,1074.4,1083.7,1072.8,1081.6,1092.3,1078.6,1069.9,1089.1,1101.5
United Kingdom,Tributación Regular,Pertenece,428.9,419.9,424.7,445.6,445.8,429.2,469.7,477.1,450.3,392.1,400.5,412.7
Ireland,Paraiso Fiscal,Pertenece,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4
Brazil,Tributación Regular,No pertenece,265.1,265.0,265.7,264.1,264.4,259.5,264.4,285.9,283.3,281.8,293.3,298.5
Luxembourg,Paraiso Fiscal,Pertenece,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0
Switzerland,Paraiso Fiscal,Pertenece,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2
Hong Kong,Paraiso Fiscal,No pertenece,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6
Cayman Islands,Tributación Regular,No pertenece,231.6,228.9,222.3,224.0,216.7,213.0,209.4,228.2,225.1,238.2,234.2,236.8
Belgium,Paraiso Fiscal,Pertenece,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6


### 3.2. Método `reset_index`

Resetea el índice de un `DataFrame`. Si se trata de un multi-índice permite eliminar uno o más niveles, dejando la opción de preservarlos como columnas.

    pandas.DataFrame.reset_index(level, drop)

* **level:** etiqueta o índice del multi-índice a eliminar. <br><br>

* **drop:** por defecto es `False` <br><br>
`Drop = True`: se eliminan los niveles. <br><br>
`Drop = False`: los niveles pasan a ser una columna. 

### 2.3. Método `drop`

Permite eliminar filas o columnas especificando su nombre o su índice. 

    pandas.DataFrame.drop(labels, axis, index, columns, level, inplace, errors)

* **labels:** indica el nombre o la posición de las filas o columnas a eliminar.

* **axis:** por defecto es 0. <br><br>
    * `axis = 1`: indica que vamos a eliminar columnas. <br>
    * `axis = 0`: indica que vamos a eliminar filas.<br><br>


* **index:** se utiliza únicamente para eliminar filas, especificando el nombre o el índice de las filas a eliminar. Cuando utilizamos este parámetro no es necesario utilizar los parámetros `labels` y `axis`.

* **columns:** se utiliza únicamente para eliminar columnas, especificando el nombre o el índice de las columnas a eliminar. Cuando utilizamos este parámetro no es necesario utilizar los parámetros `labels` y `axis`.

* **level:** indica por nombre o por posición a cuál de los niveles del índice múltiple se le aplicará el método.


* **inplace:** por defecto es `False`. <br><br>
    * `inplace = True`: retorna `None` y  ejecuta las operaciones sobre el dataframe oríginal. <br>
    * `inplace = False`: retorna una copia del `DataFrame` con las modificaciones. <br><br>

##### Ejemplo 11

Requerimos eliminar las observaciones del `DataFrame` `mfh` correspondientes al año 2020, y almacenar el `DataFrame` resultante en un `DataFrame` llamado `mfh_2021`.

Procedemos entonces utilizando el método `drop`.

In [87]:
mfh_2021 = mfh.drop(labels="2020", axis=1, level=1)
mfh_2021

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Japan,Tributación Regular,Pertenece,1155.2,1160.6,1168.5
"China, Mainland",Tributación Regular,No pertenece,1069.9,1089.1,1101.5
United Kingdom,Tributación Regular,Pertenece,392.1,400.5,412.7
Ireland,Paraiso Fiscal,Pertenece,281.9,289.7,285.4
Brazil,Tributación Regular,No pertenece,281.8,293.3,298.5
Luxembourg,Paraiso Fiscal,Pertenece,254.6,261.9,263.0
Switzerland,Paraiso Fiscal,Pertenece,237.5,233.4,233.2
Hong Kong,Paraiso Fiscal,No pertenece,249.7,249.7,243.6
Cayman Islands,Tributación Regular,No pertenece,238.2,234.2,236.8
Belgium,Paraiso Fiscal,Pertenece,207.4,202.4,205.6


### 2.4. Método `Groupby`

El método groupby permite realizar las siguientes tres operaciones a la vez: 
* (1) Separar en grupos el `DataFrame` de acuerdo a un criterio.
* (2) Aplicar una función a cada grupo. 
* (3) Combinar los resultados en un nuevo `DataFrame`.

La sintaxis para usar groupby es la siguiente:

    pandas.DataFrame.groupby(by, axis, level)

* **by:** indica el criterio para realizar el paso (1). Puede usarse un diccionario, un `Series`, entre otros.

* **axis:** por defecto es 0. <br><br>
    * `axis = 1`: indica que vamos a agrupar columnas. <br>
    * `axis = 0`: indica que vamos a agrupar filas.<br><br>

* **level:** indica por nombre o por posición a cuál de los niveles del índice múltiple se le aplicará el método.

##### Ejemplo 12

Requerimos un `DataFrame` llamado `mfh_resumen` que sume el total de títulos del tesoro para los niveles del índice múltiple. 

Transformamos los valores de nuestro `DataFrame` a `float` y después aplicamos el método `groupby`.

In [88]:
mfh = mfh.astype(float)
mfh_resumen = mfh.groupby(level=["Clasificación_Fiscal", "OECD"]).sum()
mfh_resumen

Unnamed: 0_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Clasificación_Fiscal,OECD,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Paraiso Fiscal,No pertenece,404.5,411.2,425.7,416.9,411.1,405.5,407.5,433.8,413.7,397.6,400.3,382.4
Paraiso Fiscal,Pertenece,1120.9,1140.7,1129.3,1133.4,1110.0,1084.5,1037.5,1076.2,1039.2,1046.5,1049.6,1048.9
Tributación Regular,No pertenece,2430.2,2417.7,2395.9,2372.5,2351.6,2318.8,2363.9,2481.1,2446.6,2435.9,2453.7,2474.9
Tributación Regular,Pertenece,2564.4,2561.6,2579.7,2572.2,2553.6,2550.4,2607.9,2660.5,2564.2,2422.0,2449.8,2488.3


### 3.5. Método `apply`

El método `apply` lleva a cabo una función bien sea sobre las columnas o sobre las filas de un `DataFrame`. 

    pandas.DataFrame.apply(func, axis)

* **func:** función a aplicar. <br><br>

* **axis:**  por defecto es 0. <br><br>

    * `axis = 1`: indica que vamos a aplicar la función sobre las columnas. <br>
    * `axis = 0`: indica que vamos a aplicar la función sobre las filas.<br><br>

A continuación explicaremos tres ventajas que presenta el método `apply`: 

#### Trabajar con funciones declaradas previamente 

El parámetro `func` puede tomar el valor de una función declarada previamente.

##### Ejemplo 13

Requerimos calcular el porcentaje de títulos distribuido en las cuentas de los países clasificados como paraíso fiscal y guardar este resultado en un `DataFrame` llamado `mfh_paraisos_fiscales`. 

Para esto declaramos la función `calcular_porcentaje`.

In [89]:
def calcular_porcentaje(lista):
    rta = lista / sum(lista)

    return rta

In [90]:
idx = pd.IndexSlice
mfh_paraisos_fiscales = mfh.loc[
    idx[
        :,
        "Paraiso Fiscal",
    ],
]
mfh_paraisos_fiscales

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Ireland,Paraiso Fiscal,Pertenece,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4
Luxembourg,Paraiso Fiscal,Pertenece,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0
Switzerland,Paraiso Fiscal,Pertenece,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2
Hong Kong,Paraiso Fiscal,No pertenece,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6
Belgium,Paraiso Fiscal,Pertenece,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6
Singapore,Paraiso Fiscal,No pertenece,159.0,160.3,158.6,150.5,142.1,146.1,151.5,165.4,160.7,147.9,150.6,138.8
Netherlands,Paraiso Fiscal,Pertenece,69.2,68.5,71.2,69.4,67.9,66.2,69.1,70.9,67.7,65.1,62.2,61.7


Después la usamos como parámetro del método `apply`.

In [91]:
# Declaramos el Segmentador de Índices
idx = pd.IndexSlice
mfh_paraisos_fiscales = mfh.loc[
    idx[
        :,
        "Paraiso Fiscal",
    ],
]
mfh_paraisos_fiscales = mfh_paraisos_fiscales.apply(calcular_porcentaje)
mfh_paraisos_fiscales

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Ireland,Paraiso Fiscal,Pertenece,0.207028,0.216058,0.212733,0.213056,0.213135,0.202215,0.187958,0.187285,0.187005,0.195208,0.199807,0.199399
Luxembourg,Paraiso Fiscal,Pertenece,0.172086,0.173207,0.170225,0.172612,0.172704,0.178188,0.170311,0.172715,0.175649,0.176304,0.180633,0.183749
Switzerland,Paraiso Fiscal,Pertenece,0.167366,0.16309,0.161222,0.159582,0.159819,0.161946,0.169273,0.161391,0.163879,0.164462,0.160977,0.162929
Hong Kong,Paraiso Fiscal,No pertenece,0.160941,0.161673,0.171768,0.171838,0.176846,0.174094,0.177163,0.177748,0.174134,0.17291,0.172219,0.170195
Belgium,Paraiso Fiscal,Pertenece,0.142979,0.13854,0.13627,0.141069,0.139439,0.141074,0.14263,0.144371,0.14213,0.143619,0.139596,0.143646
Singapore,Paraiso Fiscal,No pertenece,0.104235,0.103293,0.101994,0.097078,0.093419,0.098054,0.104844,0.109536,0.110606,0.102417,0.103869,0.096975
Netherlands,Paraiso Fiscal,Pertenece,0.045365,0.044139,0.045788,0.044766,0.044639,0.04443,0.04782,0.046954,0.046596,0.04508,0.0429,0.043108


#### Encadenar métodos 

En `pandas` podemos encadenar métodos, esto significa que se puede invocar un método tras otro sin redefinir el `DataFrame` repetidamente. El método `apply` puede encadenarse con otros métodos, lo que resulta práctico en términos de ahorro de líneas de código y claridad de lectura. 

##### Ejemplo 14

Filtra la base para solo trabajar con aquellos países que son parte de la OECD, de tal forma que pueda calcular el porcentaje de títulos bajo posesión de cada país.

Hacemos entonces el filtrado y directamente realizamos el `apply`.

In [92]:
mfh_oecd = mfh.loc[idx[:, :, "Pertenece"],].apply(calcular_porcentaje, axis=0)
mfh_oecd

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Japan,Tributación Regular,Pertenece,0.346295,0.345299,0.348611,0.340431,0.344033,0.348428,0.349097,0.339497,0.336294,0.333055,0.331657,0.330346
United Kingdom,Tributación Regular,Pertenece,0.116381,0.113416,0.114505,0.12025,0.121684,0.118078,0.128847,0.12768,0.124965,0.113046,0.114448,0.116674
Ireland,Paraiso Fiscal,Pertenece,0.085692,0.090565,0.089188,0.089135,0.088492,0.082891,0.074505,0.075682,0.075401,0.081274,0.082786,0.080685
Luxembourg,Paraiso Fiscal,Pertenece,0.071229,0.072604,0.071367,0.072215,0.071705,0.073042,0.06751,0.069794,0.070822,0.073403,0.074841,0.074353
Switzerland,Paraiso Fiscal,Pertenece,0.069275,0.068363,0.067592,0.066764,0.066355,0.066384,0.067098,0.065218,0.066076,0.068473,0.066697,0.065928
Belgium,Paraiso Fiscal,Pertenece,0.059181,0.058072,0.057131,0.059019,0.057894,0.057828,0.056537,0.05834,0.057307,0.059795,0.057838,0.058125
France,Tributación Regular,Pertenece,0.036741,0.036086,0.035131,0.038914,0.035621,0.037883,0.042794,0.0395,0.037187,0.036817,0.035149,0.037713
Canada,Tributación Regular,Pertenece,0.034733,0.035383,0.036101,0.034407,0.035457,0.037498,0.036073,0.039687,0.04382,0.041315,0.04435,0.044414
Korea,Tributación Regular,Pertenece,0.03343,0.033142,0.03319,0.033112,0.032018,0.033013,0.030394,0.03107,0.033607,0.035145,0.033491,0.033105
Norway,Tributación Regular,Pertenece,0.024774,0.024687,0.024427,0.024153,0.023911,0.02564,0.026883,0.027645,0.027113,0.025977,0.027433,0.028356


#### Múltiples operaciones simultaneamente

El método `apply` permite ejecutar varias operaciones a la vez, lo cual nos ahorra líneas de código o encadenar más métodos de los necesarios. 

##### Ejemplo 15

Requerimos nuevamente filtrar la base para solo trabajar con aquellos países que son parte de la OECD, de tal forma que calculemos el porcentaje de títulos bajo posesión de cada país. Esta vez, redondearemos el resultado a tres cifras decimales. 

Una manera de solucionar este requerimiento es utilizar la división de objetos y el método `round` de `pandas`.

In [93]:
mfh_oecd = mfh.loc[idx[:, :, "Pertenece"],]
mfh_oecd_norm = (mfh_oecd / mfh_oecd.sum()).round(3)
mfh_oecd_norm

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Japan,Tributación Regular,Pertenece,0.346,0.345,0.349,0.34,0.344,0.348,0.349,0.339,0.336,0.333,0.332,0.33
United Kingdom,Tributación Regular,Pertenece,0.116,0.113,0.115,0.12,0.122,0.118,0.129,0.128,0.125,0.113,0.114,0.117
Ireland,Paraiso Fiscal,Pertenece,0.086,0.091,0.089,0.089,0.088,0.083,0.075,0.076,0.075,0.081,0.083,0.081
Luxembourg,Paraiso Fiscal,Pertenece,0.071,0.073,0.071,0.072,0.072,0.073,0.068,0.07,0.071,0.073,0.075,0.074
Switzerland,Paraiso Fiscal,Pertenece,0.069,0.068,0.068,0.067,0.066,0.066,0.067,0.065,0.066,0.068,0.067,0.066
Belgium,Paraiso Fiscal,Pertenece,0.059,0.058,0.057,0.059,0.058,0.058,0.057,0.058,0.057,0.06,0.058,0.058
France,Tributación Regular,Pertenece,0.037,0.036,0.035,0.039,0.036,0.038,0.043,0.04,0.037,0.037,0.035,0.038
Canada,Tributación Regular,Pertenece,0.035,0.035,0.036,0.034,0.035,0.037,0.036,0.04,0.044,0.041,0.044,0.044
Korea,Tributación Regular,Pertenece,0.033,0.033,0.033,0.033,0.032,0.033,0.03,0.031,0.034,0.035,0.033,0.033
Norway,Tributación Regular,Pertenece,0.025,0.025,0.024,0.024,0.024,0.026,0.027,0.028,0.027,0.026,0.027,0.028


En cambio podríamos haber usado una sola línea de código para cubrir este requerimiento.

In [94]:
mfh_oecd_norm = mfh.loc[idx[:, :, "Pertenece"],].apply(lambda x: round(x / x.sum(), 3))
mfh_oecd_norm

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,Sep,Aug,Jul,Jun,May,Apr,Mar,Feb,Jan,Dec,Nov,Oct
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Japan,Tributación Regular,Pertenece,0.346,0.345,0.349,0.34,0.344,0.348,0.349,0.339,0.336,0.333,0.332,0.33
United Kingdom,Tributación Regular,Pertenece,0.116,0.113,0.115,0.12,0.122,0.118,0.129,0.128,0.125,0.113,0.114,0.117
Ireland,Paraiso Fiscal,Pertenece,0.086,0.091,0.089,0.089,0.088,0.083,0.075,0.076,0.075,0.081,0.083,0.081
Luxembourg,Paraiso Fiscal,Pertenece,0.071,0.073,0.071,0.072,0.072,0.073,0.068,0.07,0.071,0.073,0.075,0.074
Switzerland,Paraiso Fiscal,Pertenece,0.069,0.068,0.068,0.067,0.066,0.066,0.067,0.065,0.066,0.068,0.067,0.066
Belgium,Paraiso Fiscal,Pertenece,0.059,0.058,0.057,0.059,0.058,0.058,0.057,0.058,0.057,0.06,0.058,0.058
France,Tributación Regular,Pertenece,0.037,0.036,0.035,0.039,0.036,0.038,0.043,0.04,0.037,0.037,0.035,0.038
Canada,Tributación Regular,Pertenece,0.035,0.035,0.036,0.034,0.035,0.037,0.036,0.04,0.044,0.041,0.044,0.044
Korea,Tributación Regular,Pertenece,0.033,0.033,0.033,0.033,0.032,0.033,0.03,0.031,0.034,0.035,0.033,0.033
Norway,Tributación Regular,Pertenece,0.025,0.025,0.024,0.024,0.024,0.026,0.027,0.028,0.027,0.026,0.027,0.028


### 3.6. Método `rename`

El método `rename` sirve para renombrar columnas o índices. 

    pandas.DataFrame.rename(mapper, index, columns, axis, inplace, level)

* **mapper:** diccionario o función para renombrar las columnas o índices. <br><br>

* **index:** diccionario o función para renombrar índices. Cuando utilizamos este parámetro no es necesario utilizar los parámetros `mapper` y `axis`. <br><br>

* **columns:** diccionario o función para renombrar columnas. Cuando utilizamos este parámetro no es necesario utilizar los parámetros `mapper` y `axis`. <br><br>

* **axis:** por defecto es 0. <br><br>
    * `axis = 1`:  indica que vamos a renombrar columnas.<br>
    * `axis = 0`: indica que vamos a renombrar filas.<br>

* **inplace:** por defecto es `False`. <br><br>
    * `inplace = True`: retorna `None` y  ejecuta las operaciones sobre el dataframe oríginal. <br>
    * `inplace = False`: retorna una copia del `DataFrame` con las modificaciones. <br><br>

* **level:** indica por nombre o por posición a cuál de los niveles del índice múltiple se le debe aplicar el diccionario o la función. 

##### Ejemplo 16

En la siguiente celda encuentras un diccionario con los nombres de los países en inglés y en español.

In [95]:
df_paises = pd.read_csv(
    "DiccionarioPaises.csv", encoding="utf-8-sig", sep=";", index_col=[1]
)
dicc_paises = df_paises.to_dict()["País en español"]
dicc_paises

{'Afghanistan': 'Afganistán',
 'Albania': 'Albania',
 'Germany': 'Alemania',
 'Andorra': 'Andorra',
 'Angola': 'Angola',
 'Antigua and Barbuda': 'Antigua y Barbuda',
 'Saudi Arabia': 'Arabia Saudí',
 'Algeria': 'Argelia',
 'Argentina': 'Argentina',
 'Armenia': 'Armenia',
 'Australia': 'Australia',
 'Austria': 'Austria',
 'Azerbaijan': 'Azerbaiyán',
 'Bahrain': 'Bahrein',
 'Bangladesh': 'Bangladesh',
 'Barbados': 'Barbados',
 'Belgium': 'Bélgica',
 'Belize': 'Belice',
 'Benin': 'Benín',
 'Bermuda': 'Bermudas',
 'Belarus': 'Bielorrusia',
 'Burma': 'Birmania',
 'Bolivia': 'Bolivia',
 'Bosnia and Herzegovina': 'Bosnia y Herzegovina',
 'Botswana': 'Botswana',
 'Brazil': 'Brasil',
 'Brunei': 'Brunei',
 'Bulgaria': 'Bulgaria',
 'Burkina Faso': 'Burkina Faso',
 'Burundi': 'Burundi',
 'Bhutan': 'Bután',
 'Cambodia': 'Camboya',
 'Cameroon': 'Camerún',
 'Canada': 'Canadá',
 'Chad': 'el Chad',
 'Chile': 'Chile',
 'China, Mainland': 'China',
 'Cyprus': 'Chipre',
 'Vatican City': 'Ciudad del Vatican

A continuación encuentras un diccionario con las abreviaturas de los meses en inglés y en español.

In [96]:
dicc_meses = {
    "Jan": "ENE",
    "Feb": "FEB",
    "Mar": "MAR",
    "Apr": "ABR",
    "May": "MAY",
    "Jun": "JUN",
    "Jul": "JUL",
    "Aug": "AGO",
    "Sep": "SEP",
    "Oct": "OCT",
    "Nov": "NOV",
    "Dec": "DIC",
}

Requerimos traducir al español los meses y países del `DataFrame` utilizando los diccionarios provistos 

In [97]:
mfh = mfh.rename(mapper=dicc_paises)
mfh = mfh.rename(columns=dicc_meses)
mfh

Unnamed: 0_level_0,Unnamed: 1_level_0,Mes,SEP,AGO,JUL,JUN,MAY,ABR,MAR,FEB,ENE,DIC,NOV,OCT
Unnamed: 0_level_1,Unnamed: 1_level_1,Año,2020,2020,2020,2020,2020,2020,2020,2020,2020,2019,2019,2019
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
Japón,Tributación Regular,Pertenece,1276.2,1278.4,1293.0,1261.5,1260.4,1266.5,1272.6,1268.6,1211.8,1155.2,1160.6,1168.5
China,Tributación Regular,No pertenece,1061.7,1068.0,1073.4,1074.4,1083.7,1072.8,1081.6,1092.3,1078.6,1069.9,1089.1,1101.5
Reino Unido,Tributación Regular,Pertenece,428.9,419.9,424.7,445.6,445.8,429.2,469.7,477.1,450.3,392.1,400.5,412.7
Irlanda,Paraiso Fiscal,Pertenece,315.8,335.3,330.8,330.3,324.2,301.3,271.6,282.8,271.7,281.9,289.7,285.4
Brasil,Tributación Regular,No pertenece,265.1,265.0,265.7,264.1,264.4,259.5,264.4,285.9,283.3,281.8,293.3,298.5
Luxemburgo,Paraiso Fiscal,Pertenece,262.5,268.8,264.7,267.6,262.7,265.5,246.1,260.8,255.2,254.6,261.9,263.0
Suiza,Paraiso Fiscal,Pertenece,255.3,253.1,250.7,247.4,243.1,241.3,244.6,243.7,238.1,237.5,233.4,233.2
Hong kong,Paraiso Fiscal,No pertenece,245.5,250.9,267.1,266.4,269.0,259.4,256.0,268.4,253.0,249.7,249.7,243.6
Islas Caimán,Tributación Regular,No pertenece,231.6,228.9,222.3,224.0,216.7,213.0,209.4,228.2,225.1,238.2,234.2,236.8
Bélgica,Paraiso Fiscal,Pertenece,218.1,215.0,211.9,218.7,212.1,210.2,206.1,218.0,206.5,207.4,202.4,205.6


### 3.7. Método `replace`

El método `replace` usa la siguiente sintaxis para reemplazar un valor por otro.

    pandas.DataFrame.replace( to_replace, value, inplace) 

* **to_replace:** valor específico, estructura de datos. <br><br>

* **value:** valor que sustituirá el valor a reemplazar.<br><br>

* **inplace:** por defecto es `False`. <br><br>
    * `inplace = True`: retorna `None` y  ejecuta las operaciones sobre el dataframe oríginal. <br>
    * `inplace = False`: retorna una copia del `DataFrame` con las modificaciones. <br><br>

### 3.8. Método `stack`

El método `stack` transfiere uno o varios niveles de las columnas al índice. Al emplearlo, el número de niveles del índice se va a ver aumentando y el número de niveles de las columnas se va a ver disminuido. 

    pandas.DataFrame.stack(level, fill_value) 

* **level:** nombre o índice del nivel a transferir. Por defecto es -1 (el último nivel) 

* **fill_value:** valor para reemplazar los datos faltantes que se generen. 

##### Ejemplo 17

Pasa el nivel correspondiente a los meses al índice de `mfh_2021`.

Procedemos entonces usando el método `stack`.

In [98]:
mfh_2021 = mfh_2021.stack("Mes")
mfh_2021

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Año,2019
Pais,Clasificación_Fiscal,OECD,Mes,Unnamed: 4_level_1
Japan,Tributación Regular,Pertenece,Dec,1155.2
Japan,Tributación Regular,Pertenece,Nov,1160.6
Japan,Tributación Regular,Pertenece,Oct,1168.5
"China, Mainland",Tributación Regular,No pertenece,Dec,1069.9
"China, Mainland",Tributación Regular,No pertenece,Nov,1089.1
...,...,...,...,...
United Arab Emirates,Tributación Regular,No pertenece,Nov,39.9
United Arab Emirates,Tributación Regular,No pertenece,Oct,38.4
Vietnam,Tributación Regular,No pertenece,Dec,30.5
Vietnam,Tributación Regular,No pertenece,Nov,29.9


### 3.9. Método `unstack`

El método `unstack` transfiere uno o varios niveles del índice a las columna. Al emplearlo, el número de niveles de las columnas se va a ver aumentando y el número de niveles del índice se va a ver disminuido. 

    pandas.DataFrame.unstack(level, fill_value) 

* **level:** nombre o índice del nivel a transferir. Por defecto es -1 (el último nivel) 

* **fill_value:** valor para reemplazar los datos faltantes que se generen. 

#### Ejemplo 18

Se te solicita revertir el cambio realizado en el ejemplo anterior.

Utilizamos el método `unstack` para revertir el cambio realizado.

In [99]:
mfh_2021 = mfh_2021.unstack("Mes")
mfh_2021

Unnamed: 0_level_0,Unnamed: 1_level_0,Año,2019,2019,2019
Unnamed: 0_level_1,Unnamed: 1_level_1,Mes,Dec,Nov,Oct
Pais,Clasificación_Fiscal,OECD,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Australia,Tributación Regular,Pertenece,41.8,44.6,45.4
Belgium,Paraiso Fiscal,Pertenece,207.4,202.4,205.6
Bermuda,Tributación Regular,No pertenece,71.3,68.2,65.4
Brazil,Tributación Regular,No pertenece,281.8,293.3,298.5
Canada,Tributación Regular,Pertenece,143.3,155.2,157.1
Cayman Islands,Tributación Regular,No pertenece,238.2,234.2,236.8
"China, Mainland",Tributación Regular,No pertenece,1069.9,1089.1,1101.5
France,Tributación Regular,Pertenece,127.7,123.0,133.4
Germany,Tributación Regular,Pertenece,78.3,79.9,84.0
Hong Kong,Paraiso Fiscal,No pertenece,249.7,249.7,243.6


### 3.9. Método `pivot`

El método `pivot` rota una tabla convirtiendo los valores únicos de una columna en múltiples columnas. A su vez, ejecuta agregaciones donde se requieren en cualquier valor de columna restante que se desee en el resultado final.

    pandas.DataFrame.pivot(index, columns, values) 

* **index:** columna a usar para crear el nuevo indice del DataFrame resultante. Si no se define se usa el índice existente.

* **columns:** columna usar para definir las nuevas columnas.

* **values:** columna(s) a usar para poblar el nuevo dataframe. Si no se especifica, todas las columnas restantes serán usadas y el resultado tendrá columnas indexadas jerárquicamente.

#### Ejemplo 19

In [100]:
# Crear un DataFrame

df = pd.DataFrame(
    {
        "A": ["John", "Boby", "Mina"],
        "B": ["Masters", "Graduate", "Graduate"],
        "C": [27, 23, 21],
    }
)

df

Unnamed: 0,A,B,C
0,John,Masters,27
1,Boby,Graduate,23
2,Mina,Graduate,21


In [101]:
df.pivot(columns="B")

Unnamed: 0_level_0,A,A,C,C
B,Graduate,Masters,Graduate,Masters
0,,John,,27.0
1,Boby,,23.0,
2,Mina,,21.0,


In [102]:
df.pivot(index="A", columns="B", values=["C"])

Unnamed: 0_level_0,C,C
B,Graduate,Masters
A,Unnamed: 1_level_2,Unnamed: 2_level_2
Boby,23.0,
John,,27.0
Mina,21.0,


In [103]:
df.pivot(index="A", columns="B", values="C")

B,Graduate,Masters
A,Unnamed: 1_level_1,Unnamed: 2_level_1
Boby,23.0,
John,,27.0
Mina,21.0,


## Referencias

Pandas (2020). Documentación sobre el método .iloc(). Recuperado de: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html

Pandas (2020). Documentación sobre el método .loc(). Recuperado de: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

Pandas (2020). Documentación sobre el método .IndexSlice() . Recuperado de: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.IndexSlice.html

BID (2020). Encuesta Coronavirus BID/Cornell. Recuperado de: https://data.iadb.org/DataCatalog/Dataset#DataCatalogID=11319/28452

Pandas (2021). Documentación sobre I/O tools (text, CSV, HDF5...). Recuperado de: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html 

Pandas (2020). Documentación sobre los objetos índices. Recuperado de: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.IndexSlice.html

Pandas (2020). Documentación sobre los métodos DataFrame. Recuperado de: https://pandas.pydata.org/docs/reference/frame.html

Departamento del Tesoro Americano (2020). Principales tenedores foráneos de títulos del tesoro [Base de Datos]. Recuperado  de : 
https://ticdata.treasury.gov/Publish/mfh.txt.