# Clase 10: Multi-Índices, Pivoteo, Melt, Concatenación y Combinación de Múltiples Fuentes de Datos

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

## Objetivos de la Clase

- Comprender como fusionar distintas fuentes de datos a partir de `concatenaciones` y `merge`.
- Profundizar el uso de los multi-índices de pandas.
- Reorganizar los datos usando `melt` y `pivot`


## Datasets de Hoy

### Índices para una Vida Mejor

Nuevamente, seguiremos usando los datos de índices para una Vida Mejor de la OECD:


<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/oecd.png" alt="OECD Better life index"/>


http://www.oecdbetterlifeindex.org/

https://stats.oecd.org/index.aspx?DataSetCode=BLI

Son 11 temas considerados como esenciales para el bienestar de la población. Cada crierio contiene uno o mas indicadores

| Tema | Indicador (Inglés) | Indicador (Español) | Unidad | Descripción |
|---|---|---|---|---|
| Vivienda 🏠 | Dwellings without basic facilities | Vivienda con Instalaciones Básicas | Porcentaje | Porcentaje de personas con inodoros de agua corriente dentro del hogar, año disponible más reciente |
|  | Housing expenditure | Gastos en Vivienda | Porcentaje | Proporción de costos de vivienda en el ingreso neto ajustado de las familias, año disponible más reciente |
|  | Rooms per person | Habitaciones por Persona | Ratio | Número promedio de habitaciones compartidas por persona en una vivienda, año disponible más reciente |
| Ingresos 💰 | Household net adjusted disposable income | Ingreso Familiar Disponible | US Dollar | Cantidad promedio de dinero que una familia gana al año, después de impuestos, año disponible más reciente |
|  | Household net wealth | Patrimonio Neto Familiar | US Dollar | Valor total promedio de los activos financieros de una familia (ahorros, acciones) menos sus pasivos (créditos), año disponible más reciente |
| Empleo ⚙️ | Labour market insecurity | Seguridad en el Empleo | Porcentaje | Pérdida esperada de ingresos cuando alguien queda desempleado, año disponible más reciente |
|  | Employment rate | Tasa de Empleo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, actualmente con empleo remunerado, año disponible más reciente |
|  | Long-term unemployment rate | Tasa de Empleo a Largo Plazo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, que no trabajan pero que han buscado empleo activamente durante más de un año, año disponible más reciente |
|  | Personal earnings | Ingresos Personales | US Dollar | Ingresos anuales promedio por empleado de tiempo completo, año disponible más reciente |
| Comunidad 🧑‍🤝‍🧑   | Quality of support network  | Calidad del Apoyo Social | Porcentaje | Porcentaje de personas con amigos o parientes en quienes confiar en caso de necesidad |
| Educación 📚 | Educational attainment | Nivel de Educación | Porcentaje | Porcentaje de personas, de 25 a 64 años de edad, graduadas por lo menos de educación media superior, año disponible más reciente |
|  | Student skills | Competencias de estudiantes en matemáticas, lectura y ciencias | Puntaje promedio | Desempeño promedio de estudiantes de 15 años de edad, según PISA (Programa para la Evaluación Internacional de Estudiantes) |
|  | Years in education  | Nivel de educación | Años | Duración promedio de la educación formal en la que un niño de cinco años de edad puede esperar matricularse durante su vida |
| Medio Ambiente 🌳 | Air pollution | Contaminación del Aire | Microgramos por metro cúbico | Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas, medida en microgramos por metro cúbico, año disponible más reciente |
|  | Water quality | Calidad del Agua | Porcentaje | Porcentaje de personas que informan estar satisfechas con la calidad del agua local |
| Compromiso Cívico 🗳️  | Stakeholder engagement for developing regulations | Participación de los interesados en la elaboración de regulaciones | Puntaje promedio | Nivel de transparencia gubernamental al preparar las regulaciones, año disponible más reciente |
|  | Voter turnout | Participación electoral | Porcentaje | Porcentaje de votantes registrados que votaron durante las elecciones recientes, año disponible más reciente |
| Salud ⚕️ | Life expectancy | Esperanza de vida | Años | Número promedio de años que una persona puede esperar vivir, año disponible más reciente |
|  | Self-reported health | Salud según informan las personas | Porcentaje | Porcentaje de personas que informan que su salud es «buena o muy buena», año disponible más reciente |
| Satisfacción ✨ | Life satisfaction | Satisfacción ante la vida | Puntaje promedio | Autoevaluación promedio de satisfacción ante la vida, en una escala de 0 a 10 |
| Seguridad 🌃 | Feeling safe walking alone at night | Sentimiento de seguridad al caminar solos por la noche | Porcentaje | Porcentaje de personas que reportan sentirse seguras al caminar solas por la noche  |
|  | Homicide rate | Tasa de homicidios | Ratio | Número promedio de homicidios reportados por 100,000 personas, año disponible más reciente |
| Balance Vida Trabajo 🧘 | Employees working very long hours | Empleados que trabajan muchas horas | Porcentaje | Porcentaje de empleados que trabajan más de cincuenta horas a la semana en promedio, año disponible más reciente |
|  | Time devoted to leisure and personal care | Tiempo destinado al ocio y el cuidado personal | Horas | Número promedio de minutos al día dedicados al ocio y el cuidado personal, incluidos el sueño y la alimentación |

In [None]:
import pandas as pd

bli_df = pd.read_excel("dataset.xlsx", header=1, index_col=0)
bli_df.head()

### Dataset de Temperaturas Globales

![wbg_climate](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [None]:
temp_df = pd.read_csv(
    "temperature.csv")
temp_df.head(20)

In [None]:
temp_df.shape

----

## 1.- Concatenación


> Según Wikipedia: *Es la operación por la cual dos caracteres se unen para formar una cadena de caracteres (o string). También se pueden concatenar dos cadenas de caracteres o un carácter con una cadena para formar una cadena de mayor tamaño*. Ejemplo: 

In [None]:
a = "Hola "

b = "a todos 🤗"


a + b

La idea general de concatenar es unir 2 o más `Dataframes` por filas o columnas.

<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/concat.png' width=900/>
</div>


Todas las operaciones se hacen a través de la operación sobre los índices de los `DataFrames`.

### 1.1 Caso 1: Concatenar Filas

En el caso de contactenar por filas `(axis=0)`, los `DataFrames` se unen al final a través de los índices.

<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/merging_concat_basic.png' width=500/>
</div>

In [None]:
bli_df.head(5)

In [None]:
bli_df = bli_df.reset_index()

In [None]:
sudamerica_df = bli_df.loc[
    bli_df["Country"].isin(
        [
            "Chile",
            "Brazil",
            "Colombia",
        ]
    ),
    :,
]

sudamerica_df

In [None]:
norteamerica_df = bli_df[
    bli_df["Country"].isin(
        [
            "Canada",
            "United States",
            "Mexico",
        ]
    )
]

norteamerica_df

In [None]:
oceania_df = bli_df.loc[bli_df["Country"].isin(["New Zealand", "Australia"]), :]
oceania_df

Para ejecutar la concatenación, usamos el método `pd.concat` sobre un arreglo con los `DataFrames` por concatenar.

In [None]:
df_concatenado_filas = pd.concat(
    [
        sudamerica_df, 
        norteamerica_df, 
        oceania_df
    ]
    , axis=0)
df_concatenado_filas

### 1.2 Caso 2: Concatenar Columnas

En este caso, los `DataFrames` se unen por los índices y las columnas.


<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/merging_concat_mixed_ndim.png' width=700/>
</div>

In [None]:
env_df = bli_df.loc[:, ["Country", "Air pollution", "Water quality"]]
env_df.head()

In [None]:
health_df = bli_df.loc[
    :, [
        "Country", 
        "Self-reported health", 
        "Life expectancy", 
        "Life satisfaction",
    ]
]

health_df.head()

In [None]:
env_heatlh_df = pd.concat(
    [env_df, health_df],
    axis=1
)

env_heatlh_df.head()

In [None]:
env_heatlh_df.columns

In [None]:
env_heatlh_df.loc[:, "Country"]

Nota: La unión sigue siendo por filas. Por ende, una columna repetida aparecerá dos veces en el `DataFrame` resultante, como en el caso anterior con `Country`

> **Nota**: Para facilitar la práctica, solo dejaremos una columna `Country`

In [None]:
env_heatlh_df.columns

In [None]:
~env_heatlh_df.columns.duplicated()

In [None]:
env_heatlh_df = env_heatlh_df.loc[:, ~env_heatlh_df.columns.duplicated()]
env_heatlh_df.head()

### 1.3 Un `DataFrame` tiene menos datos que el otro

En este caso, rellena los valores de las filas sin valor con `np.nan`.

<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/merging_concat_axis1.png' width=800/>
</div>

In [None]:
env_df_reducido = env_df[0:7]
env_df_reducido

In [None]:
health_df

In [None]:
pd.concat(
    [
        env_df_reducido, 
        health_df
    ], axis=1).head(15)

### 1.4 Error en parámetro `axis`

In [None]:
# concatenamos correctamente al igual que el ejemplo anterior
pd.concat([
    env_df.head(), 
    health_df.head()
], axis=1)

> **Pregunta ❓**: ¿Qué sucede si nos equivocamos con el parámetro `axis`?


In [None]:
env_df.head()

In [None]:
health_df.head()

In [None]:
pd.concat([env_df.head(), health_df.head()], axis=0)

Incluso, en el caso que los índices no sean útiles para unir filas, pueden especificar `ignore_index` como `True`.

In [None]:
pd.concat([env_df.head(), health_df.head()], ignore_index=True)

---

## 2.- Agregaciones:  Breve repaso y preparación de nuevos datos

Recordemos que podemos agregar datos según algún grupo y calcular estadísticas sobre estos.

El proceso consiste en tres pasos: 

1. Separar
2. Aplicar la función.
3. Juntar.

<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/group_by.png' width=900/>
</div>

In [None]:
temp_df.head(10)

In [None]:
prom = temp_df.groupby("Country").mean()
prom = prom.drop(columns=["Year"])
prom = prom.rename(columns={'Temperature': 'promedio'})
prom

In [None]:
temp_df.groupby("Country").mean().drop(columns=["Year"])

In [None]:
std = temp_df.groupby("Country").std().drop(columns=["Year"])
std = std.rename(columns={'Temperature': 'std'})
std

> **Pregunta ❓**: ¿Cómo podríamos usar concat para juntar los promedios y desviaciones estándar?

In [None]:
df_unido = pd.concat([prom, std], axis=1)
df_unido

In [None]:
t_agg_df = pd.concat([prom, std], axis=1)

### 2.1 `agg`

Recordemos el método `agg`, el cuál permite agregar datos por grupo usando una o más operaciones:

In [None]:
t_agg_df = temp_df.groupby("Country").agg(
    {"Temperature": ["median", "min", "max"]}
)
t_agg_df

In [None]:
     (temp_df
        .groupby(["Country", "Year"])
        .agg({"Temperature": ["median", "min", "max"]})
        .droplevel(0, axis=1)
        .reset_index()
        .melt(id_vars=["Country", "Year"])
        .query("Country in ['Chile', 'Argentina', 'Brazil']"))

In [None]:
import plotly.express as px

px.line(
    (
         temp_df
        .groupby(["Country", "Year"])
        .agg({"Temperature": ["median", "min", "max"]})
        .droplevel(0, axis=1)
        .reset_index()
        .melt(id_vars=["Country", "Year"])
        .query("Country in ['Chile', 'Argentina', 'Brazil']")
    ), 
    x="Year", 
    y="value", 
    color="variable", 
    facet_col="Country"
)

Este, como vimos anteriormente, retorna un multi-índice en las columnas:

In [None]:
t_agg_df.columns

Haremos un pequeño _fix_ didáctico: eliminaremos los multiíndices de las filas y columnas para dejar listo el dataset para lo que viene.

In [None]:
t_agg_df = t_agg_df.droplevel(0, axis=1).reset_index()
t_agg_df.columns = ["Country", "t_median", "t_min", "t_max"]
t_agg_df

In [None]:
env_heatlh_df.head(10)

In [None]:
t_agg_df.head(10)

### DataFrames Desalineados

> **Pregunta ❓**: ¿Qué pasará al combinar el Dataset de *Better Life Index* con el de Temperaturas usando `concat`?

In [None]:
env_heatlh_df

In [None]:
t_agg_df.head(10)

In [None]:
df_concat = pd.concat([env_heatlh_df, t_agg_df], axis=1)
df_concat

Parece que no funcionó muy bien...



---

## 3.- Merge / Combinar usando un identificador común

Es una forma de combinar dos `DataFrames` en la que usamos los valores de columna como identificador comunes para concatenar el resto de los valores:

![Idea del Merge](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/merge.png)


Es equivalente a las sentencias `JOIN` de SQL. Existen varios tipos. `Pandas` implementa 5 a través de la función `pd.merge`.

En los siguientes ejemplos uniremos los datasets de la OECD y de temperatura agregada según los distintos tipos de `Merge`. Será de mucha utilidad pensar los `Merge` como operaciones sobre conjuntos.

In [None]:
# Paises en el primer dataset
bli_df["Country"].unique()

In [None]:
t_agg_df

In [None]:
# Paises en el segundo dataset
t_agg_df["Country"].unique()

---

### Inner

Combina los elementos que se encuentren en ambas tablas. Descarta todo el resto

![Inner](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/inner.png)

In [None]:
env_heatlh_df.shape

In [None]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    left_on="Country",
    right_on="Country",
    how="inner",
    sort=True,
)

### Left Merge

![Right Merge](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/left.png)

Conserva solo los elementos que se hayan combinado correctamente provenientes dataset `left`.

In [None]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="left",
    sort=True,
)

### Right Merge

Conserva solo los elementos que se hayan combinado correctamente provenientes dataset `right`.

![Right Merge](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/right.png)

In [None]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="right",
    sort=True,
)

### Outer

Combina todos los elementos posibles y conserva todo el resto en filas independientes.

![Outer Join](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/10-Pandas3/outer.png)

In [None]:
outer_merged_df = pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    sort=True,
    how="outer",
)
outer_merged_df

In [None]:
outer_merged_df[outer_merged_df["Country"] == "OECD - Total"]

#### Con Indicador

In [None]:
outer_merged_df = pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="outer",
    sort=True,
    indicator=True,
)
outer_merged_df

In [None]:
outer_merged_df[outer_merged_df["_merge"] == "left_only"]

In [None]:
outer_merged_df[outer_merged_df["_merge"] == "both"]

In [None]:
outer_merged_df[outer_merged_df["_merge"] == "right_only"]

---

## 4.- Transponer Datos

Simplemente invertir las filas por las columnas.

In [None]:
bli_df.T

---

## 5.- Pivotear Datos


El dataset que usamos la clase pasada está relativamente ordenado.

In [None]:
bli_df.head(5).iloc[:, 0:20]

Sin embargo, originalmente tenía la siguiente estructura:

In [None]:
dataset_original = pd.read_csv("bli_original.csv", keep_default_na=False)
dataset_original

In [None]:
bli_df.loc[:, ["Country", "Labour market insecurity"]]

In [None]:
dataset_original.loc[:, ["Country", "Indicator", "Value"]].tail(20)

In [None]:
dataset_original.loc[
    :, ["Continent", "Country", "Indicator", "Unit", "Value"]
].sort_values("Country").head(20)

In [None]:
dataset_original.shape

Cada fila de este dataset contiene información acerca de los paises y de los indicadores y el valor del indicador. Esta forma es conocida como **long**. 

**Pivotear**

Para convertirla al formato con el que hemos estado trabajando, **wide**, debemos pivotear la tabla:

In [None]:
dataset_original.head(3)

![Pivot](./resources/pivot.png)

In [None]:
dataset_original["Indicator"].unique()

In [None]:
dataset_original.head().loc[:, ["Country", "Indicator", "Value"]]

> **Ejercicio ✏️**: Pivotear la tabla original de los datos de la OECD


In [None]:
pd.pivot_table(
    dataset_original, 
    index='Country', 
    columns='Indicator', 
    values='Value'
).head(5)

---

## 6.- Multi-Índices

Hasta el momento solo hemos trabajado con `Dataframes` que contienen solo un nivel de filas o columnas. Sin embargo, es posible también agregar más niveles a los indices y a las columnas. 
Esto se le conoce como multi-índice.

In [None]:
dataset_original.loc[:, 
                     ["Continent", 
                      "Country", 
                      "Indicator", 
                      "Unit", 
                      "Value"]].head()

Para agregar niveles de columnas, en el proceso de pivoteo vamos a indicar que tanto `Unit` como `Indicator` sean niveles de las columnas; y que a la vez, tanto `Continent` como `Country` sean indices para las filas. 

El resultado de esto puede ser visto en el siguiente `DataFrame`:

In [None]:
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)

In [None]:
dataset_multindex = pd.pivot_table(
    dataset_original,
    index=["Continent", "Country"],
    columns=["Unit", "Indicator"],
    values="Value",
)
dataset_multindex

In [None]:
dataset_multindex.index

Ojo que las columnas también son Indices!

In [None]:
dataset_multindex.columns.values

Podemos acceder a los indices de cada nivel usando `get_level_values`

In [None]:
dataset_multindex

In [None]:
dataset_multindex.columns.get_level_values(0)

In [None]:
dataset_multindex.columns.get_level_values(1)

También a cierto nivel de las columnas

In [None]:
dataset_multindex.index.get_level_values(0)

In [None]:
dataset_multindex.index.get_level_values(1)

### Acceder a Multi-Índices

> **Ejercicio ✏️**: Seleccionar la fila que contiene a Chile

In [None]:
dataset_multindex

In [None]:
dataset_multindex.loc[[('SA', 'Chile')], :]

> **Ejercicio ✏️**: Seleccionar las columnas de los indicadores basados en Porcentajes.

In [None]:
dataset_multindex.loc[:, ['Percentage']]

> **Ejercicio ✏️**: Seleccionar la columna que contiene a Life expectancy

In [None]:
dataset_multindex.columns.values

In [None]:
dataset_multindex.loc[:, [('Years', 'Life expectancy')]]

> **Ejercicio ✏️**: Seleccionar la fila que contiene a Chile y la columna que contiene a Life expectancy

In [None]:
dataset_multindex.loc[[("SA", "Chile")], [("Years", "Life expectancy")]]

> **Pregunta ❓**: ¿Cómo puedo solicitar `Housing expenditure` como `Employment rate` al mismo tiempo?

In [None]:
dataset_multindex.head()

In [None]:
dataset_multindex.loc[
    :, [
        ("Percentage", "Housing expenditure"), 
        ("Percentage", "Employment rate")
    ]
]

In [None]:
dataset_multindex.loc[
    :, [
        ("Percentage", ["Housing expenditure", "Employment rate"]), 
    ]
]

> **Pregunta ❓:** ¿Podrá abreviarse?

In [None]:
dataset_multindex.loc[:, [("Percentage", ["Housing expenditure", "Employment rate"])]]

Este caso puede convertirse en un problema cuando sacamos muchas columnas, ya que tendremos que escribir muchas tuplas. 

#### Opción: `IndexSlice`

`IndexSlice` soluciona el problema anteriormente mencionado al permitir seleccionar más de un índice/columna por nivel:

In [None]:
idx = pd.IndexSlice
idx

In [None]:
idx = pd.IndexSlice

dataset_multindex.loc[
    :, idx["Percentage", [
        "Employees working very long hours", 
        "Housing expenditure"]]
]

Lo siguiente extiende el ejemplo anterior para seleccionar los paises de Norte y Sudamerica.

In [None]:
dataset_multindex.loc[
    idx[["NA", "SA"]],
    idx["Percentage", ["Employees working very long hours", "Housing expenditure"]],
]

Incluso, puede pedir más de un índice/columna por cada nivel:

In [None]:
dataset_multindex.loc[
    :,
    idx[
        ["Hours", "Percentage"],
        [
            "Time devoted to leisure and personal care",
            "Employees working very long hours",
            "Housing expenditure",
        ],
    ],
]

Que sería lo mismo que indexar usando `:` (es decir, seleccionar todo ese multi-índice)

In [None]:
dataset_multindex.loc[
    idx[: ,['Chile', 'Israel']],
    idx[
        :,
        [
            "Time devoted to leisure and personal care",
            "Employees working very long hours",
            "Housing expenditure",
        ],
    ],
]

### `droplevel`

El método `droplevel` nos permite eliminar un nivel de un multi-índice, tanto para filas como para columnas.
Recibe como parámetros el nivel (partiendo por 0 desde afuera hacia adentro) y el eje (axis): 

In [None]:
dataset_multindex.head()

In [None]:
dataset_multindex.droplevel(0, axis=0).head()

In [None]:
dataset_multindex.droplevel(1, axis=0)

In [None]:
dataset_multindex.droplevel(0, axis=1).head()

Noten que estos métodos generan DataFrames nuevos. Por ende, al ejecutarse deben reemplazar los `DataFrames` originales.

---

## 7.- Fundir / Melt

El proceso inverso al pivoteado:

![Melt](./resources/melt.png)

En este caso retornaremos a algo similar al formato original del dataset:

In [None]:
bli_df.head()

In [None]:
bli_df.melt(id_vars=["Country"])

Usando su argumento `value_vars` podemos seleccionar solo alguna de las columnas que deseamos operar con `melt`.
De todas formas, este comportamiento también puede ser logrado usando un simple indexador `.loc`

In [None]:
bli_df.melt(id_vars=["Country"], value_vars=["Air pollution", "Water quality"])