# Clase 11: Concatenación y Combinación de Múltiples Fuentes de Datos

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Pablo Badilla**

## Objetivos de la Clase

- Comprender como unir distintas fuentes de datos a partir de `concatenaciones` y `merge`.

### Roadmap


**Unidad 3: Manejo de Datos con Pandas y AED**

- [X] Introducción a Manejo de Datos Tabulares con Pandas
- [X] Reorganización, Multi-Índices y Agregación de Datos.
- [ ] Concatenación y Combinación de Múltiples Fuentes de Datos.
- [ ] Trabajo con strings y datos temporales, categóricos y ordinales en Pandas.

## Datasets de Hoy

### Índices para una Vida Mejor

Nuevamente, seguiremos usando los datos de índices para una Vida Mejor de la OECD:


<img src="./resources/oecd.png" alt="OECD Better life index"/>


http://www.oecdbetterlifeindex.org/

https://stats.oecd.org/index.aspx?DataSetCode=BLI

Son 11 temas considerados como esenciales para el bienestar de la población. Cada crierio contiene uno o mas indicadores

| Tema | Indicador (Inglés) | Indicador (Español) | Unidad | Descripción |
|---|---|---|---|---|
| Vivienda 🏠 | Dwellings without basic facilities | Vivienda con Instalaciones Básicas | Porcentaje | Porcentaje de personas con inodoros de agua corriente dentro del hogar, año disponible más reciente |
|  | Housing expenditure | Gastos en Vivienda | Porcentaje | Proporción de costos de vivienda en el ingreso neto ajustado de las familias, año disponible más reciente |
|  | Rooms per person | Habitaciones por Persona | Ratio | Número promedio de habitaciones compartidas por persona en una vivienda, año disponible más reciente |
| Ingresos 💰 | Household net adjusted disposable income | Ingreso Familiar Disponible | US Dollar | Cantidad promedio de dinero que una familia gana al año, después de impuestos, año disponible más reciente |
|  | Household net wealth | Patrimonio Neto Familiar | US Dollar | Valor total promedio de los activos financieros de una familia (ahorros, acciones) menos sus pasivos (créditos), año disponible más reciente |
| Empleo ⚙️ | Labour market insecurity | Seguridad en el Empleo | Porcentaje | Pérdida esperada de ingresos cuando alguien queda desempleado, año disponible más reciente |
|  | Employment rate | Tasa de Empleo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, actualmente con empleo remunerado, año disponible más reciente |
|  | Long-term unemployment rate | Tasa de Empleo a Largo Plazo | Porcentaje | Porcentaje de personas, de 15 a 64 años de edad, que no trabajan pero que han buscado empleo activamente durante más de un año, año disponible más reciente |
|  | Personal earnings | Ingresos Personales | US Dollar | Ingresos anuales promedio por empleado de tiempo completo, año disponible más reciente |
| Comunidad 🧑‍🤝‍🧑   | Quality of support network  | Calidad del Apoyo Social | Porcentaje | Porcentaje de personas con amigos o parientes en quienes confiar en caso de necesidad |
| Educación 📚 | Educational attainment | Nivel de Educación | Porcentaje | Porcentaje de personas, de 25 a 64 años de edad, graduadas por lo menos de educación media superior, año disponible más reciente |
|  | Student skills | Competencias de estudiantes en matemáticas, lectura y ciencias | Puntaje promedio | Desempeño promedio de estudiantes de 15 años de edad, según PISA (Programa para la Evaluación Internacional de Estudiantes) |
|  | Years in education  | Nivel de educación | Años | Duración promedio de la educación formal en la que un niño de cinco años de edad puede esperar matricularse durante su vida |
| Medio Ambiente 🌳 | Air pollution | Contaminación del Aire | Microgramos por metro cúbico | Concentración promedio de partículas (PM2.5) en ciudades con poblaciones mayores de 100,000 personas, medida en microgramos por metro cúbico, año disponible más reciente |
|  | Water quality | Calidad del Agua | Porcentaje | Porcentaje de personas que informan estar satisfechas con la calidad del agua local |
| Compromiso Cívico 🗳️  | Stakeholder engagement for developing regulations | Participación de los interesados en la elaboración de regulaciones | Puntaje promedio | Nivel de transparencia gubernamental al preparar las regulaciones, año disponible más reciente |
|  | Voter turnout | Participación electoral | Porcentaje | Porcentaje de votantes registrados que votaron durante las elecciones recientes, año disponible más reciente |
| Salud ⚕️ | Life expectancy | Esperanza de vida | Años | Número promedio de años que una persona puede esperar vivir, año disponible más reciente |
|  | Self-reported health | Salud según informan las personas | Porcentaje | Porcentaje de personas que informan que su salud es «buena o muy buena», año disponible más reciente |
| Satisfacción ✨ | Life satisfaction | Satisfacción ante la vida | Puntaje promedio | Autoevaluación promedio de satisfacción ante la vida, en una escala de 0 a 10 |
| Seguridad 🌃 | Feeling safe walking alone at night | Sentimiento de seguridad al caminar solos por la noche | Porcentaje | Porcentaje de personas que reportan sentirse seguras al caminar solas por la noche  |
|  | Homicide rate | Tasa de homicidios | Ratio | Número promedio de homicidios reportados por 100,000 personas, año disponible más reciente |
| Balance Vida Trabajo 🧘 | Employees working very long hours | Empleados que trabajan muchas horas | Porcentaje | Porcentaje de empleados que trabajan más de cincuenta horas a la semana en promedio, año disponible más reciente |
|  | Time devoted to leisure and personal care | Tiempo destinado al ocio y el cuidado personal | Horas | Número promedio de minutos al día dedicados al ocio y el cuidado personal, incluidos el sueño y la alimentación |

In [1]:
import pandas as pd

bli_df = pd.read_csv("./resources/dataset.csv")
bli_df.head()

Unnamed: 0,Country,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Homicide rate,Household net adjusted disposable income,Household net wealth,...,Quality of support network,Rooms per person,Self-reported health,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Voter turnout,Water quality,Years in education,GPD per capita (2018)
0,Australia,5.0,,81.0,12.84,73.0,64.133333,1.1,32759.0,427064.0,...,95.25,,87.25,2.7,411.2,14.35,91.0,92.666667,20.966667,57395.91947
1,Austria,16.0,0.9,85.0,6.59,72.0,80.7,0.466667,33541.0,308325.0,...,92.0,1.6,70.6,1.3,492.8,14.53,80.0,92.0,17.0,51525.04643
2,Belgium,15.0,1.9,77.0,4.703333,63.333333,70.266667,1.033333,30364.0,386006.0,...,92.0,2.2,73.6,2.0,503.8,15.663333,89.0,83.666667,19.3,47491.32326
3,Brazil,10.0,6.7,49.0,7.006667,61.0,35.866667,27.0,,,...,89.25,,,2.2,398.2,,79.0,73.0,16.166667,9001.234249
4,Canada,7.0,0.2,91.333333,3.673333,73.333333,82.5,1.266667,30854.0,423849.0,...,93.25,2.6,87.8,2.9,523.2,14.553333,68.0,91.0,17.333333,46313.17137


### Dataset de Temperaturas Globales

![wbg_climate](./resources/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [2]:
temp_df = pd.read_csv("./resources/temperature.csv")
temp_df

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.03110,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG
3,12.93970,1991,Apr,Afghanistan,AFG
4,17.07550,1991,May,Afghanistan,AFG
...,...,...,...,...,...
59899,26.09480,2016,Aug,Venezuela,VEN
59900,26.22090,2016,Sep,Venezuela,VEN
59901,26.62850,2016,Oct,Venezuela,VEN
59902,26.27680,2016,Nov,Venezuela,VEN


In [3]:
temp_df.shape

(59904, 5)

----

## 1.- Concatenación


> Según Wikipedia: *Es la operación por la cual dos caracteres se unen para formar una cadena de caracteres (o string). También se pueden concatenar dos cadenas de caracteres o un carácter con una cadena para formar una cadena de mayor tamaño*. Ejemplo: 

In [4]:
a = "Hola "
b = "a todos 🤗"


a + b

'Hola a todos 🤗'

La idea general de concatenar es unir 2 o más `Dataframes` por filas o columnas.

<div align='center'>
    <img src='./resources/concat.png' width=900/>
</div>


Todas las operaciones se hacen a través de la operación sobre los índices de los `DataFrames`.

### Caso 1: Concatenar Filas

En el caso de contactenar por filas `(axis=0)`, los `DataFrames` se unen al final a través de los índices.

<div align='center'>
    <img src='./resources/merging_concat_basic.png' width=500/>
</div>

In [5]:
sudamerica_df = bli_df[
    bli_df["Country"].isin(
        [
            "Chile",
            "Brazil",
            "Colombia",
        ]
    )
]

sudamerica_df

Unnamed: 0,Country,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Homicide rate,Household net adjusted disposable income,Household net wealth,...,Quality of support network,Rooms per person,Self-reported health,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Voter turnout,Water quality,Years in education,GPD per capita (2018)
3,Brazil,10.0,6.7,49.0,7.006667,61.0,35.866667,27.0,,,...,89.25,,,2.2,398.2,,79.0,73.0,16.166667,9001.234249
5,Chile,16.0,9.4,65.0,9.316667,62.666667,48.0,4.2,,100967.0,...,84.6,1.2,57.0,1.3,443.8,,47.0,71.0,17.5,15924.79424
6,Colombia,10.0,23.9,54.0,26.006667,67.0,44.566667,25.0,,,...,89.0,1.2,,1.4,412.8,,53.0,74.666667,14.1,6718.585324


In [6]:
norteamerica_df = bli_df[
    bli_df["Country"].isin(
        [
            "Canada",
            "United States",
            "Mexico",
        ]
    )
]

norteamerica_df

Unnamed: 0,Country,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Homicide rate,Household net adjusted disposable income,Household net wealth,...,Quality of support network,Rooms per person,Self-reported health,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Voter turnout,Water quality,Years in education,GPD per capita (2018)
4,Canada,7.0,0.2,91.333333,3.673333,73.333333,82.5,1.266667,30854.0,423849.0,...,93.25,2.6,87.8,2.9,523.2,14.553333,68.0,91.0,17.333333,46313.17137
24,Mexico,16.0,25.5,37.666667,27.28,61.666667,41.966667,18.633333,,,...,81.6,1.0,65.666667,3.2,416.0,,63.0,67.666667,15.166667,9673.443674
40,United States,10.0,0.1,90.666667,10.99,70.0,73.9,5.5,45284.0,632100.0,...,91.75,2.4,86.8,3.1,489.4,14.44,65.0,82.666667,17.2,62996.66482


In [7]:
oceania_df = bli_df.loc[bli_df["Country"].isin(["New Zealand", "Australia"]), :]
oceania_df

Unnamed: 0,Country,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Homicide rate,Household net adjusted disposable income,Household net wealth,...,Quality of support network,Rooms per person,Self-reported health,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Voter turnout,Water quality,Years in education,GPD per capita (2018)
0,Australia,5.0,,81.0,12.84,73.0,64.133333,1.1,32759.0,427064.0,...,95.25,,87.25,2.7,411.2,14.35,91.0,92.666667,20.966667,57395.91947
26,New Zealand,5.0,,78.666667,15.036667,77.0,66.266667,1.3,,388514.0,...,96.25,2.4,89.25,2.5,506.2,14.883333,80.0,89.0,17.7,42949.93058


Para ejecutar la concatenación, usamos el método `pd.concat` sobre un arreglo con los `DataFrames` por concatenar.

In [8]:
df_concatenado_filas = pd.concat([sudamerica_df, norteamerica_df, oceania_df], axis=0)
df_concatenado_filas

Unnamed: 0,Country,Air pollution,Dwellings without basic facilities,Educational attainment,Employees working very long hours,Employment rate,Feeling safe walking alone at night,Homicide rate,Household net adjusted disposable income,Household net wealth,...,Quality of support network,Rooms per person,Self-reported health,Stakeholder engagement for developing regulations,Student skills,Time devoted to leisure and personal care,Voter turnout,Water quality,Years in education,GPD per capita (2018)
3,Brazil,10.0,6.7,49.0,7.006667,61.0,35.866667,27.0,,,...,89.25,,,2.2,398.2,,79.0,73.0,16.166667,9001.234249
5,Chile,16.0,9.4,65.0,9.316667,62.666667,48.0,4.2,,100967.0,...,84.6,1.2,57.0,1.3,443.8,,47.0,71.0,17.5,15924.79424
6,Colombia,10.0,23.9,54.0,26.006667,67.0,44.566667,25.0,,,...,89.0,1.2,,1.4,412.8,,53.0,74.666667,14.1,6718.585324
4,Canada,7.0,0.2,91.333333,3.673333,73.333333,82.5,1.266667,30854.0,423849.0,...,93.25,2.6,87.8,2.9,523.2,14.553333,68.0,91.0,17.333333,46313.17137
24,Mexico,16.0,25.5,37.666667,27.28,61.666667,41.966667,18.633333,,,...,81.6,1.0,65.666667,3.2,416.0,,63.0,67.666667,15.166667,9673.443674
40,United States,10.0,0.1,90.666667,10.99,70.0,73.9,5.5,45284.0,632100.0,...,91.75,2.4,86.8,3.1,489.4,14.44,65.0,82.666667,17.2,62996.66482
0,Australia,5.0,,81.0,12.84,73.0,64.133333,1.1,32759.0,427064.0,...,95.25,,87.25,2.7,411.2,14.35,91.0,92.666667,20.966667,57395.91947
26,New Zealand,5.0,,78.666667,15.036667,77.0,66.266667,1.3,,388514.0,...,96.25,2.4,89.25,2.5,506.2,14.883333,80.0,89.0,17.7,42949.93058


### Caso 2: Concatenar Columnas

En este caso, los `DataFrames` se unen por los índices y las columnas.


<div align='center'>
    <img src='./resources/merging_concat_mixed_ndim.png' width=700/>
</div>

In [9]:
env_df = bli_df.loc[:, ["Country", "Air pollution", "Water quality"]]
env_df.head()

Unnamed: 0,Country,Air pollution,Water quality
0,Australia,5.0,92.666667
1,Austria,16.0,92.0
2,Belgium,15.0,83.666667
3,Brazil,10.0,73.0
4,Canada,7.0,91.0


In [10]:
health_df = bli_df.loc[
    :, ["Country", "Self-reported health", "Life expectancy", "Life satisfaction"]
]

health_df.head()

Unnamed: 0,Country,Self-reported health,Life expectancy,Life satisfaction
0,Australia,87.25,82.5,7.35
1,Austria,70.6,81.7,7.225
2,Belgium,73.6,81.5,7.0
3,Brazil,,74.766667,6.4
4,Canada,87.8,81.866667,7.425


In [11]:
env_heatlh_df = pd.concat([env_df, health_df], axis=1)
env_heatlh_df.head()

Unnamed: 0,Country,Air pollution,Water quality,Country.1,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,Australia,87.25,82.5,7.35
1,Austria,16.0,92.0,Austria,70.6,81.7,7.225
2,Belgium,15.0,83.666667,Belgium,73.6,81.5,7.0
3,Brazil,10.0,73.0,Brazil,,74.766667,6.4
4,Canada,7.0,91.0,Canada,87.8,81.866667,7.425


Nota: La unión sigue siendo por filas. Por ende, una columna repetida aparecerá dos veces en el `DataFrame` resultante, como en el caso anterior con `Country`

> **Nota**: Para facilitar la práctica, solo dejaremos una columna `Country`

In [12]:
env_heatlh_df = env_heatlh_df.loc[:, ~env_heatlh_df.columns.duplicated()]
env_heatlh_df.head()

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,87.25,82.5,7.35
1,Austria,16.0,92.0,70.6,81.7,7.225
2,Belgium,15.0,83.666667,73.6,81.5,7.0
3,Brazil,10.0,73.0,,74.766667,6.4
4,Canada,7.0,91.0,87.8,81.866667,7.425


### Un `DataFrame` tiene menos datos que el otro

En este caso, rellena los valores de las filas sin valor con `np.nan`.

<div align='center'>
    <img src='./resources/merging_concat_axis1.png' width=800/>
</div>

In [13]:
env_df_reducido = env_df[0:7]
env_df_reducido

Unnamed: 0,Country,Air pollution,Water quality
0,Australia,5.0,92.666667
1,Austria,16.0,92.0
2,Belgium,15.0,83.666667
3,Brazil,10.0,73.0
4,Canada,7.0,91.0
5,Chile,16.0,71.0
6,Colombia,10.0,74.666667


In [14]:
pd.concat([env_df_reducido, health_df], axis=1).head(15)

Unnamed: 0,Country,Air pollution,Water quality,Country.1,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,Australia,87.25,82.5,7.35
1,Austria,16.0,92.0,Austria,70.6,81.7,7.225
2,Belgium,15.0,83.666667,Belgium,73.6,81.5,7.0
3,Brazil,10.0,73.0,Brazil,,74.766667,6.4
4,Canada,7.0,91.0,Canada,87.8,81.866667,7.425
5,Chile,16.0,71.0,Chile,57.0,79.9,6.48
6,Colombia,10.0,74.666667,Colombia,,76.233333,6.266667
7,,,,Czech Republic,60.8,79.1,6.7
8,,,,Denmark,72.6,80.9,7.65
9,,,,Estonia,54.4,77.766667,5.78


### Error en parámetro `axis`

> **Pregunta ❓**: ¿Qué sucede si nos equivocamos con el parámetro `axis`?


In [15]:
pd.concat([env_df.head(), health_df.head()], axis=1)

Unnamed: 0,Country,Air pollution,Water quality,Country.1,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,Australia,87.25,82.5,7.35
1,Austria,16.0,92.0,Austria,70.6,81.7,7.225
2,Belgium,15.0,83.666667,Belgium,73.6,81.5,7.0
3,Brazil,10.0,73.0,Brazil,,74.766667,6.4
4,Canada,7.0,91.0,Canada,87.8,81.866667,7.425


In [16]:
pd.concat([env_df.head(), health_df.head()], axis=0)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,,,
1,Austria,16.0,92.0,,,
2,Belgium,15.0,83.666667,,,
3,Brazil,10.0,73.0,,,
4,Canada,7.0,91.0,,,
0,Australia,,,87.25,82.5,7.35
1,Austria,,,70.6,81.7,7.225
2,Belgium,,,73.6,81.5,7.0
3,Brazil,,,,74.766667,6.4
4,Canada,,,87.8,81.866667,7.425


Incluso, en el caso que los índices no sean útiles para unir filas, pueden especificar `ignore_index` como `True`.

In [17]:
pd.concat([env_df.head(), health_df.head()], ignore_index=True)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,,,
1,Austria,16.0,92.0,,,
2,Belgium,15.0,83.666667,,,
3,Brazil,10.0,73.0,,,
4,Canada,7.0,91.0,,,
5,Australia,,,87.25,82.5,7.35
6,Austria,,,70.6,81.7,7.225
7,Belgium,,,73.6,81.5,7.0
8,Brazil,,,,74.766667,6.4
9,Canada,,,87.8,81.866667,7.425


---

## 2.- Agregaciones:  Breve repaso y preparación de nuevos datos

Recordemos que podemos agregar datos según algún grupo y calcular estadísticas sobre estos.

El proceso consiste en tres pasos: 

1. Separar
2. Aplicar la función.
3. Juntar.

<div align='center'>
    <img src='./resources/group_by.png' width=900/>
</div>

In [18]:
temp_df.head(10)

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.0311,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG
3,12.9397,1991,Apr,Afghanistan,AFG
4,17.0755,1991,May,Afghanistan,AFG
5,23.0777,1991,Jun,Afghanistan,AFG
6,25.571,1991,Jul,Afghanistan,AFG
7,23.9673,1991,Aug,Afghanistan,AFG
8,19.38,1991,Sep,Afghanistan,AFG
9,12.8779,1991,Oct,Afghanistan,AFG


In [19]:
prom = temp_df.groupby("Country").mean().drop(columns=["Year"])
prom

Unnamed: 0_level_0,Temperature
Country,Unnamed: 1_level_1
Afghanistan,13.545609
Albania,12.106435
Algeria,23.439610
Andorra,11.953746
Angola,22.133815
...,...
United States,7.617000
Uruguay,17.941855
Uzbekistan,13.158793
Vanuatu,24.123163


In [20]:
std = temp_df.groupby("Country").std().drop(columns=["Year"])
std

Unnamed: 0_level_0,Temperature
Country,Unnamed: 1_level_1
Afghanistan,8.695203
Albania,7.101392
Algeria,7.473115
Andorra,6.014903
Angola,1.710757
...,...
United States,9.077944
Uruguay,4.505184
Uzbekistan,10.837303
Vanuatu,1.204321


> **Pregunta ❓**: ¿Cómo podríamos usar concat para juntar los promedios y desviaciones estándar?

In [23]:
t_agg_df = pd.concat([prom, std], axis=1)
t_agg_df.columns = ['mean', 'std']
t_agg_df

Unnamed: 0_level_0,mean,std
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,13.545609,8.695203
Albania,12.106435,7.101392
Algeria,23.439610,7.473115
Andorra,11.953746,6.014903
Angola,22.133815,1.710757
...,...,...
United States,7.617000,9.077944
Uruguay,17.941855,4.505184
Uzbekistan,13.158793,10.837303
Vanuatu,24.123163,1.204321


### `agg`

`agg` permite agregar datos por grupo usando una o más operaciones:

In [24]:
t_agg_df = temp_df.groupby("Country").agg(
    {
        "Temperature": ["mean", "std"]
    }
)
t_agg_df

Unnamed: 0_level_0,Temperature,Temperature
Unnamed: 0_level_1,mean,std
Country,Unnamed: 1_level_2,Unnamed: 2_level_2
Afghanistan,13.545609,8.695203
Albania,12.106435,7.101392
Algeria,23.439610,7.473115
Andorra,11.953746,6.014903
Angola,22.133815,1.710757
...,...,...
United States,7.617000,9.077944
Uruguay,17.941855,4.505184
Uzbekistan,13.158793,10.837303
Vanuatu,24.123163,1.204321


In [25]:
# pequeño arreglo didáctico
t_agg_df = t_agg_df.droplevel(0, axis=1).reset_index()
t_agg_df.columns = ["Country", "t_mean", "t_std"]
t_agg_df

Unnamed: 0,Country,t_mean,t_std
0,Afghanistan,13.545609,8.695203
1,Albania,12.106435,7.101392
2,Algeria,23.439610,7.473115
3,Andorra,11.953746,6.014903
4,Angola,22.133815,1.710757
...,...,...,...
187,United States,7.617000,9.077944
188,Uruguay,17.941855,4.505184
189,Uzbekistan,13.158793,10.837303
190,Vanuatu,24.123163,1.204321


In [26]:
env_heatlh_df.head(10)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction
0,Australia,5.0,92.666667,87.25,82.5,7.35
1,Austria,16.0,92.0,70.6,81.7,7.225
2,Belgium,15.0,83.666667,73.6,81.5,7.0
3,Brazil,10.0,73.0,,74.766667,6.4
4,Canada,7.0,91.0,87.8,81.866667,7.425
5,Chile,16.0,71.0,57.0,79.9,6.48
6,Colombia,10.0,74.666667,,76.233333,6.266667
7,Czech Republic,20.0,86.666667,60.8,79.1,6.7
8,Denmark,9.0,95.0,72.6,80.9,7.65
9,Estonia,8.0,84.0,54.4,77.766667,5.78


In [27]:
t_agg_df.head(10)

Unnamed: 0,Country,t_mean,t_std
0,Afghanistan,13.545609,8.695203
1,Albania,12.106435,7.101392
2,Algeria,23.43961,7.473115
3,Andorra,11.953746,6.014903
4,Angola,22.133815,1.710757
5,Antigua and Barbuda,26.156215,1.002084
6,Argentina,14.568881,4.813378
7,Armenia,7.803382,9.697264
8,Australia,21.966571,4.881637
9,Austria,7.202215,6.993245


### DataFrames Desalineados

> **Pregunta ❓**: ¿Podemos combinar el Dataset de *Better Life Index* con el de Temperaturas usando `concat`?

In [28]:
df_concat = pd.concat([env_heatlh_df, t_agg_df], axis=1)
df_concat

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,Country.1,t_mean,t_std
0,Australia,5.0,92.666667,87.25,82.500000,7.350,Afghanistan,13.545609,8.695203
1,Austria,16.0,92.000000,70.60,81.700000,7.225,Albania,12.106435,7.101392
2,Belgium,15.0,83.666667,73.60,81.500000,7.000,Algeria,23.439610,7.473115
3,Brazil,10.0,73.000000,,74.766667,6.400,Andorra,11.953746,6.014903
4,Canada,7.0,91.000000,87.80,81.866667,7.425,Angola,22.133815,1.710757
...,...,...,...,...,...,...,...,...,...
187,,,,,,,United States,7.617000,9.077944
188,,,,,,,Uruguay,17.941855,4.505184
189,,,,,,,Uzbekistan,13.158793,10.837303
190,,,,,,,Vanuatu,24.123163,1.204321


Parece que no funcionó muy bien...



---

## 4.- Merge / Combinar usando un identificador común

Es una forma de combinar dos `DataFrames` en la que usamos los valores de columna como identificador comunes para concatenar el resto de los valores:

![Idea del Merge](./resources/merge.png)


Es equivalente a las sentencias `JOIN` de SQL. Existen varios tipos. `Pandas` implementa 5 a través de la función `pd.merge`.

En los siguientes ejemplos uniremos los datasets de la OECD y de temperatura agregada según los distintos tipos de `Merge`. Será de mucha utilidad pensar los `Merge` como operaciones sobre conjuntos.

In [29]:
# Paises en el primer dataset
bli_df["Country"].unique()

array(['Australia', 'Austria', 'Belgium', 'Brazil', 'Canada', 'Chile',
       'Colombia', 'Czech Republic', 'Denmark', 'Estonia', 'Finland',
       'France', 'Germany', 'Greece', 'Hungary', 'Iceland', 'Ireland',
       'Israel', 'Italy', 'Japan', 'Korea', 'Latvia', 'Lithuania',
       'Luxembourg', 'Mexico', 'Netherlands', 'New Zealand', 'Norway',
       'OECD - Total', 'Poland', 'Portugal', 'Russia', 'Slovak Republic',
       'Slovenia', 'South Africa', 'Spain', 'Sweden', 'Switzerland',
       'Turkey', 'United Kingdom', 'United States'], dtype=object)

In [None]:
t_agg_df

In [30]:
# Paises en el segundo dataset
t_agg_df["Country"].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antigua and Barbuda', 'Argentina', 'Armenia', 'Australia',
       'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bhutan',
       'Bolivia', 'BosniaandHerzegovina', 'Botswana', 'Brazil', 'Brunei',
       'Bulgaria', 'Burkina Faso', 'Burundi', 'Cambodia', 'Cameroon',
       'Canada', 'Cape Verde', 'Central African Republic', 'Chad',
       'Chile', 'China', 'Colombia', 'Comoros', 'Costa Rica',
       "Coted'Ivoire", 'Croatia', 'Cuba', 'Cyprus', 'CzechRepublic',
       'Democratic Republic of Congo', 'Denmark', 'Djibouti', 'Dominica',
       'DominicanRepublic', 'Ecuador', 'Egypt', 'ElSalvador',
       'EquatorialGuinea', 'Eritrea', 'Estonia', 'Ethiopia',
       'FaroeIslands ', 'FederatedStatesofMicronesia', 'Fiji', 'Finland',
       'France', 'Gabon', 'Gambia', 'Georgia', 'Germany', 'Ghana',
       'Greece', 'Greenland', 'Grenada', 'Guatemal

---

### Inner

Combina los elementos que se encuentren en ambas tablas. Descarta todo el resto

![Inner](./resources/inner.png)

In [31]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="inner",
    sort=True,
)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std
0,Australia,5.0,92.666667,87.25,82.5,7.35,21.966571,4.881637
1,Austria,16.0,92.0,70.6,81.7,7.225,7.202215,6.993245
2,Belgium,15.0,83.666667,73.6,81.5,7.0,10.573462,5.739911
3,Brazil,10.0,73.0,,74.766667,6.4,25.504852,0.962928
4,Canada,7.0,91.0,87.8,81.866667,7.425,-5.963874,12.528132
5,Chile,16.0,71.0,57.0,79.9,6.48,8.454478,3.126838
6,Colombia,10.0,74.666667,,76.233333,6.266667,24.734349,0.568972
7,Denmark,9.0,95.0,72.6,80.9,7.65,8.678213,6.136734
8,Estonia,8.0,84.0,54.4,77.766667,5.78,6.166056,8.199942
9,Finland,6.0,95.0,70.2,81.5,7.66,2.402188,9.278735


### Left Merge

![Right Merge](./resources/left.png)

Conserva solo los elementos que se hayan combinado correctamente provenientes dataset `left`.

In [33]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="left",
    sort=True,
)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std
0,Australia,5.0,92.666667,87.25,82.5,7.35,21.966571,4.881637
1,Austria,16.0,92.0,70.6,81.7,7.225,7.202215,6.993245
2,Belgium,15.0,83.666667,73.6,81.5,7.0,10.573462,5.739911
3,Brazil,10.0,73.0,,74.766667,6.4,25.504852,0.962928
4,Canada,7.0,91.0,87.8,81.866667,7.425,-5.963874,12.528132
5,Chile,16.0,71.0,57.0,79.9,6.48,8.454478,3.126838
6,Colombia,10.0,74.666667,,76.233333,6.266667,24.734349,0.568972
7,Czech Republic,20.0,86.666667,60.8,79.1,6.7,,
8,Denmark,9.0,95.0,72.6,80.9,7.65,8.678213,6.136734
9,Estonia,8.0,84.0,54.4,77.766667,5.78,6.166056,8.199942


### Right Merge

Conserva solo los elementos que se hayan combinado correctamente provenientes dataset `right`.

![Right Merge](./resources/right.png)

In [34]:
pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="right",
    sort=True,
)

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std
0,Afghanistan,,,,,,13.545609,8.695203
1,Albania,,,,,,12.106435,7.101392
2,Algeria,,,,,,23.439610,7.473115
3,Andorra,,,,,,11.953746,6.014903
4,Angola,,,,,,22.133815,1.710757
...,...,...,...,...,...,...,...,...
187,United States,10.0,82.666667,86.8,78.6,7.0,7.617000,9.077944
188,Uruguay,,,,,,17.941855,4.505184
189,Uzbekistan,,,,,,13.158793,10.837303
190,Vanuatu,,,,,,24.123163,1.204321


### Outer

Combina todos los elementos posibles y conserva todo el resto en filas independientes.

![Outer Join](./resources/outer.png)

In [35]:
outer_merged_df = pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    sort=True,
    how="outer",
)
outer_merged_df

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std
0,Afghanistan,,,,,,13.545609,8.695203
1,Albania,,,,,,12.106435,7.101392
2,Algeria,,,,,,23.439610,7.473115
3,Andorra,,,,,,11.953746,6.014903
4,Angola,,,,,,22.133815,1.710757
...,...,...,...,...,...,...,...,...
191,United States,10.0,82.666667,86.8,78.6,7.0,7.617000,9.077944
192,Uruguay,,,,,,17.941855,4.505184
193,Uzbekistan,,,,,,13.158793,10.837303
194,Vanuatu,,,,,,24.123163,1.204321


In [36]:
outer_merged_df[outer_merged_df["Country"] == "OECD - Total"]

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std
131,OECD - Total,14.0,81.0,69.2,80.2,6.48,,


#### Con Indicador

In [37]:
outer_merged_df = pd.merge(
    left=env_heatlh_df,
    right=t_agg_df,
    on="Country",
    how="outer",
    sort=True,
    indicator=True,
)
outer_merged_df

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std,_merge
0,Afghanistan,,,,,,13.545609,8.695203,right_only
1,Albania,,,,,,12.106435,7.101392,right_only
2,Algeria,,,,,,23.439610,7.473115,right_only
3,Andorra,,,,,,11.953746,6.014903,right_only
4,Angola,,,,,,22.133815,1.710757,right_only
...,...,...,...,...,...,...,...,...,...
191,United States,10.0,82.666667,86.8,78.6,7.0,7.617000,9.077944,both
192,Uruguay,,,,,,17.941855,4.505184,right_only
193,Uzbekistan,,,,,,13.158793,10.837303,right_only
194,Vanuatu,,,,,,24.123163,1.204321,right_only


In [38]:
outer_merged_df[outer_merged_df["_merge"] == "left_only"]

Unnamed: 0,Country,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,t_mean,t_std,_merge
43,Czech Republic,20.0,86.666667,60.8,79.1,6.7,,,left_only
91,Korea,28.0,76.0,33.0,82.366667,5.866667,,,left_only
131,OECD - Total,14.0,81.0,69.2,80.2,6.48,,,left_only
157,Slovak Republic,21.0,84.666667,68.6,77.266667,6.425,,,left_only


### Cross


Genera el producto cartesiano de ambos `DataFrames`.

![Cross Merge](./resources/cross.png)

In [39]:
pd.merge(left=env_heatlh_df, right=t_agg_df, how="cross")

Unnamed: 0,Country_x,Air pollution,Water quality,Self-reported health,Life expectancy,Life satisfaction,Country_y,t_mean,t_std
0,Australia,5.0,92.666667,87.25,82.5,7.35,Afghanistan,13.545609,8.695203
1,Australia,5.0,92.666667,87.25,82.5,7.35,Albania,12.106435,7.101392
2,Australia,5.0,92.666667,87.25,82.5,7.35,Algeria,23.439610,7.473115
3,Australia,5.0,92.666667,87.25,82.5,7.35,Andorra,11.953746,6.014903
4,Australia,5.0,92.666667,87.25,82.5,7.35,Angola,22.133815,1.710757
...,...,...,...,...,...,...,...,...,...
7867,United States,10.0,82.666667,86.80,78.6,7.00,United States,7.617000,9.077944
7868,United States,10.0,82.666667,86.80,78.6,7.00,Uruguay,17.941855,4.505184
7869,United States,10.0,82.666667,86.80,78.6,7.00,Uzbekistan,13.158793,10.837303
7870,United States,10.0,82.666667,86.80,78.6,7.00,Vanuatu,24.123163,1.204321
