# Manejo de tablas con `dplyr`  
Este Notebook muestra alguna de las funciones más comunes del paquete dplyr, explicando su sintaxis y mostando algunos ejemplos de usos.

In [2]:
#Instalar paquetes la primera vez:
#install.packages("tidyverse")
#install.packages("dslabs")

In [2]:
library(tidyverse)
library(dslabs)

## Tidyverse

Tidyverse agrupa un conjunto de paquetes que contienen funciones para el tratamiento y visualizacion de datos en R:  
- dplyr = manejo de tablas de datos 
- ggplot2 = creación de gráficos de alta calidad y personalizables
- readr = lectura de archivos con tablas de datos
- tibble = creación y manejo de tablas tipo *tibble* (una version mejorada de los data frames básicos)
- stringr = operaciones con *strings* (texto)
- tidyr = manupulación de tablas para hacelas _alargadas_ (agrupar las variables, pocas columnas y muchas observaciones), o _ensanchadas_ (proceso contrario)
- forcats = operaciones para manejo de variables categóricas
- purrr = aplicar operaciones a cada elemento de una columna o fila (entre otras cosas)

Tidyverse está muy extendido como el principal entorno para manejo de tablas de datos. Todos los paquetes comparten una sintaxis y un funcionamiento similares que permiten realizar las tareas con un codigo mas limpio, entendible y sin incompatibilidades.  

En este notebook se mostarán principalmente las funcionalidades de la librería **dplyr**, aunque complementando con alguna otra (p.ej. tidyr).  

Un resumen de todas las opciones y funciones que ofrece dplyr puede verse en [**esta cheat sheet**](https://raw.githubusercontent.com/rstudio/cheatsheets/main/data-transformation.pdf)

## dslabs / gapminder

dslabs es un paquete que cuenta con diversos datasets a los que se puede llamar directamente usando la librería. Estos datasets están especialmente pensados para ser usados en pruebas y tutoriales, con tablas de datos ya organizados de diferentes temáticas y estructuras  

En este caso los ejemplos usarán la tabla gapminder: un juego de palabras con el aviso que suena por megafonia en el metro de londres ("mind the gap"), y al mismo tiempo sobre las desigualdades ("gap") que hay entre paises en diferentes partes del mundo, y cómo han ido cambiando con el tiempo.

El impulsor de estos datos es Hans Rosling, que en [esta maravillosa charla TED](https://www.youtube.com/watch?v=hVimVzgtD6w) cambió la forma no solo de ver las diferencias entre primer/tercer mundo, si no tambien de lo que todo lo pueden contar los datos y lo importante de tenerlos accesibles.

In [3]:
df <- gapminder
head(df)
tail(df)

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
1,Albania,1960,115.4,62.87,6.19,1636054,,Europe,Southern Europe
2,Algeria,1960,148.2,47.5,7.65,11124892,13828152297.0,Africa,Northern Africa
3,Angola,1960,208.0,35.98,7.32,5270844,,Africa,Middle Africa
4,Antigua and Barbuda,1960,,62.97,4.43,54681,,Americas,Caribbean
5,Argentina,1960,59.87,65.39,3.11,20619075,108322326649.0,Americas,South America
6,Armenia,1960,,66.86,4.55,1867396,,Asia,Western Asia


Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
10540,Venezuela,2016,,74.8,,,,Americas,South America
10541,West Bank and Gaza,2016,,74.7,,,,Asia,Western Asia
10542,Vietnam,2016,,75.6,,,,Asia,South-Eastern Asia
10543,Yemen,2016,,64.92,,,,Asia,Western Asia
10544,Zambia,2016,,57.1,,,,Africa,Eastern Africa
10545,Zimbabwe,2016,,61.69,,,,Africa,Eastern Africa


## El pipe ( %>% )

Uno de los elementos más distintivos de tidyverse es el pipe (escrito como %>% ) 

Normalmente la forma de realizar varias operaciones seguidas en R es ejecutar una por línea (sobreescribiendo el objeto o creando varios), o bien anidando funciones a base de meter una funcion dentro de otra que a su vez está dentro de otra (con el riesgo de errores y confusión)  

Para ello, con tidyverse suele emplearse el pipe, que permite encadenar las funciones a ejecutar en fila, de forma que el resultado saliente de una entre directamente en la siguiente, consiguiendo un código más limpio y legible.

In [3]:
#Calcular la media de una columna y redondear
#Metodo clásico
round(mean(df$life_expectancy))

In [4]:
#Usando el pipe
df$life_expectancy %>% mean() %>% round()

Y por supuesto, tambien se puede guardar como objeto (da igual al principio o al final)

In [6]:
mean_life_expectancy <- df$life_expectancy %>% mean() %>% round()

df$life_expectancy %>% mean() %>% round() -> mean_life_expectancy_alt 

Al comparar si son iguales:

In [7]:
mean_life_expectancy == mean_life_expectancy_alt

## Operaciones básicas

**Nota:** cuando estamos trabajando con funciones de tidyverse sobre un dataframe, se puede llamar a las columnas directamente, sin necesidad de usar '$'

### Select (seleccionar columnas)

Sintaxis básica:  
**select**(el `dataframe` (entra con el pipe), `nombre de columna/s`  con las que quedarse)

In [8]:
#viene bien recordar los nombres de las columnas
names(df)

In [9]:
#Seleccionar solo algunas columnas
df %>% select(country, continent, region) %>% head()

Unnamed: 0_level_0,country,continent,region
Unnamed: 0_level_1,<fct>,<fct>,<fct>
1,Albania,Europe,Southern Europe
2,Algeria,Africa,Northern Africa
3,Angola,Africa,Middle Africa
4,Antigua and Barbuda,Americas,Caribbean
5,Argentina,Americas,South America
6,Armenia,Asia,Western Asia


In [10]:
#Seleccionar por exclusión de otras (todas menos "continent" y "region")
df %>% select(-continent, -region) %>% head()

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,Albania,1960,115.4,62.87,6.19,1636054,
2,Algeria,1960,148.2,47.5,7.65,11124892,13828152297.0
3,Angola,1960,208.0,35.98,7.32,5270844,
4,Antigua and Barbuda,1960,,62.97,4.43,54681,
5,Argentina,1960,59.87,65.39,3.11,20619075,108322326649.0
6,Armenia,1960,,66.86,4.55,1867396,


### Filter (filtrar filas)

Una función muy util que permite quedarte solo con las filas (casos) que cumplen un determinado criterio, similar al proceso de hacer un query en otros lenguajes

**Sintaxis básica:**

filter(el data frame, nombre de columna == 'criterio que cumplen las filas que te interesan')

El criterio puede ser cualquier comparador o que devuelva TRUE/FALSE, por ejemplo:  
- **==** que sea igual a un valor o palabra
- **!=** que sea diferente a un valor o palabra
- **>** **<** que sea mayor o menor que un valor
- **>=** **=<** que sea igual o mayor/menor a un valor
- **is.na()** que sea NA 
- **!is.na()** que NO sea NA 
- **%in%** que aparezca en una lista de elementos

Además se pueden encadenar argumentos:  
- **&**: condición 1 **y** condicion 2
- **|**: condición 1 **o** condicion 2

In [10]:
#Selección sencilla
df %>% filter(country == 'France') %>% head()

country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
France,1960,23.7,70.49,2.77,45865699,349778187326,Europe,Western Europe
France,1961,22.4,71.07,2.8,46471083,369037927246,Europe,Western Europe
France,1962,21.3,70.61,2.81,47121575,393660782189,Europe,Western Europe
France,1963,20.3,70.46,2.81,47781535,414710508267,Europe,Western Europe
France,1964,19.4,71.43,2.8,48402900,441742742172,Europe,Western Europe
France,1965,18.5,71.26,2.77,48952283,462849365785,Europe,Western Europe


In [24]:
#Selección por dos criterios
df %>% filter(country == 'Spain' & year >= 2008)

country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
Spain,2008,4.2,81.1,1.42,45817016.0,740341770865.0,Europe,Southern Europe
Spain,2009,4.1,81.5,1.44,46295191.0,712647416141.0,Europe,Southern Europe
Spain,2010,3.9,81.8,1.46,46601492.0,712152291146.0,Europe,Southern Europe
Spain,2011,3.8,82.0,1.47,46708366.0,717193989759.0,Europe,Southern Europe
Spain,2012,3.7,82.2,1.49,46637082.0,,Europe,Southern Europe
Spain,2013,3.7,82.5,1.51,46455163.0,,Europe,Southern Europe
Spain,2014,3.6,82.5,1.52,46259716.0,,Europe,Southern Europe
Spain,2015,3.5,82.6,1.53,46121699.0,,Europe,Southern Europe
Spain,2016,,82.7,,,,Europe,Southern Europe


In [11]:
#Seleccionar que los NO tengan NAs en un campo (y ver solo los primeros resultados)
df %>% filter(!is.na(gdp)) %>% head()

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
1,Algeria,1960,148.2,47.5,7.65,11124892,13828152297,Africa,Northern Africa
2,Argentina,1960,59.87,65.39,3.11,20619075,108322326649,Americas,South America
3,Australia,1960,20.3,70.87,3.45,10292328,96677859364,Oceania,Australia and New Zealand
4,Austria,1960,37.3,68.75,2.7,7065525,52392699681,Europe,Western Europe
5,Bahamas,1960,51.0,62.0,4.5,109526,1306269490,Americas,Caribbean
6,Bangladesh,1960,176.3,46.2,6.73,48200702,12767231590,Asia,Southern Asia


###Sampling (muestreo aleatorio)
Las funciones de sampleo permiten seleccionar aleatoriamente registros de una tabla, bien sea por cantidad con `sample_n()` o por proporción con `sample_frac()`.  

**Sintaxis básica:**  
sample_X(`dataframe`, `cantidad/proporción`, `replace = TRUE/FALSE`)  

El parametro `replace` indica si un mismo registro se puede seleccionar mas de una vez (replace = True) o si se debe samplear sin repetición (replace = False)

In [10]:
# Seleccionar 10 obsevaciones al azar

set.seed(123) # Aqui se fija una "semilla" para generar numeros random. Si la semilla es la misma, el resultado también
df %>% sample_n(10, replace = FALSE)

country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
France,1973,13.1,72.69,2.24,52214014.0,705840360681.0,Europe,Western Europe
Maldives,1973,152.0,49.98,7.1,127717.0,,Asia,Southern Asia
French Polynesia,2016,,76.91,,,,Oceania,Polynesia
Brazil,2007,17.1,73.0,1.94,192784521.0,815703390474.0,Americas,South America
Burkina Faso,1976,131.9,43.74,6.92,6274037.0,1003222368.0,Africa,Western Africa
Uruguay,1969,49.6,68.84,2.87,2795044.0,11891487796.0,Americas,South America
Jamaica,2010,15.5,74.8,2.33,2741253.0,9799664035.0,Americas,Caribbean
Cote d'Ivoire,1978,120.2,51.7,7.77,7569558.0,8475427578.0,Africa,Western Africa
Puerto Rico,1985,,74.0,2.34,3369714.0,31189568233.0,Americas,Caribbean
Jordan,1996,25.5,72.6,4.53,4448113.0,7379252157.0,Asia,Western Asia


### Arrange (ordenar por una columna)

Arrange ordena todo el dataframe en función de los valores (numéricos, alfabéticos o de orden de factor) de una columna seleccionada.  

**Sintaxis básica:**  
arrange(el `dataframe`, `columna de ordenación`) 

nota: Por defecto, la ordenación es ascendente (de menor a mayor). Para una ordenación descendente, se incluiría el nombre de la columna dentro de la función `desc()`, de la siguiente manera:  
arrange(el `dataframe`, desc(`columna de ordenación`))

In [5]:
#Ver los 10 años de España con mayor esperanza de vida
#Filtrar por pais = España, ordenar por esperanza de vida descendente, ver 10 primeros registros
df %>% filter(country == 'Spain') %>% arrange(desc(life_expectancy)) %>% head()

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>
1,Spain,2016,,82.7,,,,Europe,Southern Europe
2,Spain,2015,3.5,82.6,1.53,46121699.0,,Europe,Southern Europe
3,Spain,2013,3.7,82.5,1.51,46455163.0,,Europe,Southern Europe
4,Spain,2014,3.6,82.5,1.52,46259716.0,,Europe,Southern Europe
5,Spain,2012,3.7,82.2,1.49,46637082.0,,Europe,Southern Europe
6,Spain,2011,3.8,82.0,1.47,46708366.0,717194000000.0,Europe,Southern Europe


### Mutate (crear columnas)

Mutate permite crear nuevas columnas aplicando un criterio (normalmente transformaciones de una o varias columnas ya existentes)

**Sintaxis básica:**  
mutate(el `dataframe`, `Nueva_columna` = `Operacion para generarla`)

In [15]:
#Calcular el PIB per capita a partir de dividir la columna gdp (gross domestic product) entre la de population
#Nota: para eliminar  primero las filas que tengan ALGUN valor NA (en cualquier columna), se usa na.omit()
df %>% mutate(gdp_per_capapita = gdp/population) %>% na.omit() %>%  head()

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region,gdp_per_capapita
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<dbl>
2,Algeria,1960,148.2,47.5,7.65,11124892,13828152297,Africa,Northern Africa,1242.992
5,Argentina,1960,59.87,65.39,3.11,20619075,108322326649,Americas,South America,5253.5008
8,Australia,1960,20.3,70.87,3.45,10292328,96677859364,Oceania,Australia and New Zealand,9393.1965
9,Austria,1960,37.3,68.75,2.7,7065525,52392699681,Europe,Western Europe,7415.2593
11,Bahamas,1960,51.0,62.0,4.5,109526,1306269490,Americas,Caribbean,11926.5699
13,Bangladesh,1960,176.3,46.2,6.73,48200702,12767231590,Asia,Southern Asia,264.8765


### Case_when (generar valores según múltiples condiciones)

La función case_when es muy util cuando se quiere, por ejemplo, crear una nueva variable que sea el resultado de aplicar varios argumentos condicionales. Por ejemplo, si queremos que nos añada un valor o una etiqueta dependiendo de si se cumple una u otra condición.  

**Sintaxis**

La sintaxis de case_when puede parecer inicialmente más complicada, pero una vez entendida resulta sencilla de usar y ampliar los casos.

de forma basica, sería:
case_when(`condición` ~ `resultado`)

En la condición se incluye un conjunto de datos (p.ej. una columna de una tabla), y el resultado de la función será una lista de datos de la misma longitud, los cuales mostrarán el `resultado` en los casos en los que se cumpla la `condición` impuesta.

Ejemplo: con los datos de 2011, ver qué paises serían considerados como desarrollados ( _developed_ ) o en vías de desarrollo ( _developing_ ) en base a si el cálculo de PIB per capita es > 12000 (developed) o menor (developing)

In [19]:
# Crear tabla filtrada con datos solo de 2011
df_2011 <- df %>% filter(year == 2011)

Al aplicar la función case_when, el resultado es una lista de la misma longitud que el input

In [26]:
case_when((df_2011$gdp / df_2011$population) >= 12000 ~ "DEVELOPED",
         (df_2011$gdp / df_2011$population) <= 12000 ~ "Developing")

Este resultado tiene 2 problemas:  
1) Una lista como tal no es útil, es mejor si se asigna a una nueva variable de la tabla.  
2) Hay casos que se escapan a las condiciones descritas (los NAs, por ejemplo).

Para ello, vamos a guardar el resultado como una nueva variable  **STATUS** en la tabla, pero esta vez definiendo como developing countries a los que tengan un resultado > 5000, y indicando dos nuevas condiciones.  
Primero, que los resultados que sean NA los marque como "No info".  
Segundo que los casos que no caigan dentro de ninguna de las condiciones se les asigne la etiqueta "other" (en este caso serían las economías del tercer mundo). Indicamos esos "casos restantes sin contemplar" utilizando como último argumento _TRUE_


**Nota:** las condiciones en case_when se aplican en el orden escrito, es decir, si un caso cumple la primera, ya no será considerado en las siguientes.

In [30]:
df_2011$STATUS <- case_when((df_2011$gdp / df_2011$population) >= 12000 ~ "DEVELOPED",
                       (df_2011$gdp / df_2011$population) >= 5000 ~ "Developing",
                        is.na(df_2011$gdp / df_2011$population) ~ "No information",
                        TRUE ~ "Other")

head(df_2011)
table(df_2011$STATUS) #para ver un conteo de cuantos casos hay de cada tipo

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region,STATUS
Unnamed: 0_level_1,<fct>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<chr>
1,Albania,2011,14.3,77.4,1.75,2886010,6321690864,Europe,Southern Europe,Other
2,Algeria,2011,22.8,76.1,2.83,36717132,81143448101,Africa,Northern Africa,Other
3,Angola,2011,106.8,58.1,6.1,21942296,27013935821,Africa,Middle Africa,Other
4,Antigua and Barbuda,2011,7.2,75.9,2.12,88152,801787943,Americas,Caribbean,Developing
5,Argentina,2011,12.7,76.0,2.2,41655616,472935255184,Americas,South America,Developing
6,Armenia,2011,15.3,73.5,1.5,2967984,4290990647,Asia,Western Asia,Other



     DEVELOPED     Developing No information          Other 
            31             29             17            108 

### Un poco de repaso...
Teniendo las funciones principales, vamos a concatenar unas cuantas.

Ejemplo: paises europeos con mayor PIB per capita en el año 2011  
Para ello, en una sola linea continua, vamos a...
- seleccionar solo nombre de pais, continente, PIB (GDP) y población
- filtrar solo los que correspondan al año y la region
- calcular la nueva columna con el valor de PIB per capita
- sacar un ranking solo con las 10 con mayor valor de esa estadística (funcion top_n(), mezcla de sample_n() y arrange() )

In [17]:
df2 <- df %>% select(c(country, year, population, gdp, continent)) %>% #seleccion de columnas
             filter(continent == 'Europe' & year == 2011) %>% #filtrar casos
             mutate(gdp_percap = gdp/population) %>% #crear nueva columna
             top_n(10, gdp_percap) #top 10 ordenado por gdp_percap
df2

country,year,population,gdp,continent,gdp_percap
<fct>,<int>,<dbl>,<dbl>,<fct>,<dbl>
Austria,2011,8423559,230913300000.0,Europe,27412.8
Denmark,2011,5576577,171051900000.0,Europe,30673.27
Finland,2011,5395816,149573400000.0,Europe,27720.26
Iceland,2011,321030,11105160000.0,Europe,34592.27
Luxembourg,2011,519981,26928590000.0,Europe,51787.64
Netherlands,2011,16689863,446362200000.0,Europe,26744.51
Norway,2011,4953945,198252600000.0,Europe,40019.13
Sweden,2011,9462352,316798600000.0,Europe,33479.9
Switzerland,2011,7925813,300938400000.0,Europe,37969.41
United Kingdom,2011,63164949,1756002000000.0,Europe,27800.26


## Group by (agrupar)

group_by permite agrupar las observaciones en funcion de una variable de interés, y calcular estadísticas en cada grupo (media, numero de casos, etc...)

Para ello, el procedimiento cuenta de 2 pasos: 

1) generar una tabla agrupada con la funcion `group_by()`, que en apariencia será igual que la original (pero ya tiene el criterio de agrupamiento como una propiedad "oculta") 

2) extraer un resumen o tabla agrupada con la funcion `summarise()`, donde se aplica una **función de agregación** que nos devolverá una variable "resumen" con la información que queramos calculada para cada grupo

In [18]:
#Agrupar los datos por cada año
#resumir la tabla al promedio de esperanza de vida en gada grupo (año)
df %>% group_by(year) %>% 
    summarise("Avg life expectancy" = mean(life_expectancy))

year,Avg life expectancy
<int>,<dbl>
1960,54.89211
1961,55.39892
1962,55.84605
1963,56.36076
1964,56.87789
1965,57.25757
1966,57.68438
1967,58.12005
1968,58.4787
1969,58.83022


In [25]:
#Seleccionar solo los paises europeos
#agrupar los datos de todo el periodo por cada pais
#y crear una tabla resumiendo el promedio de PIB en cada pais para todos los años (sin contar NAs)

df %>% filter(continent == 'Europe') %>%
    group_by(country) %>%
    summarise('Mean GDP' = mean(gdp, na.rm = TRUE)) %>% 
    head(10)

country,Mean GDP
<fct>,<dbl>
Albania,3720794204
Austria,136429756535
Belarus,15948205130
Belgium,169790462909
Bosnia and Herzegovina,5884484391
Bulgaria,14527469868
Croatia,23264163380
Czech Republic,63891609013
Denmark,116892788898
Estonia,6826465315


#### Summarise_each

### Joins (uniones de tablas)

Las funciones de joins se utilizan para combinar datos de dos tablas distintas en una sola tabla, siempre y cuando ambas tablas compartan una columna con información equivalente que permita emparejar casos. Los joins son especialmente utiles en lenguajes de manejo de bases de datos (como SQL) para recopilar información que está repartida entre varias tablas distintas con algún sistema de vinculación.  

Los 4 tipos de joins más comunes son:  

- **Inner join:** la tabla resultante contiene información solo de los casos que aparezcan en ambas tablas.  
- **Full join:** se combinan todos los registros de las dos tablas. Los registros de una tabla que no aparezcan en la otra tendrán NAs en las variables correspondientes a esa otra tabla.  
- **Left/Right join:** a los registros de una de las tablas se le añade la información que tengan asociada en la otra tabla, o NAs si no aparecen.  

![types of joins](https://www.educative.io/cdn-cgi/image/f=auto,fit=contain,w=600/api/page/4815761290297344/image/download/5643241383264256)

Como segundo dataset, vamos a utilizar una tabla con datos de índice de felicidad ([World Happines Index](https://en.wikipedia.org/wiki/World_Happiness_Report)) para periodo 2010-2012 obtenidos de [este enlace](https://photius.com/rankings/happiness_country_rankings_2012.html).

Nota: para abrir la tabla se puede usar la función `read.csv2()` (porque el separador es ";") de R base, o bien como en este caso usar del paquete `readr` (tambien en Tidyverse) la función `read_delim()` indicando el delimitador 

In [70]:
happiness_df <- read_delim("https://raw.githubusercontent.com/AngelArcones/R_for_friends/main/Tutoriales/Datasets/happiness_index.csv",
                 delim = ";", col_types = cols())
head(happiness_df, 10)

happiness_ranking,country,happiness_score
<dbl>,<chr>,<dbl>
1,Denmark,7.693
2,Norway,7.655
3,Switzerland,7.65
4,Netherlands,7.512
5,Sweden,7.48
6,Canada,7.477
7,Finland,7.389
8,Austria,7.369
9,Iceland,7.355
10,Australia,7.35


**Pequeño bonus track**  
Para comprobar si los paises de esta nueva tabla se puede usar la siguiente combinación (todo con comandos de R base).  
Primero, saber cuantos paises tiene la tabla `happiness_df`.  
Segundo, sacar con `%in%` una lista de booleanos (TRUE / FALSE) según si cada país de esta tabla aparece en la original, y obtener la suma del total de la lista.

In [71]:
length(happiness_df$country)

In [72]:
sum(happiness_df$country %in% df$country)

Esto funciona porque por defecto, para R (y otros lenguajes), TRUE = 1 y FALSE = 0

In [13]:
TRUE + TRUE

In [16]:
FALSE + FALSE

In [14]:
1 + TRUE

In [15]:
sum(c(TRUE, TRUE, FALSE, TRUE, FALSE))

Para averiguar cual es el pais que no coincide, usaré un filtro por lista de TRUE/FALSE:  
1) partiendo de la lista de valores de columna que quiero comprobar (happiness_df\$country)  
2) creo una lista de TRUE o FALSE según los valores que cumplen una condición: los paises de rd que NO aparecen en df (el símbolo `!` implica negación o contrario)  
3) al estar dentro de la selección de valores `[...]` de la lista inicial (rd\$country), el resultado son solo los elementros que coinciden con un TRUE

In [45]:
happiness_df$country[!happiness_df$country %in% df$country]

Estos son los paises cuyos nombres en la tabla de happiness index no coinciden con la de datos mundiales. Para los ejemplos de uniones podemos continuar sin corregirlo, aunque para un caso real habría que realizar un emparejamiento mas detallado de equivalencias de nombres.

### Union interna (inner join) 
En primer lugar, vamos a probar a hacer una unión del los casos compartidos entre ambas tablas. En este caso nos referiremos a las tablas así:  
- df (datos globales) será la tabla de partida y por lo tanto la de la "izquierda"  
- rd será la segunda tabla, la de la "derecha"

**Sintaxis:** 
inner_join(`dataframe izquierda`, `dataframe derecha`, `by` = campo/s en común para unir)  

Por defecto, si no se especifica el `by`, buscará una columna con el mismo nombre en ambas tablas. Es preferible especificarselo, y es fundamental en casos donde el nombre no coincida. En ese caso, se haría por ejemplo `by = c("country" = "pais")`

In [69]:
#union por "country"
inner_join(df, happiness_df, by = "country") %>% head(10)

Unnamed: 0_level_0,country,year.x,infant_mortality,life_expectancy,fertility,population,gdp,continent,region,happiness_ranking,happiness_score,year.y
Unnamed: 0_level_1,<chr>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,Albania,1960,115.4,62.87,6.19,1636054,,Europe,Southern Europe,62,5.55,2011
2,Algeria,1960,148.2,47.5,7.65,11124892,13828152297.0,Africa,Northern Africa,73,5.422,2011
3,Angola,1960,208.0,35.98,7.32,5270844,,Africa,Middle Africa,61,5.589,2011
4,Argentina,1960,59.87,65.39,3.11,20619075,108322326649.0,Americas,South America,29,6.562,2011
5,Armenia,1960,,66.86,4.55,1867396,,Asia,Western Asia,128,4.316,2011
6,Australia,1960,20.3,70.87,3.45,10292328,96677859364.0,Oceania,Australia and New Zealand,10,7.35,2011
7,Austria,1960,37.3,68.75,2.7,7065525,52392699681.0,Europe,Western Europe,8,7.369,2011
8,Azerbaijan,1960,,61.33,5.57,3897889,,Asia,Western Asia,116,4.604,2011
9,Bahrain,1960,134.5,51.64,7.09,162501,,Asia,Western Asia,79,5.312,2011
10,Bangladesh,1960,176.3,46.2,6.73,48200702,12767231590.0,Asia,Southern Asia,108,4.804,2011


El ejemplo anterior funciona, pero le une la misma información a todas las observaciones de cada país, que corresponde solo a un periodo concreto.  

Para solucionarlo, vamos a añadir a la tabla happiness_df un campo de año (2011). De esta manera, ahora se puede realizar la unión por más de un campo (país y año), y en ese caso irá haciéndolo jerárquicamente en el orden en el que se indiquen (primero queremos unión por país, y dentro de eso unión al año concreto

In [52]:
#Unión usando las dos tablas originales
#Los campos de unión se indican con un vector c(...)
happiness_df$year <- 2011
inner_join(df, happiness_df, by = c("country", "year")) %>% head(10)

Unnamed: 0_level_0,country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region,happiness_ranking,happiness_score
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<dbl>,<dbl>
1,Albania,2011,14.3,77.4,1.75,2886010,6321690864.0,Europe,Southern Europe,62,5.55
2,Algeria,2011,22.8,76.1,2.83,36717132,81143448101.0,Africa,Northern Africa,73,5.422
3,Angola,2011,106.8,58.1,6.1,21942296,27013935821.0,Africa,Middle Africa,61,5.589
4,Argentina,2011,12.7,76.0,2.2,41655616,472935255184.0,Americas,South America,29,6.562
5,Armenia,2011,15.3,73.5,1.5,2967984,4290990647.0,Asia,Western Asia,128,4.316
6,Australia,2011,3.8,82.2,1.88,22542371,573453982173.0,Oceania,Australia and New Zealand,10,7.35
7,Austria,2011,3.4,80.7,1.44,8423559,230913313559.0,Europe,Western Europe,8,7.369
8,Azerbaijan,2011,32.5,70.8,1.96,9227512,21443003646.0,Asia,Western Asia,116,4.604
9,Bahrain,2011,6.7,78.8,2.12,1306014,,Asia,Western Asia,79,5.312
10,Bangladesh,2011,37.2,69.3,2.24,153405612,88507817581.0,Asia,Southern Asia,108,4.804


### Union de múltiples tablas  
Para mostrar un ejemplo más complejo, vamos a cargar dos tablas más:  
- Ranking de Human Developement Index para el mismo periodo, obtenido de [aquí](https://www.nationsonline.org/oneworld/human_development_2011.htm)  
- Lista de los paises de la [OECD](https://en.wikipedia.org/wiki/OECD)

In [64]:
hdi_df <- read_delim("https://raw.githubusercontent.com/AngelArcones/R_for_friends/main/Tutoriales/Datasets/HDI_index.csv",
                 delim = ";", col_types = cols())
head(hdi_df, 5)

hdi_ranking,Country,hdi_score
<dbl>,<chr>,<dbl>
1,Norway,0.943
2,Australia,0.929
3,Netherlands,0.91
4,United States,0.91
5,New Zealand,0.908


In [56]:
oecd_df <- read_delim("https://raw.githubusercontent.com/AngelArcones/R_for_friends/main/Tutoriales/Datasets/OECD_countries.csv",
                 delim = ";", col_types = cols())
oecd_df

country
<chr>
Austria
Belgium
Canada
Denmark
France
Germany
Greece
Iceland
Ireland
Italy


Y con estos 4 datasets (datos globales, happiness index, HDI index y OECD) la idea va a ser obtener una tabla final con toda la información económica y de desarrollo, para los paises miembros de la OECD. Para ello, los pasos son:  
1) Unir la información global con la de happines, coincidiendo pais y año (inner join)
2) A esa tabla, incorporarle la información disponible de HDI index (left join)
3) El resultado, combinarlo con la de OECD para quedarnos solo con los paises ahí incluidos (inner join)  

Todo esto se puede hacer en una sola línea, concatenando joins. El resultado final se guardará en un nuevo objeto `total_df`.

**NOTA**: en la tablacde HDI, la columna se llama "Country" con mayuscula. En ese caso se debe indicar que esa es la equivalente a "country"

In [68]:
total_df <- inner_join(df, happiness_df, by = c("country", "year")) %>%
            left_join(hdi_df, by = c("country" = "Country")) %>%
            inner_join(oecd_df, by = "country") %>%
            arrange(happiness_ranking)
total_df

country,year,infant_mortality,life_expectancy,fertility,population,gdp,continent,region,happiness_ranking,happiness_score,hdi_ranking,hdi_score
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>
Denmark,2011,3.2,79.9,1.76,5576577,171051900000.0,Europe,Northern Europe,1,7.693,16.0,0.895
Norway,2011,2.5,81.1,1.88,4953945,198252600000.0,Europe,Northern Europe,2,7.655,1.0,0.943
Switzerland,2011,3.8,82.6,1.51,7925813,300938400000.0,Europe,Western Europe,3,7.65,11.0,0.903
Netherlands,2011,3.6,80.9,1.76,16689863,446362200000.0,Europe,Western Europe,4,7.512,3.0,0.91
Sweden,2011,2.4,81.7,1.9,9462352,316798600000.0,Europe,Northern Europe,5,7.48,10.0,0.904
Canada,2011,4.7,81.6,1.61,34499905,894251900000.0,Americas,Northern America,6,7.477,6.0,0.908
Austria,2011,3.4,80.7,1.44,8423559,230913300000.0,Europe,Western Europe,8,7.369,19.0,0.885
Iceland,2011,1.8,82.9,2.11,321030,11105160000.0,Europe,Northern Europe,9,7.355,14.0,0.898
United States,2011,6.1,78.9,1.9,312390368,11744220000000.0,Americas,Northern America,17,7.082,4.0,0.91
Ireland,2011,3.4,80.6,2.0,4652714,122623600000.0,Europe,Northern Europe,18,7.076,7.0,0.908


### Reshapes (cambiar la distribución de la tabla)

Pasar filas a columnas o viceversa