# **Introducción a R para Análisis de Datos**
## Capítulo 3: Manipulación de Datos 

**Autor:** Juan Martin Bellido  

**Descripción**  
En este capitulo aprenderemos a utilizar las librería *dplyr* para realizar operaciones avanzadas de manipulación de datos.

**¿Feedback? ¿comentarios?** Por favor compártelo conmigo escribiéndome por [LinkedIn](https://www.linkedin.com/in/jmartinbellido/)  



## INDICE
---
1. Seleccionar columnas 
2. Filtrar filas
3. Ordenar *data frame*
4. Crear nuevos campos
5. Agregar datos
6. Ejercicios


Convenciones utilizadas en este documento
> 👉 *Esto es una nota u observación*

> ⚠️ *Esto es una advertencia*

In [None]:
# instalamos librería "data.table" porque Google colab no la incluye por defecto
install.packages("data.table")

In [None]:
# importamos las librerías que utilizaremos
require(dplyr)
require(data.table)

In [4]:
# (opcional) editamos las opciones globales para evitar que R utilice notación científica
options(scipen=999)

# 1. Seleccionar columnas 
---

Comenzamos aprendiendo a reducir un *data frame* en número de campos (columnas).

### Seleccionando columnas

Para seleccionar columnas específicas en un *data frame* utilizaremos la función `dplyr::select()`.

```
dplyr::select(df, field_1, field_2 ...)
```



In [5]:
# importamos un df
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", "…
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 19…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "S…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton", …
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, 4…
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30.…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA,…


In [6]:
# comenzamos seleccionando dos columnas específicas utilizando la sintaxis básica 
dplyr::select(df_james_bond, Film, Director)

Film,Director
<chr>,<chr>
Dr. No,Terence Young
From Russia with Love,Terence Young
Goldfinger,Guy Hamilton
Thunderball,Terence Young
Casino Royale,Ken Hughes
You Only Live Twice,Lewis Gilbert
On Her Majesty's Secret Service,Peter R. Hunt
Diamonds Are Forever,Guy Hamilton
Live and Let Die,Guy Hamilton
The Man with the Golden Gun,Guy Hamilton



*R no permite anidar operaciones de forma nativa*. Esto es algo que logramos implementar utilizando un operador específico que forma parte de la librería *dplyr*. Nos referimos a este como el *pipe operator (%>%)*


```
object %>% function() %>% function() ...
```


In [7]:
# repetimos la operación anterior, esta vez utilizando el "pipe operator"
df_james_bond %>% select(
  Film        # columna 1
  ,Director   # columna 2
)

Film,Director
<chr>,<chr>
Dr. No,Terence Young
From Russia with Love,Terence Young
Goldfinger,Guy Hamilton
Thunderball,Terence Young
Casino Royale,Ken Hughes
You Only Live Twice,Lewis Gilbert
On Her Majesty's Secret Service,Peter R. Hunt
Diamonds Are Forever,Guy Hamilton
Live and Let Die,Guy Hamilton
The Man with the Golden Gun,Guy Hamilton


In [8]:
# adicionalmente, al seleccionar columnas podremos renombrar las variables
df_james_bond %>% select(
  james_bond_film = Film                    # seleccionamos una primer columna y la renombramos
  ,film_director = Director                 # seleccionamos una segunda columna y la renombramos
  ,film_budget = Budget                     # seleccionamos una tercer columna y la renombramos
  ,bond_actor_salary = `Bond Actor Salary`  # en este caso, al renombrar la variable sin espacios, nos libraremos de las comillas
)

james_bond_film,film_director,film_budget,bond_actor_salary
<chr>,<chr>,<dbl>,<dbl>
Dr. No,Terence Young,7.0,0.6
From Russia with Love,Terence Young,12.6,1.6
Goldfinger,Guy Hamilton,18.6,3.2
Thunderball,Terence Young,41.9,4.7
Casino Royale,Ken Hughes,85.0,
You Only Live Twice,Lewis Gilbert,59.9,4.4
On Her Majesty's Secret Service,Peter R. Hunt,37.3,0.6
Diamonds Are Forever,Guy Hamilton,34.7,5.8
Live and Let Die,Guy Hamilton,30.8,
The Man with the Golden Gun,Guy Hamilton,27.7,


In [9]:
# podemos negar (-) columnas para evitarlas
df_james_bond %>% select(
  -Director
  ,-Budget
)
# en este caso, hemos seleccionado TODAS las variables disponibles en el data frame, salvo dos específicas que hemos negativizado

Film,Year,Actor,Box Office,Bond Actor Salary
<chr>,<int>,<chr>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,448.8,0.6
From Russia with Love,1963,Sean Connery,543.8,1.6
Goldfinger,1964,Sean Connery,820.4,3.2
Thunderball,1965,Sean Connery,848.1,4.7
Casino Royale,1967,David Niven,315.0,
You Only Live Twice,1967,Sean Connery,514.2,4.4
On Her Majesty's Secret Service,1969,George Lazenby,291.5,0.6
Diamonds Are Forever,1971,Sean Connery,442.5,5.8
Live and Let Die,1973,Roger Moore,460.3,
The Man with the Golden Gun,1974,Roger Moore,334.0,


In [10]:
# podemos forzar combinaciones únicas utilizando la función unique()
df_james_bond %>% select(
  Director                      # seleccionamos variable Director
) %>% unique()                  # forzamos valores únicos

Director
<chr>
Terence Young
Guy Hamilton
Ken Hughes
Lewis Gilbert
Peter R. Hunt
John Glen
Irvin Kershner
Martin Campbell
Roger Spottiswoode
Michael Apted


# 2. Filtrando filas
---
A continuación, aprenderemos una forma sencilla de filtrar observaciones en función de criterios lógicos utilizando la función `dplyr::filter()`.


```
dplyr::filter(df, condition_1, condition_2, ...)
```



In [11]:
# filtramos el df utilizando una condición
df_james_bond %>% filter(Year>2000) # únicamente películas a partir del año 2000

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [12]:
# podemos combinar múltiples funciones de manipulación utilizando el "pipe operator"
# el orden de las funciones es fundamental, ya que estamos haciendo operaciones de a pasos 
df_james_bond %>% select(Film,Year) %>% filter(Year>2000) 
# si hubiéramos omitido seleccionar la columna "year", no podríamos luego filtrar por ese campo

Film,Year
<chr>,<int>
Die Another Day,2002
Casino Royale,2006
Quantum of Solace,2008
Skyfall,2012
Spectre,2015


In [13]:
# en el siguiente ejercicio, filtramos utilizando dos coindicines
# agregar una nueva condición como parámetro, es exactamente lo mismo que agregarla utilizando el operador "&" (AND)
df_james_bond %>% filter(
  Year>2000
  ,Actor == 'Daniel Craig'
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [14]:
# comprobamos que obtenemos el resultado utilizando una única condición compuesta por dos elementos
# filtramos por películas que hayan sido lanzadas a partir de 2000 y cuyo actor sea Daniel Craig
df_james_bond %>% filter(
  Year>2000 & Actor == 'Daniel Craig' 
)


Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [15]:
# distinto sería si ambos elementos en la condición fueran de tipo OR ("|")
df_james_bond %>% filter(
  Year>2000 | Actor == 'Daniel Craig' 
)
# filtramos por películas que hayan sido lanzadas a partir de 2000 o cuyo actor sea Daniel Craig

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [16]:
# filtramos un campo según un vector, utilizando el operador "IN"
df_james_bond %>% filter(
  Actor %in% c('Daniel Craig','Pierce Brosnan','Sean Connery') 
)
# filtramos por películas cuyos actores sean alguno de los especificados

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Never Say Never Again,1983,Sean Connery,Irvin Kershner,380.0,86.0,
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5


In [17]:
# podemos negar condiciones utilizando el operador "!" (negación)
df_james_bond %>% filter(
  !Actor %in% c('Daniel Craig','Pierce Brosnan','Sean Connery') 
)
# filtramos por películas cuyos actores NO sean los especificados

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
The Living Daylights,1987,Timothy Dalton,John Glen,313.5,68.8,5.2


# 3. Ordenar *data frame*
---

In [18]:
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", "…
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 19…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "S…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton", …
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, 4…
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30.…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA,…



La función `dplyr::arrange()` nos permite establecer un criterio para ordenar filas en un *data frame*.

```
dplyr::arrange(object, columns ...)
```



In [19]:
# ordenamos el data frame según variable texto
df_james_bond %>% arrange(Actor) 
# por defecto, el criterio es ascendente; al ser campo de tipo texto será en orden alfabético

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [20]:
# ordenamos según dos variables
df_james_bond %>% arrange(Actor,`Box Office`)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1


In [21]:
# para cambiar el criterio de orden a descendente, debemos utilizar la función desc() en el parámetro de la función arrange()
df_james_bond %>% arrange(desc(`Box Office`))

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4


# 4. Crear nuevos campos
---
La función `dplyr::mutate()` permite crear columnas nuevas en un *data frame*.

```
dplyr::mutate(df, new_field_1, new_field 2, ...)
```



In [22]:
# creamos una nueva columna como cosciente entre dos variables existentes
df_james_bond %>% mutate(
  profit = `Box Office`/Budget    # nombramos nuestra nueva columna "profit"
) %>% arrange(desc(profit))       # ordenamos el resultado, según la nueva columna definida


Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,profit
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,64.114286
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,44.107527
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,43.15873
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,20.24105
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,14.944805
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,12.752161
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,12.057762
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,,11.818182
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,8.584307
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,7.815013


In [23]:
# repetimos el ejercicio anterior, en este caso utilizamos la función round() para redondear el resultado y forzar decimales
df_james_bond %>% mutate(
  profit = round(`Box Office`/Budget,2),  # el segundo parámetro de la función round() establece el número de decimales
  profit_EUR = round(profit / 1.2)        # por defecto, round() fuerza a números enteros
) %>% arrange(desc(profit_EUR))


Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,profit,profit_EUR
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,64.11,53
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,44.11,37
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,43.16,36
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,20.24,17
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,14.94,12
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,12.75,11
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,12.06,10
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,,11.82,10
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,8.58,7
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,7.82,7


#### Nuevas variables a partir de pruebas lógicas

Con frecuencia, al trabajar con datos, buscamos crear nuevas variables asignando valores por fila partiendo de pruebas lógicas. En estos casos, nos apartamos de asignar valores simplemente utilizando operaciones matemáticas entre otras variables existentes. 

Existen dos métodos en R particularmente populares para esta tarea:

*   `if_else()`
*   `case_when()`




Comenzamos utilizando la función `dplyr::if_else()`.

```
dplyr::if_else(condition, value if true, value if false)
```

In [24]:
# al definir una variable nueva utilizando función mutate(), combinaremos con función if_else() para crear una prueba lógica
# creamos una nueva variable con una clasificación de películas TOP MOVIE vs. NOT IN THE TOP
df_james_bond %>% mutate(
  film_segment = if_else(
    Actor == 'Sean Connery' | Budget> 100,'TOP MOVIE','NOT IN THE TOP'
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,TOP MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,TOP MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,TOP MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,TOP MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,TOP MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,TOP MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,NOT IN THE TOP
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,NOT IN THE TOP


In [25]:
# podemos anidar condiciones if_else() para crear pruebas complejas
df_james_bond %>% mutate(
  film_segment = if_else(
    Actor == 'Sean Connery' | Budget> 100
    ,'1st CLASS MOVIE'
    ,if_else(
      Actor == 'Roger Moore' | Budget> 100
      ,'2nd CLASS MOVIE'
      ,'NOT IN THE TOP'
    )
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,1st CLASS MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,1st CLASS MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,1st CLASS MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,1st CLASS MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,1st CLASS MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,1st CLASS MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,2nd CLASS MOVIE
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,2nd CLASS MOVIE


De forma alternativa, podemos utilizar la función `dplyr::case_when()`.

```
dplyr::case_when(
   condition_1 ~ value_if_true
  ,condition_2 ~ value_if_true
  ,condition_3 ~ value_if_true
  ...
)
```

In [26]:
# la función case_when(), imitando mismo operador en lenguaje SQL, permite una sintaxis más límpia para crear condiciones complejas
# observar que las condiciones tienen un orden jerárquico y no necesitan ser mutuamente excluyentes
# en caso de que se cumpla una condición, el sistema no seguirá evaluando condiciones posteriores  

df_james_bond %>% mutate(
  film_segment = case_when(
    Actor == 'Sean Connery' | Budget > 100 ~ '1st CLASS MOVIE',     # condición 1
    Actor == 'Roger Moore' | Budget > 100 ~ '2st CLASS MOVIE',      # condición 2
    Actor == 'Daniel Craig' | Budget > 100 ~ '3rd CLASS MOVIE',     # condición 3
    TRUE == TRUE ~ 'NOT IN THE TOP'                                 # (opcional) esta condición se cumple siempre (TRUE = TRUE), por tanto nos sirve como "en caso de que ninguna otra se cumpla"
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,1st CLASS MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,1st CLASS MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,1st CLASS MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,1st CLASS MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,1st CLASS MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,1st CLASS MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,2st CLASS MOVIE
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,2st CLASS MOVIE


# 5. Agregaciones
---

Una agregación es una compilación de datos en un *data frame*, donde alteramos la unidad de observación original, llevando la información a un nivel superior de abstracción. Al realizar una agregación, siempre utilizaremos una función de agregación específica para determinar el tipo de operación.

*Funciones básicas de agregación*

| Function  	  | Description        	|
|-----------|--------------------|
| *sum()*    	  | Sum                	|
| *mean()*   	  | Mean               	|
| *median()* 	  | Median             	|
| *sd()*     	  | Standard deviation 	|
| *min()*    	  | Minimum            	|
| *max()*    	  | Maximum            	|
| *n()*      	  | Count              	|
| *n_distinct()*| Count distinct      |   


In [27]:
# importamos un df
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", "…
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 19…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "S…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton", …
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, 4…
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30.…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA,…


### Introducción a agregaciones

Utilizamos la función `dplyr::summarise()` para realizar una aggregación.

```
dplyr::summarise(df, agg_1, agg_2, ...)
```



In [28]:
# creamos una primer agregación, donde obtendremos la suma total de la variable "box office"
## esto podría interpretarse como el total de ingresos generados por todas las películas de James Bond 
df_james_bond %>% summarise(
  total_box_office = sum(`Box Office`)    # definimos el nombre de la variable y utilizamos una función de agregación para establecer un criterio
)

total_box_office
<dbl>
12781.9


In [29]:
# los valores nulos (NA) pueden causarnos problemas
## utilizaremos un parámetro adicional en la función de agregación, para especificar que no tome en cuanta las observaciones con valores NA
## en el ejemplo a continuación, sumaremos los salarios de los actores en todas las películas
df_james_bond %>% summarise(
  total_bond_salary_v1 = sum(`Bond Actor Salary`)                
  ,total_bond_salary_v2 = sum(`Bond Actor Salary`,na.rm=TRUE)    # el segunda parámetro "na.rm = TRUE" (NA remove) evita aquellas observaciones NA al realizar el cálculo
)
## la primer variable tendrá valor NA, ya que al menos una observación es NA

total_bond_salary_v1,total_bond_salary_v2
<dbl>,<dbl>
,123.3


In [30]:
# a continuación, utilizaremos distintas funciones de agregación para jugar con los datos disponibles en el dataset
df_james_bond %>% summarise(
  avg_box_office = mean(`Box Office`)
  ,avg_budget = mean(Budget)
  ,avg_bond_actor_salary = mean(`Bond Actor Salary`,na.rm = TRUE)
)

avg_box_office,avg_budget,avg_bond_actor_salary
<dbl>,<dbl>,<dbl>
491.6115,80.71923,6.85


### Agregaciones agrupadas

Podemos agrupar agregaciones utilizando la función `dplyr::group_by()`.

```
dplyr::group_by(df, field_1, field_2, ...)
```





In [31]:
# en el ejercicio a continuación, buscaremos obtener métricas según Director de la película
# nota: la unidad de observación original en el data frame es "película" (tenemos una película por fila)
# ahora lo queremos abstreaer a un nivel superior: director (existen varias películas por director)

df_james_bond %>% group_by(
  Director
) %>% summarise(
  avg_box_office = mean(`Box Office`)
  ,median_budget = median(Budget)
  ,avg_bond_actor_salary = mean(`Bond Actor Salary`,na.rm = TRUE)
) %>% arrange(desc(avg_bond_actor_salary))

Director,avg_box_office,median_budget,avg_bond_actor_salary
<chr>,<dbl>,<dbl>,<dbl>
Lee Tamahori,465.4,154.2,17.9
Sam Mendes,835.1,188.25,14.5
Michael Apted,439.5,158.3,13.5
Roger Spottiswoode,463.2,133.9,10.0
Marc Forster,514.2,181.4,8.1
John Glen,332.56,56.7,7.5
Guy Hamilton,514.3,29.25,4.5
Lewis Gilbert,527.4,59.9,4.4
Martin Campbell,550.0,111.1,4.2
Terence Young,613.5667,12.6,2.3


In [32]:
# realizamos un ejercicio similar al anterior, agregando datos a nivel actor
df_james_bond %>% group_by(Actor) %>% summarise(
  total_salary = sum(`Bond Actor Salary`,na.rm = TRUE)
  ,max_salary_in_movie = max(`Bond Actor Salary`,na.rm = TRUE)  # función max() aplicada a salario de actor en película (sueldo mayor en película)
  ,count_movies = n()                                           # n() cuenta observaciones (cantidad de películas)
) %>% arrange(desc(total_salary))

[1m[22m[36mℹ[39m In argument: `max_salary_in_movie = max(`Bond Actor Salary`, na.rm = TRUE)`.
[36mℹ[39m In group 2: `Actor = "David Niven"`.
[33m![39m no non-missing arguments to max; returning -Inf”


Actor,total_salary,max_salary_in_movie,count_movies
<chr>,<dbl>,<dbl>,<int>
Pierce Brosnan,46.5,17.9,4
Daniel Craig,25.9,14.5,4
Sean Connery,20.3,5.8,7
Roger Moore,16.9,9.1,7
Timothy Dalton,13.1,7.9,2
George Lazenby,0.6,0.6,1
David Niven,0.0,-inf,1


### Agregaciones condicionadas

En ocasiones, nos interesa definir un subconjunto específico de observaciones (filas) para cada variable agregada. En otras palabras, podemos definir condiciones específicas para cada variable al configurar una función de agregación.  


In [33]:
# en el ejemplo a continuación, realizaremos una agregación global (sin agrupar), pero definiendo condiciones en las variables agregadas
df_james_bond %>% summarise(
  sum_salary_Roger_Moore = sum(`Bond Actor Salary`[Actor == 'Roger Moore'],na.rm = TRUE)    # únicamente suma de salarios cuando el actor es Rooger Moore
  ,sum_salary_Daniel_Craig = sum(`Bond Actor Salary`[Actor == 'Daniel Craig'],na.rm = TRUE) # únicamente suma de salarios cuando el actor es Daniel Craig
)

sum_salary_Roger_Moore,sum_salary_Daniel_Craig
<dbl>,<dbl>
16.9,25.9


In [34]:
# las agregaciones condicionadas pueden utilizarse para "pivotear" (o "transponer") una tabla (es decir, cambiar filas por columnas)
# en el ejercicio debajo no utilizamos agregación condicionada y obtenemos la misma información, reportada de otra forma

df_james_bond %>% filter(
  Actor %in% c('Roger Moore','Daniel Craig')            # filtramos por dos actores      
) %>% group_by(
  Actor                                                 # agrupamos por actor (quiero agrupar la variable agregada según actor)
) %>% summarise(
  sum_salary = sum(`Bond Actor Salary`,na.rm = TRUE)    # suma de salarios en películas
)

Actor,sum_salary
<chr>,<dbl>
Daniel Craig,25.9
Roger Moore,16.9


In [35]:
# realizamos otro ejercicio de agregaciones condicionadas
# en este caso, agrupamos las métricas agregadas según Director (observar que siempre agrupamos según variables categóricas)

df_james_bond %>% group_by(Director) %>% summarise(
  total_actor_salary = sum(`Bond Actor Salary`,na.rm = TRUE)                                # esta variable agregada no es condicionada, no estamos limitando las observaciones a ser agragadas
  ,sum_salary_Roger_Moore = sum(`Bond Actor Salary`[Actor == 'Roger Moore'],na.rm = TRUE)   # agregamos salarios para actor Roger Moore
  ,sum_salary_Daniel_Craig = sum(`Bond Actor Salary`[Actor == 'Daniel Craig'],na.rm = TRUE) # agregamos salarios para actor Daniel Craig
) %>% arrange(desc(total_actor_salary))

## como resultado, obtenemos (i) la suma total salarios de actores según Director y (ii) la suma de salarios específica para dos actores
## aparentemente, el actor Roger Moore únicamente ha hecho películas de James Bond con el director John Glen, por tanto el resto de directores tienen 0 a la variable agregada (condicionada a actor Roger Moore)

Director,total_actor_salary,sum_salary_Roger_Moore,sum_salary_Daniel_Craig
<chr>,<dbl>,<dbl>,<dbl>
John Glen,30.0,16.9,0.0
Lee Tamahori,17.9,0.0,0.0
Sam Mendes,14.5,0.0,14.5
Michael Apted,13.5,0.0,0.0
Roger Spottiswoode,10.0,0.0,0.0
Guy Hamilton,9.0,0.0,0.0
Martin Campbell,8.4,0.0,3.3
Marc Forster,8.1,0.0,8.1
Terence Young,6.9,0.0,0.0
Lewis Gilbert,4.4,0.0,0.0


# 6. Ejercicios
---
> 👉 Puedes encontrar las soluciones a los ejercicios [aquí](https://nbviewer.org/github/SomosDataWizards/R-Curso-Introductorio-Ejercicios/blob/main/Capitulo_3_Ejercicios.ipynb)






### Ejercicio #1
Partiendo del dataset de personajes de Star Wars, filtrar por aquellos que sean originarios de "Tatooine", "Naboo" o "Kashyyyk". Seleccionar únicamente columnas name, homeworld y species

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv*


In [36]:
# importamos las librerías
require(dplyr)
require(data.table)

In [37]:
# importamos df
df_star_wars = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv")
glimpse(df_star_wars)

Rows: 87
Columns: 10
$ name       [3m[90m<chr>[39m[23m "Mon Mothma", "Yoda", "Tion Medon", "Ratts Tyerell", "Luke …
$ height     [3m[90m<int>[39m[23m 150, 66, 206, 79, 172, 96, 165, 228, 188, 188, 184, 150, 18…
$ mass       [3m[90m<dbl>[39m[23m NA, 17.0, 80.0, 15.0, 77.0, 32.0, 75.0, 112.0, 79.0, 84.0, …
$ hair_color [3m[90m<chr>[39m[23m "auburn", "white", "none", "none", "blond", "", "brown", "b…
$ skin_color [3m[90m<chr>[39m[23m "fair", "green", "grey", "grey & blue", "fair", "white & bl…
$ eye_color  [3m[90m<chr>[39m[23m "blue", "brown", "black", "unknown", "blue", "red", "blue",…
$ birth_year [3m[90m<dbl>[39m[23m 48.0, 896.0, NA, NA, 19.0, 33.0, 47.0, 200.0, NA, 72.0, NA,…
$ gender     [3m[90m<chr>[39m[23m "female", "male", "male", "male", "male", "", "female", "ma…
$ homeworld  [3m[90m<chr>[39m[23m "Chandrila", "", "Utapau", "Aleen Minor", "Tatooine", "Nabo…
$ species    [3m[90m<chr>[39m[23m "Human", "Yoda's species", "Pau'an", "Aleena", "Hu

### Ejercicio #2
Importa el dataset de valoraciones de películas de IMDB, filtrar por películas  
(i) cuyo actor principal (*actor_1_name*) sea Johnny Depp y su valoración (*imdb score*) mayor a 7, o   
(ii) cuyo director sea James Cameron y su valoración mayor a 8. 

Seleccionar únicamente variables *actor_1_name*, *director_name*, *imdb_score*.

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv*

In [38]:
# importamos las librerías
require(dplyr)
require(data.table)

In [39]:
# importar el dataset
df_movies = fread("https://data-wizards.s3.amazonaws.com/datasets/movies.csv")
glimpse(df_movies)

Rows: 4,916
Columns: 28
$ color                     [3m[90m<chr>[39m[23m "Color", "Color", "Color", "Color", "", "Col…
$ director_name             [3m[90m<chr>[39m[23m "James Cameron", "Gore Verbinski", "Sam Mend…
$ num_critic_for_reviews    [3m[90m<int>[39m[23m 723, 302, 602, 813, NA, 462, 392, 324, 635, …
$ duration                  [3m[90m<int>[39m[23m 178, 169, 148, 164, NA, 132, 156, 100, 141, …
$ director_facebook_likes   [3m[90m<int>[39m[23m 0, 563, 0, 22000, 131, 475, 0, 15, 0, 282, 0…
$ actor_3_facebook_likes    [3m[90m<int>[39m[23m 855, 1000, 161, 23000, NA, 530, 4000, 284, 1…
$ actor_2_name              [3m[90m<chr>[39m[23m "Joel David Moore", "Orlando Bloom", "Rory K…
$ actor_1_facebook_likes    [3m[90m<int>[39m[23m 1000, 40000, 11000, 27000, 131, 640, 24000, …
$ gross                     [3m[90m<dbl>[39m[23m 760505847, 309404152, 200074175, 448130642, …
$ genres                    [3m[90m<chr>[39m[23m "Action|Adventure|Fantasy|Sci-Fi

### Ejercicio #3
Importa el dataset con datos del WHO (*World Health Organization*) y crea una nueva variable que identifique si un país está por debajo de la mediana de PIB per cápita mundial. Filtra por *países europeos que estén por debajo de la mediana mundial de PIB per cápita* y selecciona únicamente las variables relevantes.

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv*








In [40]:
# importamos las librerías
require(dplyr)
require(data.table)

In [41]:
# importar el dataset
df_who = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv")
glimpse(df_who)

Rows: 196
Columns: 13
$ Country                                                  [3m[90m<chr>[39m[23m "Afghanistan"…
$ CountryID                                                [3m[90m<int>[39m[23m 1, 2, 3, 4, 5…
$ ContinentID                                              [3m[90m<int>[39m[23m 1, 2, 3, 2, 3…
$ `Adolescent fertility rate (%)`                          [3m[90m<int>[39m[23m 151, 27, 6, N…
$ `Adult literacy rate (%)`                                [3m[90m<dbl>[39m[23m 28.0, 98.7, 6…
$ `Gross national income per capita (PPP international $)` [3m[90m<int>[39m[23m NA, 6000, 594…
$ `Net primary school enrolment ratio female (%)`          [3m[90m<int>[39m[23m NA, 93, 94, 8…
$ `Net primary school enrolment ratio male (%)`            [3m[90m<int>[39m[23m NA, 94, 96, 8…
$ `Population (in thousands) total`                        [3m[90m<int>[39m[23m 26088, 3172, …
$ `Population annual growth rate (%)`                      [3m[90m<dbl>[39m[23m 4.0

### Ejercicio #4
Agregar *revenue* total, segín sector productivo. Ordenar de forma descendente por *revenue*. Para las empresas incluidas en el ranking, ¿cuáles son los sectores que generan más facturación?


> *Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv*


In [42]:
# importamos las librerías
require(dplyr)
require(data.table)

In [43]:
# importar el dataset
df_fortune1000 = fread("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
glimpse(df_fortune1000)

Rows: 1,000
Columns: 8
$ Rank      [3m[90m<int>[39m[23m 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 1…
$ Company   [3m[90m<chr>[39m[23m "Walmart", "Exxon Mobil", "Apple", "Berkshire Hathaway", "Mc…
$ Sector    [3m[90m<chr>[39m[23m "Retailing", "Energy", "Technology", "Financials", "Health C…
$ Industry  [3m[90m<chr>[39m[23m "General Merchandisers", "Petroleum Refining", "Computers, O…
$ Location  [3m[90m<chr>[39m[23m "Bentonville, AR", "Irving, TX", "Cupertino, CA", "Omaha, NE…
$ Revenue   [3m[90m<int>[39m[23m 482130, 246204, 233715, 210821, 181241, 157107, 153290, 1523…
$ Profits   [3m[90m<int>[39m[23m 14694, 16150, 53394, 24083, 1476, 5813, 5237, 9687, 7373, 13…
$ Employees [3m[90m<int>[39m[23m 2300000, 75600, 110000, 331000, 70400, 200000, 199000, 21500…


### Ejercicio #5
Partiendo del dataset con datos de empleados estatales, agregar la mediana de salario base según departamento. Tener en cuenta únicamente empleados full time.


> *Dataset https://data-wizards.s3.amazonaws.com/datasets/employees.csv*


In [44]:
# importamos las librerías
require(dplyr)
require(data.table)

In [45]:
# importar el dataset
df_employees = fread("https://data-wizards.s3.amazonaws.com/datasets/employees.csv")
glimpse(df_employees)

Rows: 2,000
Columns: 10
$ UNIQUE_ID         [3m[90m<int>[39m[23m 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15…
$ POSITION_TITLE    [3m[90m<chr>[39m[23m "ASSISTANT DIRECTOR (EX LVL)", "LIBRARY ASSISTANT", …
$ DEPARTMENT        [3m[90m<chr>[39m[23m "Municipal Courts Department", "Library", "Houston P…
$ BASE_SALARY       [3m[90m<dbl>[39m[23m 121862, 26125, 45279, 63166, 56347, 66614, 71680, 42…
$ RACE              [3m[90m<chr>[39m[23m "Hispanic/Latino", "Hispanic/Latino", "White", "Whit…
$ EMPLOYMENT_TYPE   [3m[90m<chr>[39m[23m "Full Time", "Full Time", "Full Time", "Full Time", …
$ GENDER            [3m[90m<chr>[39m[23m "Female", "Female", "Male", "Male", "Male", "Male", …
$ EMPLOYMENT_STATUS [3m[90m<chr>[39m[23m "Active", "Active", "Active", "Active", "Active", "A…
$ HIRE_DATE         [3m[90m<IDate>[39m[23m 2006-06-12, 2000-07-19, 2015-02-03, 1982-02-08, 19…
$ JOB_DATE          [3m[90m<IDate>[39m[23m 2012-10-13, 2010-09-18, 2015-02-03, 19