# ÍNDICE
# **ISDI MDA**
# [Guía] Introducción a R
# N2: Manipulación Básica
---

### ÍNDICE DE CONTENIDO
La presente sesión está destinada a aprender a realizar operaciones de manipulación básicas de datos de forma simplificada utilizando funcionalidades incluídas en la librería *dplyr*
1. SELECCIONANDO COLUMNAS Y FILTRANDO FILAS 
2. CREANDO NUEVAS COLUMNAS
3. AGRUPANDO Y AGREGANDO DATA

### Profesor: Juan Martin Bellido (jmbelldo@isdi.education)



### Preparativos antes de comenzar

In [None]:
# Instalamos librería "data.table" porque Google colab no la incluye por defecto
# Tendremos que repetir este paso en cada sesión, esto no ocurriría si estuvieramos trabajando en otro entorno (se instalaría una única vez)
install.packages("data.table") 

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
# Cargamos todas las librerías que utilizaremos en la sesión
require(dplyr)
require(data.table)

In [None]:
# (Opcional) editamos las opciones globales para evitar que R utilice notación científica
options(scipen=999)

# SELECCIONANDO COLUMNAS Y FILTRANDO FILAS

Comenzamos aprendiendo a reducir un *data frame* en número de variables (columnas) y observaciones (filas)


### Seleccionando columnas
---
Para seleccionar columnas específicas que querramos conservar de un *data frame* utilizaremos la función *select()*

```
dplyr::select(object, columns ...)
```

A modo de simplificar la operación, la función select() suele utilizarse con el *pipe operator (%>%)*. En tal caso omitiremos definir el objeto como parámetro de la función

```
object %>% select(columns ...) 
```



In [None]:
# Importamos un df
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", …
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 1…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton",…
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, …
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA…


In [None]:
# Comenzamos seleccionando dos columnas específicas utilizando la sintaxis básica 
dplyr::select(df_james_bond,Film,Director)

Film,Director
<chr>,<chr>
Dr. No,Terence Young
From Russia with Love,Terence Young
Goldfinger,Guy Hamilton
Thunderball,Terence Young
Casino Royale,Ken Hughes
You Only Live Twice,Lewis Gilbert
On Her Majesty's Secret Service,Peter R. Hunt
Diamonds Are Forever,Guy Hamilton
Live and Let Die,Guy Hamilton
The Man with the Golden Gun,Guy Hamilton


In [None]:
# Repetimos la tarea anterior, pero ejecutando el comando utilizando la sintaxis simplificada
# Para simplificar la lectura e interpretación, dejo espacios y utilizo varias líneas. Esto es algo totalmente opcional

df_james_bond %>% select(
  Film        # columna 1 a ser seleccionada
  ,Director   # columna 2 a ser seleccionada
)

Film,Director
<chr>,<chr>
Dr. No,Terence Young
From Russia with Love,Terence Young
Goldfinger,Guy Hamilton
Thunderball,Terence Young
Casino Royale,Ken Hughes
You Only Live Twice,Lewis Gilbert
On Her Majesty's Secret Service,Peter R. Hunt
Diamonds Are Forever,Guy Hamilton
Live and Let Die,Guy Hamilton
The Man with the Golden Gun,Guy Hamilton


In [None]:
# Adicionalmente, al seleccionar columnas podremos (de forma opcional) renombrar las variables
df_james_bond %>% select(
  james_bond_film = Film                    # seleccionamos una primer columna y la renombramos
  ,film_director = Director                 # seleccionamos una segunda columna y la renombramos
  ,film_budget = Budget                     # seleccionamos una tercer columna y la renombramos
  ,bond_actor_salary = `Bond Actor Salary`  # en este caso, al renombrar la variable sin espacios, nos libraremos de las comillas
)

james_bond_film,film_director,film_budget,bond_actor_salary
<chr>,<chr>,<dbl>,<dbl>
Dr. No,Terence Young,7.0,0.6
From Russia with Love,Terence Young,12.6,1.6
Goldfinger,Guy Hamilton,18.6,3.2
Thunderball,Terence Young,41.9,4.7
Casino Royale,Ken Hughes,85.0,
You Only Live Twice,Lewis Gilbert,59.9,4.4
On Her Majesty's Secret Service,Peter R. Hunt,37.3,0.6
Diamonds Are Forever,Guy Hamilton,34.7,5.8
Live and Let Die,Guy Hamilton,30.8,
The Man with the Golden Gun,Guy Hamilton,27.7,


In [None]:
# Podemos negar (-) columnas para evitarlas
df_james_bond %>% select(
  -Director
  ,-Budget
)
# En este caso, hemos seleccionado TODAS las variables disponibles en el data frame, salvo dos específicas que hemos negativizado

Film,Year,Actor,Box Office,Bond Actor Salary
<chr>,<int>,<chr>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,448.8,0.6
From Russia with Love,1963,Sean Connery,543.8,1.6
Goldfinger,1964,Sean Connery,820.4,3.2
Thunderball,1965,Sean Connery,848.1,4.7
Casino Royale,1967,David Niven,315.0,
You Only Live Twice,1967,Sean Connery,514.2,4.4
On Her Majesty's Secret Service,1969,George Lazenby,291.5,0.6
Diamonds Are Forever,1971,Sean Connery,442.5,5.8
Live and Let Die,1973,Roger Moore,460.3,
The Man with the Golden Gun,1974,Roger Moore,334.0,


In [None]:
# Al seleccionar una o más variables, podemos forzar combinaciones únicas utilizando la función unique()
df_james_bond %>% select(
  Director                      # seleccionamos variable Director
) %>% unique()                  # forzamos valores únicos

Director
<chr>
Terence Young
Guy Hamilton
Ken Hughes
Lewis Gilbert
Peter R. Hunt
John Glen
Irvin Kershner
Martin Campbell
Roger Spottiswoode
Michael Apted


### Filtrando filas
---
A continuación, aprenderemos una forma sencilla de filtrar observaciones en función de criterios lógicos utilizando la función *filter()*


```
dplyr::filter(object, criteria ...)
```



In [None]:
# Filtramos el df con películas de James Bond
df_james_bond %>% filter(Year>2000) # únicamente películas lanzadas a partir del año 2000

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# Podemos combinar múltiples funciones de manipulación utilizando el "pipe operator"
## el orden de las funciones es fundamental, ya que estamos haciendo operaciones de a pasos y transmitiendo el resultado a la siguiente función
df_james_bond %>% select(Film,Year) %>% filter(Year>2000) # si hubiéramos omitido seleccionar la columna "year", no podríamos luego filtrar por ese campo

Film,Year
<chr>,<int>
Die Another Day,2002
Casino Royale,2006
Quantum of Solace,2008
Skyfall,2012
Spectre,2015


In [None]:
# El siguiente ejericio generá eror al ejecutarlo
## intentaremos filtrar por año, pero no hemos seleccionado año en el paso anterior al reducir el data frame
df_james_bond %>% select(Film,Actor) %>% filter(Year>2000) # esto generará error, ya que no podemos filtrar por un campo que no existe

In [None]:
# En el siguiente ejercicio, filtramos utilizando dos coindicines
## agregar una nueva condición como parámetro, es exactamente lo mismo que agregarla utilizando el operador "&" (AND)
df_james_bond %>% filter(
  Year>2000
  ,Actor == 'Daniel Craig'
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# Comprobamos que obtenemos el resultado utilizando una única condición compuesta por dos elementos
df_james_bond %>% filter(
  Year>2000 & Actor == 'Daniel Craig' # filtramos por películas que hayan sido lanzadas a partir de 2000 y cuyo actor sea Daniel Craig
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# Distinto sería si ambos elementos en la condición fueran de tipo OR ("|")
df_james_bond %>% filter(
  Year>2000 | Actor == 'Daniel Craig' # filtramos por películas que hayan sido lanzadas a partir de 2000 o cuyo actor sea Daniel Craig
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,


In [None]:
# Una forma cómoda de filtrar una variable categórica por múltiples valores es utilizando un vector
## de esta forma, evitamos tener que crear una condición OR que puede llegar a ser muy larga
## para esto, utilizamos el operador "%in%" + un vector que definimos
df_james_bond %>% filter(
  Actor %in% c('Daniel Craig','Pierce Brosnan','Sean Connery') # filtramos por películas cuyos actores sean alguno de los especificados
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Never Say Never Again,1983,Sean Connery,Irvin Kershner,380.0,86.0,
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5


In [None]:
# Podemos negar condiciones utilizando el operador "!"" (negación)
df_james_bond %>% filter(
  !Actor %in% c('Daniel Craig','Pierce Brosnan','Sean Connery') # filtramos por películas cuyos actores NO sean los especificados
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,
Moonraker,1979,Roger Moore,Lewis Gilbert,535.0,91.5,
For Your Eyes Only,1981,Roger Moore,John Glen,449.4,60.2,
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
The Living Daylights,1987,Timothy Dalton,John Glen,313.5,68.8,5.2


# ORDENAR FILAS Y CREAR NUEVAS COLUMNAS

In [None]:
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", …
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 1…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton",…
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, …
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA…


### ORDENAR FILAS
---
La función *arrange()* nos permite ordenar un *data frame* en función de una o más variables

```
dplyr::arrange(object, columns ...)
```



In [None]:
# Ordenamos el data frame según variable alfanumérica (texto)
df_james_bond %>% arrange(Actor) # por defecto, el criterio es ascendente. En caso de ser variable texto, será en orden del abecedario

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Casino Royale,2006,Daniel Craig,Martin Campbell,581.5,145.3,3.3
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
Spectre,2015,Daniel Craig,Sam Mendes,726.7,206.3,
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
GoldenEye,1995,Pierce Brosnan,Martin Campbell,518.5,76.9,5.1
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9


In [None]:
# Ordenamos por dos variables numéricas, siempre en criterio ascendente
df_james_bond %>% arrange(Year,Budget)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,


In [None]:
# Para cambiar el criterio de orden a descendente, debemos utilizar la función desc() en el parámetro de la función arrange()
df_james_bond %>% arrange(desc(`Bond Actor Salary`))

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>
Die Another Day,2002,Pierce Brosnan,Lee Tamahori,465.4,154.2,17.9
Skyfall,2012,Daniel Craig,Sam Mendes,943.5,170.2,14.5
The World Is Not Enough,1999,Pierce Brosnan,Michael Apted,439.5,158.3,13.5
Tomorrow Never Dies,1997,Pierce Brosnan,Roger Spottiswoode,463.2,133.9,10.0
A View to a Kill,1985,Roger Moore,John Glen,275.2,54.5,9.1
Quantum of Solace,2008,Daniel Craig,Marc Forster,514.2,181.4,8.1
Licence to Kill,1989,Timothy Dalton,John Glen,250.9,56.7,7.9
Octopussy,1983,Roger Moore,John Glen,373.8,53.9,7.8
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8
The Living Daylights,1987,Timothy Dalton,John Glen,313.5,68.8,5.2


### CREAR NUEVAS COLUMNAS
---
La función *mutate()* permite crear columnas nuevas en un *data frame* de forma sencilla

```
dplyr::mutate(object, new columns...)
```



In [None]:
# Creamos una nueva columna como cosciente entre dos variables existentes
df_james_bond %>% mutate(
  profit = `Box Office`/Budget    # nombramos nuestra nueva columna "profit"
) %>% arrange(desc(profit))       # ordenamos el resultado, según la nueva columna definida


Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,profit
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,64.114286
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,44.107527
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,43.15873
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,20.24105
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,14.944805
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,12.752161
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,12.057762
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,,11.818182
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,8.584307
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,7.815013


In [None]:
# Repetimos el ejercicio anterior, en este caso utilizamos la función round() para redondear el resultado y forzar decimales
df_james_bond %>% mutate(
  profit = round(`Box Office`/Budget,2)   # el segundo parámetro de la función round() establece el número de decimales
  ,profit_EUR = round(profit / 1.2)       # por defecto, round() fuerza a números enteros
) %>% arrange(desc(profit_EUR))


Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,profit,profit_EUR
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,64.11,53
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,44.11,37
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,43.16,36
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,20.24,17
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,14.94,12
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,12.75,11
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,12.06,10
The Spy Who Loved Me,1977,Roger Moore,Lewis Gilbert,533.0,45.1,,11.82,10
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,8.58,7
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,7.82,7


#### Nuevas variables a partir de pruebas lógicas

Con frecuencia, al trabajar con datos, buscamos crear nuevas variables asignando valores por fila partiendo de pruebas lógicas. En estos casos, nos apartamos de asignar valores simplemente utilizando operaciones matemáticas entre otras variables existentes. 

Existen dos métodos en R particularmente populares para esta tarea:

*   `if_else()`
*   `case_when()`


```
if_else(prueba lógica, valor si verdadero, valor si falso)
```

```
case_when(
   prueba 1 ~ valor si se cumple
  ,prueba 2 ~ valor si se cumple
  ,prueba 3 ~ valor si se cumple
  ...
)
```


In [None]:
# Al definir una variable nueva utilizando función mutate(), combinaremos con función if_else() para crear una prueba lógica
## creamos una nueva variable con una clasificación de películas TOP MOVIE vs. NOT IN THE TOP
df_james_bond %>% mutate(
  film_segment = if_else(
    Actor == 'Sean Connery' | Budget> 100,'TOP MOVIE','NOT IN THE TOP'
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,TOP MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,TOP MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,TOP MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,TOP MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,TOP MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,TOP MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,NOT IN THE TOP
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,NOT IN THE TOP


In [None]:
# Como era de esperar, podemos anidar condiciones if_else() para crear pruebas complejas
## no obstante, en caso de necesitar prubas complejas, es aconsejable utilizar case_when()

df_james_bond %>% mutate(
  film_segment = if_else(
    Actor == 'Sean Connery' | Budget> 100
    ,'1st CLASS MOVIE'
    ,if_else(
      Actor == 'Roger Moore' | Budget> 100
      ,'2nd CLASS MOVIE'
      ,'NOT IN THE TOP'
    )
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,1st CLASS MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,1st CLASS MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,1st CLASS MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,1st CLASS MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,1st CLASS MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,1st CLASS MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,2nd CLASS MOVIE
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,2nd CLASS MOVIE


In [None]:
# La función case_when(), imitando mismo operador en lenguaje SQL, permite una sintaxis más límpia para crear condiciones complejas
## observar que las condiciones tienen un orden jerárquico y no necesitan ser mutuamente excluyentes
## en caso de que se cumpla una condición, el sistema no seguirá evaluando condiciones posteriores  

df_james_bond %>% mutate(
  film_segment = case_when(
    Actor == 'Sean Connery' | Budget> 100 ~ '1st CLASS MOVIE'     # condición 1
    ,Actor == 'Roger Moore' | Budget> 100 ~ '2st CLASS MOVIE'     # condición 2
    ,Actor == 'Daniel Craig' | Budget> 100 ~ '3rd CLASS MOVIE'    # condición 3
    ,TRUE == TRUE ~ 'NOT IN THE TOP'                              # (opcional) esta condición se cumple siempre (TRUE = TRUE), por tanto nos sirve como "en caso de que ninguna otra se cumpla"
  )
)

Film,Year,Actor,Director,Box Office,Budget,Bond Actor Salary,film_segment
<chr>,<int>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<chr>
Dr. No,1962,Sean Connery,Terence Young,448.8,7.0,0.6,1st CLASS MOVIE
From Russia with Love,1963,Sean Connery,Terence Young,543.8,12.6,1.6,1st CLASS MOVIE
Goldfinger,1964,Sean Connery,Guy Hamilton,820.4,18.6,3.2,1st CLASS MOVIE
Thunderball,1965,Sean Connery,Terence Young,848.1,41.9,4.7,1st CLASS MOVIE
Casino Royale,1967,David Niven,Ken Hughes,315.0,85.0,,NOT IN THE TOP
You Only Live Twice,1967,Sean Connery,Lewis Gilbert,514.2,59.9,4.4,1st CLASS MOVIE
On Her Majesty's Secret Service,1969,George Lazenby,Peter R. Hunt,291.5,37.3,0.6,NOT IN THE TOP
Diamonds Are Forever,1971,Sean Connery,Guy Hamilton,442.5,34.7,5.8,1st CLASS MOVIE
Live and Let Die,1973,Roger Moore,Guy Hamilton,460.3,30.8,,2st CLASS MOVIE
The Man with the Golden Gun,1974,Roger Moore,Guy Hamilton,334.0,27.7,,2st CLASS MOVIE


# AGREGACIONES
Una agregación es una compilación de datos en un *data frame*, donde alteramos la unidad de observación original y llevando la información a un nivel superior de abstracción. Al realizar una agregación, siempre utilizaremos una función de agregación específica para determinar el tipo de operación.

#### Funciones básicas de agregación

| Function 	| Description        	|
|----------	|--------------------	|
| sum()    	| Sum                	|
| mean()   	| Mean               	|
| median() 	| Median             	|
| sd()     	| Standard Deviation 	|
| min()    	| Minimum            	|
| max()    	| Maximum            	|
| n()      	| Count              	|


In [None]:
# Importamos un df
df_james_bond = data.table::fread("https://data-wizards.s3.amazonaws.com/datasets/jamesbond.csv")
glimpse(df_james_bond)

Rows: 26
Columns: 7
$ Film                [3m[90m<chr>[39m[23m "Dr. No", "From Russia with Love", "Goldfinger", …
$ Year                [3m[90m<int>[39m[23m 1962, 1963, 1964, 1965, 1967, 1967, 1969, 1971, 1…
$ Actor               [3m[90m<chr>[39m[23m "Sean Connery", "Sean Connery", "Sean Connery", "…
$ Director            [3m[90m<chr>[39m[23m "Terence Young", "Terence Young", "Guy Hamilton",…
$ `Box Office`        [3m[90m<dbl>[39m[23m 448.8, 543.8, 820.4, 848.1, 315.0, 514.2, 291.5, …
$ Budget              [3m[90m<dbl>[39m[23m 7.0, 12.6, 18.6, 41.9, 85.0, 59.9, 37.3, 34.7, 30…
$ `Bond Actor Salary` [3m[90m<dbl>[39m[23m 0.6, 1.6, 3.2, 4.7, NA, 4.4, 0.6, 5.8, NA, NA, NA…


### AGREGACIONES GLOBALES
---
La primera acción que emprenderemos será la de conseguir métricas que resuman el total de las observaciones disponibles en el *data frame*

```
dplyr::sumarise(object, aggregations...)
```



In [None]:
# Creamos una primer agregación, donde obtendremos la suma total de la variable "box office"
## esto podría interpretarse como el total de ingresos generados por todas las películas de James Bond 
df_james_bond %>% summarise(
  total_box_office = sum(`Box Office`)    # definimos el nombre de la variable y utilizamos una función de agregación para establecer un criterio
)

total_box_office
<dbl>
12781.9


In [None]:
# Los valores nulos (NA) pueden causarnos problemas
## utilizaremos un parámetro adicional en la función de agregación, para especificar que no tome en cuanta las observaciones con valores NA
## en el ejemplo a continuación, sumaremos los salarios de los actores en todas las películas
df_james_bond %>% summarise(
  total_bond_salary_v1 = sum(`Bond Actor Salary`)                
  ,total_bond_salary_v2 = sum(`Bond Actor Salary`,na.rm=TRUE)    # el segunda parámetro "na.rm = TRUE" (NA remove) evita aquellas observaciones NA al realizar el cálculo
)
## la primer variable tendrá valor NA, ya que al menos una observación es NA

total_box_office_v1,total_box_office_v2
<dbl>,<dbl>
,123.3


In [None]:
# A continuación, utilizaremos distintas funciones de agregación para jugar con los datos disponibles en el dataset
df_james_bond %>% summarise(
  avg_box_office = mean(`Box Office`)
  ,avg_budget = mean(Budget)
  ,avg_bond_actor_salary = mean(`Bond Actor Salary`,na.rm = TRUE)
)

avg_box_office,avg_budget,avg_bond_actor_salary
<dbl>,<dbl>,<dbl>
491.6115,80.71923,6.85


### AGREGACIONES AGRUPADAS
---
Al realizar agregaciones, muchas veces no buscamos datos globales (al total del data frame), sino que buscamos métricas específicas para observaciones agrupadas según variables categóricas. Para ello, necesitaremos especificar un criterio de agrupación utilizando la función *group_by()*

```
group_by(object, columns...)
```





In [None]:
# En el ejercicio a continuación, buscaremos obtener métricas según Director de la película
## nota: la unidad de observación original en el data frame es "película" (tenemos una película por fila)
## ahora lo queremos abstreaer a un nivel superior: director (existen varias películas por director)

df_james_bond %>% group_by(
  Director
) %>% summarise(
  avg_box_office = mean(`Box Office`)
  ,median_budget = median(Budget)
  ,avg_bond_actor_salary = mean(`Bond Actor Salary`,na.rm = TRUE)
) %>% arrange(desc(avg_bond_actor_salary))

`summarise()` ungrouping output (override with `.groups` argument)



Director,avg_box_office,median_budget,avg_bond_actor_salary
<chr>,<dbl>,<dbl>,<dbl>
Lee Tamahori,465.4,154.2,17.9
Sam Mendes,835.1,188.25,14.5
Michael Apted,439.5,158.3,13.5
Roger Spottiswoode,463.2,133.9,10.0
Marc Forster,514.2,181.4,8.1
John Glen,332.56,56.7,7.5
Guy Hamilton,514.3,29.25,4.5
Lewis Gilbert,527.4,59.9,4.4
Martin Campbell,550.0,111.1,4.2
Terence Young,613.5667,12.6,2.3


In [None]:
# Realizamos un ejercicio similar al anterior, agregando datos a nivel actor
df_james_bond %>% group_by(Actor) %>% summarise(
  total_salary = sum(`Bond Actor Salary`,na.rm = TRUE)
  ,max_salary_in_movie = max(`Bond Actor Salary`,na.rm = TRUE)  # función max() aplicada a salario de actor en película (sueldo mayor en película)
  ,count_movies = n()                                           # n() cuenta observaciones (cantidad de películas)
) %>% arrange(desc(total_salary))

“no non-missing arguments to max; returning -Inf”
`summarise()` ungrouping output (override with `.groups` argument)



Actor,total_salary,max_salary_in_movie,count_movies
<chr>,<dbl>,<dbl>,<int>
Pierce Brosnan,46.5,17.9,4
Daniel Craig,25.9,14.5,4
Sean Connery,20.3,5.8,7
Roger Moore,16.9,9.1,7
Timothy Dalton,13.1,7.9,2
George Lazenby,0.6,0.6,1
David Niven,0.0,-inf,1


### AGREGACIONES CONDICIONADAS
---
En ocasiones, nos interesa definir un subconjunto específico de observaciones (filas) para cada variable agregada. En otras palabras, podemos definir condiciones específicas para cada variable al configurar una función de agregación.  


In [None]:
# En el ejemplo a continuación, realizaremos una agregación global (sin agrupar), pero definiendo condiciones en las variables agregadas
df_james_bond %>% summarise(
  sum_salary_Roger_Moore = sum(`Bond Actor Salary`[Actor == 'Roger Moore'],na.rm = TRUE)    # únicamente suma de salarios cuando el actor es Rooger Moore
  ,sum_salary_Daniel_Craig = sum(`Bond Actor Salary`[Actor == 'Daniel Craig'],na.rm = TRUE) # únicamente suma de salarios cuando el actor es Daniel Craig
)

sum_salary_Roger_Moore,sum_salary_Daniel_Craig
<dbl>,<dbl>
16.9,25.9


In [None]:
# Las agregaciones condicionadas pueden utilizarse para "pivotear" (o "transponer") una tabla (es decir, cambiar filas por columnas)
## en el ejercicio debajo no utilizamos agregación condicionada y obtenemos la misma información, reportada de otra forma

df_james_bond %>% filter(
  Actor %in% c('Roger Moore','Daniel Craig')            # filtramos por dos actores      
) %>% group_by(
  Actor                                                 # agrupamos por actor (quiero agrupar la variable agregada según actor)
) %>% summarise(
  sum_salary = sum(`Bond Actor Salary`,na.rm = TRUE)    # suma de salarios en películas
)

`summarise()` ungrouping output (override with `.groups` argument)



Actor,sum_salary
<chr>,<dbl>
Daniel Craig,25.9
Roger Moore,16.9


In [None]:
# Realizamos otro ejercicio de agregaciones condicionadas
## en este caso, agrupamos las métricas agregadas según Director (observar que siempre agrupamos según variables categóricas)

df_james_bond %>% group_by(Director) %>% summarise(
  total_actor_salary = sum(`Bond Actor Salary`,na.rm = TRUE)                                # esta variable agregada no es condicionada, no estamos limitando las observaciones a ser agragadas
  ,sum_salary_Roger_Moore = sum(`Bond Actor Salary`[Actor == 'Roger Moore'],na.rm = TRUE)   # agregamos salarios para actor Roger Moore
  ,sum_salary_Daniel_Craig = sum(`Bond Actor Salary`[Actor == 'Daniel Craig'],na.rm = TRUE) # agregamos salarios para actor Daniel Craig
) %>% arrange(desc(total_actor_salary))

## como resultado, obtenemos (i) la suma total salarios de actores según Director y (ii) la suma de salarios específica para dos actores
## aparentemente, el actor Roger Moore únicamente ha hecho películas de James Bond con el director John Glen, por tanto el resto de directores tienen 0 a la variable agregada (condicionada a actor Roger Moore)

`summarise()` ungrouping output (override with `.groups` argument)



Director,total_actor_salary,sum_salary_Roger_Moore,sum_salary_Daniel_Craig
<chr>,<dbl>,<dbl>,<dbl>
John Glen,30.0,16.9,0.0
Lee Tamahori,17.9,0.0,0.0
Sam Mendes,14.5,0.0,14.5
Michael Apted,13.5,0.0,0.0
Roger Spottiswoode,10.0,0.0,0.0
Guy Hamilton,9.0,0.0,0.0
Martin Campbell,8.4,0.0,3.3
Marc Forster,8.1,0.0,8.1
Terence Young,6.9,0.0,0.0
Lewis Gilbert,4.4,0.0,0.0


# EJERCICIOS
---




## SELECCIONANDO COLUMNAS Y FILTRANDO FILAS

#### EX.1.A
Partiendo del dataset de personajes de Star Wars, filtrar por aquellos que sean originarios de "Tatooine", "Naboo" o "Kashyyyk". Seleccionar únicamente columnas name, homeworld y species



In [None]:
df_star_wars = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv")
glimpse(df_star_wars)

Rows: 87
Columns: 10
$ name       [3m[90m<chr>[39m[23m "Mon Mothma", "Yoda", "Tion Medon", "Ratts Tyerell", "Luke…
$ height     [3m[90m<int>[39m[23m 150, 66, 206, 79, 172, 96, 165, 228, 188, 188, 184, 150, 1…
$ mass       [3m[90m<dbl>[39m[23m NA, 17.0, 80.0, 15.0, 77.0, 32.0, 75.0, 112.0, 79.0, 84.0,…
$ hair_color [3m[90m<chr>[39m[23m "auburn", "white", "none", "none", "blond", "", "brown", "…
$ skin_color [3m[90m<chr>[39m[23m "fair", "green", "grey", "grey & blue", "fair", "white & b…
$ eye_color  [3m[90m<chr>[39m[23m "blue", "brown", "black", "unknown", "blue", "red", "blue"…
$ birth_year [3m[90m<dbl>[39m[23m 48.0, 896.0, NA, NA, 19.0, 33.0, 47.0, 200.0, NA, 72.0, NA…
$ gender     [3m[90m<chr>[39m[23m "female", "male", "male", "male", "male", "", "female", "m…
$ homeworld  [3m[90m<chr>[39m[23m "Chandrila", "", "Utapau", "Aleen Minor", "Tatooine", "Nab…
$ species    [3m[90m<chr>[39m[23m "Human", "Yoda's species", "Pau'an", "Aleena", "Human", "D…

In [None]:
df_star_wars %>% filter(
  homeworld %in% c('Tatooine','Naboo','Kashyyyk')
  ,species != 'Droid'
) %>% select(
  name
  ,homeworld
  ,species
)

name,homeworld,species
<chr>,<chr>,<chr>
Luke Skywalker,Tatooine,Human
Beru Whitesun lars,Tatooine,Human
Chewbacca,Kashyyyk,Wookiee
Rugor Nass,Naboo,Gungan
Tarfful,Kashyyyk,Wookiee
Palpatine,Naboo,Human
Biggs Darklighter,Tatooine,Human
Shmi Skywalker,Tatooine,Human
Cordé,Naboo,Human
Gregar Typho,Naboo,Human


#### EX.1.B
Importa el dataset de valoraciones de películas de IMDB, filtrar por películas (i) cuyo actor principal sea Johnny Depp y su valoración (*imdb score*) mayor a 7 o (ii) cuyo director sea James Cameron y su valoración mayor a 8. Seleccionar únicamente variables *actor_1_name*, *director_name*, *imdb_score*

In [None]:
# Importar el dataset
df_movies = fread("https://data-wizards.s3.amazonaws.com/datasets/movies.csv")
glimpse(df_movies)

Rows: 4,916
Columns: 28
$ color                     [3m[90m<chr>[39m[23m "Color", "Color", "Color", "Color", "", "Co…
$ director_name             [3m[90m<chr>[39m[23m "James Cameron", "Gore Verbinski", "Sam Men…
$ num_critic_for_reviews    [3m[90m<int>[39m[23m 723, 302, 602, 813, NA, 462, 392, 324, 635,…
$ duration                  [3m[90m<int>[39m[23m 178, 169, 148, 164, NA, 132, 156, 100, 141,…
$ director_facebook_likes   [3m[90m<int>[39m[23m 0, 563, 0, 22000, 131, 475, 0, 15, 0, 282, …
$ actor_3_facebook_likes    [3m[90m<int>[39m[23m 855, 1000, 161, 23000, NA, 530, 4000, 284, …
$ actor_2_name              [3m[90m<chr>[39m[23m "Joel David Moore", "Orlando Bloom", "Rory …
$ actor_1_facebook_likes    [3m[90m<int>[39m[23m 1000, 40000, 11000, 27000, 131, 640, 24000,…
$ gross                     [3m[90m<dbl>[39m[23m 760505847, 309404152, 200074175, 448130642,…
$ genres                    [3m[90m<chr>[39m[23m "Action|Adventure|Fantasy|Sci-Fi", "Actio

In [None]:
df_movies %>% filter(
  (actor_1_name == 'Johnny Depp' & imdb_score>7) | (director_name == 'James Cameron' & imdb_score>8)
) %>% select(
  actor_1_name
  ,director_name
  ,imdb_score
)

actor_1_name,director_name,imdb_score
<chr>,<chr>,<dbl>
Johnny Depp,Gore Verbinski,7.1
Johnny Depp,Gore Verbinski,7.3
Johnny Depp,Gore Verbinski,7.2
Johnny Depp,Gore Verbinski,8.1
Joe Morton,James Cameron,8.5
Johnny Depp,Wes Craven,7.5
Johnny Depp,Mike Newell,7.8
Johnny Depp,Ted Demme,7.6
Johnny Depp,Tim Burton,7.4
Johnny Depp,Marc Forster,7.8


## ORDERNAR FILAS Y CREAR NUEVAS COLUMNAS

#### EX.2.A
Importa el dataset con datos del WHO (World Health Organization) y crea una nueva variable que identifique si un país está por debajo de la mediana de PIB per cápita (a nivel mundial). Filtra por países europeos que estén por debajo de la mediana mundial de PIB per cápita y selecciona únicamente las variables relevantes








In [None]:
df_who = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv")
glimpse(df_who)

Rows: 196
Columns: 13
$ Country                                                  [3m[90m<chr>[39m[23m "Afghanistan…
$ CountryID                                                [3m[90m<int>[39m[23m 1, 2, 3, 4, …
$ ContinentID                                              [3m[90m<int>[39m[23m 1, 2, 3, 2, …
$ `Adolescent fertility rate (%)`                          [3m[90m<int>[39m[23m 151, 27, 6, …
$ `Adult literacy rate (%)`                                [3m[90m<dbl>[39m[23m 28.0, 98.7, …
$ `Gross national income per capita (PPP international $)` [3m[90m<int>[39m[23m NA, 6000, 59…
$ `Net primary school enrolment ratio female (%)`          [3m[90m<int>[39m[23m NA, 93, 94, …
$ `Net primary school enrolment ratio male (%)`            [3m[90m<int>[39m[23m NA, 94, 96, …
$ `Population (in thousands) total`                        [3m[90m<int>[39m[23m 26088, 3172,…
$ `Population annual growth rate (%)`                      [3m[90m<dbl>[39m[23m 4.0, 0.6, 1.

In [None]:
df_who %>% mutate(
  is_below_median_GDP = if_else(
    `Gross national income per capita (PPP international $)`< median(df_who$`Gross national income per capita (PPP international $)`,na.rm = TRUE)
    ,1
    ,0
    )
) %>% filter(
  Continent == 'Europe'
  ,is_below_median_GDP==1
) %>% select(
  Country
  ,Continent
  ,`Gross national income per capita (PPP international $)`
  ,is_below_median_GDP
) %>% arrange(
  desc(`Gross national income per capita (PPP international $)`)
)

Country,Continent,Gross national income per capita (PPP international $),is_below_median_GDP
<chr>,<chr>,<int>,<dbl>
Ukraine,Europe,6110,1
Albania,Europe,6000,1
Azerbaijan,Europe,5430,1
Armenia,Europe,4950,1
Turkmenistan,Europe,3990,1
Georgia,Europe,3880,1
Moldova,Europe,2660,1
Uzbekistan,Europe,2190,1
Kyrgyzstan,Europe,1790,1
Tajikistan,Europe,1560,1


#### EX.2.B
Partiendo del dataset con empresas del ranking de fortune, filtrar por empresas del sector tecnológico que tengan beneficios positivos. Para estas empresas, crear una nueva variable con una clasificación de empresas del sector tecnológico según el cuartil de beneficios. Ordenar según beneficio (descendente) y seleccionar únicamente las variables relevantes en este ejercicio


In [None]:
# Importamos dataset
df_fortune1000 = fread("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
glimpse(df_fortune1000)

Rows: 1,000
Columns: 8
$ Rank      [3m[90m<int>[39m[23m 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, …
$ Company   [3m[90m<chr>[39m[23m "Walmart", "Exxon Mobil", "Apple", "Berkshire Hathaway", "M…
$ Sector    [3m[90m<chr>[39m[23m "Retailing", "Energy", "Technology", "Financials", "Health …
$ Industry  [3m[90m<chr>[39m[23m "General Merchandisers", "Petroleum Refining", "Computers, …
$ Location  [3m[90m<chr>[39m[23m "Bentonville, AR", "Irving, TX", "Cupertino, CA", "Omaha, N…
$ Revenue   [3m[90m<int>[39m[23m 482130, 246204, 233715, 210821, 181241, 157107, 153290, 152…
$ Profits   [3m[90m<int>[39m[23m 14694, 16150, 53394, 24083, 1476, 5813, 5237, 9687, 7373, 1…
$ Employees [3m[90m<int>[39m[23m 2300000, 75600, 110000, 331000, 70400, 200000, 199000, 2150…


In [None]:
df_fortune1000 %>% filter(
  Sector == 'Technology'
  ,Profits>0
) %>% mutate(
  Segment = case_when(
    Profits > quantile(df_fortune1000$Profits[df_fortune1000$Sector=='Technology' & df_fortune1000$Profits>0])[4] ~ 'top quantile'
    ,Profits > quantile(df_fortune1000$Profits[df_fortune1000$Sector=='Technology' & df_fortune1000$Profits>0])[3] ~ 'mid-top quantile'
    ,Profits > quantile(df_fortune1000$Profits[df_fortune1000$Sector=='Technology' & df_fortune1000$Profits>0])[2] ~ 'mid-low quantile'
    ,Profits > quantile(df_fortune1000$Profits[df_fortune1000$Sector=='Technology' & df_fortune1000$Profits>0])[1] ~ 'low quantile'
  )
) %>% arrange(
  desc(Profits)
) %>% select(
  Company
  ,Sector
  ,Profits
  ,Segment
)

Company,Sector,Profits,Segment
<chr>,<chr>,<int>,<chr>
Apple,Technology,53394,top quantile
Alphabet,Technology,16348,top quantile
IBM,Technology,13190,top quantile
Microsoft,Technology,12193,top quantile
Intel,Technology,11420,top quantile
Oracle,Technology,9938,top quantile
Cisco Systems,Technology,8981,top quantile
Qualcomm,Technology,5271,top quantile
HP,Technology,4554,top quantile
Facebook,Technology,3688,top quantile


## AGREGACIONES

#### EX.3.A 
Agregar *revenue* total, segín sector productivo. Ordenar de forma descendente por *revenue*. Para las empresas incluidas en el ranking, ¿cuáles son los sectores que generan más facturación?

In [None]:
df_fortune1000 = fread("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
glimpse(df_fortune1000)

In [None]:
df_fortune1000 %>% group_by(
    Sector
  ) %>% summarise(
    total_revenue = sum(Revenue)
  ) %>% arrange(
    desc(total_revenue)
  )

`summarise()` ungrouping output (override with `.groups` argument)



Sector,total_revenue
<chr>,<int>
Financials,2217159
Health Care,1614707
Energy,1517809
Retailing,1465076
Technology,1377600
"Food, Beverages & Tobacco",555967
Industrials,497581
Food and Drug Stores,483769
Motor Vehicles & Parts,482540
Telecommunications,461834


#### EX.3.B
Partiendo del dataset con datos de empleados estatales, agregar la mediana de salario base según departamento. Tener en cuenta únicamente empleados full time

In [None]:
df_employees = fread("https://data-wizards.s3.amazonaws.com/datasets/employees.csv")
glimpse(df_employees)

Rows: 2,000
Columns: 10
$ UNIQUE_ID         [3m[90m<int>[39m[23m 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 1…
$ POSITION_TITLE    [3m[90m<chr>[39m[23m "ASSISTANT DIRECTOR (EX LVL)", "LIBRARY ASSISTANT",…
$ DEPARTMENT        [3m[90m<chr>[39m[23m "Municipal Courts Department", "Library", "Houston …
$ BASE_SALARY       [3m[90m<dbl>[39m[23m 121862, 26125, 45279, 63166, 56347, 66614, 71680, 4…
$ RACE              [3m[90m<chr>[39m[23m "Hispanic/Latino", "Hispanic/Latino", "White", "Whi…
$ EMPLOYMENT_TYPE   [3m[90m<chr>[39m[23m "Full Time", "Full Time", "Full Time", "Full Time",…
$ GENDER            [3m[90m<chr>[39m[23m "Female", "Female", "Male", "Male", "Male", "Male",…
$ EMPLOYMENT_STATUS [3m[90m<chr>[39m[23m "Active", "Active", "Active", "Active", "Active", "…
$ HIRE_DATE         [3m[90m<date>[39m[23m 2006-06-12, 2000-07-19, 2015-02-03, 1982-02-08, 19…
$ JOB_DATE          [3m[90m<date>[39m[23m 2012-10-13, 2010-09-18, 2015-02-03, 1991-05-25, 

In [None]:
df_employees %>% filter(
  EMPLOYMENT_TYPE == 'Full Time'
) %>% group_by(
  DEPARTMENT
) %>% summarise(
  median_salary = median(BASE_SALARY,na.rm = TRUE)
) %>% arrange(
  desc(median_salary)
)

`summarise()` ungrouping output (override with `.groups` argument)



DEPARTMENT,median_salary
<chr>,<dbl>
Mayor's Office,95783.0
Legal Department,92505.0
Finance,80542.0
Houston Information Tech Svcs,74951.0
Houston Fire Department (HFD),61921.0
Houston Police Department-HPD,61643.0
Housing and Community Devp.,57284.5
City Controller's Office,57054.0
City Council,54000.0
Planning & Development,51418.0


#### EX.3.C 
Partiendo del df con personajes de Star Wars, ¿cuál es la combinación entre *homeworld* y *species* con mayor número de personajes?
##### Nota: algunos personajes no tienen información disponible en los campos *homeworld* y *species*. En este dataset, los campos vacíos no figuran como NA (formalmente vacíos), sino que tienen una entrada vacía de texto (por tanto el sistema no lo reconoce como NA)

In [None]:
df_star_wars = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv")

In [None]:
df_star_wars %>% filter(
  !homeworld == ''            # descartamos personajes con homeworld vacío. En este caso, negamos toda la condición "es igual a"
  ,species != ''              # descartamos personaje con species vacío. En este caso, a modo de presentar una opción alternativa, utilizamos el operador "es distinto"
  ) %>% group_by(             # agrupamos por dos variables categóricas
    homeworld
    ,species
  ) %>% summarise(
    total_count = n()         # definimos agregación y utilizamos función de agregación n() para contar observaciones
  ) %>% arrange(
    desc(total_count)         # ordenamos con criterio descendente
  )

`summarise()` regrouping output by 'homeworld' (override with `.groups` argument)



homeworld,species,total_count
<chr>,<chr>,<int>
Tatooine,Human,8
Naboo,Human,5
Alderaan,Human,3
Naboo,Gungan,3
Corellia,Human,2
Coruscant,Human,2
Kamino,Kaminoan,2
Kashyyyk,Wookiee,2
Mirial,Mirialan,2
Ryloth,Twi'lek,2


#### EX.3.D
El dataset del WHO (World Health Organization) contiene data de todos los países del mundo. Analizar la mediana y dispersión del PIB per cápita de los distintos continentes. ¿Qué podemos decir sobre la dispersión del PIB per capita en las distintas regiones? ¿en qué regiones los países tienen mayor nivel de disparidad en términos de PIB per capita?

##### Se requiere calcular las siguiente variables agregadas según continente:


*   Mediana de PIB per cápita
*   Deviación estándar de PIB per cápita
*   Coeficiente de variación de PIB pér cápita (sd/mediana)




In [None]:
df_who = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv")
glimpse(df_who)

Rows: 196
Columns: 13
$ Country                                                  [3m[90m<chr>[39m[23m "Afghanistan…
$ CountryID                                                [3m[90m<int>[39m[23m 1, 2, 3, 4, …
$ ContinentID                                              [3m[90m<int>[39m[23m 1, 2, 3, 2, …
$ `Adolescent fertility rate (%)`                          [3m[90m<int>[39m[23m 151, 27, 6, …
$ `Adult literacy rate (%)`                                [3m[90m<dbl>[39m[23m 28.0, 98.7, …
$ `Gross national income per capita (PPP international $)` [3m[90m<int>[39m[23m NA, 6000, 59…
$ `Net primary school enrolment ratio female (%)`          [3m[90m<int>[39m[23m NA, 93, 94, …
$ `Net primary school enrolment ratio male (%)`            [3m[90m<int>[39m[23m NA, 94, 96, …
$ `Population (in thousands) total`                        [3m[90m<int>[39m[23m 26088, 3172,…
$ `Population annual growth rate (%)`                      [3m[90m<dbl>[39m[23m 4.0, 0.6, 1.

In [None]:
df_who %>% group_by(
    Continent                                                                                   # agrupamos por continente
  ) %>% summarise(
    median_GDP = median(`Gross national income per capita (PPP international $)`,na.rm=TRUE)    # agregamos mediana
    ,std_GDP = sd(`Gross national income per capita (PPP international $)`,na.rm=TRUE)          # agregamos sd
  ) %>% mutate(
    coefficient_variation = std_GDP/median_GDP                                                  # partiendo de la data PREVIAMENTE AGREGADA, calculamos una nueva métrica
  ) %>% arrange(
    desc(coefficient_variation)                                                                 # ordenamos según nueva métrica agregada
  ) 

`summarise()` ungrouping output (override with `.groups` argument)



Continent,median_GDP,std_GDP,coefficient_variation
<chr>,<dbl>,<dbl>,<dbl>
Africa,1205,4145.871,3.4405567
Oceania,5285,14252.514,2.6967861
Middle East,9800,13641.646,1.3920047
North America,15150,14607.104,0.9641653
Europe,15905,14278.685,0.8977482
Asia,2460,1457.25,0.5923781
South America,7065,3391.811,0.4800865


#### EX.3.E
El dataset a continuación contiene un ranking con los videojuegos más vendido de la historia. Agregar ventas totales (todas las regiones) según *publisher* para los videojuegos de (únicamente) tres géneros: *sports*, *action* y *adventure*. Crear métricas específicas agregadas para cada uno de los tres géneros




In [None]:
df_videogames_games = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_videogames_games.csv")
glimpse(df_videogames_games)

Rows: 15,947
Columns: 10
$ rank          [3m[90m<int>[39m[23m 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, …
$ name          [3m[90m<chr>[39m[23m "Wii Sports", "Super Mario Bros.", "Mario Kart Wii", "W…
$ platform_code [3m[90m<chr>[39m[23m "Wii", "NES", "Wii", "Wii", "GB", "GB", "DS", "Wii", "W…
$ year          [3m[90m<int>[39m[23m 2006, 1985, 2008, 2009, 1996, 1989, 2006, 2006, 2009, 1…
$ genre         [3m[90m<chr>[39m[23m "Sports", "Platform", "Racing", "Sports", "Role-Playing…
$ publisher     [3m[90m<chr>[39m[23m "Nintendo", "Nintendo", "Nintendo", "Nintendo", "Ninten…
$ NA_sales      [3m[90m<dbl>[39m[23m 41.49, 29.08, 15.85, 15.75, 11.27, 23.20, 11.38, 14.03,…
$ EU_sales      [3m[90m<dbl>[39m[23m 29.02, 3.58, 12.88, 11.01, 8.89, 2.26, 9.23, 9.20, 7.06…
$ JP_sales      [3m[90m<dbl>[39m[23m 3.77, 6.81, 3.79, 3.28, 10.22, 4.22, 6.50, 2.93, 4.70, …
$ Other_sales   [3m[90m<dbl>[39m[23m 8.46, 0.77, 3.31, 2.96, 1.00, 0.58, 2.90, 2.85, 2.26

In [None]:
df_videogames_games %>% mutate(
  total_sales = NA_sales + EU_sales + JP_sales + Other_sales
) %>% group_by(
  publisher
) %>% summarise(
  sales_sports = sum(total_sales[genre=='Sports'])
  ,sales_action = sum(total_sales[genre=='Action'])
  ,sales_adventure = sum(total_sales[genre=='Adventure'])
  ,sales = sum(total_sales[genre %in% c('Sports','Action','Adventure')])
) %>% arrange(
  desc(sales)
)

`summarise()` ungrouping output (override with `.groups` argument)



publisher,sales_sports,sales_action,sales_adventure,sales
<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Electronic Arts,457.33,115.35,4.74,577.42
Nintendo,218.00,125.12,35.67,378.79
Take-Two Interactive,74.77,211.11,7.56,293.44
Activision,75.24,141.48,5.42,222.14
Ubisoft,23.35,139.19,22.20,184.74
Konami Digital Entertainment,96.96,69.58,7.20,173.74
Sony Computer Entertainment,59.43,93.28,13.54,166.25
THQ,13.02,88.93,19.97,121.92
Sega,71.67,30.09,7.15,108.91
Warner Bros. Interactive Entertainment,0.00,103.05,0.58,103.63


#### EX.3.F
El dataset a continuación contiene un ranking de los 100 mejores álbumes de heavy metal, según la revista "Rolling Stones". Agregar la valoración (*rating*) medio según subgénero del metal e incluir métricas agregadas específicamente para cada década de año de publicación.

In [None]:
df_rolling_stones_albums = fread("https://data-wizards.s3.amazonaws.com/datasets/rolling_stones_top_metal_albums.csv")
glimpse(df_rolling_stones_albums)

Rows: 100
Columns: 15
$ AlbumID_Rank           [3m[90m<int>[39m[23m 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,…
$ Artist                 [3m[90m<chr>[39m[23m "Black Sabbath", "Metallica", "Judas Priest", …
$ Album                  [3m[90m<chr>[39m[23m "Paranoid", "Master of Puppets", "British Stee…
$ `Release Year`         [3m[90m<int>[39m[23m 1970, 1986, 1980, 1982, 1970, 1986, 1984, 1986…
$ Spotify_Album          [3m[90m<chr>[39m[23m "6r7LZXAVueS5DqdrvXJJK7", "41bTjcSaiEe4G40RVVH…
$ Description            [3m[90m<chr>[39m[23m "http://www.rollingstone.com/music/lists/the-1…
$ wiki                   [3m[90m<chr>[39m[23m "https://en.wikipedia.org/wiki/Paranoid_(album…
$ Duration               [3m[90m<chr>[39m[23m "41:47:00", "54:50:00", "35:59:00", "37:40:00"…
$ Minutes                [3m[90m<int>[39m[23m 41, 54, 35, 37, 39, 28, 85, 36, 39, 52, 47, 38…
$ Seconds                [3m[90m<int>[39m[23m 47, 50, 59, 40, 23, 59, 51, 15, 31, 53, 26, 42

In [None]:
df_rolling_stones_albums %>% mutate(
  decade = case_when(
    `Release Year` <1980 ~ '70s'
    ,`Release Year` <1990 ~ '80s'
    ,`Release Year` <2000 ~ '90s'
    ,`Release Year` <2010 ~ '2000s'
    ,`Release Year` <2020 ~ '2010s'
    , TRUE == TRUE ~ 'other'
  )
) %>% group_by(
  `Sub Metal Genre`
) %>% summarise(
  avg_rating_70s = mean(Rating[decade=='70s'],na.rm=TRUE)
  ,avg_rating_80s = mean(Rating[decade=='80s'],na.rm=TRUE)
  ,avg_rating_90s = mean(Rating[decade=='90s'],na.rm=TRUE)
  ,avg_rating_2000s = mean(Rating[decade=='2000s'],na.rm=TRUE)
  ,avg_rating_2010s = mean(Rating[decade=='2010s'],na.rm=TRUE)
  ,avg_rating_all = mean(Rating,na.rm=TRUE)
) %>% arrange(
  desc(avg_rating_all)
)

`summarise()` ungrouping output (override with `.groups` argument)



Sub Metal Genre,avg_rating_70s,avg_rating_80s,avg_rating_90s,avg_rating_2000s,avg_rating_2010s,avg_rating_all
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Death Metal,,,4.625,,,4.625
Drone Metal,,,,4.5,,4.5
Metalcore,,,,4.5,,4.5
Prog Metal,,3.0,4.5,4.666667,,4.388889
Black Metal,,4.375,4.25,,,4.333333
Grindcore,,4.5,4.0,4.5,,4.333333
Post Metal,,,5.0,5.0,3.0,4.333333
Industrial Metal,,4.5,4.0,,,4.25
New Wave of British Heavy Metal,4.5,4.166667,,,,4.214286
Groove Metal,,,4.0,,,4.0
