# **Introducción a R para Análisis de Datos**
## Capítulo 3: Manipulación Básica
---
Acerca de este notebook
* **Autor:** Juan Martin Bellido
* **Descripción:** *este notebook incluye las soluciones a los ejercicios del capítulo 3*
* **¿Feedback? ¿comentarios?** Por favor compártelo conmigo escribiéndome por [LinkedIn](https://www.linkedin.com/in/jmartinbellido/)


# Capítulo 3: Ejercicios
---

In [None]:
# instalamos librería "data.table" porque Google colab no la incluye por defecto
install.packages("data.table")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [None]:
# (opcional) editamos las opciones globales para evitar que R utilice notación científica
options(scipen=999)

### Ejercicio #1
Partiendo del dataset de personajes de Star Wars, filtrar por aquellos que sean originarios de "Tatooine", "Naboo" o "Kashyyyk". Seleccionar únicamente columnas name, homeworld y species

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv*


In [None]:
# importamos las librerías
require(dplyr)
require(data.table)

In [None]:
# importamos df
df_star_wars = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_star_wars.csv")
glimpse(df_star_wars)

In [None]:
# filtramos filas, seleccionamos columnas
df_star_wars %>% filter(
  homeworld %in% c('Tatooine','Naboo','Kashyyyk')
) %>% select(
  name,
  homeworld,
  species
)

### Ejercicio #2
Importa el dataset de valoraciones de películas de IMDB, filtrar por películas  
(i) cuyo actor principal (*actor_1_name*) sea Johnny Depp y su valoración (*imdb score*) mayor a 7, o   
(ii) cuyo director sea James Cameron y su valoración mayor a 8. 

Seleccionar únicamente variables *actor_1_name*, *director_name*, *imdb_score*.

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/movies.csv*

In [None]:
# importamos las librerías
require(dplyr)
require(data.table)

In [None]:
# importar el dataset
df_movies = fread("https://data-wizards.s3.amazonaws.com/datasets/movies.csv")
glimpse(df_movies)

In [None]:
# filtramos filas, seleccionamos columnas
df_movies %>% filter(
  (actor_1_name == 'Johnny Depp' & imdb_score > 7) | (director_name == 'James Cameron' & imdb_score > 8)
) %>% select(
  actor_1_name,
  director_name,
  imdb_score
)

### Ejercicio #3
Importa el dataset con datos del WHO (*World Health Organization*) y crea una nueva variable que identifique si un país está por debajo de la mediana de PIB per cápita mundial. Filtra por *países europeos que estén por debajo de la mediana mundial de PIB per cápita* y selecciona únicamente las variables relevantes.

> *Dataset https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv*








In [None]:
# importamos las librerías
require(dplyr)
require(data.table)

In [None]:
# importar el dataset
df_who = fread("https://data-wizards.s3.amazonaws.com/datasets/dataset_na_who.csv")
glimpse(df_who)

In [None]:
# creamos un objeto auxiliar para capturar la mediana del PIB mundial
median_gdp = median(df_who$`Gross national income per capita (PPP international $)`,na.rm = TRUE)

In [None]:
# creamos campo, filtramos filas, seleccionamos campos, ordenamos filas
df_who %>% mutate(
  is_below_median_GDP = if_else(
    `Gross national income per capita (PPP international $)`< median_gdp,1,0
    )
) %>% filter(
  Continent == 'Europe'
  ,is_below_median_GDP==1
) %>% select(
  Country
  ,Continent
  ,GDP_per_capita = `Gross national income per capita (PPP international $)`
  ,is_below_median_GDP
) %>% arrange(
  desc(GDP_per_capita)
)

### Ejercicio #4
Agregar *revenue* total, segín sector productivo. Ordenar de forma descendente por *revenue*. Para las empresas incluidas en el ranking, ¿cuáles son los sectores que generan más facturación?


> *Dataset https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv*


In [None]:
# importamos las librerías
require(dplyr)
require(data.table)

In [None]:
# importar el dataset
df_fortune1000 = fread("https://data-wizards.s3.amazonaws.com/datasets/fortune1000.csv")
glimpse(df_fortune1000)

In [None]:
# agreagamos facturación, según sector
df_fortune1000 %>% group_by(
    Sector
) %>% summarise(
    total_revenue = sum(Revenue)
) %>% arrange(
    desc(total_revenue)
)

### Ejercicio #5
Partiendo del dataset con datos de empleados estatales, agregar la mediana de salario base según departamento. Tener en cuenta únicamente empleados full time.


> *Dataset https://data-wizards.s3.amazonaws.com/datasets/employees.csv*


In [None]:
# importamos las librerías
require(dplyr)
require(data.table)

In [None]:
# importar el dataset
df_employees = fread("https://data-wizards.s3.amazonaws.com/datasets/employees.csv")
glimpse(df_employees)

In [None]:
# filtamos filas, agrupamos, agregamos datos y ordenamos filas resultantes
df_employees %>% filter(
  EMPLOYMENT_TYPE == 'Full Time'
) %>% group_by(
  DEPARTMENT
) %>% summarise(
  median_salary = median(BASE_SALARY,na.rm = TRUE)
) %>% arrange(
  desc(median_salary)
)