# Manipulación de datos ![](https://www.r-project.org/Rlogo.png)



La mayoría de los datasets contienen pequeños **insights** que no están accesibles de manera
inmediata.

No hablamos del tipo de conocimiento que nos proporcionan los algoritmos de Machine Learning o de modelado, sino de cosas más simples. Por ejemplo:
+ <font color=#0000FF>Nuevas variables.</font>
+ <font color=#0000FF>Estadísticas básicas.</font>
+ <font color=#0000FF>Diferencias entre grupos.</font>
…

Existen paquetes que nos ayudarán a extraer esta información: `dplyr`, `data.table`

## `dplyr`

Paquete de R que define una gramática de manipulación de datos. Creado por Hadley
Wickham. Las operaciones básicas que realizar son:
+ **<font color=#0000FF>Selección de variables (`select`)</font>**.
+ **<font color=#0000FF>Creación de nuevas variables (`mutate`)</font>**.
+ **<font color=#0000FF>Filtrado de observaciones (`filter`).</font>**
+ **<font color=#0000FF>Ordenación de observaciones (`arrange`).</font>**
+ **<font color=#0000FF>Agrupación de observaciones y cálculo de estadísticos agregados (`group_by`, `summarise`).</font>**

Todas las funciones anteriores devuelven copias del dataset original.

Funciona muy rápido (está implementado en C++).

Su sintaxis puede recordar a SQL.

El paquete `dplyr` funciona tanto con objetos `data.frame` como `tbl`.

### `dplyr`: tbl, tipo especial de data.frame

Dentro del paquete `dplyr` existe un nuevo tipo de objeto, la tabla (`tbl`), similar a un data
frame.

Tiene una gran ventaja al trabajar con datasets grandes, ya que permite visualizar su  contenido de una forma más amigable. Al mostrar el contenido de una variable del tipo tabla,  el contenido se adapta al tamaño de la pantalla (responsive).

Para ver el contenido de una tabla existe el comando `glimpse(x)`, cuyo resultado es similar al `str(x)` sobre un data frame.

In [None]:
#######################################
# Manipulación: dplyr                 #
#######################################

library(hflights) #install.packages('hflights',  repos ="https://cloud.r-project.org")
library(dplyr) # Instalar dplyr PERO CON CONDA SIEMPRE

In [None]:
# Contiene información de vuelos de los aeropuertos de Houston
hflights

In [None]:
hflights.tbl <- tbl_df(hflights)
hflights.tbl

In [None]:
glimpse(hflights.tbl)

### `dplyr`: selección de variables

Para hacer selección de variables utilizaremos la función `select` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `…`: nombres de las variables a seleccionar. Se puede combinar con el operador `:` para  definir rangos de variables o `-` para decidir las que no.

Existe un conjunto de funciones auxiliares que permiten hacer la selección de las variables  de manera más ágil:
+ `starts_with("x")`: selecciona las variables que comienzan con `"x"`.
+ `ends_with("x")`: selecciona las variables que terminan con `"x"`.
+ `contains("x")` : selecciona las variables que contienen `"x"`.
+ `matches("x"`): selecciona las variables que casan con `"x"`. Se puede combinar con  expresiones regulares.
+ `num_range("x", 1:5)`: variables de la lista `x01, x02, …, x05`.
+ `one_of(x)`: aquellas variables en el vector de caracteres `x`.

In [None]:
# Select
hflights.select <- select(hflights.tbl, ActualElapsedTime, AirTime, ArrDelay, DepDelay)
hflights.select

### `dplyr`: creación de variables

Para añadir nuevas variables utilizaremos la función `mutate` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `new_column = expresion`: el nombre de la nueva variable y la expresión que la calcula.
+ `...`: se pueden añadir más de una variable nueva al mismo tiempo.

Tip: puedes emplear las nuevas variables para crear otras en la misma llamada.

In [None]:
# Mutate
hflights.mutate <- mutate(hflights.select, loss = ArrDelay - DepDelay)
hflights.mutate

### dplyr: filtrar observaciones

Para filtrar las filas de un dataset utilizaremos la función `filter` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que filtrar.
+ `logical test`: condición de filtrado sobre aquellas filas que cumplan el test.

La función `filter`permite utilizar los operadores relacionales y lógicos de R.

In [None]:
# Filter
hflights.select <- select(hflights.tbl, starts_with("Cancel"), DepDelay)
hflights.select

In [None]:
hflights.filter <- filter(hflights.select, Cancelled == 1)
hflights.filter

### dplyr: ordenando observaciones

Para ordenar las filas de un dataset utilizaremos la función `arrange` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre el que ordenar.
+ `...`: las variables sobre las que se ordenará.

Por defecto, la función `arrange` ordena de menor a mayor (ascendentemente).

Para ordenar de mayor a menor (descendentemente), utilizamos la función `desc(x)`.

In [None]:
# Arrange
hflights.select <- select(hflights.tbl, TailNum, contains("Delay"))
hflights.select

In [None]:
hflights.arrange <- arrange(hflights.select, DepDelay)
hflights.arrange

In [None]:
hflights.arrange <- arrange(hflights.select, DepDelay, ArrDelay)
hflights.arrange

### `dplyr`: agregar observaciones

Para agrupar las filas de un dataset utilizaremos la función `group_by` del paquete `dplyr`. Los
parámetros de la función son:

+ `df`: el data frame o tabla sobre la que se realizará la agrupación.
+ `...`: las variables sobre las que se agrupará.

La función `group_by` se suele usar conjuntamente con otra función, `summarise`. Dicha  función, permite calcular un resumen de estadísticos básicos que describen el dataset o la  agrupación. Los parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `new_column` = expresion: el nombre del nuevo estadístico y la expresión que lo calcula.
+ `...`: se pueden añadir más de una variable nueva al mismo tiempo.

Tip: al igual que con `mutate`, al usar `summarise` puedes emplear las nuevas variables para  crear otras en la misma llamada.

#### `dplyr`: `summarise`

La función `summarise` permite utilizar funciones de agregación de R:
+ `min(x)`: valor mínimo del vector x.
+ `max(x)`: valor máximo del vector x.
+ `mean(x)`: valor medio del vector x.
+ `median(x)`: valor mediano del vector x.
+ `quantile(x, p)`: el cuantil p del vector x.
+ `sd(x)`: la desviación estándar del vector x.
+ `var(x)`: la varianza del vector x.
+ `IQR(x)`: el rango intercuartílico del vector x.

El paquete `dplyr` completa la lista de funciones anteriores con algunas propias:
+ `first(x)`: primer elemento del vector x.
+ `last(x)`: último elemento del vector x.
+ `nth(x, n)`: el enésimo elemento del vector x.
+ `n()`: número de filas del data frame, tabla o grupo.
+ `n_distinct(x)`: número de valores únicos del vector x.

In [None]:
# Summarise
hflights.select <- select(hflights.tbl, TailNum, contains("Delay"))
hflights.select <- filter(hflights.select, !is.na(DepDelay))
hflights.summarise <- summarise(hflights.select, min = min(DepDelay), max = max(DepDelay), mean = mean(DepDelay), 
                                median = median(DepDelay))
hflights.summarise

In [None]:
# Group by
hflights.group <- group_by(hflights.tbl, UniqueCarrier)
hflights.summarise.group <- summarise(hflights.group, 
                                      avgDep = mean(DepDelay, na.rm = T), 
                                      avgArr = mean(ArrDelay, na.rm = T))
hflights.summarise.group


### `dplyr`: pipes operator

El paquete dplyr permite utilizar el **pipe operator** de R para encadenar llamadas a funciones.
+ Envía la salida de una función a la siguiente.
+ Ahorra espacio (no es necesario declarar variables intermedias).
+ Simplifica la lectura de código.

In [None]:
# %>%
hflights.tbl %>%
  filter(!is.na(DepDelay)) %>%
  summarise(min = min(DepDelay), max = max(DepDelay), mean = mean(DepDelay), median = median(DepDelay))

### `dplyr`: combinando

El paquete `dplyr` también contiene algunas funciones para realizar operaciones de unión o
combinación de data frames o tablas.

Las funciones son `inner_join`, `left_join`, `right_join`, `full_join`. Los parámetros son comunes  para todas ellas:
+ `x, y`: data frames o tablas a unir.
+ `by`: vector de caracteres con las columnas por las que se realizará la unión. Por defecto,  buscará aquellas variables con el mismo nombre.

## Ejercicio

In [None]:
###################################
# dplyr                           #
###################################
library(hflights)
library(dplyr)

# Contiene información de vuelos de los aeropuertos de Houston
hflights

hflights.tbl <- tbl_df(hflights)

hflights.tbl

glimpse(hflights.tbl)

# Recodifica la variable UniqueCarrier a partir del vector recode.carrier
recode.carrier <- c("AA" = "American", "AS" = "Alaska", "B6" = "JetBlue", "CO" = "Continental", 
                    "DL" = "Delta", "OO" = "SkyWest", "UA" = "United", "US" = "US_Airways", 
                    "WN" = "Southwest", "EV" = "Atlantic_Southeast", "F9" = "Frontier", 
                    "FL" = "AirTran", "MQ" = "American_Eagle", "XE" = "ExpressJet", "YV" = "Mesa")



# Comprueba de nuevo el contenido
glimpse(hflights.tbl)

# Recodifica la variable CancellationCode a partir del vector recode.cancellation
hflights.tbl[hflights.tbl$CancellationCode == "", "CancellationCode"] <- "E"
recode.cancellation <-  c("A" = "carrier", "B" = "weather", "C" = "FFA", "D" = "security", "E" = "not cancelled")


# Comprueba de nuevo el contenido
glimpse(hflights.tbl)

# Selecciona las variables: ActualElapsedTime, AirTime, ArrDelay, DepDelay


# Selecciona las variables desde Origin a Cancelled


# Selecciona todas las variables menos aquellas entre DepTime y AirTime


# Selecciona todas las variables que terminan en "Delay"


# Selecciona todas las variables que terminan en "Num" o empiezan por "Cancell"


# Selecciona todas las variables que terminan en "Num" o empiezan por "Cancell" y además la variable UniqueCarrier


# Selecciona todas las variables que terminan en "Time" o "Delay"


# Traduce las siguiente selecciones tradicionales empleando "select"
ex1r <- hflights.tbl[c("TaxiIn", "TaxiOut", "Distance")]
ex1d <- 

ex2r <- hflights.tbl[c("Year", "Month", "DayOfWeek", "DepTime", "ArrTime")]
ex2d <- 

ex3r <- hflights.tbl[c("TailNum", "TaxiIn", "TaxiOut")]
ex3d <- 

# Crea una nueva variable ActualGroundTime como la resta de ActualElapsedTime y AirTime. Guarda el resultado en g1
g1 <- 

# Añade a g1 una nueva variable GroundTime como la suma TaxiIn y TaxiOut
g2 <- 

# Añade a g2 una nueva variable AverageSpeed como Distance/AirTime*60
g3 <- 

# Pinta g3
g3

# Crea dos variables al tiempo y guardalas en m1:
#     loss como la resta de ArrDelay y DepDelay
#     loss_percent como el ratio de ArrDelay - DepDelay entre DepDelay
m1 <- 

# ¿Puedes simplificar la creación de la segunda variable con la primera? Guardalo en m2
m2 <- 

# Crea tres variables al timepo y guardalas en m3. Utiliza la simplificación anterior
#     TotalTaxi como la suma de TaxiIn y TaxiOut
#     ActualGroundTime como la diferencia de ActualElapsedTime y AirTime
#     Diff como la diferencia de las dos variables anteriores ¿Es siempre cero?
m3 <- 

# Filtra los vuelos con distancia recorrida mayor o igual que 3000


# Filtra los vuelos de JetBlue, Southwest, o Delta


# Filtra los vuelos en los que el tiempo en Taxi fue mayor que el tiempo de vuelo (No uses mutate)


# Filtra los vuelos que salieron antes de las 5am y llegaron después de las 10pm


# Filtra los vuelos que salieron con retraso y llegaron a tiempo


# Filtra los vueltos cancelados en fin de semana


# Filtra los vueltos cancelados después de haber sido retrasados


# Selecciona los vuelos con destino JFK
# Crea una nueva variable Date a partir de  Year, Month y DayofMont
# Muestra una selección de las variables Date, DepTime, ArrTime y TailNum
c1 <- 
c2 <- 


# Ordena la tabla dtc según el retraso de salida
dtc <- filter(hflights.tbl, Cancelled == 1, !is.na(DepDelay))


# Ordena la tabla dtc según el motivo de cancelación


# Ordena la tabla dtc según la compañía y el retraso de salida


# Ordena todos los vuelos según la compañía y el retraso de salida descendentemente


# Ordena todos los vuelos según el retraso total (No uses mutate)


# Filtra los vuelos con destino DFW y hora de salida anterior a las 8am, ordenalos según el tiempo en vuelo descendentemente
# Hazlo en una sola instrucción


# Calcula la distancia mínima y máxima de todos los vuelos


# Calcula la distancia máxima de todos los vuelos desviados


# Crea en una nueva variable con aquellos vuelos que no tienen NA en ArrDelay
# Calcula los siguientes estadísticos:
#    earliest: el mínimo retraso de llegada
#    average: el retraso medio de llegada
#    latest: el máximo retraso de llegada
#    sd: la desviación estandar en el retraso de llegada
temp1 <- 
  

# Crea en una nueva variable con aquellos vuelos que no tienen NA en TaxiIn y TaxiOut
# Calcula un estadístico (max_taxi_diff) que contenga la mayor diferencia en valor absoluto entre TaxiIn y TaxiOut
temp2 <- 


# Calcula los siguientes estadísticos:
#    n_obs: número de observaciones
#    n_carrier: número total de compañías
#    n_dest: número total de destinos
#    dest100: el destino del vuelo en la posición 100


# Crea en una nueva variable con aquellos vuelos de la compañía "American"

# Calcula los siguientes estadísticos:
#    n_flights: el número de vuelos
#    n_canc: el número de vuelos cancelados
#    p_canc: el porcentaje de vuelos cancelados
#    avg_delay: el tiempo medio de los vuelos (acuerdate de eliminar los NAs)


# Usando los pipes realiza:
#    1. Crea una variable diff como la diferencia de TaxiIn y TaxiOut
#    2. Filtra aquellas filas para las que diff no es NA
#    3. Calcula la media





# Usando los pipes realiza:
#    1. ¿Cuanto vuelos nocturos hay? Los vuelos nocturnos son aquellos para los que la hora de llegada es menor que la de salida
# Cuidado con los NAs




# Usando los pipes realiza:
#    1. Para cada compañía calcula los siguientes estadísticos:
#       n_flights: número de vuelos
#       n_canc: número de vuelos cancelados
#       p_canc: porcentaje de vuelos cancelados
#       avg_delay: retraso medio de llegada (cuidado con los NAs)
#    2. Ordena los resultados por el retraso medio y el porcentaje de vuelos cancelados








# Usando los pipes realiza:
#    1. Para cada día de la semana calcula los siguientes estadísticos:
#       avg_taxi: tiempo medio de la suma de las variables TaxiIn y TaxiOut (cuidado con los NAs)
#    2. Ordena los resultados descendentemente segun avg_taxi





# Usando los pipes realiza:
#    1. Filtra aquellos cuyo retraso de llegada es distinto de NA
#    2. Agrega por compañía
#    3. Calcula la proporción de vuelos con retraso (p_delay)
#    4. Crea una nueva variable rank, que es el ranking de p_delay
#    5. Ordena el resultado segun rank







# Usando los pipes realiza:
#    1. Filtra aquellos cuyo retraso de llegada es distinto de NA y mayor que cero
#    2. Agrega por compañía
#    3. Calcula el tiempo medio de restraso (avg_delay)
#    4. Crea una nueva variable rank, que es el ranking de avg_delay
#    5. Ordena el resultado segun rank







# Usando los pipes calcula que avión (TailNum) volo más veces. ¿Cuántas?





# ¿Cuántos aviones volaron a un único destino?






# ¿Cuál es el destino más visitado de cada compañía?






# ¿Qué compañías viaja más a cada destino?




