# Manipulación de datos ![](https://www.r-project.org/Rlogo.png)



La mayoría de los datasets contienen pequeños **insights** que no están accesibles de manera
inmediata.

No hablamos del tipo de conocimiento que nos proporcionan los algoritmos de Machine Learning o de modelado, sino de cosas más simples. Por ejemplo:
+ <font color=#0000FF>Nuevas variables.</font>
+ <font color=#0000FF>Estadísticas básicas.</font>
+ <font color=#0000FF>Diferencias entre grupos.</font>
…

Existen paquetes que nos ayudarán a extraer esta información: `dplyr`, `data.table`

## `dplyr`

Paquete de R que define una gramática de manipulación de datos. Creado por Hadley
Wickham. Las operaciones básicas que realizar son:
+ **<font color=#0000FF>Selección de variables (`select`)</font>**.
+ **<font color=#0000FF>Creación de nuevas variables (`mutate`)</font>**.
+ **<font color=#0000FF>Filtrado de observaciones (`filter`).</font>**
+ **<font color=#0000FF>Ordenación de observaciones (`arrange`).</font>**
+ **<font color=#0000FF>Agrupación de observaciones y cálculo de estadísticos agregados (`group_by`, `summarise`).</font>**

Todas las funciones anteriores devuelven copias del dataset original.

Funciona muy rápido (está implementado en C++).

Su sintaxis puede recordar a SQL.

El paquete `dplyr` funciona tanto con objetos `data.frame` como `tbl`.

### `dplyr`: tbl, tipo especial de data.frame

Dentro del paquete `dplyr` existe un nuevo tipo de objeto, la tabla (`tbl`), similar a un data
frame.

Tiene una gran ventaja al trabajar con datasets grandes, ya que permite visualizar su  contenido de una forma más amigable. Al mostrar el contenido de una variable del tipo tabla,  el contenido se adapta al tamaño de la pantalla (responsive).

Para ver el contenido de una tabla existe el comando `glimpse(x)`, cuyo resultado es similar al `str(x)` sobre un data frame.

In [1]:
#######################################
# Manipulación: dplyr                 #
#######################################
install.packages('hflights',  repos ="https://cloud.r-project.org")

Updating HTML index of packages in '.Library'
Making 'packages.html' ... done


In [2]:
library(hflights) 
library(dplyr) # Instalar dplyr PERO CON CONDA SIEMPRE


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



In [3]:
# Contiene información de vuelos de los aeropuertos de Houston
hflights

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,⋯,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted
5424,2011,1,1,6,1400,1500,AA,428,N576AA,60,⋯,-10,0,IAH,DFW,224,7,13,0,,0
5425,2011,1,2,7,1401,1501,AA,428,N557AA,60,⋯,-9,1,IAH,DFW,224,6,9,0,,0
5426,2011,1,3,1,1352,1502,AA,428,N541AA,70,⋯,-8,-8,IAH,DFW,224,5,17,0,,0
5427,2011,1,4,2,1403,1513,AA,428,N403AA,70,⋯,3,3,IAH,DFW,224,9,22,0,,0
5428,2011,1,5,3,1405,1507,AA,428,N492AA,62,⋯,-3,5,IAH,DFW,224,9,9,0,,0
5429,2011,1,6,4,1359,1503,AA,428,N262AA,64,⋯,-7,-1,IAH,DFW,224,6,13,0,,0
5430,2011,1,7,5,1359,1509,AA,428,N493AA,70,⋯,-1,-1,IAH,DFW,224,12,15,0,,0
5431,2011,1,8,6,1355,1454,AA,428,N477AA,59,⋯,-16,-5,IAH,DFW,224,7,12,0,,0
5432,2011,1,9,7,1443,1554,AA,428,N476AA,71,⋯,44,43,IAH,DFW,224,8,22,0,,0
5433,2011,1,10,1,1443,1553,AA,428,N504AA,70,⋯,43,43,IAH,DFW,224,6,19,0,,0


In [4]:
hflights.tbl <- tbl_df(hflights)
hflights.tbl

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,⋯,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted
5424,2011,1,1,6,1400,1500,AA,428,N576AA,60,⋯,-10,0,IAH,DFW,224,7,13,0,,0
5425,2011,1,2,7,1401,1501,AA,428,N557AA,60,⋯,-9,1,IAH,DFW,224,6,9,0,,0
5426,2011,1,3,1,1352,1502,AA,428,N541AA,70,⋯,-8,-8,IAH,DFW,224,5,17,0,,0
5427,2011,1,4,2,1403,1513,AA,428,N403AA,70,⋯,3,3,IAH,DFW,224,9,22,0,,0
5428,2011,1,5,3,1405,1507,AA,428,N492AA,62,⋯,-3,5,IAH,DFW,224,9,9,0,,0
5429,2011,1,6,4,1359,1503,AA,428,N262AA,64,⋯,-7,-1,IAH,DFW,224,6,13,0,,0
5430,2011,1,7,5,1359,1509,AA,428,N493AA,70,⋯,-1,-1,IAH,DFW,224,12,15,0,,0
5431,2011,1,8,6,1355,1454,AA,428,N477AA,59,⋯,-16,-5,IAH,DFW,224,7,12,0,,0
5432,2011,1,9,7,1443,1554,AA,428,N476AA,71,⋯,44,43,IAH,DFW,224,8,22,0,,0
5433,2011,1,10,1,1443,1553,AA,428,N504AA,70,⋯,43,43,IAH,DFW,224,6,19,0,,0


In [5]:
glimpse(hflights.tbl)

Observations: 227,496
Variables: 21
$ Year              <int> 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2...
$ Month             <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ DayofMonth        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15...
$ DayOfWeek         <int> 6, 7, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 5, 6, 7, 1...
$ DepTime           <int> 1400, 1401, 1352, 1403, 1405, 1359, 1359, 1355, 1...
$ ArrTime           <int> 1500, 1501, 1502, 1513, 1507, 1503, 1509, 1454, 1...
$ UniqueCarrier     <chr> "AA", "AA", "AA", "AA", "AA", "AA", "AA", "AA", "...
$ FlightNum         <int> 428, 428, 428, 428, 428, 428, 428, 428, 428, 428,...
$ TailNum           <chr> "N576AA", "N557AA", "N541AA", "N403AA", "N492AA",...
$ ActualElapsedTime <int> 60, 60, 70, 70, 62, 64, 70, 59, 71, 70, 70, 56, 6...
$ AirTime           <int> 40, 45, 48, 39, 44, 45, 43, 40, 41, 45, 42, 41, 4...
$ ArrDelay          <int> -10, -9, -8, 3, -3, -7, -1, -16, 44, 43, 29, 5, -...
$ DepDelay      

### `dplyr`: selección de variables

Para hacer selección de variables utilizaremos la función `select` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `…`: nombres de las variables a seleccionar. Se puede combinar con el operador `:` para  definir rangos de variables o `-` para decidir las que no.

Existe un conjunto de funciones auxiliares que permiten hacer la selección de las variables  de manera más ágil:
+ `starts_with("x")`: selecciona las variables que comienzan con `"x"`.
+ `ends_with("x")`: selecciona las variables que terminan con `"x"`.
+ `contains("x")` : selecciona las variables que contienen `"x"`.
+ `matches("x"`): selecciona las variables que casan con `"x"`. Se puede combinar con  expresiones regulares.
+ `num_range("x", 1:5)`: variables de la lista `x01, x02, …, x05`.
+ `one_of(x)`: aquellas variables en el vector de caracteres `x`.

In [6]:
# Select
hflights.select <- select(hflights.tbl, ActualElapsedTime, AirTime, ArrDelay, DepDelay)
hflights.select

Unnamed: 0,ActualElapsedTime,AirTime,ArrDelay,DepDelay
5424,60,40,-10,0
5425,60,45,-9,1
5426,70,48,-8,-8
5427,70,39,3,3
5428,62,44,-3,5
5429,64,45,-7,-1
5430,70,43,-1,-1
5431,59,40,-16,-5
5432,71,41,44,43
5433,70,45,43,43


### `dplyr`: creación de variables

Para añadir nuevas variables utilizaremos la función `mutate` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `new_column = expresion`: el nombre de la nueva variable y la expresión que la calcula.
+ `...`: se pueden añadir más de una variable nueva al mismo tiempo.

Tip: puedes emplear las nuevas variables para crear otras en la misma llamada.

In [7]:
# Mutate
hflights.mutate <- mutate(hflights.select, loss = ArrDelay - DepDelay)
hflights.mutate

ActualElapsedTime,AirTime,ArrDelay,DepDelay,loss
60,40,-10,0,-10
60,45,-9,1,-10
70,48,-8,-8,0
70,39,3,3,0
62,44,-3,5,-8
64,45,-7,-1,-6
70,43,-1,-1,0
59,40,-16,-5,-11
71,41,44,43,1
70,45,43,43,0


### dplyr: filtrar observaciones

Para filtrar las filas de un dataset utilizaremos la función `filter` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre la que filtrar.
+ `logical test`: condición de filtrado sobre aquellas filas que cumplan el test.

La función `filter`permite utilizar los operadores relacionales y lógicos de R.

In [8]:
# Filter
hflights.select <- select(hflights.tbl, starts_with("Cancel"), DepDelay)
hflights.select

Unnamed: 0,Cancelled,CancellationCode,DepDelay
5424,0,,0
5425,0,,1
5426,0,,-8
5427,0,,3
5428,0,,5
5429,0,,-1
5430,0,,-1
5431,0,,-5
5432,0,,43
5433,0,,43


In [9]:
hflights.filter <- filter(hflights.select, Cancelled == 1)
hflights.filter

Cancelled,CancellationCode,DepDelay
1,A,
1,B,
1,B,
1,A,
1,B,
1,B,
1,B,
1,B,
1,A,
1,B,


### dplyr: ordenando observaciones

Para ordenar las filas de un dataset utilizaremos la función `arrange` del paquete `dplyr`. Los
parámetros de la función son:
+ `df`: el data frame o tabla sobre el que ordenar.
+ `...`: las variables sobre las que se ordenará.

Por defecto, la función `arrange` ordena de menor a mayor (ascendentemente).

Para ordenar de mayor a menor (descendentemente), utilizamos la función `desc(x)`.

In [10]:
# Arrange
hflights.select <- select(hflights.tbl, TailNum, contains("Delay"))
hflights.select

Unnamed: 0,TailNum,ArrDelay,DepDelay
5424,N576AA,-10,0
5425,N557AA,-9,1
5426,N541AA,-8,-8
5427,N403AA,3,3
5428,N492AA,-3,5
5429,N262AA,-7,-1
5430,N493AA,-1,-1
5431,N477AA,-16,-5
5432,N476AA,44,43
5433,N504AA,43,43


In [11]:
hflights.arrange <- arrange(hflights.select, DepDelay)
hflights.arrange

TailNum,ArrDelay,DepDelay
N728SK,-25,-33
N648MQ,-23,-23
N13908,-12,-19
N11107,-40,-19
N27610,-17,-18
N134EV,-31,-18
N14960,-15,-17
N14604,-9,-17
N13995,-17,-17
N502MQ,-23,-17


In [12]:
hflights.arrange <- arrange(hflights.select, DepDelay, ArrDelay)
hflights.arrange

TailNum,ArrDelay,DepDelay
N728SK,-25,-33
N648MQ,-23,-23
N11107,-40,-19
N13908,-12,-19
N134EV,-31,-18
N27610,-17,-18
N14943,-33,-17
N879AS,-32,-17
N368NB,-31,-17
N26215,-28,-17


### `dplyr`: agregar observaciones

Para agrupar las filas de un dataset utilizaremos la función `group_by` del paquete `dplyr`. Los
parámetros de la función son:

+ `df`: el data frame o tabla sobre la que se realizará la agrupación.
+ `...`: las variables sobre las que se agrupará.

La función `group_by` se suele usar conjuntamente con otra función, `summarise`. Dicha  función, permite calcular un resumen de estadísticos básicos que describen el dataset o la  agrupación. Los parámetros de la función son:
+ `df`: el data frame o tabla sobre la que actuar.
+ `new_column` = expresion: el nombre del nuevo estadístico y la expresión que lo calcula.
+ `...`: se pueden añadir más de una variable nueva al mismo tiempo.

Tip: al igual que con `mutate`, al usar `summarise` puedes emplear las nuevas variables para  crear otras en la misma llamada.

#### `dplyr`: `summarise`

La función `summarise` permite utilizar funciones de agregación de R:
+ `min(x)`: valor mínimo del vector x.
+ `max(x)`: valor máximo del vector x.
+ `mean(x)`: valor medio del vector x.
+ `median(x)`: valor mediano del vector x.
+ `quantile(x, p)`: el cuantil p del vector x.
+ `sd(x)`: la desviación estándar del vector x.
+ `var(x)`: la varianza del vector x.
+ `IQR(x)`: el rango intercuartílico del vector x.

El paquete `dplyr` completa la lista de funciones anteriores con algunas propias:
+ `first(x)`: primer elemento del vector x.
+ `last(x)`: último elemento del vector x.
+ `nth(x, n)`: el enésimo elemento del vector x.
+ `n()`: número de filas del data frame, tabla o grupo.
+ `n_distinct(x)`: número de valores únicos del vector x.

In [13]:
# Summarise
hflights.select <- select(hflights.tbl, TailNum, contains("Delay"))
hflights.select <- filter(hflights.select, !is.na(DepDelay))
hflights.summarise <- summarise(hflights.select, min = min(DepDelay), max = max(DepDelay), mean = mean(DepDelay), 
                                median = median(DepDelay))
hflights.summarise

min,max,mean,median
-33,981,9.444951,0


In [14]:
# Group by
hflights.group <- group_by(hflights.tbl, UniqueCarrier)
hflights.summarise.group <- summarise(hflights.group, 
                                      avgDep = mean(DepDelay, na.rm = T), 
                                      avgArr = mean(ArrDelay, na.rm = T))
hflights.summarise.group


UniqueCarrier,avgDep,avgArr
AA,6.390144,0.8917558
AS,3.712329,3.1923077
B6,13.320532,9.858841
CO,9.261313,6.0986983
DL,9.370627,6.0841374
EV,12.482193,7.2569543
F9,5.093637,7.6682692
FL,4.716376,1.8536239
MQ,11.071745,7.1529751
OO,8.885482,8.6934922


### `dplyr`: pipes operator

El paquete dplyr permite utilizar el **pipe operator** de R para encadenar llamadas a funciones.
+ Envía la salida de una función a la siguiente.
+ Ahorra espacio (no es necesario declarar variables intermedias).
+ Simplifica la lectura de código.

In [15]:
# %>%
hflights.tbl %>%
  filter(!is.na(DepDelay)) %>%
  summarise(min = min(DepDelay), max = max(DepDelay), mean = mean(DepDelay), median = median(DepDelay))

min,max,mean,median
-33,981,9.444951,0


### `dplyr`: combinando

El paquete `dplyr` también contiene algunas funciones para realizar operaciones de unión o
combinación de data frames o tablas.

Las funciones son `inner_join`, `left_join`, `right_join`, `full_join`. Los parámetros son comunes  para todas ellas:
+ `x, y`: data frames o tablas a unir.
+ `by`: vector de caracteres con las columnas por las que se realizará la unión. Por defecto,  buscará aquellas variables con el mismo nombre.

## Ejercicio

In [16]:
###################################
# dplyr                           #
###################################
library(hflights)
library(dplyr)

# Contiene información de vuelos de los aeropuertos de Houston
hflights

hflights.tbl <- tbl_df(hflights)

hflights.tbl

glimpse(hflights.tbl)

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,⋯,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted
5424,2011,1,1,6,1400,1500,AA,428,N576AA,60,⋯,-10,0,IAH,DFW,224,7,13,0,,0
5425,2011,1,2,7,1401,1501,AA,428,N557AA,60,⋯,-9,1,IAH,DFW,224,6,9,0,,0
5426,2011,1,3,1,1352,1502,AA,428,N541AA,70,⋯,-8,-8,IAH,DFW,224,5,17,0,,0
5427,2011,1,4,2,1403,1513,AA,428,N403AA,70,⋯,3,3,IAH,DFW,224,9,22,0,,0
5428,2011,1,5,3,1405,1507,AA,428,N492AA,62,⋯,-3,5,IAH,DFW,224,9,9,0,,0
5429,2011,1,6,4,1359,1503,AA,428,N262AA,64,⋯,-7,-1,IAH,DFW,224,6,13,0,,0
5430,2011,1,7,5,1359,1509,AA,428,N493AA,70,⋯,-1,-1,IAH,DFW,224,12,15,0,,0
5431,2011,1,8,6,1355,1454,AA,428,N477AA,59,⋯,-16,-5,IAH,DFW,224,7,12,0,,0
5432,2011,1,9,7,1443,1554,AA,428,N476AA,71,⋯,44,43,IAH,DFW,224,8,22,0,,0
5433,2011,1,10,1,1443,1553,AA,428,N504AA,70,⋯,43,43,IAH,DFW,224,6,19,0,,0


Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,⋯,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted
5424,2011,1,1,6,1400,1500,AA,428,N576AA,60,⋯,-10,0,IAH,DFW,224,7,13,0,,0
5425,2011,1,2,7,1401,1501,AA,428,N557AA,60,⋯,-9,1,IAH,DFW,224,6,9,0,,0
5426,2011,1,3,1,1352,1502,AA,428,N541AA,70,⋯,-8,-8,IAH,DFW,224,5,17,0,,0
5427,2011,1,4,2,1403,1513,AA,428,N403AA,70,⋯,3,3,IAH,DFW,224,9,22,0,,0
5428,2011,1,5,3,1405,1507,AA,428,N492AA,62,⋯,-3,5,IAH,DFW,224,9,9,0,,0
5429,2011,1,6,4,1359,1503,AA,428,N262AA,64,⋯,-7,-1,IAH,DFW,224,6,13,0,,0
5430,2011,1,7,5,1359,1509,AA,428,N493AA,70,⋯,-1,-1,IAH,DFW,224,12,15,0,,0
5431,2011,1,8,6,1355,1454,AA,428,N477AA,59,⋯,-16,-5,IAH,DFW,224,7,12,0,,0
5432,2011,1,9,7,1443,1554,AA,428,N476AA,71,⋯,44,43,IAH,DFW,224,8,22,0,,0
5433,2011,1,10,1,1443,1553,AA,428,N504AA,70,⋯,43,43,IAH,DFW,224,6,19,0,,0


Observations: 227,496
Variables: 21
$ Year              <int> 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2...
$ Month             <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ DayofMonth        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15...
$ DayOfWeek         <int> 6, 7, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 5, 6, 7, 1...
$ DepTime           <int> 1400, 1401, 1352, 1403, 1405, 1359, 1359, 1355, 1...
$ ArrTime           <int> 1500, 1501, 1502, 1513, 1507, 1503, 1509, 1454, 1...
$ UniqueCarrier     <chr> "AA", "AA", "AA", "AA", "AA", "AA", "AA", "AA", "...
$ FlightNum         <int> 428, 428, 428, 428, 428, 428, 428, 428, 428, 428,...
$ TailNum           <chr> "N576AA", "N557AA", "N541AA", "N403AA", "N492AA",...
$ ActualElapsedTime <int> 60, 60, 70, 70, 62, 64, 70, 59, 71, 70, 70, 56, 6...
$ AirTime           <int> 40, 45, 48, 39, 44, 45, 43, 40, 41, 45, 42, 41, 4...
$ ArrDelay          <int> -10, -9, -8, 3, -3, -7, -1, -16, 44, 43, 29, 5, -...
$ DepDelay      

In [17]:
# Recodifica la variable UniqueCarrier a partir del vector recode.carrier
recode.carrier <- c("AA" = "American", "AS" = "Alaska", "B6" = "JetBlue", "CO" = "Continental", 
                    "DL" = "Delta", "OO" = "SkyWest", "UA" = "United", "US" = "US_Airways", 
                    "WN" = "Southwest", "EV" = "Atlantic_Southeast", "F9" = "Frontier", 
                    "FL" = "AirTran", "MQ" = "American_Eagle", "XE" = "ExpressJet", "YV" = "Mesa")
hflights.tbl$UniqueCarrier <- recode.carrier[hflights.tbl$UniqueCarrier]

In [18]:
# Comprueba de nuevo el contenido
glimpse(hflights.tbl)

Observations: 227,496
Variables: 21
$ Year              <int> 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2...
$ Month             <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ DayofMonth        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15...
$ DayOfWeek         <int> 6, 7, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 5, 6, 7, 1...
$ DepTime           <int> 1400, 1401, 1352, 1403, 1405, 1359, 1359, 1355, 1...
$ ArrTime           <int> 1500, 1501, 1502, 1513, 1507, 1503, 1509, 1454, 1...
$ UniqueCarrier     <chr> "American", "American", "American", "American", "...
$ FlightNum         <int> 428, 428, 428, 428, 428, 428, 428, 428, 428, 428,...
$ TailNum           <chr> "N576AA", "N557AA", "N541AA", "N403AA", "N492AA",...
$ ActualElapsedTime <int> 60, 60, 70, 70, 62, 64, 70, 59, 71, 70, 70, 56, 6...
$ AirTime           <int> 40, 45, 48, 39, 44, 45, 43, 40, 41, 45, 42, 41, 4...
$ ArrDelay          <int> -10, -9, -8, 3, -3, -7, -1, -16, 44, 43, 29, 5, -...
$ DepDelay      

In [20]:
# Recodifica la variable CancellationCode a partir del vector recode.cancellation
hflights.tbl[hflights.tbl$CancellationCode == "", "CancellationCode"] <- "E"
recode.cancellation <-  c("A" = "carrier", "B" = "weather", "C" = "FFA", "D" = "security", "E" = "not cancelled")
hflights.tbl$CancellationCode <- recode.cancellation[hflights.tbl$CancellationCode]

In [21]:
# Comprueba de nuevo el contenido
glimpse(hflights.tbl)

Observations: 227,496
Variables: 21
$ Year              <int> 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2011, 2...
$ Month             <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1...
$ DayofMonth        <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15...
$ DayOfWeek         <int> 6, 7, 1, 2, 3, 4, 5, 6, 7, 1, 2, 3, 4, 5, 6, 7, 1...
$ DepTime           <int> 1400, 1401, 1352, 1403, 1405, 1359, 1359, 1355, 1...
$ ArrTime           <int> 1500, 1501, 1502, 1513, 1507, 1503, 1509, 1454, 1...
$ UniqueCarrier     <chr> "American", "American", "American", "American", "...
$ FlightNum         <int> 428, 428, 428, 428, 428, 428, 428, 428, 428, 428,...
$ TailNum           <chr> "N576AA", "N557AA", "N541AA", "N403AA", "N492AA",...
$ ActualElapsedTime <int> 60, 60, 70, 70, 62, 64, 70, 59, 71, 70, 70, 56, 6...
$ AirTime           <int> 40, 45, 48, 39, 44, 45, 43, 40, 41, 45, 42, 41, 4...
$ ArrDelay          <int> -10, -9, -8, 3, -3, -7, -1, -16, 44, 43, 29, 5, -...
$ DepDelay      

In [31]:
# Selecciona las variables: ActualElapsedTime, AirTime, ArrDelay, DepDelay

hflights.select <- select(hflights.tbl, ActualElapsedTime, AirTime, ArrDelay, DepDelay)
head(hflights.select)

ActualElapsedTime,AirTime,ArrDelay,DepDelay
60,40,-10,0
60,45,-9,1
70,48,-8,-8
70,39,3,3
62,44,-3,5
64,45,-7,-1


In [32]:
# Selecciona las variables desde Origin a Cancelled

hflights.select <- select(hflights.tbl, Origin:Cancelled)
head(hflights.select)

Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled
IAH,DFW,224,7,13,0
IAH,DFW,224,6,9,0
IAH,DFW,224,5,17,0
IAH,DFW,224,9,22,0
IAH,DFW,224,9,9,0
IAH,DFW,224,6,13,0


In [49]:
# Selecciona todas las variables menos aquellas entre DepTime y AirTime

hflights.select <- select(hflights.tbl, -DepTime:-AirTime)
head(hflights.select)

Year,Month,DayofMonth,DayOfWeek,ArrDelay,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted
2011,1,1,6,-10,0,IAH,DFW,224,7,13,0,not cancelled,0
2011,1,2,7,-9,1,IAH,DFW,224,6,9,0,not cancelled,0
2011,1,3,1,-8,-8,IAH,DFW,224,5,17,0,not cancelled,0
2011,1,4,2,3,3,IAH,DFW,224,9,22,0,not cancelled,0
2011,1,5,3,-3,5,IAH,DFW,224,9,9,0,not cancelled,0
2011,1,6,4,-7,-1,IAH,DFW,224,6,13,0,not cancelled,0


In [35]:
# Selecciona todas las variables que terminan en "Delay"

hflights.select <- select(hflights.tbl, ends_with('Delay'))
head(hflights.select)

ArrDelay,DepDelay
-10,0
-9,1
-8,-8
3,3
-3,5
-7,-1


In [36]:
# Selecciona todas las variables que terminan en "Num" o empiezan por "Cancell"

hflights.select <- select(hflights.tbl, ends_with('Num'),starts_with('Cancell'))
head(hflights.select)

FlightNum,TailNum,Cancelled,CancellationCode
428,N576AA,0,not cancelled
428,N557AA,0,not cancelled
428,N541AA,0,not cancelled
428,N403AA,0,not cancelled
428,N492AA,0,not cancelled
428,N262AA,0,not cancelled


In [37]:
# Selecciona todas las variables que terminan en "Num" o empiezan por "Cancell" y además la variable UniqueCarrier

hflights.select <- select(hflights.tbl, ends_with('Num'),starts_with('Cancell'),UniqueCarrier)
head(hflights.select)

FlightNum,TailNum,Cancelled,CancellationCode,UniqueCarrier
428,N576AA,0,not cancelled,American
428,N557AA,0,not cancelled,American
428,N541AA,0,not cancelled,American
428,N403AA,0,not cancelled,American
428,N492AA,0,not cancelled,American
428,N262AA,0,not cancelled,American


In [39]:
# Selecciona todas las variables que terminan en "Time" o "Delay"

hflights.select <- select(hflights.tbl, ends_with('Time'),ends_with('Delay'))
head(hflights.select)

DepTime,ArrTime,ActualElapsedTime,AirTime,ArrDelay,DepDelay
1400,1500,60,40,-10,0
1401,1501,60,45,-9,1
1352,1502,70,48,-8,-8
1403,1513,70,39,3,3
1405,1507,62,44,-3,5
1359,1503,64,45,-7,-1


In [44]:
# Traduce las siguiente selecciones tradicionales empleando "select"
ex1r <- hflights.tbl[c("TaxiIn", "TaxiOut", "Distance")]
ex1d <- select(hflights.tbl, TaxiIn, TaxiOut, Distance)
head(ex1d)

TaxiIn,TaxiOut,Distance
7,13,224
6,9,224
5,17,224
9,22,224
9,9,224
6,13,224


In [46]:
ex2r <- hflights.tbl[c("Year", "Month", "DayOfWeek", "DepTime", "ArrTime")]
ex2d <- select(hflights.tbl, Year,Month,DayOfWeek,DepTime,ArrTime)
head(ex2d)

Year,Month,DayOfWeek,DepTime,ArrTime
2011,1,6,1400,1500
2011,1,7,1401,1501
2011,1,1,1352,1502
2011,1,2,1403,1513
2011,1,3,1405,1507
2011,1,4,1359,1503


In [48]:
ex3r <- hflights.tbl[c("TailNum", "TaxiIn", "TaxiOut")]
ex3d <- select(hflights.tbl,TailNum, TaxiIn, TaxiOut)
head(ex3d)

TailNum,TaxiIn,TaxiOut
N576AA,7,13
N557AA,6,9
N541AA,5,17
N403AA,9,22
N492AA,9,9
N262AA,6,13


In [50]:
# Crea una nueva variable ActualGroundTime como la resta de ActualElapsedTime y AirTime. Guarda el resultado en g1
g1 <- mutate(hflights.tbl, ActualGroundTime = ActualElapsedTime - AirTime)
head(g1)

Year,Month,DayofMonth,DayOfWeek,DepTime,ArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,⋯,DepDelay,Origin,Dest,Distance,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,ActualGroundTime
2011,1,1,6,1400,1500,American,428,N576AA,60,⋯,0,IAH,DFW,224,7,13,0,not cancelled,0,20
2011,1,2,7,1401,1501,American,428,N557AA,60,⋯,1,IAH,DFW,224,6,9,0,not cancelled,0,15
2011,1,3,1,1352,1502,American,428,N541AA,70,⋯,-8,IAH,DFW,224,5,17,0,not cancelled,0,22
2011,1,4,2,1403,1513,American,428,N403AA,70,⋯,3,IAH,DFW,224,9,22,0,not cancelled,0,31
2011,1,5,3,1405,1507,American,428,N492AA,62,⋯,5,IAH,DFW,224,9,9,0,not cancelled,0,18
2011,1,6,4,1359,1503,American,428,N262AA,64,⋯,-1,IAH,DFW,224,6,13,0,not cancelled,0,19


In [None]:
# Añade a g1 una nueva variable GroundTime como la suma TaxiIn y TaxiOut
g2 <- 

In [None]:
# Añade a g2 una nueva variable AverageSpeed como Distance/AirTime*60
g3 <- 

In [None]:
# Pinta g3
g3

In [None]:
# Crea dos variables al tiempo y guardalas en m1:
#     loss como la resta de ArrDelay y DepDelay
#     loss_percent como el ratio de ArrDelay - DepDelay entre DepDelay
m1 <- 

In [None]:
# ¿Puedes simplificar la creación de la segunda variable con la primera? Guardalo en m2
m2 <- 

In [None]:
# Crea tres variables al timepo y guardalas en m3. Utiliza la simplificación anterior
#     TotalTaxi como la suma de TaxiIn y TaxiOut
#     ActualGroundTime como la diferencia de ActualElapsedTime y AirTime
#     Diff como la diferencia de las dos variables anteriores ¿Es siempre cero?
m3 <- 

In [None]:
# Filtra los vuelos con distancia recorrida mayor o igual que 3000

In [None]:
# Filtra los vuelos de JetBlue, Southwest, o Delta

In [None]:
# Filtra los vuelos en los que el tiempo en Taxi fue mayor que el tiempo de vuelo (No uses mutate)

In [None]:
# Filtra los vuelos que salieron antes de las 5am y llegaron después de las 10pm

In [None]:
# Filtra los vuelos que salieron con retraso y llegaron a tiempo

In [None]:
# Filtra los vueltos cancelados en fin de semana

In [None]:
# Filtra los vueltos cancelados después de haber sido retrasados

In [45]:
# Selecciona los vuelos con destino JFK
# Crea una nueva variable Date a partir de  Year, Month y DayofMont
# Muestra una selección de las variables Date, DepTime, ArrTime y TailNum
c1 <- 
c2 <- 


# Ordena la tabla dtc según el retraso de salida
dtc <- filter(hflights.tbl, Cancelled == 1, !is.na(DepDelay))


# Ordena la tabla dtc según el motivo de cancelación


# Ordena la tabla dtc según la compañía y el retraso de salida


# Ordena todos los vuelos según la compañía y el retraso de salida descendentemente


# Ordena todos los vuelos según el retraso total (No uses mutate)


# Filtra los vuelos con destino DFW y hora de salida anterior a las 8am, ordenalos según el tiempo en vuelo descendentemente
# Hazlo en una sola instrucción


# Calcula la distancia mínima y máxima de todos los vuelos


# Calcula la distancia máxima de todos los vuelos desviados


# Crea en una nueva variable con aquellos vuelos que no tienen NA en ArrDelay
# Calcula los siguientes estadísticos:
#    earliest: el mínimo retraso de llegada
#    average: el retraso medio de llegada
#    latest: el máximo retraso de llegada
#    sd: la desviación estandar en el retraso de llegada
temp1 <- 
  

# Crea en una nueva variable con aquellos vuelos que no tienen NA en TaxiIn y TaxiOut
# Calcula un estadístico (max_taxi_diff) que contenga la mayor diferencia en valor absoluto entre TaxiIn y TaxiOut
temp2 <- 


# Calcula los siguientes estadísticos:
#    n_obs: número de observaciones
#    n_carrier: número total de compañías
#    n_dest: número total de destinos
#    dest100: el destino del vuelo en la posición 100


# Crea en una nueva variable con aquellos vuelos de la compañía "American"

# Calcula los siguientes estadísticos:
#    n_flights: el número de vuelos
#    n_canc: el número de vuelos cancelados
#    p_canc: el porcentaje de vuelos cancelados
#    avg_delay: el tiempo medio de los vuelos (acuerdate de eliminar los NAs)


# Usando los pipes realiza:
#    1. Crea una variable diff como la diferencia de TaxiIn y TaxiOut
#    2. Filtra aquellas filas para las que diff no es NA
#    3. Calcula la media





# Usando los pipes realiza:
#    1. ¿Cuanto vuelos nocturos hay? Los vuelos nocturnos son aquellos para los que la hora de llegada es menor que la de salida
# Cuidado con los NAs




# Usando los pipes realiza:
#    1. Para cada compañía calcula los siguientes estadísticos:
#       n_flights: número de vuelos
#       n_canc: número de vuelos cancelados
#       p_canc: porcentaje de vuelos cancelados
#       avg_delay: retraso medio de llegada (cuidado con los NAs)
#    2. Ordena los resultados por el retraso medio y el porcentaje de vuelos cancelados








# Usando los pipes realiza:
#    1. Para cada día de la semana calcula los siguientes estadísticos:
#       avg_taxi: tiempo medio de la suma de las variables TaxiIn y TaxiOut (cuidado con los NAs)
#    2. Ordena los resultados descendentemente segun avg_taxi





# Usando los pipes realiza:
#    1. Filtra aquellos cuyo retraso de llegada es distinto de NA
#    2. Agrega por compañía
#    3. Calcula la proporción de vuelos con retraso (p_delay)
#    4. Crea una nueva variable rank, que es el ranking de p_delay
#    5. Ordena el resultado segun rank







# Usando los pipes realiza:
#    1. Filtra aquellos cuyo retraso de llegada es distinto de NA y mayor que cero
#    2. Agrega por compañía
#    3. Calcula el tiempo medio de restraso (avg_delay)
#    4. Crea una nueva variable rank, que es el ranking de avg_delay
#    5. Ordena el resultado segun rank







# Usando los pipes calcula que avión (TailNum) volo más veces. ¿Cuántas?





# ¿Cuántos aviones volaron a un único destino?






# ¿Cuál es el destino más visitado de cada compañía?






# ¿Qué compañías viaja más a cada destino?

ERROR: Error in parse(text = x, srcfile = src): <text>:205:0: unexpected end of input
203: 
204: # ¿Qué compañías viaja más a cada destino?
    ^
