# Parte 2: Manipulación de tablas en R (Parte I)


**Autor:** Miguel Jorquera Viguera<br>
**E-mail:** majorquev@gmail.com<br>
**Ayudante:** Rodrigo Morales<br>
**E-mail ayudante:** rumorale1@gmail.com

## 1. Instalación de librerías

En esta sección aprenderemos a realizar operaciones simples de manipulación de tablas en R. Para ello trabajaremos con la librería _dplyr_, la cual cuenta con una gran variedad de funciones para manipular tablas, entre otras.


Una manera de instalar librerías en R es me diante la función `install.packages()`, la cual recibe como argunmento principal el nombre (enre comillas) de la librería que se desea cargar.

Una vez instalada la librería la debemos cargar en la sesión de trbajao, para lo cual podemos utilizar la función `library()` la cual recibe como argumento el nombre de la librería que se quiere cargar.


In [1]:
install.packages("tidyr")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



In [2]:
# 1. Instalación de package
# install.packages("dplyr") # No instalaremos la librería pues ya viene cargada en los notebooks de azure. Probablemente sea necesario hacerlo en su entorno local.
# Para cargar la librería
library("dplyr") # sin comillas también funciona





Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




## 2. Funciones básicas en dplyr

En todo proyecto analítico es necesario procesar, limpar y unificar disntintas fuentes de información para poder generar los análisis requeridos. Para dichas tareas, en la librería _dplyr_ contamos con funciones que nos permitirán filtrar datos, crear columnas, agrupar tablas, y cruzar tablas.

A continuación trabajaremos con la siguientes funciones:<br>

   `filter()`                        : Para filtrar los datos (por filas).<br>
   `arrange()`                       : Para ordenar un dataset.<br>
   `select()`                        : Para seleccionar y renombrar columnas.<br>
   `mutate()`                        : Para crear (o modificar) nuevas columnas basadas en columnas existentes.<br>
   `group_by()`                     : Para agrupar tablas.<br>
   `sample_n()` and `sample_frac()`  : Para generar muestras aleatorias<br>
   
   
Para entender el funcionamiento de estas funciones trabjaremos con el set de datos _nycflights13_, el cual contiene la información de los vuelos con salida en los aeropuertos de Nueva York en el año 2013.

## 3. Carga de datos

En R es posible cargar datos provenientes de archivos de texto plano. Un ejemplo de ellos son los de extensión *.csv (comma separated values). Para cargar los datos a la sesión, lo podemos realizar a través de la función `read.csv()`, la cual recibe como argumento principal la ruta del archivo a cargar.

   
   
   

In [3]:
getwd()

In [5]:
# Carga de datos ------
# Usaremos la función read.csv para cargar el archivo Datasets_flights.csv ubicado en "./Datasets/", y lo guardamos en una variable llamada vuelo.

flights <- read.csv('https://raw.githubusercontent.com/majorquev/DBDC_202304_Programacion_en_R_para_ciencia_de_datos/main/Clases/C3/Datasets/flights.csv')


In [7]:
# Podemos inspeccionar los datos cargados
# Para ello son de utilidad las funciones head() y summary()
# ¿Cuántos registros tienen las tablas?
head(flights, n=10)

Unnamed: 0_level_0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
1,2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2,2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
3,2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
4,2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
5,2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
6,2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
7,2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
8,2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
9,2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
10,2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


In [8]:
summary(flights)

      year          month             day           dep_time    sched_dep_time
 Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
 1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
 Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
 Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
 3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
 Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
                                                 NA's   :8255                 
   dep_delay          arr_time    sched_arr_time   arr_delay       
 Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
 1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
 Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
 Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
 3rd Qu.:  11.00   3rd Qu.:1

In [10]:
class(flights)

In [15]:
glimpse(flights)


str(flights)

Rows: 336,776
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2…
$ month          [3m[90m<int>[39m[23m 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
$ day            [3m[90m<int>[39m[23m 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
$ dep_time       [3m[90m<int>[39m[23m 517, 533, 542, 544, 554, 554, 555, 557, 557, 558, 558, …
$ sched_dep_time [3m[90m<int>[39m[23m 515, 529, 540, 545, 600, 558, 600, 600, 600, 600, 600, …
$ dep_delay      [3m[90m<int>[39m[23m 2, 4, 2, -1, -6, -4, -5, -3, -3, -2, -2, -2, -2, -2, -1…
$ arr_time       [3m[90m<int>[39m[23m 830, 850, 923, 1004, 812, 740, 913, 709, 838, 753, 849,…
$ sched_arr_time [3m[90m<int>[39m[23m 819, 830, 850, 1022, 837, 728, 854, 723, 846, 745, 851,…
$ arr_delay      [3m[90m<int>[39m[23m 11, 20, 33, -18, -25, 12, 19, -14, -8, 8, -2, -3, 7, -1…
$ carrier        [3m[90m<chr>[39m[23m "UA", "UA", "AA", "B6", "DL", "UA", "B6",

## 4. Funciones básicas de dplyr

A continuación exploraremos los datos de vuelos utilizando la librería dplyr.

### 4.1 Función filter()

La función filter() de dplyr es el equivalente a la sentencia where de sql.

In [20]:
# filter() # where de sql----------------------------------------------------------------
# Registros que tengan fecha 31 de diciembre
# Antes

# Ahora

ano_viejo <- flights %>% filter(grepl('^2013-12-31', time_hour))
ano_viejo # 776x19

ano_viejo2 <- flights %>% filter(month == 12, day == 31)
ano_viejo2 # 776x19

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
2013,12,31,13,2359,14,439,437,2,B6,839,N566JB,JFK,BQN,189,1576,23,59,2013-12-31 23:00:00
2013,12,31,18,2359,19,449,444,5,DL,412,N713TW,JFK,SJU,192,1598,23,59,2013-12-31 23:00:00
2013,12,31,26,2245,101,129,2353,96,B6,108,N374JB,JFK,PWM,50,273,22,45,2013-12-31 22:00:00
2013,12,31,459,500,-1,655,651,4,US,1895,N557UW,EWR,CLT,95,529,5,0,2013-12-31 05:00:00
2013,12,31,514,515,-1,814,812,2,UA,700,N470UA,EWR,IAH,223,1400,5,15,2013-12-31 05:00:00
2013,12,31,549,551,-2,925,900,25,UA,274,N577UA,EWR,LAX,346,2454,5,51,2013-12-31 05:00:00
2013,12,31,550,600,-10,725,745,-20,AA,301,N3CXAA,LGA,ORD,127,733,6,0,2013-12-31 06:00:00
2013,12,31,552,600,-8,811,826,-15,EV,3825,N14916,EWR,IND,118,645,6,0,2013-12-31 06:00:00
2013,12,31,553,600,-7,741,754,-13,DL,731,N333NB,LGA,DTW,86,502,6,0,2013-12-31 06:00:00
2013,12,31,554,550,4,1024,1027,-3,B6,939,N552JB,JFK,BQN,195,1576,5,50,2013-12-31 05:00:00


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
2013,12,31,13,2359,14,439,437,2,B6,839,N566JB,JFK,BQN,189,1576,23,59,2013-12-31 23:00:00
2013,12,31,18,2359,19,449,444,5,DL,412,N713TW,JFK,SJU,192,1598,23,59,2013-12-31 23:00:00
2013,12,31,26,2245,101,129,2353,96,B6,108,N374JB,JFK,PWM,50,273,22,45,2013-12-31 22:00:00
2013,12,31,459,500,-1,655,651,4,US,1895,N557UW,EWR,CLT,95,529,5,0,2013-12-31 05:00:00
2013,12,31,514,515,-1,814,812,2,UA,700,N470UA,EWR,IAH,223,1400,5,15,2013-12-31 05:00:00
2013,12,31,549,551,-2,925,900,25,UA,274,N577UA,EWR,LAX,346,2454,5,51,2013-12-31 05:00:00
2013,12,31,550,600,-10,725,745,-20,AA,301,N3CXAA,LGA,ORD,127,733,6,0,2013-12-31 06:00:00
2013,12,31,552,600,-8,811,826,-15,EV,3825,N14916,EWR,IND,118,645,6,0,2013-12-31 06:00:00
2013,12,31,553,600,-7,741,754,-13,DL,731,N333NB,LGA,DTW,86,502,6,0,2013-12-31 06:00:00
2013,12,31,554,550,4,1024,1027,-3,B6,939,N552JB,JFK,BQN,195,1576,5,50,2013-12-31 05:00:00


### 4.2 Función count()

Como su nombre lo indica, esta función nos permite contar registros de una tabla. Es de suma utilidad cuando se utiliza dentro de agrupaciones de tablas. Estas últimas las veremos más adelante. 

Alternativamente, en la librería _dplyr_, contamos con la función `N()` la cual también retorna el conteo de registros.

In [67]:
# count() y N() ----------------------------------------------------------------
# ¿Cuántos vuelos hay registrados para el 25 de dic?¿y el primero de enero?

#flights %>%
  # filter(grepl('2013-12-25|2013-01-01', time_hour)) %>%
  # filter((month == 12 & day == 25) | (month == 1 & day == 1)) %>%
  # filter(month == 12 & (day >= 1 & day <= 25)) %>% # Entre 1 y 25 de Dicimebre
  #between((month == 3 & day == 25), (month == 4 & day == 5))# %>% # Entre 25/03 y 05/04
  #group_by(month, day) %>%
  #count() %>%

#between(flights, (flights$month == 3 & flights$day == 25), (flights$month == 4 & flights$day == 5))
flights_mutado <- flights %>%
  mutate(
    nuevo_dia = ifelse(day < 10, paste0('0', day), day),
    nuevo_mes = ifelse(month < 10, paste0('0', month), month),
    fecha = as.Date(paste(nuevo_dia, nuevo_mes, year, sep='-'), '%d-%m-%Y'))
head(flights_mutado)

filter(flights_mutado, between(fecha, as.Date('25-03-2013', '%d-%m-%Y'), as.Date('2013-04-05', '%Y-%m-%d'))) %>%# 11461 x 22
  group_by(month, day) %>%
  count()

Unnamed: 0_level_0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,⋯,origin,dest,air_time,distance,hour,minute,time_hour,nuevo_dia,nuevo_mes,fecha
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,⋯,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>,<chr>,<chr>,<date>
1,2013,1,1,517,515,2,830,819,11,UA,⋯,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,1,1,2013-01-01
2,2013,1,1,533,529,4,850,830,20,UA,⋯,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,1,1,2013-01-01
3,2013,1,1,542,540,2,923,850,33,AA,⋯,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,1,1,2013-01-01
4,2013,1,1,544,545,-1,1004,1022,-18,B6,⋯,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,1,1,2013-01-01
5,2013,1,1,554,600,-6,812,837,-25,DL,⋯,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,1,1,2013-01-01
6,2013,1,1,554,558,-4,740,728,12,UA,⋯,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,1,1,2013-01-01


month,day,n
<int>,<int>,<int>
3,25,978
3,26,973
3,27,977
3,28,982
3,29,974
3,30,769
3,31,897
4,1,970
4,2,983
4,3,992


In [72]:
flights_mutado %>%
  mutate(
    week = strftime(fecha, format = '%V')
  ) %>%
  group_by(week) %>%
  count()

week,n
<chr>,<int>
1,6910
2,6114
3,6034
4,6049
5,6063
6,6104
7,6236
8,6381
9,6444
10,6546


In [None]:
#si quisiéramos guardar resgidtros en el disco, una manera es usando write.csv()



In [75]:
# ¿Cuántos vuelos hay registrados entre noviembre y diciembre?¿A qué porcentaje del total corresponde?
seleccion <- flights %>% filter(month >= 11)
(nrow(seleccion) / nrow(flights)) * 100

In [76]:
# ¿Qué porcentaje de vuelos tienen un retraso  (de salida o llegada) mayor a una hora?

#columnas arr_delay o dep_delay
retraso <- flights %>% filter(arr_delay > 60 | dep_delay > 60)
(nrow(retraso) / nrow(flights))* 100

In [79]:
# ¿Cuántos vuelos llegaron con al menos dos horas de retraso pero no se retrasaron al partir?
flights %>%
  filter(arr_delay > 120 & dep_delay <= 0) %>%
  count()

n
<int>
29


### 4.3 Función arrange()

Esta función nos permite ordernar registros basándose en la indexación de alguna columna. Es el equivalente a la sentencia `order by` en sql. 
Esta función recibe como argumento principal un dataset a ordenar, y los nombres de las columnas por las cuales se quiere ordenar. Para más información consultar la ayuda de esta función (?arrange)


In [None]:
# arrange() ----------------------------------------------------------------
# Ejemplo, podemos ordenar la data flights por mes y arr_delay



### 4.3 Funciones select() y rename()

La con la función `select` podemos seleccionar un subconjunto de columas de la tabla original. A difernecia de SQL en esta sentencia no podremos crear nuevas columnas, sólo renombrarlas en algunos casos. Notar que (obviamente) no se mantienen las columnas que no ingresan como argumento a la función.

La función rename() permite renombrar columnas existentes, manteniendo las columnas que no se están renombrando.

In [80]:
summary(flights)

      year          month             day           dep_time    sched_dep_time
 Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
 1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
 Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
 Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
 3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
 Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
                                                 NA's   :8255                 
   dep_delay          arr_time    sched_arr_time   arr_delay       
 Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
 1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
 Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
 Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
 3rd Qu.:  11.00   3rd Qu.:1

In [88]:
# select() y rename() ----------------------------------------------------------------
# Ejemplo: Podemos seleccionar las columnas year, month, day, origin, dest

# Cómo lo haríamos con la sintaxis básica? (recorr como acceder a través del nombre a un vector, matrix, lista, o data.frame)

flights %>%
  rename(
    ano = year,
    mes = month,
    dia = day,
    origen = origin)

ano,mes,dia,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origen,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


In [None]:
# podemos renombrar la columna year

# NOTA: esto no modifica el dataset original


In [None]:
#Existe gran variedad (pueden consultar la documentación respectiva)  de otras funciones dentro del package dplyr, por ejemplo: Seleccionar solo las variables que comiencen con "d"
# para su estudio



### 4.4 Función mutate()

Una de las funciones más útiles de dplyr es la función mutate(), la cual permite crear nuevas columnas, o modificar las existentes. 

In [None]:
# mutate() ----------------------------------------------------------------
# Crear una nueva columna llamada retraso_neto, que contenga la suma de arr_delay y dep_delay

#antes

#ahora

# Recordar que esta nueva columna solo existe en la ejecución y no se ha modificado el dataset original.


In [None]:
# Primero defina una nueva data llamada muestra_fl que contenga la fecha, los retrasos, la distancia, y el tiempo de vuelo
# Cree una columna llamada gain que contenga la diferenecia entre arr_delay y dep_delay, y otra llamada speed que mida la velocidad en horas (distancia / tiempo de vuelo * 60)


### Operador %>% 

El operador estrella de dplyr. Funciona como una composición de funciones, y nos permite generar _pipe-lines_, permitiendo  que la generación  del código sea más ordenada, y con ello, su lectura más sencilla.

Este operdaor actua de la sifuiente manera, <br>

    x %>% f(y) , es equivalente a,  f(x,y)



In [None]:
# Operador %>% ----------------------------------------------------------------
# Ejemplo sencillo 

# head(vuelos)


# Utilizando %>%




In [None]:
# Genere el conteo de vuelos por mes y día,
# luego filtre por aquellos registros donde el día es 1,
# ordene de manera descendiente por n,
# finalmente muestra la cabecera del dataset resultante.

## ANTES


In [None]:
# Genere el conteo de vuelos por mes y día,
# luego filtre por aquellos registros donde el día es 1,
# ordene de manera descendiente por n,
# finalmente muestra la cabecera del dataset resultante.

## AHORA



In [None]:
# A la onsulta anterior podríamos agregar una nueva columna indicando si el totalde vuelos es mayor a 970


In [None]:
# Genere una nueva variable llamada day2 que pegue un "0" 
# a la variable day si es que esta contiene un dígito del 1 al 9.
# Para pegar cadena de caracteres sin espacios puede utilizar 
# la función paste0

#?paste0, ?nchar




In [None]:
# Con esta variable genere un entero llamado fecha, que concatena year,month y day 2.

### 4.5 Función group_by() y summarise()

La función `summarise()` calcula medidas agregadas sobre columnas, mientras que la función `group_by`, genera un data.frame "en bloques" dados por la(s) columna(s) ingresadas como parámetros en la función.



In [89]:
# group_by() y summarise() ----------------------------------------------------------------
# Ejemplo sencillo
exam2 <- data.frame(
  x = c(1:5),
  y = c(7:11),
  z = c("A", "B", "A", "B", "C")
)
exam2


x,y,z
<int>,<int>,<chr>
1,7,A
2,8,B
3,9,A
4,10,B
5,11,C


In [92]:
# Podemos generar un número de fila por cada grupo
exam2 %>%
  group_by(z) %>%
  mutate(
    fila = sum(x)
  )

x,y,z,fila
<int>,<int>,<chr>,<int>
1,7,A,4
2,8,B,6
3,9,A,4
4,10,B,6
5,11,C,5


In [94]:
# 1) Aplicar la función summarise a la columna 'y' y calcular su promedio

exam2 %>%
  summarise(mean(y))

exam2 %>%
  group_by(z) %>%
  summarise(mean(y))

# 2) Generar grupos según la variable z. (a diferencia de sql, el comando group_by() no requiere de una medida agregada para que este funcione.)
# select z, avg(x) mean_x, sum(x) tot_x from exam2 group by z



mean(y)
<dbl>
9


z,mean(y)
<chr>,<dbl>
A,8
B,9
C,11


In [97]:
# 3) Calcular media de x e y en cada valor de z.
# podemos calcular máximos y mínimos
exam2 %>%
  group_by(z) %>%
  summarise(mean(x), mean(y))

z,mean(x),mean(y)
<chr>,<dbl>,<dbl>
A,2,8
B,3,9
C,5,11


In [106]:
# promedio de retraso de llegada por origen-destino
flights %>%
  group_by(origin, dest) %>%
  summarise(prom_arr_delay = mean(arr_delay, na.rm = TRUE)) %>%
  arrange(desc(prom_arr_delay))


[1m[22m`summarise()` has grouped output by 'origin'. You can override using the
`.groups` argument.


origin,dest,prom_arr_delay
<chr>,<chr>,<dbl>
EWR,CAE,44.58511
EWR,TYS,41.15016
EWR,TUL,33.65986
EWR,OKC,30.61905
EWR,JAC,29.89474
EWR,RIC,25.82043
EWR,MKE,24.00378
EWR,DSM,23.54872
EWR,MSN,23.19710
EWR,PWM,23.00548


In [98]:
names(flights)

In [None]:
# ¿Cuáles son los aeropuertos de destino con mayor retraso medio en su llegada?



In [None]:
# los podemos remover mediante el argumento na.rm de la función mean()


In [109]:
# si quisiéramos ratar los NA's, podemos hacerlo de la sgte. manera

#consultamos los NA en arr_delay

# Recordar que NA == NA retorna NA . is.na(NA) retorna TRUE

head(filter(flights, is.na(arr_delay)))

Unnamed: 0_level_0,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
1,2013,1,1,1525,1530,-5,1934,1805,,MQ,4525,N719MQ,LGA,XNA,,1147,15,30,2013-01-01 15:00:00
2,2013,1,1,1528,1459,29,2002,1647,,EV,3806,N17108,EWR,STL,,872,14,59,2013-01-01 14:00:00
3,2013,1,1,1740,1745,-5,2158,2020,,MQ,4413,N739MQ,LGA,XNA,,1147,17,45,2013-01-01 17:00:00
4,2013,1,1,1807,1738,29,2251,2103,,UA,1228,N31412,EWR,SAN,,2425,17,38,2013-01-01 17:00:00
5,2013,1,1,1939,1840,59,29,2151,,9E,3325,N905XJ,JFK,DFW,,1391,18,40,2013-01-01 18:00:00
6,2013,1,1,1952,1930,22,2358,2207,,EV,4333,N11194,EWR,TUL,,1215,19,30,2013-01-01 19:00:00


In [111]:
# Si queremos reemplazar los NA's por el promedio de arr_delay (?)

 flights %>%
   mutate(
    arr_delay = ifelse(is.na(arr_delay), mean(arr_delay, na.rm = TRUE), arr_delay)
   )

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


In [None]:
# ¿Cuál es el promedio de arr_delay y distance por cada aeropuerto de destino?¿Cuántos vuelos llegaron acada uno de los destinos?. Ayuda: Recuerde que el conteo se puede determinar de dos maneras: con la función count() o con la función n().

)



### 4.6 Función sample_n() y sample_frac()

Estas funciones nos permitirán extraer muestras aleatorias de nuestros conjuntos de datos. Esto será de suma importancia cuando trabajemos con modelos de ML.

In [121]:
# sample_n() y sample_frac()-------------------------------------------------------------

# muestra aleatoria de 100 registros de vuelos
set.seed(120)
sample_n(flights, 6)




year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
2013,7,22,906,910,-4,1153,1215,-22,UA,1232,N37464,EWR,LAX,320,2454,9,10,2013-07-22 09:00:00
2013,10,28,654,700,-6,806,809,-3,US,2169,N721UW,LGA,DCA,43,214,7,0,2013-10-28 07:00:00
2013,5,10,2104,2041,23,49,16,33,UA,292,N842UA,EWR,LAX,312,2454,20,41,2013-05-10 20:00:00
2013,2,20,1423,1350,33,1606,1545,21,MQ,4577,N6EAMQ,LGA,CLT,83,544,13,50,2013-02-20 13:00:00
2013,8,1,1421,1359,22,1633,1636,-3,UA,1108,N77530,EWR,IAH,175,1400,13,59,2013-08-01 13:00:00
2013,4,3,1321,1325,-4,1440,1500,-20,AA,331,N555AA,LGA,ORD,118,733,13,25,2013-04-03 13:00:00
