<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_Curso_R/blob/main/ERAP_R_Course.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Título**:  Manipulación de datos con R                                 
                                          
**Autor(es)**:  Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández

**Fecha**: 2025-05

**Institución**: Universidad de La Rioja    

In [1]:
# Función para instalar si no está instalado
instalar_si_no <- function(paquete) {
    if (!requireNamespace(paquete, quietly = TRUE)) {
    install.packages(paquete, repos = "https://cloud.r-project.org")
  }
  library(paquete, character.only = TRUE)
}

# Lista de paquetes a verificar
paquetes <- c("tidyverse", "data.table", "psych", "moments", "nycflights13", "dplyr")

# Instalar y cargar todos
invisible(lapply(paquetes, instalar_si_no))

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.2     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.4     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors

Attaching package: ‘data.table’


The following objects are masked from ‘package:lubridate’:

    hour, isoweek, mday, minute, month, quarter, second, wday, week,
    y

**Contenido del curso:**

**Módulo 1**: Manipulación de Datos con dplyr y data.table (5 horas) Objetivo: Aprender a manipular y transformar datos usando las herramientas más comunes de R. Práctica: Transformar un conjunto de datos usando diferentes métodos.

**Módulo 2**: Manejo de Datos Desordenados y Falta de Información (5 horas) Objetivo: Aprender a limpiar datos desordenados, manejar datos faltantes y formatear conjuntos de datos. Práctica: Limpieza y estructuración de un conjunto de datos desorganizado.

**Módulo 3**: Visualización de Datos con ggplot2 (5 horas) Objetivo: Crear gráficos avanzados para analizar visualmente los datos utilizando ggplot2. Práctica: Crear una serie de gráficos que exploren visualmente un conjunto de datos.

**Módulo 4**: Exploración de Datos y Estadística Descriptiva (5 horas) Objetivo: Aplicar métodos estadísticos para explorar y describir conjuntos de datos. Práctica: Realizar un análisis descriptivo sobre un conjunto de datos usando técnicas estadísticas básicas

# Modulo I: Manipulación de Datos con dplyr y data.table: introducción

En esta sección se presentan dos de las librerías más potentes para manipulación de datos en R: `dplyr` y `data.table`.

Por su sencillez, desde el punto de vista académico, iniciaremos con Dplyr, luego repetiremos los ejercicios con data.table, mostrando sus diferencias y bondades.
------------------------------------------------------------------------



## dplyr

`dplyr` forma parte del ecosistema **tidyverse**, diseñado para trabajar con datos de forma ordenada, clara y legible. Utiliza funciones denominadas *verbos* para transformar data frames:

-   `filter()`: selecciona filas según condiciones lógicas.
-   `select()`: selecciona columnas específicas también teniendo en cuenta condiciones.
-   `mutate()`: crea nuevas variables o transforma existentes.
-   `arrange()`: ordena filas.
-   `group_by()` + `summarise()`: agrupa y resume datos.

------------------------------------------------------------------------

**¿Qué es tidyverse?**

El **tidyverse** es una colección de paquetes R con una filosofía de diseño común: trabajar con datos ordenados (*tidy data*).

**Principales paquetes del tidyverse:**

| Paquete         | Función principal                              |
|-----------------|------------------------------------------------|
| ***`dplyr`***   | Manipulación de datos                          |
| ***`ggplot2`*** | Visualización de datos                         |
| `tidyr`         | Transformación y ordenación de datos           |
| `readr`         | Lectura eficiente de archivos CSV y planos     |
| ***`tibble`***  | Versión moderna de `data.frame`                |
| `stringr`       | Manipulación de cadenas de texto               |
| `forcats`       | Manejo de factores (variables categóricas)     |
| `purrr`         | Programación funcional sobre listas y vectores |

------------------------------------------------------------------------


In [2]:
??tidyverse


**Bibliografía recomendada**

-   Wickham, H., & Grolemund, G. (2023). *R para ciencia de datos*.\
    Disponible en línea:\
    <https://r4ds.had.co.nz>
-   Dowle, M., & Srinivasan, A. (2024). *data.table: Extension of `data.frame`*. Paquete R. Disponible en: <https://cran.r-project.org/package=data.table>

- Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

**Introducción al paquete de los datos a usar `nycflights13`**

El paquete `nycflights13` contiene datos reales sobre todos los vuelos que salieron desde los aeropuertos de Nueva York durante el año 2013.

**¿Qué datos contiene el paquete?**

El paquete incluye 5 tablas principales:

-   `flights`: datos de vuelos
-   `airlines`: aerolíneas
-   `airports`: aeropuertos
-   `planes`: aviones
-   `weather`: clima

Podemos acceder a cada una directamente por su nombre:

In [3]:
# Acceso a las tablas
head(flights)


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00


In [4]:
head(airlines)

carrier,name
<chr>,<chr>
9E,Endeavor Air Inc.
AA,American Airlines Inc.
AS,Alaska Airlines Inc.
B6,JetBlue Airways
DL,Delta Air Lines Inc.
EV,ExpressJet Airlines Inc.


In [5]:

head(airports)

faa,name,lat,lon,alt,tz,dst,tzone
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
04G,Lansdowne Airport,41.13047,-80.61958,1044,-5,A,America/New_York
06A,Moton Field Municipal Airport,32.46057,-85.68003,264,-6,A,America/Chicago
06C,Schaumburg Regional,41.98934,-88.10124,801,-6,A,America/Chicago
06N,Randall Airport,41.43191,-74.39156,523,-5,A,America/New_York
09J,Jekyll Island Airport,31.07447,-81.42778,11,-5,A,America/New_York
0A9,Elizabethton Municipal Airport,36.37122,-82.17342,1593,-5,A,America/New_York


In [6]:

head(planes)

tailnum,year,type,manufacturer,model,engines,seats,speed,engine
<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<chr>
N10156,2004,Fixed wing multi engine,EMBRAER,EMB-145XR,2,55,,Turbo-fan
N102UW,1998,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N103US,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N104UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N10575,2002,Fixed wing multi engine,EMBRAER,EMB-145LR,2,55,,Turbo-fan
N105UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan


In [7]:

head(weather)

origin,year,month,day,hour,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib,time_hour
<chr>,<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
EWR,2013,1,1,1,39.02,26.06,59.37,270,10.35702,,0,1012.0,10,2013-01-01 01:00:00
EWR,2013,1,1,2,39.02,26.96,61.63,250,8.05546,,0,1012.3,10,2013-01-01 02:00:00
EWR,2013,1,1,3,39.02,28.04,64.43,240,11.5078,,0,1012.5,10,2013-01-01 03:00:00
EWR,2013,1,1,4,39.92,28.04,62.21,250,12.65858,,0,1012.2,10,2013-01-01 04:00:00
EWR,2013,1,1,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10,2013-01-01 05:00:00
EWR,2013,1,1,6,37.94,28.04,67.21,240,11.5078,,0,1012.4,10,2013-01-01 06:00:00



------------------------------------------------------------------------

**Descripción general de las tablas**

Utilizamos las funciones:

dim(): para ver la dimensión de los datos.

str(): para mostrar la estructura del objetos de manera compacta y legible.

glimpse() : para mostrar un resumen estructural horizontal de los datos:

-   `int` enteros.

-   `dbl` dobles, o números reales.

-   `chr` caracteres o cadenas.

-   `dttm` fechas y horas (una fecha + una hora).

Otros tres tipos comunes de variables:

-   `lgl` significa lógico, `TRUE` (verdadero) o `FALSE` (falso).

-   `fctr` significa factores (categóricos).

-   `date` fechas.



1. `flights` — Datos de vuelos


In [8]:
??flights
dim(flights)
str(flights)
glimpse(airlines)

tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
 $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
 $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
 $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
 $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
 $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
 $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
 $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
 $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
 $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
 $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
 $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
 $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
 $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
 $ dest          : ch

2. `airlines` — Información de aerolíneas

In [9]:
glimpse(airlines)

Rows: 16
Columns: 2
$ carrier [3m[90m<chr>[39m[23m "9E"[90m, [39m"AA"[90m, [39m"AS"[90m, [39m"B6"[90m, [39m"DL"[90m, [39m"EV"[90m, [39m"F9"[90m, [39m"FL"[90m, [39m"HA"[90m, [39m"MQ"[90m, [39m"O…
$ name    [3m[90m<chr>[39m[23m "Endeavor Air Inc."[90m, [39m"American Airlines Inc."[90m, [39m"Alaska Airline…


3. `airports` — Información de aeropuertos

In [10]:
glimpse(airports)

Rows: 1,458
Columns: 8
$ faa   [3m[90m<chr>[39m[23m "04G"[90m, [39m"06A"[90m, [39m"06C"[90m, [39m"06N"[90m, [39m"09J"[90m, [39m"0A9"[90m, [39m"0G6"[90m, [39m"0G7"[90m, [39m"0P2"[90m, [39m"…
$ name  [3m[90m<chr>[39m[23m "Lansdowne Airport"[90m, [39m"Moton Field Municipal Airport"[90m, [39m"Schaumbur…
$ lat   [3m[90m<dbl>[39m[23m 41.13047[90m, [39m32.46057[90m, [39m41.98934[90m, [39m41.43191[90m, [39m31.07447[90m, [39m36.37122[90m, [39m41.4…
$ lon   [3m[90m<dbl>[39m[23m -80.61958[90m, [39m-85.68003[90m, [39m-88.10124[90m, [39m-74.39156[90m, [39m-81.42778[90m, [39m-82.17342…
$ alt   [3m[90m<dbl>[39m[23m 1044[90m, [39m264[90m, [39m801[90m, [39m523[90m, [39m11[90m, [39m1593[90m, [39m730[90m, [39m492[90m, [39m1000[90m, [39m108[90m, [39m409[90m, [39m875[90m, [39m10…
$ tz    [3m[90m<dbl>[39m[23m -5[90m, [39m-6[90m, [39m-6[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [

4. `planes` — Información de los aviones

In [11]:
glimpse(planes)

Rows: 3,322
Columns: 9
$ tailnum      [3m[90m<chr>[39m[23m "N10156"[90m, [39m"N102UW"[90m, [39m"N103US"[90m, [39m"N104UW"[90m, [39m"N10575"[90m, [39m"N105UW…
$ year         [3m[90m<int>[39m[23m 2004[90m, [39m1998[90m, [39m1999[90m, [39m1999[90m, [39m2002[90m, [39m1999[90m, [39m1999[90m, [39m1999[90m, [39m1999[90m, [39m199…
$ type         [3m[90m<chr>[39m[23m "Fixed wing multi engine"[90m, [39m"Fixed wing multi engine"[90m, [39m"Fi…
$ manufacturer [3m[90m<chr>[39m[23m "EMBRAER"[90m, [39m"AIRBUS INDUSTRIE"[90m, [39m"AIRBUS INDUSTRIE"[90m, [39m"AIRBU…
$ model        [3m[90m<chr>[39m[23m "EMB-145XR"[90m, [39m"A320-214"[90m, [39m"A320-214"[90m, [39m"A320-214"[90m, [39m"EMB-145…
$ engines      [3m[90m<int>[39m[23m 2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[9

5. `weather` — Condiciones climáticas por hora

In [12]:
glimpse(weather)

Rows: 26,115
Columns: 15
$ origin     [3m[90m<chr>[39m[23m "EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EW…
$ year       [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m,[39m…
$ month      [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m,[39m…
$ day        [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m,[39m…

------------------------------------------------------------------------

**Relaciones clave**

Lo veremos en detalle más adelante:

-   `flights$carrier` → `airlines$carrier`
-   `flights$tailnum` → `planes$tailnum`
-   `flights$origin`, `flights$dest` → `airports$faa`
-   `flights$origin` + `flights$time_hour` → `weather`

## Verbos en Dplyr:

Los verbos de `dplyr` permiten transformar datos de forma clara y estructurada. Su sintaxis es intuitiva y permite encadenar operaciones paso a paso usando el operador `%>%`. Los verbos de `dplyr` siguen una estructura muy regular:

``` r
datos %>% verbo(argumentos)
```

-   `datos`: es el conjunto de datos original (por ejemplo, `flights`)
-   `%>%`: se lee como "entonces", conecta pasos secuenciales
-   `verbo()`: es la función como `filter()`, `select()`, etc.
-   `argumentos`: lo que queremos hacer (condiciones, columnas, cálculos)

**El operador `%>%` – Pipe (tubo en español) del tidyverse (importancia de que sea gramático)**

El operador `%>%` (pipe) proviene del paquete `magrittr`, que forma parte del `tidyverse`.  
Se usa para **encadenar funciones**, permitiendo escribir código más limpio y legible.

| Plataforma  | Atajo de teclado       |
| ----------- | ---------------------- |
| **Windows** | `Ctrl` + `Shift` + `M` |
| **macOS**   | `Cmd` + `Shift` + `M`  |
| **Linux**   | `Ctrl` + `Shift` + `M` |


**¿Cómo se lee?**

> **“y luego”**.  
> Por ejemplo: *Toma los datos y luego filtra y luego resume*.

---

### Comparación:

Si por ejemplo, queremos agrupar los vuelos por aeropuerto de origen (origin) y calcula el retraso promedio en la salida (dep_delay) para cada uno de ellos (aeropuertos), asegurándonos de ignorar los valores perdidos (NA) en el cálculo de la media:



**Sin pipe (forma tradicional):**

In [14]:
summarise(group_by(flights, origin), promedio = mean(dep_delay, na.rm = TRUE))

origin,promedio
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


**Con pipe (%>%):**

In [15]:
flights %>%
  group_by(origin) %>%
  summarise(promedio = mean(dep_delay, na.rm = TRUE))

origin,promedio
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


---

**Estructura del pipe:**

```r
objeto %>%
  funcion(argumentos)
```

Equivale a:

```r
funcion(objeto, argumentos)
```

Se puede seguir encadenando:

```r
datos %>%
  paso_1() %>%
  paso_2() %>%
  paso_3()
```

---

**Es importante:**

- Colocar `%>%` al final de la línea.
- Mejora la lectura especialmente en cadenas largas de transformación.
- No es necesario crear variables intermedias, lo que se traduce en ahorro en RAM

**Los argumentos del los verbos:**

-   Se separan por **comas**, no por `=`
-   En `mutate()` y `summarise()` se crean nuevas variables con `nombre = cálculo`

------------------------------------------------------------------------


### 1. `filter()` – Filtrar filas

`filter()` selecciona **filas que cumplen condiciones** lógicas.

- Supongamos que queremos ver todos los vuelos del 1 de enero

In [16]:
filter(flights, month == 1, day == 1)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


- Y si queremos ver todos los vuelos del 25 de diciembre

In [17]:
filter(flights,month==12,day==25)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,12,25,456,500,-4,649,651,-2,US,1895,N156UW,EWR,CLT,98,529,5,0,2013-12-25 05:00:00
2013,12,25,524,515,9,805,814,-9,UA,1016,N32404,EWR,IAH,203,1400,5,15,2013-12-25 05:00:00
2013,12,25,542,540,2,832,850,-18,AA,2243,N5EBAA,JFK,MIA,146,1089,5,40,2013-12-25 05:00:00
2013,12,25,546,550,-4,1022,1027,-5,B6,939,N665JB,JFK,BQN,191,1576,5,50,2013-12-25 05:00:00
2013,12,25,556,600,-4,730,745,-15,AA,301,N3JLAA,LGA,ORD,123,733,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,743,752,-9,DL,731,N369NB,LGA,DTW,88,502,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,818,831,-13,DL,904,N397DA,LGA,ATL,118,762,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,855,856,-1,B6,371,N608JB,LGA,FLL,147,1076,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,849,855,-6,B6,605,N536JB,EWR,FLL,149,1065,6,0,2013-12-25 06:00:00
2013,12,25,600,600,0,850,846,4,B6,583,N746JB,JFK,MCO,137,944,6,0,2013-12-25 06:00:00


Esto crea un nuevo conjunto de datos, pero **no se guarda**, además, **NO** se modifica el conjunto de datos original. Para guardarlo, por ejemplo los vuelos en navidad:

In [18]:
vuelos_navidad <- filter(flights, month == 12, day == 25)

¿Qué pasa si encerramos toda la línea anterior en paréntesis?

In [19]:
(vuelos_navidad <- filter(flights, month == 12, day == 25))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,12,25,456,500,-4,649,651,-2,US,1895,N156UW,EWR,CLT,98,529,5,0,2013-12-25 05:00:00
2013,12,25,524,515,9,805,814,-9,UA,1016,N32404,EWR,IAH,203,1400,5,15,2013-12-25 05:00:00
2013,12,25,542,540,2,832,850,-18,AA,2243,N5EBAA,JFK,MIA,146,1089,5,40,2013-12-25 05:00:00
2013,12,25,546,550,-4,1022,1027,-5,B6,939,N665JB,JFK,BQN,191,1576,5,50,2013-12-25 05:00:00
2013,12,25,556,600,-4,730,745,-15,AA,301,N3JLAA,LGA,ORD,123,733,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,743,752,-9,DL,731,N369NB,LGA,DTW,88,502,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,818,831,-13,DL,904,N397DA,LGA,ATL,118,762,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,855,856,-1,B6,371,N608JB,LGA,FLL,147,1076,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,849,855,-6,B6,605,N536JB,EWR,FLL,149,1065,6,0,2013-12-25 06:00:00
2013,12,25,600,600,0,850,846,4,B6,583,N746JB,JFK,MCO,137,944,6,0,2013-12-25 06:00:00


La condición que acabamos de utilizar era un *Y*, si quisiéramos un *ó*, es decir, si queremos saber los vuelos del 1 de enero *ó* del 25 de diciembre

In [20]:
filter(flights,(day==1 & month==1)|(day==25 & month==12))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


Si queremos, por ejemplo, ver el registro de vuelos con más de 100 minutos de retraso en la llegada

In [21]:
filter(flights,arr_delay > 100)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,811,630,101,1047,830,137,MQ,4576,N531MQ,LGA,CLT,118,544,6,30,2013-01-01 06:00:00
2013,1,1,848,1835,853,1001,1950,851,MQ,3944,N942MQ,JFK,BWI,41,184,18,35,2013-01-01 18:00:00
2013,1,1,957,733,144,1056,853,123,UA,856,N534UA,EWR,BOS,37,200,7,33,2013-01-01 07:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1400,1250,70,1645,1502,103,EV,4869,N748EV,LGA,MEM,178,963,12,50,2013-01-01 12:00:00
2013,1,1,1505,1310,115,1638,1431,127,EV,4497,N17984,EWR,RIC,63,277,13,10,2013-01-01 13:00:00
2013,1,1,1525,1340,105,1831,1626,125,B6,525,N231JB,EWR,MCO,152,937,13,40,2013-01-01 13:00:00
2013,1,1,1540,1338,122,2020,1825,115,B6,705,N570JB,JFK,SJU,193,1598,13,38,2013-01-01 13:00:00
2013,1,1,1549,1445,64,1912,1656,136,EV,4181,N21197,EWR,MCI,234,1092,14,45,2013-01-01 14:00:00
2013,1,1,1558,1359,119,1718,1515,123,EV,5712,N826AS,JFK,IAD,53,228,13,59,2013-01-01 13:00:00


Vuelos que llegaron temprano o sin retraso (con 0 o menos minutos)

In [22]:
flights %>%
  filter(arr_delay<= 0)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,923,937,-14,UA,1124,N53441,EWR,SFO,361,2565,6,0,2013-01-01 06:00:00
2013,1,1,559,559,0,702,706,-4,B6,1806,N708JB,JFK,BOS,44,187,5,59,2013-01-01 05:00:00
2013,1,1,559,600,-1,854,902,-8,UA,1187,N76515,EWR,LAS,337,2227,6,0,2013-01-01 06:00:00
2013,1,1,600,600,0,851,858,-7,B6,371,N595JB,LGA,FLL,152,1076,6,0,2013-01-01 06:00:00


Si nos preguntamos cuáles son los valores únicos de aeropuertos de salida y de llegada?

In [23]:
names(flights)
??distinct
distinct(flights,origin)
distinct(flights,dest)

origin
<chr>
EWR
LGA
JFK


dest
<chr>
IAH
MIA
BQN
ATL
ORD
FLL
IAD
MCO
PBI
TPA


In [24]:
# Si usamos la base de R utilizaríamos
unique(flights$origin)


Vuelos que salieron desde JFK o LGA

In [25]:
flights%>%
  filter((origin=="JFK")|(origin=="LGA"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00


Otra manera ne dacerlo, utilizando %in%

In [26]:
flights%>%
  filter(origin %in% c("JFK","LGA"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00


Cuando usamos filter() o cualquier otro filtro, podemos combinar condiciones con operadores como & (y), | (o), <, >, ==, !=, <=, >= y %in%. Esto permite construir filtros muy potentes y específicos para quedarte solo con los datos que necesitamos.

## Ejercicios (Filter)

1. Vuelos con retraso de llegada de 2 horas o más

In [27]:
flights%>%
  filter(arr_delay>=120)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,811,630,101,1047,830,137,MQ,4576,N531MQ,LGA,CLT,118,544,6,30,2013-01-01 06:00:00
2013,1,1,848,1835,853,1001,1950,851,MQ,3944,N942MQ,JFK,BWI,41,184,18,35,2013-01-01 18:00:00
2013,1,1,957,733,144,1056,853,123,UA,856,N534UA,EWR,BOS,37,200,7,33,2013-01-01 07:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1505,1310,115,1638,1431,127,EV,4497,N17984,EWR,RIC,63,277,13,10,2013-01-01 13:00:00
2013,1,1,1525,1340,105,1831,1626,125,B6,525,N231JB,EWR,MCO,152,937,13,40,2013-01-01 13:00:00
2013,1,1,1549,1445,64,1912,1656,136,EV,4181,N21197,EWR,MCI,234,1092,14,45,2013-01-01 14:00:00
2013,1,1,1558,1359,119,1718,1515,123,EV,5712,N826AS,JFK,IAD,53,228,13,59,2013-01-01 13:00:00
2013,1,1,1732,1630,62,2028,1825,123,EV,4092,N16911,EWR,DAY,119,533,16,30,2013-01-01 16:00:00
2013,1,1,1803,1620,103,2008,1750,138,MQ,4622,N504MQ,LGA,BNA,154,764,16,20,2013-01-01 16:00:00


2. Vuelos con destino a Houston (IAH o HOU)

In [28]:
flights%>%
  filter(dest %in% c("IAH","HOU"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,623,627,-4,933,932,1,UA,496,N459UA,LGA,IAH,229,1416,6,27,2013-01-01 06:00:00
2013,1,1,728,732,-4,1041,1038,3,UA,473,N488UA,LGA,IAH,238,1416,7,32,2013-01-01 07:00:00
2013,1,1,739,739,0,1104,1038,26,UA,1479,N37408,EWR,IAH,249,1400,7,39,2013-01-01 07:00:00
2013,1,1,908,908,0,1228,1219,9,UA,1220,N12216,EWR,IAH,233,1400,9,8,2013-01-01 09:00:00
2013,1,1,1028,1026,2,1350,1339,11,UA,1004,N76508,LGA,IAH,237,1416,10,26,2013-01-01 10:00:00
2013,1,1,1044,1045,-1,1352,1351,1,UA,455,N667UA,EWR,IAH,229,1400,10,45,2013-01-01 10:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1205,1200,5,1503,1505,-2,UA,1461,N39418,EWR,IAH,221,1400,12,0,2013-01-01 12:00:00


3. Vuelos operados por United, American o Delta

In [29]:
flights %>%
  filter(carrier %in% c("UA", "AA", "DL"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,923,937,-14,UA,1124,N53441,EWR,SFO,361,2565,6,0,2013-01-01 06:00:00
2013,1,1,559,600,-1,941,910,31,AA,707,N3DUAA,LGA,DFW,257,1389,6,0,2013-01-01 06:00:00
2013,1,1,559,600,-1,854,902,-8,UA,1187,N76515,EWR,LAS,337,2227,6,0,2013-01-01 06:00:00


4. Vuelos que partieron en invierno del hemisferio sur (julio, agosto y septiembre)

In [30]:
flights %>%
  filter(month %in% c(7, 8, 9))
#filter(flights, month %in% 7:9)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,7,1,1,2029,212,236,2359,157,B6,915,N653JB,JFK,SFO,315,2586,20,29,2013-07-01 20:00:00
2013,7,1,2,2359,3,344,344,0,B6,1503,N805JB,JFK,SJU,200,1598,23,59,2013-07-01 23:00:00
2013,7,1,29,2245,104,151,1,110,B6,234,N348JB,JFK,BTV,66,266,22,45,2013-07-01 22:00:00
2013,7,1,43,2130,193,322,14,188,B6,1371,N794JB,LGA,FLL,143,1076,21,30,2013-07-01 21:00:00
2013,7,1,44,2150,174,300,100,120,AA,185,N324AA,JFK,LAX,297,2475,21,50,2013-07-01 21:00:00
2013,7,1,46,2051,235,304,2358,186,B6,165,N640JB,JFK,PDX,304,2454,20,51,2013-07-01 20:00:00
2013,7,1,48,2001,287,308,2305,243,VX,415,N627VA,JFK,LAX,298,2475,20,1,2013-07-01 20:00:00
2013,7,1,58,2155,183,335,43,172,B6,425,N535JB,JFK,TPA,140,1005,21,55,2013-07-01 21:00:00
2013,7,1,100,2146,194,327,30,177,B6,1183,N531JB,JFK,MCO,126,944,21,46,2013-07-01 21:00:00
2013,7,1,100,2245,135,337,135,122,B6,623,N663JB,JFK,LAX,304,2475,22,45,2013-07-01 22:00:00


5. Vuelos que llegaron más de 2 horas tarde pero no salieron tarde

In [31]:
flights %>%
  filter(arr_delay > 120, dep_delay <= 0)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,27,1419,1420,-1,1754,1550,124,MQ,3728,N1EAMQ,EWR,ORD,135,719,14,20,2013-01-27 14:00:00
2013,10,7,1350,1350,0,1736,1526,130,EV,5181,N611QX,LGA,MSN,117,812,13,50,2013-10-07 13:00:00
2013,10,7,1357,1359,-2,1858,1654,124,AA,1151,N3CMAA,LGA,DFW,192,1389,13,59,2013-10-07 13:00:00
2013,10,16,657,700,-3,1258,1056,122,B6,3,N703JB,JFK,SJU,225,1598,7,0,2013-10-16 07:00:00
2013,11,1,658,700,-2,1329,1015,194,VX,399,N629VA,JFK,LAX,336,2475,7,0,2013-11-01 07:00:00
2013,3,18,1844,1847,-3,39,2219,140,UA,389,N560UA,JFK,SFO,386,2586,18,47,2013-03-18 18:00:00
2013,4,17,1635,1640,-5,2049,1845,124,MQ,4540,N721MQ,LGA,DTW,130,502,16,40,2013-04-17 16:00:00
2013,4,18,558,600,-2,1149,850,179,AA,707,N3EXAA,LGA,DFW,234,1389,6,0,2013-04-18 06:00:00
2013,4,18,655,700,-5,1213,950,143,AA,2083,N565AA,EWR,DFW,230,1372,7,0,2013-04-18 07:00:00
2013,5,22,1827,1830,-3,2217,2010,127,MQ,4674,N518MQ,LGA,CLE,90,419,18,30,2013-05-22 18:00:00


6. Vuelos que se retrasaron al menos una hora, pero recuperaron más de 30 minutos mientras volaban (diferencia entre partida y llegada)


In [32]:
flights %>%
  filter(dep_delay >= 60, (dep_delay - arr_delay) > 30)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,2205,1720,285,46,2040,246,AA,1999,N5DNAA,EWR,MIA,146,1085,17,20,2013-01-01 17:00:00
2013,1,1,2326,2130,116,131,18,73,B6,199,N594JB,JFK,LAS,290,2248,21,30,2013-01-01 21:00:00
2013,1,3,1503,1221,162,1803,1555,128,UA,551,N835UA,EWR,SFO,320,2565,12,21,2013-01-03 12:00:00
2013,1,3,1839,1700,99,2056,1950,66,AA,575,N631AA,JFK,EGE,239,1747,17,0,2013-01-03 17:00:00
2013,1,3,1850,1745,65,2148,2120,28,AA,177,N332AA,JFK,SFO,314,2586,17,45,2013-01-03 17:00:00
2013,1,3,1941,1759,102,2246,2139,67,UA,979,N402UA,EWR,PHX,274,2133,17,59,2013-01-03 17:00:00
2013,1,3,1950,1845,65,2228,2227,1,B6,91,N636JB,JFK,OAK,319,2576,18,45,2013-01-03 18:00:00
2013,1,3,2015,1915,60,2135,2111,24,9E,3525,N903XJ,JFK,ORD,110,740,19,15,2013-01-03 19:00:00
2013,1,3,2257,2000,177,45,2224,141,9E,3439,N931XJ,JFK,CVG,90,589,20,0,2013-01-03 20:00:00
2013,1,4,1917,1700,137,2135,1950,105,AA,575,N5EUAA,JFK,EGE,239,1747,17,0,2013-01-04 17:00:00


7. Crear una variable llamada vuelos_madrugada con los vuelos que partieron entre medianoche y las 6:00 a.m. (incluyente)

In [33]:
(vuelos_madrugada <- flights %>%
  filter(dep_time >= 0, dep_time <= 600))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


Cada uno de estos filtros permite construir subconjuntos del dataset original para hacer análisis más específicos y enfocados. También podemos almacenar los resultados en un objeto para reutilizarlos más adelante (como en el caso de la creación de vuelos_madrugada).

8. Uso de `between()` para simplificar filtros:

La función `between(x, a, b)` comprueba si los valores de `x` están entre `a` y `b` (ambos inclusive). Reemplaza expresiones como `x >= a & x <= b`, haciéndolas más legibles. Así, si repetimos el ejercicio de los vuelos de julio, agosto y septiembre, tendríamos:

In [34]:
flights%>%
  filter(between(month,7,9))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,7,1,1,2029,212,236,2359,157,B6,915,N653JB,JFK,SFO,315,2586,20,29,2013-07-01 20:00:00
2013,7,1,2,2359,3,344,344,0,B6,1503,N805JB,JFK,SJU,200,1598,23,59,2013-07-01 23:00:00
2013,7,1,29,2245,104,151,1,110,B6,234,N348JB,JFK,BTV,66,266,22,45,2013-07-01 22:00:00
2013,7,1,43,2130,193,322,14,188,B6,1371,N794JB,LGA,FLL,143,1076,21,30,2013-07-01 21:00:00
2013,7,1,44,2150,174,300,100,120,AA,185,N324AA,JFK,LAX,297,2475,21,50,2013-07-01 21:00:00
2013,7,1,46,2051,235,304,2358,186,B6,165,N640JB,JFK,PDX,304,2454,20,51,2013-07-01 20:00:00
2013,7,1,48,2001,287,308,2305,243,VX,415,N627VA,JFK,LAX,298,2475,20,1,2013-07-01 20:00:00
2013,7,1,58,2155,183,335,43,172,B6,425,N535JB,JFK,TPA,140,1005,21,55,2013-07-01 21:00:00
2013,7,1,100,2146,194,327,30,177,B6,1183,N531JB,JFK,MCO,126,944,21,46,2013-07-01 21:00:00
2013,7,1,100,2245,135,337,135,122,B6,623,N663JB,JFK,LAX,304,2475,22,45,2013-07-01 22:00:00


9. Valores faltantes en los datos

¿Cuántos vuelos tienen `dep_time` faltante?


In [35]:
sum(is.na(flights$dep_time)) #usamos primero la función is.na, y luego sumamos los TRUEs

¿Qué variables tienen valores faltantes?

In [36]:
colSums(is.na(flights))


In [37]:
#map_dbl(...)
#Esta función pertenece al paquete purrr (parte del tidyverse).
#Aplica una función a cada columna (en este caso, a cada columna de flights) y devuelve un vector numérico.
#El sufijo _dbl indica que el resultado esperado para cada columna es un número (tipo double), no una lista ni otro tipo de vector.
map_dbl(flights, ~ sum(is.na(.x)))

Las filas con datos faltantes generalmente corresponden a **vuelos cancelados**.

¿Por qué ciertas operaciones con `NA` no devuelven `NA`?





In [38]:
NA ^ 0       # [1] 1
NA | TRUE    # [1] TRUE
FALSE & NA   # [1] FALSE
NA * 0       # [1] NA

Sea x la edad de María. No sabemos qué edad tiene.

Sea y la edad de Juan. No sabemos qué edad tiene.

¿Tienen Juan y María la misma edad?

In [39]:
x <- NA
y <- NA
x==y

Explicación:

| Expresión       | Resultado | Justificación                                                                 |
|----------------|-----------|--------------------------------------------------------------------------------|
| `NA ^ 0`        | `1`       | Cualquier número (incluso desconocido) elevado a 0 es 1                        |
| `NA | TRUE`     | `TRUE`    | `OR` lógico: si una parte es `TRUE`, el resultado es `TRUE`                   |
| `FALSE & NA`    | `FALSE`   | `AND` lógico: si una parte es `FALSE`, ya no importa la otra                  |
| `NA * 0`        | `NA`      | Multiplicación: si uno es `NA`, el resultado es desconocido                   |

**En general:**

- Si el resultado puede determinarse sin conocer el valor faltante, **no devuelve `NA`**.
- Si depende del valor faltante, **sí devuelve `NA`**.



### 2. `arrange()` – Ordenar filas

`arrange()` **ordena** las filas por una o más variables.

Ahora, si queremos ordenar los vuelos por retraso en llegada de menor a mayor:

In [40]:
arrange(flights, arr_delay)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,5,7,1715,1729,-14,1944,2110,-86,VX,193,N843VA,EWR,SFO,315,2565,17,29,2013-05-07 17:00:00
2013,5,20,719,735,-16,951,1110,-79,VX,11,N840VA,JFK,SFO,316,2586,7,35,2013-05-20 07:00:00
2013,5,2,1947,1949,-2,2209,2324,-75,UA,612,N851UA,EWR,LAX,300,2454,19,49,2013-05-02 19:00:00
2013,5,6,1826,1830,-4,2045,2200,-75,AA,269,N3KCAA,JFK,SEA,289,2422,18,30,2013-05-06 18:00:00
2013,5,4,1816,1820,-4,2017,2131,-74,AS,7,N551AS,EWR,SEA,281,2402,18,20,2013-05-04 18:00:00
2013,5,2,1926,1929,-3,2157,2310,-73,UA,1628,N24212,EWR,SFO,314,2565,19,29,2013-05-02 19:00:00
2013,5,6,1753,1755,-2,2004,2115,-71,DL,1394,N3760C,JFK,PDX,283,2454,17,55,2013-05-06 17:00:00
2013,5,7,2054,2055,-1,2317,28,-71,UA,622,N806UA,EWR,SFO,309,2565,20,55,2013-05-07 20:00:00
2013,5,13,657,700,-3,908,1019,-71,B6,671,N805JB,JFK,LAX,290,2475,7,0,2013-05-13 07:00:00
2013,1,4,1026,1030,-4,1305,1415,-70,VX,23,N855VA,JFK,SFO,324,2586,10,30,2013-01-04 10:00:00



Y si lo necesitamos de mayor a menor:

In [41]:
arrange(flights, desc(arr_delay))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,6,15,1432,1935,1137,1607,2120,1127,MQ,3535,N504MQ,JFK,CMH,74,483,19,35,2013-06-15 19:00:00
2013,1,10,1121,1635,1126,1239,1810,1109,MQ,3695,N517MQ,EWR,ORD,111,719,16,35,2013-01-10 16:00:00
2013,9,20,1139,1845,1014,1457,2210,1007,AA,177,N338AA,JFK,SFO,354,2586,18,45,2013-09-20 18:00:00
2013,7,22,845,1600,1005,1044,1815,989,MQ,3075,N665MQ,JFK,CVG,96,589,16,0,2013-07-22 16:00:00
2013,4,10,1100,1900,960,1342,2211,931,DL,2391,N959DL,JFK,TPA,139,1005,19,0,2013-04-10 19:00:00
2013,3,17,2321,810,911,135,1020,915,DL,2119,N927DA,LGA,MSP,167,1020,8,10,2013-03-17 08:00:00
2013,7,22,2257,759,898,121,1026,895,DL,2047,N6716C,LGA,ATL,109,762,7,59,2013-07-22 07:00:00
2013,12,5,756,1700,896,1058,2020,878,AA,172,N5DMAA,EWR,MIA,149,1085,17,0,2013-12-05 17:00:00
2013,5,3,1133,2055,878,1250,2215,875,MQ,3744,N523MQ,EWR,ORD,112,719,20,55,2013-05-03 20:00:00


También podemos ordenar teniendo en cuenta varias columnas a la vez:

In [42]:
arrange(flights,
        year, month, day)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


## Ejercicios 2 con la función `arrange()`

1. Ordenar vuelos colocando primero los valores faltantes

In [43]:
flights %>%
  arrange(desc(is.na(dep_time)))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,,1630,,,1815,,EV,4308,N18120,EWR,RDU,,416,16,30,2013-01-01 16:00:00
2013,1,1,,1935,,,2240,,AA,791,N3EHAA,LGA,DFW,,1389,19,35,2013-01-01 19:00:00
2013,1,1,,1500,,,1825,,AA,1925,N3EVAA,LGA,MIA,,1096,15,0,2013-01-01 15:00:00
2013,1,1,,600,,,901,,B6,125,N618JB,JFK,FLL,,1069,6,0,2013-01-01 06:00:00
2013,1,2,,1540,,,1747,,EV,4352,N10575,EWR,CVG,,569,15,40,2013-01-02 15:00:00
2013,1,2,,1620,,,1746,,EV,4406,N13949,EWR,PIT,,319,16,20,2013-01-02 16:00:00
2013,1,2,,1355,,,1459,,EV,4434,N10575,EWR,MHT,,209,13,55,2013-01-02 13:00:00
2013,1,2,,1420,,,1644,,EV,4935,N759EV,EWR,ATL,,746,14,20,2013-01-02 14:00:00
2013,1,2,,1321,,,1536,,EV,3849,N13550,EWR,IND,,645,13,21,2013-01-02 13:00:00
2013,1,2,,1545,,,1910,,AA,133,,JFK,LAX,,2475,15,45,2013-01-02 15:00:00


2. Vuelos más retrasados en salida (mayor `dep_delay`).

In [44]:
flights %>%
  arrange(desc(dep_delay))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,6,15,1432,1935,1137,1607,2120,1127,MQ,3535,N504MQ,JFK,CMH,74,483,19,35,2013-06-15 19:00:00
2013,1,10,1121,1635,1126,1239,1810,1109,MQ,3695,N517MQ,EWR,ORD,111,719,16,35,2013-01-10 16:00:00
2013,9,20,1139,1845,1014,1457,2210,1007,AA,177,N338AA,JFK,SFO,354,2586,18,45,2013-09-20 18:00:00
2013,7,22,845,1600,1005,1044,1815,989,MQ,3075,N665MQ,JFK,CVG,96,589,16,0,2013-07-22 16:00:00
2013,4,10,1100,1900,960,1342,2211,931,DL,2391,N959DL,JFK,TPA,139,1005,19,0,2013-04-10 19:00:00
2013,3,17,2321,810,911,135,1020,915,DL,2119,N927DA,LGA,MSP,167,1020,8,10,2013-03-17 08:00:00
2013,6,27,959,1900,899,1236,2226,850,DL,2007,N3762Y,JFK,PDX,313,2454,19,0,2013-06-27 19:00:00
2013,7,22,2257,759,898,121,1026,895,DL,2047,N6716C,LGA,ATL,109,762,7,59,2013-07-22 07:00:00
2013,12,5,756,1700,896,1058,2020,878,AA,172,N5DMAA,EWR,MIA,149,1085,17,0,2013-12-05 17:00:00


3. Vuelos que salieron más temprano (menor `dep_time`), sin incluir datos faltantes.

In [45]:
flights %>%
  filter(!is.na(dep_time)) %>%
  arrange(dep_time)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,13,1,2249,72,108,2357,71,B6,22,N206JB,JFK,SYR,41,209,22,49,2013-01-13 22:00:00
2013,1,31,1,2100,181,124,2225,179,WN,530,N550WN,LGA,MDW,127,725,21,0,2013-01-31 21:00:00
2013,11,13,1,2359,2,442,440,2,B6,1503,N627JB,JFK,SJU,194,1598,23,59,2013-11-13 23:00:00
2013,12,16,1,2359,2,447,437,10,B6,839,N607JB,JFK,BQN,202,1576,23,59,2013-12-16 23:00:00
2013,12,20,1,2359,2,430,440,-10,B6,1503,N608JB,JFK,SJU,182,1598,23,59,2013-12-20 23:00:00
2013,12,26,1,2359,2,437,440,-3,B6,1503,N527JB,JFK,SJU,197,1598,23,59,2013-12-26 23:00:00
2013,12,30,1,2359,2,441,437,4,B6,839,N508JB,JFK,BQN,198,1576,23,59,2013-12-30 23:00:00
2013,2,11,1,2100,181,111,2225,166,WN,530,N231WN,LGA,MDW,117,725,21,0,2013-02-11 21:00:00
2013,2,24,1,2245,76,121,2354,87,B6,608,N216JB,JFK,PWM,56,273,22,45,2013-02-24 22:00:00
2013,3,8,1,2355,6,431,440,-9,B6,739,N586JB,JFK,PSE,189,1617,23,55,2013-03-08 23:00:00


4. Vuelos más rápidos (que viajaron a mayor velocidad (kilómetros / hora)

In [46]:
# Unidades:
# Millas a kilómetros (1 milla = 1,60934 kilómetros)
# minutos a hora (60 minutos = 1 hora)
flights%>%
  arrange(desc((distance*1.60394)/(air_time/60)))

#Más adelante veremos una manera distinta de hacerlo

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,5,25,1709,1700,9,1923,1937,-14,DL,1499,N666DN,LGA,ATL,65,762,17,0,2013-05-25 17:00:00
2013,7,2,1558,1513,45,1745,1719,26,EV,4667,N17196,EWR,MSP,93,1008,15,13,2013-07-02 15:00:00
2013,5,13,2040,2025,15,2225,2226,-1,EV,4292,N14568,EWR,GSP,55,594,20,25,2013-05-13 20:00:00
2013,3,23,1914,1910,4,2045,2043,2,EV,3805,N12567,EWR,BNA,70,748,19,10,2013-03-23 19:00:00
2013,1,12,1559,1600,-1,1849,1917,-28,DL,1902,N956DL,LGA,PBI,105,1035,16,0,2013-01-12 16:00:00
2013,11,17,650,655,-5,1059,1150,-51,DL,315,N3768,JFK,SJU,170,1598,6,55,2013-11-17 06:00:00
2013,2,21,2355,2358,-3,412,438,-26,B6,707,N779JB,JFK,SJU,172,1598,23,58,2013-02-21 23:00:00
2013,11,17,759,800,-1,1212,1255,-43,AA,936,N5FFAA,JFK,STT,175,1623,8,0,2013-11-17 08:00:00
2013,11,16,2003,1925,38,17,36,-19,DL,347,N3773D,JFK,SJU,173,1598,19,25,2013-11-16 19:00:00
2013,11,16,2349,2359,-10,402,440,-38,B6,1503,N571JB,JFK,SJU,173,1598,23,59,2013-11-16 23:00:00


5. ¿Cuáles vuelos viajaron más lejos? ¿Cuál viajó más cerca?:




In [47]:
# Primero  lo que recorrieron mayor distancia (ver google maps entre JFK y HNL)
flights%>%
  arrange(desc(distance))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,857,900,-3,1516,1530,-14,HA,51,N380HA,JFK,HNL,659,4983,9,0,2013-01-01 09:00:00
2013,1,2,909,900,9,1525,1530,-5,HA,51,N380HA,JFK,HNL,638,4983,9,0,2013-01-02 09:00:00
2013,1,3,914,900,14,1504,1530,-26,HA,51,N380HA,JFK,HNL,616,4983,9,0,2013-01-03 09:00:00
2013,1,4,900,900,0,1516,1530,-14,HA,51,N384HA,JFK,HNL,639,4983,9,0,2013-01-04 09:00:00
2013,1,5,858,900,-2,1519,1530,-11,HA,51,N381HA,JFK,HNL,635,4983,9,0,2013-01-05 09:00:00
2013,1,6,1019,900,79,1558,1530,28,HA,51,N385HA,JFK,HNL,611,4983,9,0,2013-01-06 09:00:00
2013,1,7,1042,900,102,1620,1530,50,HA,51,N385HA,JFK,HNL,612,4983,9,0,2013-01-07 09:00:00
2013,1,8,901,900,1,1504,1530,-26,HA,51,N389HA,JFK,HNL,645,4983,9,0,2013-01-08 09:00:00
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,1,10,859,900,-1,1449,1530,-41,HA,51,N388HA,JFK,HNL,633,4983,9,0,2013-01-10 09:00:00


In [48]:
# Primero  lo que recorrieron menor distancia (ver google maps entre EWR y LGA)
flights%>%
  arrange(distance)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,7,27,,106,,,245,,US,1632,,EWR,LGA,,17,1,6,2013-07-27 01:00:00
2013,1,3,2127,2129,-2,2222,2224,-2,EV,3833,N13989,EWR,PHL,30,80,21,29,2013-01-03 21:00:00
2013,1,4,1240,1200,40,1333,1306,27,EV,4193,N14972,EWR,PHL,30,80,12,0,2013-01-04 12:00:00
2013,1,4,1829,1615,134,1937,1721,136,EV,4502,N15983,EWR,PHL,28,80,16,15,2013-01-04 16:00:00
2013,1,4,2128,2129,-1,2218,2224,-6,EV,4645,N27962,EWR,PHL,32,80,21,29,2013-01-04 21:00:00
2013,1,5,1155,1200,-5,1241,1306,-25,EV,4193,N14902,EWR,PHL,29,80,12,0,2013-01-05 12:00:00
2013,1,6,2125,2129,-4,2224,2224,0,EV,4619,N22909,EWR,PHL,22,80,21,29,2013-01-06 21:00:00
2013,1,7,2124,2129,-5,2212,2224,-12,EV,4619,N33182,EWR,PHL,25,80,21,29,2013-01-07 21:00:00
2013,1,8,2127,2130,-3,2304,2225,39,EV,4619,N11194,EWR,PHL,30,80,21,30,2013-01-08 21:00:00
2013,1,9,2126,2129,-3,2217,2224,-7,EV,4619,N17560,EWR,PHL,27,80,21,29,2013-01-09 21:00:00


Es importante interpreta cada resultado y buscar patrones, por ejemplo, si ciertos destinos suelen ser los más lejanos o si algunas aerolíneas tienen más retrasos sistemáticos.



------------------------------------------------------------------------

### 3. `select()` – Seleccionar columnas

`select()` permite **elegir columnas específicas** de un conjunto de datos

Supongamos que queremos ver solo las columnas `year`, `month`, `day`, `dep_time`, `arr_time`:

In [49]:
select(flights, year, month, day, dep_time, arr_time)

year,month,day,dep_time,arr_time
<int>,<int>,<int>,<int>,<int>
2013,1,1,517,830
2013,1,1,533,850
2013,1,1,542,923
2013,1,1,544,1004
2013,1,1,554,812
2013,1,1,554,740
2013,1,1,555,913
2013,1,1,557,709
2013,1,1,557,838
2013,1,1,558,753


Supongamos que queremos seleccionar varias columnas seguidas (en un rango), digamos entre dep_time y arr_time

In [50]:
select(flights,dep_time:arr_time)

dep_time,sched_dep_time,dep_delay,arr_time
<int>,<int>,<dbl>,<int>
517,515,2,830
533,529,4,850
542,540,2,923
544,545,-1,1004
554,600,-6,812
554,558,-4,740
555,600,-5,913
557,600,-3,709
557,600,-3,838
558,600,-2,753


Si quremos ver lo mismo pero utilizando %>%:

In [51]:
flights%>%
  select(dep_time:arr_time)

dep_time,sched_dep_time,dep_delay,arr_time
<int>,<int>,<dbl>,<int>
517,515,2,830
533,529,4,850
542,540,2,923
544,545,-1,1004
554,600,-6,812
554,558,-4,740
555,600,-5,913
557,600,-3,709
557,600,-3,838
558,600,-2,753


Si queremos seleccionar todas las columnas excepto las que están en un rango, digamos todas las que no están entre dep_time y arr_time


In [52]:
select(flights,-(dep_time:arr_time))

year,month,day,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


**Funciones auxiliares de `select()`**

Cuando tenemos muchas columnas, `dplyr` permite seleccionar variables por su nombre usando funciones auxiliares:

1. `starts_with("texto")`

Selecciona columnas que **comienzan** con una cadena:

Por ejemplo, si queremos seleccionar las columnas relacionadas con el despegue "Departure"

In [53]:
select(flights, starts_with("dep"))

dep_time,dep_delay
<int>,<dbl>
517,2
533,4
542,2
544,-1
554,-6
554,-4
555,-5
557,-3
557,-3
558,-2


2. `ends_with("texto")`

Selecciona columnas que **terminan** en una cadena:

Por ejemplo, si necesitamos información sobre las columnas relacionadas con el tiempo (time)

In [54]:
select(flights, ends_with("time"))

dep_time,sched_dep_time,arr_time,sched_arr_time,air_time
<int>,<int>,<int>,<int>,<dbl>
517,515,830,819,227
533,529,850,830,227
542,540,923,850,160
544,545,1004,1022,183
554,600,812,837,116
554,558,740,728,150
555,600,913,854,158
557,600,709,723,53
557,600,838,846,140
558,600,753,745,138


3. `contains("texto")`

Selecciona columnas que **contienen** una cadena en cualquier parte:

Por ejemplo, si necesitamos recolectar información sobre la demora, en general de los vuelos (delay):

In [55]:
select(flights, contains("delay"))

dep_delay,arr_delay
<dbl>,<dbl>
2,11
4,20
2,33
-1,-18
-6,-25
-4,12
-5,19
-3,-14
-3,-8
-2,8


4. `num_range("prefijo", rango)`

Selecciona columnas con nombres secuenciales como `x1`, `x2`, ..., `x5`:


In [56]:
# Creamos un ejemplo artificial
#Primero creamos un objeto tipo tibble (pra poder utilizar las funciones)
(df <- tibble(x1 = 1:3, x2 = 4:6, x3 = 7:9))
select(df, num_range("x", 1:2))

x1,x2,x3
<int>,<int>,<int>
1,4,7
2,5,8
3,6,9


x1,x2
<int>,<int>
1,4
2,5
3,6


**Buenas prácticas**

Si se nombran (renombran) las columnas de manera coherente (por ejemplo, `dep_time`, `dep_delay`), se pueden aprovechar estas funciones para seleccionar subconjuntos de columnas fácilmente.

## Ejercicios 3 con `select()`

1. Seleccionar múltiples formas:

Selecciona las variables `dep_time`, `dep_delay`, `arr_time`, `arr_delay` usando distintos métodos:


In [57]:
# Por nombre exacto
select(flights, dep_time, dep_delay, arr_time, arr_delay)


dep_time,dep_delay,arr_time,arr_delay
<int>,<dbl>,<int>,<dbl>
517,2,830,11
533,4,850,20
542,2,923,33
544,-1,1004,-18
554,-6,812,-25
554,-4,740,12
555,-5,913,19
557,-3,709,-14
557,-3,838,-8
558,-2,753,8


In [58]:

# Usando rangos
select(flights, dep_time:arr_delay)


dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay
<int>,<int>,<dbl>,<int>,<int>,<dbl>
517,515,2,830,819,11
533,529,4,850,830,20
542,540,2,923,850,33
544,545,-1,1004,1022,-18
554,600,-6,812,837,-25
554,558,-4,740,728,12
555,600,-5,913,854,19
557,600,-3,709,723,-14
557,600,-3,838,846,-8
558,600,-2,753,745,8


In [59]:

# Usando contains
select(flights, contains("time"), contains("delay"))


dep_time,sched_dep_time,arr_time,sched_arr_time,air_time,time_hour,dep_delay,arr_delay
<int>,<int>,<int>,<int>,<dbl>,<dttm>,<dbl>,<dbl>
517,515,830,819,227,2013-01-01 05:00:00,2,11
533,529,850,830,227,2013-01-01 05:00:00,4,20
542,540,923,850,160,2013-01-01 05:00:00,2,33
544,545,1004,1022,183,2013-01-01 05:00:00,-1,-18
554,600,812,837,116,2013-01-01 06:00:00,-6,-25
554,558,740,728,150,2013-01-01 05:00:00,-4,12
555,600,913,854,158,2013-01-01 06:00:00,-5,19
557,600,709,723,53,2013-01-01 06:00:00,-3,-14
557,600,838,846,140,2013-01-01 06:00:00,-3,-8
558,600,753,745,138,2013-01-01 06:00:00,-2,8


In [60]:
# Usando matches
# ^ significa el inicio del nombre de la columna.
# $ significa el final del nombre de la columna.
select(flights, matches("^(dep|arr)_(time|delay)$"))

dep_time,dep_delay,arr_time,arr_delay
<int>,<dbl>,<int>,<dbl>
517,2,830,11
533,4,850,20
542,2,923,33
544,-1,1004,-18
554,-6,812,-25
554,-4,740,12
555,-5,913,19
557,-3,709,-14
557,-3,838,-8
558,-2,753,8


La función matches() en R pertenece al paquete dplyr, que forma parte del ecosistema tidyverse. Es una de las funciones auxiliares que se utiliza en conjunto con select() para seleccionar columnas cuyos nombres coincidan con una expresión regular (regex).

¿Qué hace matches()?
matches() busca coincidencias en los nombres de las variables usando expresiones regulares. Es muy útil cuando tienes columnas con patrones en sus nombres y quieres seleccionarlas sin tener que escribirlas todas de forma manual.

2. Variable repetida



In [61]:
select(flights, dep_time, dep_time, dep_time)

dep_time
<int>
517
533
542
544
554
554
555
557
557
558


El resultado solo incluye una vez la columna `dep_time`, no genera error pero ignora repeticiones.
3. Uso de `any_of()`

La función any() en R no pertenece específicamente a dplyr, sino que es parte del núcleo base de R (base package). Es una función lógica muy útil que se utiliza para evaluar si al menos uno de los elementos de un vector lógico es TRUE.
¿Qué hace any()?
any() devuelve TRUE si al menos uno de los elementos evaluados es TRUE; de lo contrario, devuelve FALSE.

In [62]:
vars <- c("anio", "mes", "dia", "dep_delay", "arr_delay")
select(flights, any_of(vars))

dep_delay,arr_delay
<dbl>,<dbl>
2,11
4,20
2,33
-1,-18
-6,-25
-4,12
-5,19
-3,-14
-3,-8
-2,8


`any_of()` selecciona solo las variables que existen e **ignora silenciosamente** las que no existen.

4.  `contains()` y sensibilidad a mayúsculas

In [63]:
select(flights, contains("DEST"))

dest
<chr>
IAH
IAH
MIA
BQN
ATL
ORD
FLL
IAD
MCO
ORD


In [64]:
select(flights, contains("DEST", ignore.case = FALSE))

“number of columns of result is not a multiple of vector length (arg 2)”


In [65]:
names(flights)

### `mutate()` – Crear nuevas variables

`mutate()` agrega **nuevas columnas** calculadas a partir de otras.

Si queremos calcular la velocidad de cada vuelo (utilizando la misma información que en el ejercicio de ordenamiento de antes::

In [66]:
mutate(flights, velocidad = distance / (air_time / 60))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,velocidad
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,370.0441
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,374.2731
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,408.3750
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,516.7213
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,394.1379
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,287.6000
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,404.4304
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,259.2453
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,404.5714
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,318.6957


Si queremos calcular la ganancia en tiempo de cada vuelo, es decir, si hay diferencias entre el retraso de despegue y de aterrizaje, a la vez que calculamos la ganancia por hora en vez de minutos:

Podemos ir anidando varias sentencias a la vez:

In [67]:
mutate(flights,
       velocidad = distance / (air_time / 60),
       ganancia = dep_delay - arr_delay,
       ganancia_por_hora = ganancia / 60)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,⋯,origin,dest,air_time,distance,hour,minute,time_hour,velocidad,ganancia,ganancia_por_hora
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,⋯,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>,<dbl>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,⋯,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,370.0441,-9,-0.15000000
2013,1,1,533,529,4,850,830,20,UA,⋯,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,374.2731,-16,-0.26666667
2013,1,1,542,540,2,923,850,33,AA,⋯,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,408.3750,-31,-0.51666667
2013,1,1,544,545,-1,1004,1022,-18,B6,⋯,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,516.7213,17,0.28333333
2013,1,1,554,600,-6,812,837,-25,DL,⋯,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,394.1379,19,0.31666667
2013,1,1,554,558,-4,740,728,12,UA,⋯,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,287.6000,-16,-0.26666667
2013,1,1,555,600,-5,913,854,19,B6,⋯,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,404.4304,-24,-0.40000000
2013,1,1,557,600,-3,709,723,-14,EV,⋯,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,259.2453,11,0.18333333
2013,1,1,557,600,-3,838,846,-8,B6,⋯,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,404.5714,5,0.08333333
2013,1,1,558,600,-2,753,745,8,AA,⋯,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,318.6957,-10,-0.16666667


**Otras funciones útiles en `dplyr` relacionadas con Mutate:**

Aparte de `mutate()`, existen funciones que permiten realizar transformaciones más específicas sobre los datos. Veamos algunas de las más útiles:

1. `transmute()`

Es como `mutate()`, pero **solo conserva las variables nuevas** que se crean, descartando todas las demás.

Por ejemplo, si sólo necesitamos calcular velocidad, debido a que no necesitamos el resto de información, (descartamos el resto):


In [68]:
(velocidad<-transmute(flights, velocidad = distance / (air_time / 60)))

velocidad
<dbl>
370.0441
374.2731
408.3750
516.7213
394.1379
287.6000
404.4304
259.2453
404.5714
318.6957



2. `lag()` y `lead()`

Permiten acceder al **valor anterior (`lag`) o posterior (`lead`)** de una variable. Útiles para comparar observaciones secuenciales (normalmente útiles en análisis de series temporales).




In [69]:
(x <- 1:10)

lag(x)

lead(x)


Por ejemplo, si queremos analizar el retraso en la llegada respecto al vuelo anterior/siguiente:

In [70]:
flights %>%
  arrange(year, month, day, sched_dep_time) %>%  # orden temporal
  select(year, month, day, sched_dep_time, arr_delay) %>%
  mutate(
    retraso_actual = arr_delay,
    retraso_anterior = lag(arr_delay),
    retraso_siguiente = lead(arr_delay)
  )%>%View()

year,month,day,sched_dep_time,arr_delay,retraso_actual,retraso_anterior,retraso_siguiente
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,515,11,11,,20
2013,1,1,529,20,20,11,33
2013,1,1,540,33,33,20,-18
2013,1,1,545,-18,-18,33,12
2013,1,1,558,12,12,-18,-4
2013,1,1,559,-4,-4,12,-25
2013,1,1,600,-25,-25,-4,19
2013,1,1,600,19,19,-25,-14
2013,1,1,600,-14,-14,19,-8
2013,1,1,600,-8,-8,-14,8


3. Funciones de acumulación: `cumsum()` y `cummean()`

- `cumsum()`: suma acumulada
- `cummean()`: media acumulada



Tener en cuenta que tenemos que manejar los **na**, ya que muchas funciones estadísticas como mean(), sum(), min(), max() y similares, generan errores con los valores perdidos.
Esto se puede manejar de muchas formas (lo veremos en detalle en el módulo II).
Por ahora, con la función replace_na(), que proviene del paquete tidyr (parte del tidyverse), que sirve para reemplazar los valores faltantes (NA) en una columna o dataframe con un valor eligido, o también, puede usarse na.rm = TRUE, cuando queramos calcular una estadística ignorando los NA, sin modificar los datos originales:


In [71]:
x  #usando el x de arriba

cumsum(x)

cummean(x)


Por ejemplo, si queremos calcular el tiempo total  y el tiempo promedio acumulado del retraso en la llegada de los vuelos:

In [72]:
flights %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(replace_na(arr_delay, 0)),
    media_acumulada = cummean(replace_na(arr_delay, 0))
  )%>%View()

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
-86,-86,-86.00000
-79,-165,-82.50000
-75,-240,-80.00000
-75,-315,-78.75000
-74,-389,-77.80000
-73,-462,-77.00000
-71,-533,-76.14286
-71,-604,-75.50000
-71,-675,-75.00000
-70,-745,-74.50000


ifelse(is.na(arr_delay), 0, arr_delay)
Reemplaza los NA por 0, similar a replace_na(), pero sin usar tidyr.
No se pueden simplemente ignorar los NA en funciones como cumsum() o cummean() porque estas funciones no aceptan el argumento na.rm = TRUE, y por defecto propagan los NA.
Es decir, en cuanto aparece un NA, todo lo que viene después también se convierte en NA.
Esto es porque cumsum() asume que no sabe cuánto sumar si uno de los valores falta.

In [73]:
flights %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(ifelse(is.na(arr_delay), 0, arr_delay)),
    media_acumulada = cummean(ifelse(is.na(arr_delay), 0, arr_delay))
  )

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
-86,-86,-86.00000
-79,-165,-82.50000
-75,-240,-80.00000
-75,-315,-78.75000
-74,-389,-77.80000
-73,-462,-77.00000
-71,-533,-76.14286
-71,-604,-75.50000
-71,-675,-75.00000
-70,-745,-74.50000



Si eliminamos los NAs antes del cálculo:

In [74]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(arr_delay),
    media_acumulada = cummean(arr_delay)
  )

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
-86,-86,-86.00000
-79,-165,-82.50000
-75,-240,-80.00000
-75,-315,-78.75000
-74,-389,-77.80000
-73,-462,-77.00000
-71,-533,-76.14286
-71,-604,-75.50000
-71,-675,-75.00000
-70,-745,-74.50000


## Ejercicios 4 con `mutate()`

1. Convertir dep_time y sched_dep_time en minutos desde medianoche

In [75]:
#Este cálculo convierte la hora de salida (dep_time), que está en formato HHMM (por ejemplo, 745 para 7:45am o 1542 para 3:42pm), a minutos desde la medianoche.
# El operador %/% en R realiza división entera.
#dep_time %/% 100: obtiene las horas completas. Ejemplo: 745 %/% 100 = 7.
#(dep_time %% 100): obtiene los minutos restantes. Ejemplo: 745 %% 100 = 45.
#Multiplicamos las horas por 60 y sumamos los minutos para obtener los minutos totales desde medianoche.

flights %>%
  mutate(
    salida_min = (dep_time %/% 100) * 60 + (dep_time %% 100),
    salida_prog_min = (sched_dep_time %/% 100) * 60 + (sched_dep_time %% 100)
  ) %>%
  select(dep_time, sched_dep_time, salida_min, salida_prog_min)

dep_time,sched_dep_time,salida_min,salida_prog_min
<int>,<int>,<dbl>,<dbl>
517,515,317,315
533,529,333,329
542,540,342,340
544,545,344,345
554,600,354,360
554,558,354,358
555,600,355,360
557,600,357,360
557,600,357,360
558,600,358,360


2. Comparar tiempo de vuelo (air_time) con horario de llegada - horario de salida (arr_time - dep_time)

In [76]:
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    tiempo_calculado = (arr_time %/% 100) * 60 + (arr_time %% 100) - ((dep_time %/% 100) * 60 + (dep_time %% 100)),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month,dep_time, arr_time, air_time, tiempo_calculado, diferencia)%>%View()

# Este código funciona bien, si los vuelos llegan el mismo día, de lo contrario, podemos ver que nos da valores negativos, por lo tanto:
# Ajustamos el cálculo para sumar 24 horas (1440 minutos) cuando la hora de llegada es anterior a la de salida.
# Esto se logra con un condicional simple dentro de mutate():
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    dep_mins = (dep_time %/% 100) * 60 + (dep_time %% 100),
    arr_mins = (arr_time %/% 100) * 60 + (arr_time %% 100),
    tiempo_calculado = if_else(arr_mins >= dep_mins,
                               arr_mins - dep_mins,
                               (arr_mins + 1440) - dep_mins),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month, dep_time, arr_time, air_time, tiempo_calculado, diferencia) %>%
  View()

day,month,dep_time,arr_time,air_time,tiempo_calculado,diferencia
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>
1,1,517,830,227,193,34
1,1,533,850,227,197,30
1,1,542,923,160,221,-61
1,1,544,1004,183,260,-77
1,1,554,812,116,138,-22
1,1,554,740,150,106,44
1,1,555,913,158,198,-40
1,1,557,709,53,72,-19
1,1,557,838,140,161,-21
1,1,558,753,138,115,23


day,month,dep_time,arr_time,air_time,tiempo_calculado,diferencia
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>
1,1,517,830,227,193,34
1,1,533,850,227,197,30
1,1,542,923,160,221,-61
1,1,544,1004,183,260,-77
1,1,554,812,116,138,-22
1,1,554,740,150,106,44
1,1,555,913,158,198,-40
1,1,557,709,53,72,-19
1,1,557,838,140,161,-21
1,1,558,753,138,115,23


3. Vuelos más retrasados según min_rank()

In [77]:
flights %>%
  filter(!is.na(dep_delay)) %>%
  mutate(rango_retraso = min_rank(desc(dep_delay))) %>%
  arrange(rango_retraso) %>%
  select(dep_delay, rango_retraso) %>%
  head(10)


dep_delay,rango_retraso
<dbl>,<int>
1301,1
1137,2
1126,3
1014,4
1005,5
960,6
911,7
899,8
898,9
896,10


4. Funciones trigonométricas de R

In [78]:
??sin
sin(pi / 2)
cos(0)
tan(pi / 4)


También incluye `asin()`, `acos()`, `atan()`, `sinh()`, `cosh()`, `tanh()`, etc.

Los ángulos de las funciones tienen que estar en radiantes. R no tiene una función directa para esto.

In [79]:
deg2rad <- function(x) x * pi / 180
sin(deg2rad(90))

## `min_rank()` y `row_number()`

Permiten asignar **rangos** según el valor de una variable.

- `min_rank()`: asigna el mismo rango a empates
- `row_number()`: asigna rangos sin empates (rompe empates arbitrariamente)

Por ejemplo, si queremos crear un ranking de vuelos según retraso en llegada

In [80]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  mutate(
    rango = min_rank(desc(arr_delay)),
    #ordena los retrasos de mayor a menor y asigna un rango numérico:
    #el más alto retraso recibe el número 1, el segundo más alto el 2, etc.
    numero_fila = row_number(desc(arr_delay))
    #también ordena de mayor a menor y asigna un número consecutivo a cada
    # fila en ese orden, sin repetir números (aunque haya empates).
  ) %>%
  select(arr_delay, rango, numero_fila)
  #Muestra solo las tres columnas: el retraso (arr_delay), su rango (rango)
  # y su número de fila (numero_fila) en el orden descendente.

arr_delay,rango,numero_fila
<dbl>,<int>,<int>
11,88628,88628
20,66859,66859
33,47963,47963
-18,250071,250071
-25,287659,287659
12,85560,85560
19,68777,68777
-14,223076,223076
-8,181424,181424
8,98382,98382


**A tener en cuenta:**

- Estas funciones deben usarse **dentro de `mutate()` o `transmute()`**.
- `lag()` y `lead()` son ideales para detectar tendencias o diferencias entre registros.
- Las funciones acumuladas (`cumsum`, `cummean`) requieren orden si se desea análisis temporal.
- `min_rank` es más justo cuando hay empates que `row_number`.

------------------------------------
## FILTROS Y MUTATES AGRUPADOS

Para verlo mejor en el dataset de fligths, utilizamos una data ficticia:

Estamos formando dos grupos, A y B, cada uno tiene un valor en una métrica. Si yo quisiera aplicar un filtro, el filtro se aplicaría sobre toda la columna de métrica, la idea del **group_by** es que las operaciones que se hagan en el **mutate** o en el **filtro**, se van a aplicar dentro de los grupos, por ejemplo:

Si yo quiero una nueva columna que sea la suma total dentro de los grupos, como se observa a continuación o si lo que quiero es seleccionar la métrica más baja por grupo ¿qué hacemos? (reinicio de rango):

| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | ?       | ?     |
| A     | 3       | ?       | ?     |
| A     | 5       | ?       | ?     |
| B     | 2       | ?       | ?     |
| B     | 4       | ?       | ?     |
| B     | 6       | ?       | ?     |


creando un nuevo data set con la nueva agrupación


| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | 9       | 1     |
| A     | 3       | 9       | 2     |
| A     | 5       | 9       | 3     |
| B     | 2       | 12      | 1     |
| B     | 4       | 12      | 2     |
| B     | 6       | 12      | 3     |


---

En nuestros datos:

`summarise()` + `group_by()` – Resumir datos agrupados

- `group_by()` agrupa datos por variable(s).
- `summarise()` resume cada grupo con funciones como `mean()`, `n()`, etc.

**Calculemos el promedio de retraso por aeropuerto de origen:**


In [81]:
flights %>%
  group_by(origin) %>% #esto no le hace nada al data set, sólo le da la propiedad de estar agrupado
  summarise(promedio_retraso = mean(dep_delay, na.rm = TRUE))

origin,promedio_retraso
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


¿cómo calculo la media de retraso por día (by_day)?, ¿y por mes?

In [82]:
flights %>%
  select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, desc(arr_delay)) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(desc(arr_delay))) %>% #crea la variable de ranking
  filter(obs_rank<=10) %>% View()#selecciona los 10 tiempos mayores (top 10) (los que más tarde arrivaron)
#ver fila 85 (ver filtro)

year,month,day,dep_delay,arr_delay,air_time,distance,obs_rank
<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,853,851,41,184,1
2013,1,1,379,456,222,1092,2
2013,1,1,290,338,213,1134,3
2013,1,1,260,263,46,266,4
2013,1,1,255,250,115,589,5
2013,1,1,285,246,146,1085,6
2013,1,1,216,222,121,708,7
2013,1,1,192,191,44,199,8
2013,1,1,157,174,60,213,9
2013,1,1,155,166,68,277,10


Ahora, si quisiéramos encontrar los mejores miembros (mejores tiempos) es decir los que llegaron más temprano o llegaron a tiempo

In [83]:
flights %>%
  select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, arr_delay) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(arr_delay)) %>% #crea la variable de ranking
  filter(obs_rank<=10) %>% View()#selecciona los 10 tiempos mayores (top 10) (los que más tarde arrivaron)
#ver fila 85 (ver filtro)

year,month,day,dep_delay,arr_delay,air_time,distance,obs_rank
<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,-1,-48,133,944,1.0
2013,1,1,-1,-47,150,1089,2.0
2013,1,1,0,-40,182,1598,3.5
2013,1,1,-3,-40,354,2586,3.5
2013,1,1,-5,-39,188,1598,5.5
2013,1,1,-7,-39,330,2475,5.5
2013,1,1,-4,-38,188,1598,7.0
2013,1,1,-5,-35,155,1069,8.5
2013,1,1,-15,-35,126,733,8.5
2013,1,1,-9,-34,41,187,10.0


Por ejemplo, si queremos identificar todos los aeropuertos de destino (dest) a los que se voló menos de 20 veces en todo el año, la idea sería mostrar los destinos y el número total de vuelos que recibieron.

In [84]:
flights %>%
  group_by(dest) %>%#agrupa los vuelos por destino.
  summarise(total_vuelos = n()) %>% #cuenta cuántos vuelos hubo a cada destino.
  filter(total_vuelos < 20)#selecciona solo los destinos con menos de 20 vuelos en todo el año.

dest,total_vuelos
<chr>,<int>
ANC,8
EYW,17
HDN,15
LEX,1
LGA,1
MTJ,15
PSP,19
SBN,10


¿Cuántos destinos diferentes recibieron menos de 20 vuelos en total durante 2013?
¿Alguno de estos destinos parece ser un error o un dato atípico?

In [85]:
# Agrupar por destino y contar la cantidad de vuelos
destinos_raros <- flights %>%
  group_by(dest) %>%                            # Agrupar por aeropuerto de destino
  summarise(total_vuelos = n()) %>%             # Contar el número total de vuelos
  filter(total_vuelos < 20) %>%                 # Filtrar los que tienen menos de 20 vuelos
  arrange(total_vuelos)                         # Ordenar de menor a mayor

# Ver resultados
print(destinos_raros)

# Número total de destinos con menos de 20 vuelos
cat("Número de destinos con menos de 20 vuelos:", nrow(destinos_raros), "\n")

[90m# A tibble: 8 × 2[39m
  dest  total_vuelos
  [3m[90m<chr>[39m[23m        [3m[90m<int>[39m[23m
[90m1[39m LEX              1
[90m2[39m LGA              1
[90m3[39m ANC              8
[90m4[39m SBN             10
[90m5[39m HDN             15
[90m6[39m MTJ             15
[90m7[39m EYW             17
[90m8[39m PSP             19
Número de destinos con menos de 20 vuelos: 8 


## Ejercicios con `summarise()` y exploración de datos agrupados

1. Formas de evaluar retraso típico

- `mean(arr_delay, na.rm = TRUE)` — promedio de retraso
- `median(arr_delay, na.rm = TRUE)` — mediana
- `sd(arr_delay, na.rm = TRUE)` — desviación estándar
- `IQR(arr_delay, na.rm = TRUE)` — rango intercuartílico
- `quantile(arr_delay, probs = 0.9, na.rm = TRUE)` — percentil 90


In [86]:
delay_char <-
  flights %>%
  group_by(flight) %>%
  summarise(n = n(),
            fifteen_early = mean(arr_delay == -15, na.rm = TRUE),
            fifteen_late = mean(arr_delay == 15, na.rm = TRUE),
            ten_always = mean(arr_delay == 10, na.rm = TRUE),
            thirty_early = mean(arr_delay == -30, na.rm = TRUE),
            thirty_late = mean(arr_delay == 30, na.rm = TRUE),
            percentage_on_time = mean(arr_delay == 0, na.rm = TRUE),
            twohours = mean(arr_delay > 120, na.rm = TRUE)) %>%
#Aplica la función round(., 2) solo a las columnas que son numéricas (is_double),
#redondeando sus valores a 2 decimales.
  map_if(is_double, round, 2) %>%
  as_tibble()%>%View()

flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,701,0.02,0.01,0.01,0.01,0.01,0.01,0.01
2,51,0.04,0.02,0.00,0.00,0.00,0.04,0.00
3,631,0.01,0.01,0.02,0.02,0.00,0.03,0.01
4,393,0.04,0.01,0.01,0.01,0.00,0.02,0.01
5,324,0.01,0.01,0.01,0.02,0.00,0.01,0.01
6,210,0.03,0.00,0.00,0.03,0.00,0.00,0.01
7,237,0.02,0.00,0.00,0.01,0.00,0.01,0.04
8,236,0.06,0.01,0.02,0.00,0.00,0.02,0.01
9,153,0.01,0.01,0.02,0.00,0.00,0.02,0.04
10,61,0.02,0.02,0.03,0.00,0.00,0.02,0.10


Un vuelo que se adelanta 15 minutos el 50% de las veces, y se retrasa 15 minutos el 50% de las veces.

In [87]:
delay_char %>%
  filter(fifteen_early == 0.5, fifteen_late == 0.5)

flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>


Un vuelo que siempre llega con 10 minutos de retraso.

In [88]:
delay_char %>%
  filter(ten_always == 1)

flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2254,1,0,0,1,0,0,0,0
3656,1,0,0,1,0,0,0,0
3785,2,0,0,1,0,0,0,0
3880,1,0,0,1,0,0,0,0
5854,1,0,0,1,0,0,0,0



2. ¿Qué es más importante?

Depende del objetivo: la llegada afecta al pasajero, la salida al aeropuerto.

3. Consulta la tabla de funciones útiles de mutación y filtrado. Describe cómo cambia cada operación al combinarla con la agrupación.




In [96]:
?mutate



Cuando aplicamos funciones de mutación (mutate()) o filtrado (filter()) a un dataframe sin agrupar, las operaciones se hacen sobre todo el conjunto de datos.

Sin embargo, al agrupar (group_by()), el comportamiento de estas funciones cambia:
cada grupo se trata de forma independiente, como si tuvieras varios subconjuntos separados, y luego se combinan los resultados.
Ejemplo con mutate() sin agrupar

In [97]:
flights %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))
#Esto calcula el retraso promedio de salida considerando todos los vuelos.



year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,media_retraso
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,12.63907
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,12.63907
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,12.63907
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,12.63907
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,12.63907
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,12.63907


Ejemplo con mutate() agrupado

In [98]:
flights %>%
  group_by(dest) %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))
#Aquí, mean(dep_delay) se calcula para cada destino (dest), y cada fila
#recibe el valor promedio de su grupo.

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,media_retraso
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,10.842179
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,10.842179
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,8.876558
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,12.381594
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,12.509824
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,13.570484
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,12.731104
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,16.982935
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,11.275998
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,13.570484


4. ¿Qué avión (tailnum) tiene el peor registro de puntualidad?

In [89]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  group_by(tailnum) %>%
# summarise(prop_time = sum(arr_delay <= 30)/n():

# Cuenta cuántos vuelos de ese avión llegaron con un retraso menor o igual a 30
# minutos, y divide por el total de vuelos (n()).
# Resultado: la proporción de vuelos "a tiempo" o con retraso aceptable para ese avión.

#mean_arr = mean(arr_delay, na.rm = TRUE):

#Calcula el retraso promedio de llegada de ese avión,
#ignorando los valores faltantes (na.rm = TRUE).

#fl = n()) %>%:
#Número total de vuelos realizados por ese avión.
  summarise(prop_time = sum(arr_delay <= 30)/n(),
            mean_arr = mean(arr_delay, na.rm = TRUE),
            fl = n()) %>%
  arrange(desc(prop_time))

#interpretación de la salida:
#tailnum = N103US: Este es el número de cola (matrícula) del avión.
#Es un identificador único para ese avión.

#prop_time = 1: El 100% de sus vuelos llegaron con 30 minutos de retraso
# o menos (incluidos los que llegaron antes de tiempo).

#mean_arr = -6.93: En promedio, este avión llegó 6.93 minutos antes de
# la hora prevista.

#fl = 46: Realizó un total de 46 vuelos.

# Interpretación: El avión N103US fue muy puntual, ya que nunca tuvo
# un retraso superior a 30 minutos en los 46 vuelos analizados, y en
#promedio llegaba casi 7 minutos antes.

tailnum,prop_time,mean_arr,fl
<chr>,<dbl>,<dbl>,<int>
N103US,1,-6.934783,46
N1200K,1,-9.380952,21
N121DE,1,15.000000,2
N137DL,1,-5.000000,1
N143DA,1,24.000000,1
N14628,1,-6.000000,1
N14629,1,-16.250000,4
N1607B,1,-16.000000,3
N1608,1,-11.333333,3
N1610D,1,-14.500000,2


4. ¿A qué hora del día deberías volar para evitar retrasos al máximo?

In [90]:
flights %>%
  group_by(hour) %>%
  filter(!is.na(dep_delay)) %>%
  summarise( delay = mean( dep_delay > 0 , na.rm = T)) %>% View()

# A las 5 am se retrasan menos, en proporción y a las 20:00 se retrasan
# más en proporción

hour,delay
<dbl>,<dbl>
5,0.2515432
6,0.2127243
7,0.2202645
8,0.2533582
9,0.2698024
10,0.3010111
11,0.3198831
12,0.3601416
13,0.4190608
14,0.4378903


5. Para cada destino, calcule el total de minutos de retraso.

In [99]:
flights %>%
  group_by(dest) %>%
  filter(!is.na(dep_delay)) %>%
  summarise(tot_mins = sum(dep_delay[dep_delay > 0]))

dest,tot_mins
<chr>,<dbl>
ABQ,4076
ACK,2603
ALB,10934
ANC,105
ATL,254414
AUS,36623
AVL,3092
BDL,8471
BGR,8170
BHM,8817


6. Para cada vuelo, calcule la proporción del retraso total en su destino.

In [100]:
flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(tailnum, dest) %>%
  summarise(m = mean(dep_delay > 0), n = n()) %>%
  arrange(desc(m))

# Los retrasos suelen estar correlacionados temporalmente:
# incluso una vez resuelto el problema que causó el retraso inicial,
# los vuelos posteriores se retrasan para permitir la salida de los
# primeros. Con lag(), explore cómo se relaciona el retraso de un vuelo
# con el retraso del vuelo inmediatamente anterior.

[1m[22m`summarise()` has grouped output by 'tailnum'. You can override using the
`.groups` argument.


tailnum,dest,m,n
<chr>,<chr>,<dbl>,<int>
D942DN,MCO,1,2
N10156,BDL,1,1
N10156,CLE,1,1
N10156,DCA,1,2
N10156,GSO,1,1
N10156,GSP,1,1
N10156,IAD,1,1
N10156,IND,1,2
N10156,MHT,1,1
N10156,MSN,1,1


In [103]:
# Crea una nueva variable llamada new_sched_dep_time que representa la fecha y hora completa de salida programada como objeto POSIXct.
# Esto es útil porque sched_dep_time está en formato "HHMM" y no incluye la fecha.
# lubridate::make_datetime() combina año, mes, día, hora y minuto para generar un timestamp real, que se puede ordenar cronológicamente.

flights %>%
  mutate(new_sched_dep_time = lubridate::make_datetime(year, month, day, hour, minute)) %>%
  arrange(new_sched_dep_time) %>%
  mutate(prev_time = lag(dep_delay)) %>%
  # filter(between(dep_delay, 0, 300), between(prev_time, 0, 300)) %>% # play with this one
  select(origin, new_sched_dep_time, dep_delay, prev_time) %>% View()

# Interpretación de las primeras filas tras crear la variable `prev_time`
# con lag() sobre los retrasos (`dep_delay`)

# Fila 1:
# origin: EWR (Newark)
# new_sched_dep_time: 2013-01-01 05:15:00
# dep_delay: 2 minutos
# prev_time: NA (es el primer vuelo en orden cronológico, no tiene vuelo anterior)

# Fila 2:
# origin: LGA (LaGuardia)
# new_sched_dep_time: 2013-01-01 05:29:00
# dep_delay: 4 minutos
# prev_time: 2 (retraso del vuelo anterior, el de EWR a las 5:15)

# Fila 3:
# origin: JFK (John F. Kennedy)
# new_sched_dep_time: 2013-01-01 05:40:00
# dep_delay: 2 minutos
# prev_time: 4 (retraso del vuelo anterior, el de LGA a las 5:29)

# Con este tipo de análisis se puede explorar si los retrasos tienden a transmitirse:
# es decir, si un vuelo retrasado aumenta la probabilidad de que el siguiente también lo esté.
# Se puede visualizar con ggplot o ajustar un modelo para analizar la relación entre dep_delay y prev_time.


origin,new_sched_dep_time,dep_delay,prev_time
<chr>,<dttm>,<dbl>,<dbl>
EWR,2013-01-01 05:15:00,2,
LGA,2013-01-01 05:29:00,4,2
JFK,2013-01-01 05:40:00,2,4
JFK,2013-01-01 05:45:00,-1,2
EWR,2013-01-01 05:58:00,-4,-1
JFK,2013-01-01 05:59:00,0,-4
LGA,2013-01-01 06:00:00,-6,0
EWR,2013-01-01 06:00:00,-5,-6
LGA,2013-01-01 06:00:00,-3,-5
JFK,2013-01-01 06:00:00,-3,-3


6. Mira cada destino. ¿Puede encontrar vuelos que sean sospechosamente rápidos? (es decir, vuelos que representen un posible error de introducción de datos). Calcule el tiempo de vuelo de un vuelo en relación con el vuelo más corto a ese destino. ¿Qué vuelos sufrieron más retrasos en el aire?

In [104]:
flights %>%
  group_by(dest) %>%
  arrange(air_time) %>%
  slice(1:5) %>%
# slice(1:5)
#Después de ordenar por air_time en cada grupo, esta línea selecciona las primeras 5 filas de cada grupo.
# Es decir, para cada destino, se conservan los 5 vuelos más cortos (en tiempo de vuelo).
  select(tailnum, sched_dep_time, sched_arr_time, air_time) %>%
  arrange(air_time)

[1m[22mAdding missing grouping variables: `dest`


dest,tailnum,sched_dep_time,sched_arr_time,air_time
<chr>,<chr>,<int>,<int>,<dbl>
BDL,N16911,1315,1411,20
BDL,N12167,527,628,20
BDL,N27200,851,954,21
BDL,N13955,1315,1411,21
BDL,N12160,1329,1426,21
BOS,N947UW,1500,1608,21
PHL,N13913,2129,2224,21
PHL,N12921,2130,2225,21
PHL,N8501F,1935,2056,21
PHL,N22909,2129,2224,22


## Relación entre tablas: ¿para qué sirven los joins?

Los joins se utilizan para **unir información que está en diferentes tablas** mediante una o más columnas clave. Permiten realizar análisis más completos combinando datasets.

Por ejemplo, en `flights` encontramos códigos de aerolíneas (`carrier`), pero sus nombres están en `airlines`. Para analizarlos juntos, debemos unirlos.

## Tipos de joins en `dplyr`

| Función         | ¿Qué hace?                                                      |
|----------------|------------------------------------------------------------------|
| `inner_join()` | Solo las coincidencias en ambas tablas  (Intersección)                        |
| `left_join()`  | Todos los registros de la tabla izquierda                     |
| `right_join()` | Todos los registros de la tabla derecha                        |
| `full_join()`  | Todos los registros de ambas tablas(AUB)                            |
| `semi_join()`  | Registros de la izquierda con coincidencia (sin agregar columnas) |
| `anti_join()`  | Registros de la izquierda sin coincidencia                     |

Puedes explorar más con vignette. Pero, ¿Qué es una vignette?:

Es un documento en HTML o PDF incluido en un paquete.
Tiene código R explicativo, gráficos y teoría.
Se utiliza para aprender a usar el paquete con contexto. (No funciona en google colab, veremos sus funciones en RStudio), sin emabrgo, es como si abrieramos:

[vignette("two-table", package = "dplyr") ](https://dplyr.tidyverse.org/articles/two-table.html)




In [106]:
vignette("two-table", package = "dplyr")

**¿Modifican el dataframe original?**

No. Los joins **devuelven una nueva tabla**. Para conservarla, debes asignarla a un objeto.

### Llaves primarias y secundarias

- **Llave primaria**: identifica de forma única una fila (ej. `carrier` en `airlines`).
- **Llave secundaria**: columna que se relaciona con la primaria en otra tabla.

---

Ejemplos con datos ficticios

In [108]:
(x <- tibble(
  id = c(1, 2, 3), #creamos un elemento de tipo tibble (que es con el que se trabaja en Dplyr)
  nombre = c("Ana", "Luis", "Carlos")
))

(y <- tibble(
  id = c(1, 2, 4),
  sueldo = c(3000, 3200, 2800)
))

id,nombre
<dbl>,<chr>
1,Ana
2,Luis
3,Carlos


id,sueldo
<dbl>,<dbl>
1,3000
2,3200
4,2800


Inerjoin:

In [None]:
inner_join(x, y)       # Solo coincidencias

Todos los de x:

## data.table

`data.table` es una alternativa de alto rendimiento a `data.frame`, optimizada para manejar grandes volúmenes de datos de forma eficiente. Su sintaxis concisa permite combinar filtrado, selección y agrupación en una sola línea:

``` r
DT[i, j, by]
```

-   `i`: condiciones para filtrar filas.
-   `j`: operaciones sobre columnas.
-   `by`: agrupamiento por variables.

Ventajas: - Muy eficiente en términos de velocidad y uso de memoria. - Permite modificar datos sin copiar (in-place). - Ideal para trabajar con millones de filas.

------------------------------------------------------------------------
