<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_Curso_R/blob/main/ERAP_R_Course_ModuloI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Título**:  Manipulación de datos con R                                 
                                          
**Autor(es)**:  Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández

**Fecha**: 2025-05

**Institución**: Universidad de La Rioja    

**Contenido del curso:**

**Módulo 1**: Manipulación de Datos con dplyr y data.table  

Objetivo: Aprender a manipular y transformar datos usando las herramientas más comunes de R.

**Módulo 2**: Manejo de Datos Desordenados y Falta de Información

Objetivo: Aprender a limpiar datos desordenados, manejar datos faltantes y formatear conjuntos de datos.

**Módulo 3**: Visualización de Datos con ggplot2

Objetivo: Crear gráficos avanzados para analizar visualmente los datos utilizando ggplot2.

**Módulo 4**: Exploración de Datos y Estadística Descriptiva

Objetivo: Aplicar métodos estadísticos para explorar y describir conjuntos de datos.

# Modulo I: Manipulación de Datos con dplyr y data.table: introducción

En esta sección se presentan dos de las librerías más potentes para manipulación de datos en R: **`dplyr`** y **`data.table`**.

Por su sencillez, desde el punto de vista académico, iniciaremos con Dplyr, luego repetiremos los ejercicios con data.table, mostrando sus diferencias y bondades.
-------------------------------------------------------------------



In [1]:
# @title Librerías: (Instalación e importación)

# Función para instalar si no está instalado
instalar_si_no <- function(paquete) {
    if (!requireNamespace(paquete, quietly = TRUE)) {
    install.packages(paquete, repos = "https://cloud.r-project.org")
  }
  library(paquete, character.only = TRUE)
}

# Lista de paquetes a verificar
paquetes <- c("tidyverse", "data.table", "psych", "moments", "nycflights13", "dplyr")

# Instalar y cargar todos
invisible(lapply(paquetes, instalar_si_no))

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.2     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.4     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors

Attaching package: ‘data.table’


The following objects are masked from ‘package:lubridate’:

    hour, isoweek, mday, minute, month, quarter, second, wday, week,
    y

## dplyr

`dplyr` forma parte del ecosistema **tidyverse**, diseñado para trabajar con datos de forma ordenada, clara y legible. Utiliza funciones denominadas *verbos* para transformar data frames:

-   `filter()`: selecciona filas según condiciones lógicas.
-   `select()`: selecciona columnas específicas también teniendo en cuenta condiciones.
-   `mutate()`: crea nuevas variables o transforma existentes.
-   `arrange()`: ordena filas.
-   `group_by()` + `summarise()`: agrupa y resume datos.

------------------------------------------------------------------------

**¿Qué es tidyverse?**

El **tidyverse** es una colección de paquetes R con una filosofía de diseño común: trabajar con datos ordenados (*tidy data*).

**Principales paquetes del tidyverse:**

| Paquete         | Función principal                              |
|-----------------|------------------------------------------------|
| ***`dplyr`***   | Manipulación de datos                          |
| ***`ggplot2`*** | Visualización de datos                         |
| `tidyr`         | Transformación y ordenación de datos           |
| `readr`         | Lectura eficiente de archivos CSV y planos     |
| ***`tibble`***  | Versión moderna de `data.frame`                |
| `stringr`       | Manipulación de cadenas de texto               |
| `forcats`       | Manejo de factores (variables categóricas)     |
| `purrr`         | Programación funcional sobre listas y vectores |

------------------------------------------------------------------------


In [2]:
?tidyverse


**Bibliografía recomendada**

- [Web oficial de tidyverse](https://www.tidyverse.org)


-   Wickham, H., & Grolemund, G. (2023). *R para ciencia de datos*.\
    Disponible en línea:\
    <https://r4ds.had.co.nz>
    
-   Dowle, M., & Srinivasan, A. (2024). *data.table: Extension of `data.frame`*. Paquete R. Disponible en: <https://cran.r-project.org/package=data.table>

- Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

**Introducción al paquete de los datos a usar `nycflights13`**

El paquete `nycflights13` contiene datos reales sobre todos los vuelos que salieron desde los aeropuertos de Nueva York durante el año 2013.

**¿Qué datos contiene el paquete?**

El paquete incluye 5 tablas principales:

-   `flights`: datos de vuelos
-   `airlines`: aerolíneas
-   `airports`: aeropuertos
-   `planes`: aviones
-   `weather`: clima

Podemos acceder a cada una directamente por su nombre:

In [3]:
head(flights,3)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00


In [4]:
head(airlines)

carrier,name
<chr>,<chr>
9E,Endeavor Air Inc.
AA,American Airlines Inc.
AS,Alaska Airlines Inc.
B6,JetBlue Airways
DL,Delta Air Lines Inc.
EV,ExpressJet Airlines Inc.


In [5]:
head(airports)

faa,name,lat,lon,alt,tz,dst,tzone
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
04G,Lansdowne Airport,41.13047,-80.61958,1044,-5,A,America/New_York
06A,Moton Field Municipal Airport,32.46057,-85.68003,264,-6,A,America/Chicago
06C,Schaumburg Regional,41.98934,-88.10124,801,-6,A,America/Chicago
06N,Randall Airport,41.43191,-74.39156,523,-5,A,America/New_York
09J,Jekyll Island Airport,31.07447,-81.42778,11,-5,A,America/New_York
0A9,Elizabethton Municipal Airport,36.37122,-82.17342,1593,-5,A,America/New_York


In [6]:
head(planes)

tailnum,year,type,manufacturer,model,engines,seats,speed,engine
<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<chr>
N10156,2004,Fixed wing multi engine,EMBRAER,EMB-145XR,2,55,,Turbo-fan
N102UW,1998,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N103US,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N104UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N10575,2002,Fixed wing multi engine,EMBRAER,EMB-145LR,2,55,,Turbo-fan
N105UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan


In [7]:
head(weather)

origin,year,month,day,hour,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib,time_hour
<chr>,<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
EWR,2013,1,1,1,39.02,26.06,59.37,270,10.35702,,0,1012.0,10,2013-01-01 01:00:00
EWR,2013,1,1,2,39.02,26.96,61.63,250,8.05546,,0,1012.3,10,2013-01-01 02:00:00
EWR,2013,1,1,3,39.02,28.04,64.43,240,11.5078,,0,1012.5,10,2013-01-01 03:00:00
EWR,2013,1,1,4,39.92,28.04,62.21,250,12.65858,,0,1012.2,10,2013-01-01 04:00:00
EWR,2013,1,1,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10,2013-01-01 05:00:00
EWR,2013,1,1,6,37.94,28.04,67.21,240,11.5078,,0,1012.4,10,2013-01-01 06:00:00



------------------------------------------------------------------------

**Descripción general de las tablas**

Utilizamos las funciones:

dim(): para ver la dimensión de los datos.

str(): para mostrar la estructura del objetos de manera compacta y legible.

glimpse() : para mostrar un resumen estructural horizontal de los datos:

-   `int` enteros.

-   `dbl` dobles, o números reales.

-   `chr` caracteres o cadenas.

-   `dttm` fechas y horas (una fecha + una hora).

Otros tres tipos comunes de variables:

-   `lgl` significa lógico, `TRUE` (verdadero) o `FALSE` (falso).

-   `fctr` significa factores (categóricos).

-   `date` fechas.



1. `flights` — Datos de vuelos


In [8]:
#dim(flights)
#str(flights)
glimpse(flights)


Rows: 336,776
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ day            [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ dep_time       [3m[90m<int>[39m[23m 517[90m, [39m533[90m, [39m542[90m, [39m544[90m, [39m554[90m, [39m554[90m, [39m555[90m, [39m557[90m, [39m557[90m, [39m558[90m, [39m558[90m, [39m…
$ sched_dep_time 

2. `airlines` — Información de aerolíneas

In [9]:
glimpse(airlines)

Rows: 16
Columns: 2
$ carrier [3m[90m<chr>[39m[23m "9E"[90m, [39m"AA"[90m, [39m"AS"[90m, [39m"B6"[90m, [39m"DL"[90m, [39m"EV"[90m, [39m"F9"[90m, [39m"FL"[90m, [39m"HA"[90m, [39m"MQ"[90m, [39m"O…
$ name    [3m[90m<chr>[39m[23m "Endeavor Air Inc."[90m, [39m"American Airlines Inc."[90m, [39m"Alaska Airline…


3. `airports` — Información de aeropuertos

In [10]:
glimpse(airports)

Rows: 1,458
Columns: 8
$ faa   [3m[90m<chr>[39m[23m "04G"[90m, [39m"06A"[90m, [39m"06C"[90m, [39m"06N"[90m, [39m"09J"[90m, [39m"0A9"[90m, [39m"0G6"[90m, [39m"0G7"[90m, [39m"0P2"[90m, [39m"…
$ name  [3m[90m<chr>[39m[23m "Lansdowne Airport"[90m, [39m"Moton Field Municipal Airport"[90m, [39m"Schaumbur…
$ lat   [3m[90m<dbl>[39m[23m 41.13047[90m, [39m32.46057[90m, [39m41.98934[90m, [39m41.43191[90m, [39m31.07447[90m, [39m36.37122[90m, [39m41.4…
$ lon   [3m[90m<dbl>[39m[23m -80.61958[90m, [39m-85.68003[90m, [39m-88.10124[90m, [39m-74.39156[90m, [39m-81.42778[90m, [39m-82.17342…
$ alt   [3m[90m<dbl>[39m[23m 1044[90m, [39m264[90m, [39m801[90m, [39m523[90m, [39m11[90m, [39m1593[90m, [39m730[90m, [39m492[90m, [39m1000[90m, [39m108[90m, [39m409[90m, [39m875[90m, [39m10…
$ tz    [3m[90m<dbl>[39m[23m -5[90m, [39m-6[90m, [39m-6[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [39m-5[90m, [

4. `planes` — Información de los aviones

In [11]:
glimpse(planes)

Rows: 3,322
Columns: 9
$ tailnum      [3m[90m<chr>[39m[23m "N10156"[90m, [39m"N102UW"[90m, [39m"N103US"[90m, [39m"N104UW"[90m, [39m"N10575"[90m, [39m"N105UW…
$ year         [3m[90m<int>[39m[23m 2004[90m, [39m1998[90m, [39m1999[90m, [39m1999[90m, [39m2002[90m, [39m1999[90m, [39m1999[90m, [39m1999[90m, [39m1999[90m, [39m199…
$ type         [3m[90m<chr>[39m[23m "Fixed wing multi engine"[90m, [39m"Fixed wing multi engine"[90m, [39m"Fi…
$ manufacturer [3m[90m<chr>[39m[23m "EMBRAER"[90m, [39m"AIRBUS INDUSTRIE"[90m, [39m"AIRBUS INDUSTRIE"[90m, [39m"AIRBU…
$ model        [3m[90m<chr>[39m[23m "EMB-145XR"[90m, [39m"A320-214"[90m, [39m"A320-214"[90m, [39m"A320-214"[90m, [39m"EMB-145…
$ engines      [3m[90m<int>[39m[23m 2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[90m, [39m2[9

5. `weather` — Condiciones climáticas por hora

In [12]:
glimpse(weather)

Rows: 26,115
Columns: 15
$ origin     [3m[90m<chr>[39m[23m "EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EWR"[90m, [39m"EW…
$ year       [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m,[39m…
$ month      [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m,[39m…
$ day        [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m,[39m…

------------------------------------------------------------------------

**Relaciones clave**

Lo veremos en detalle más adelante:

-   `flights$carrier` → `airlines$carrier`
-   `flights$tailnum` → `planes$tailnum`
-   `flights$origin`, `flights$dest` → `airports$faa`
-   `flights$origin` + `flights$time_hour` → `weather`

## Verbos en Dplyr:

Los verbos de `dplyr` permiten transformar datos de forma clara y estructurada.

Su sintaxis es intuitiva y permite encadenar operaciones paso a paso usando el operador `%>%`.

Los verbos de `dplyr` siguen una estructura muy regular:

``` r
datos %>% verbo(argumentos)
```
-   `datos`: es el conjunto de datos original (por ejemplo, `flights`)
-   `%>%`: se lee como "entonces", conecta pasos secuenciales
-   `verbo()`: es la función como `filter()`, `select()`, etc.
-   `argumentos`: lo que queremos hacer (condiciones, columnas, cálculos)

**El operador `%>%` – Pipe (tubo en español) del tidyverse (importancia de que sea gramático)**

El operador `%>%` (pipe) proviene del paquete `magrittr`, que forma parte del `tidyverse`.  
Se usa para **encadenar funciones**, permitiendo escribir código más limpio y legible.

| Plataforma  | Atajo de teclado       |
| ----------- | ---------------------- |
| **Windows** | `Ctrl` + `Shift` + `M` |
| **macOS**   | `Cmd` + `Shift` + `M`  |
| **Linux**   | `Ctrl` + `Shift` + `M` |


**¿Cómo se lee?**

> **“y luego”**.  
> Por ejemplo: *Toma los datos y luego filtra y luego resume*.

---

### Comparación:

Si por ejemplo, queremos agrupar los vuelos por aeropuerto de origen (origin) y calcula el retraso promedio en la salida (dep_delay) para cada uno de ellos (aeropuertos), asegurándonos de ignorar los valores perdidos (NA) en el cálculo de la media:



**Sin pipe (forma tradicional):**

In [13]:
summarise(group_by(flights,origin),promedio=mean(dep_delay,na.rm = TRUE))

origin,promedio
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


**Con pipe (%>%):**

In [14]:
flights %>%
  group_by(origin) %>%
  summarise(promedio=mean(dep_delay,na.rm = TRUE))

origin,promedio
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


---

**Estructura del pipe:**

```r
objeto %>%
  funcion(argumentos)
```

Equivale a:

```r
funcion(objeto, argumentos)
```

Se puede seguir encadenando:

```r
datos %>%
  paso_1() %>%
  paso_2() %>%
  paso_3()
```

---

**Es importante:**

- Colocar `%>%` al final de la línea.
- Mejora la lectura especialmente en cadenas largas de transformación.
- No es necesario crear variables intermedias, lo que se traduce en ahorro en RAM

**Los argumentos del los verbos:**

-   Se separan por **comas**, no por `=`
-   En `mutate()` y `summarise()` se crean nuevas variables con `nombre = cálculo`

------------------------------------------------------------------------


### 1. `filter()` – Filtrar filas

`filter()` selecciona **filas que cumplen condiciones** lógicas.

- Supongamos que queremos ver todos los vuelos del 1 de enero

In [15]:
filter(flights,month==1,day==1)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


- Y si queremos ver todos los vuelos del 25 de diciembre

In [16]:
filter(flights,month==12,day==25)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,12,25,456,500,-4,649,651,-2,US,1895,N156UW,EWR,CLT,98,529,5,0,2013-12-25 05:00:00
2013,12,25,524,515,9,805,814,-9,UA,1016,N32404,EWR,IAH,203,1400,5,15,2013-12-25 05:00:00
2013,12,25,542,540,2,832,850,-18,AA,2243,N5EBAA,JFK,MIA,146,1089,5,40,2013-12-25 05:00:00
2013,12,25,546,550,-4,1022,1027,-5,B6,939,N665JB,JFK,BQN,191,1576,5,50,2013-12-25 05:00:00
2013,12,25,556,600,-4,730,745,-15,AA,301,N3JLAA,LGA,ORD,123,733,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,743,752,-9,DL,731,N369NB,LGA,DTW,88,502,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,818,831,-13,DL,904,N397DA,LGA,ATL,118,762,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,855,856,-1,B6,371,N608JB,LGA,FLL,147,1076,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,849,855,-6,B6,605,N536JB,EWR,FLL,149,1065,6,0,2013-12-25 06:00:00
2013,12,25,600,600,0,850,846,4,B6,583,N746JB,JFK,MCO,137,944,6,0,2013-12-25 06:00:00


Esto crea un nuevo conjunto de datos, pero **no se guarda**, además, **NO** se modifica el conjunto de datos original.

Para guardarlo, por ejemplo los vuelos en navidad:

In [17]:
vuelos_navidad<-filter(flights,month==12,day==25)

¿Qué pasa si encerramos toda la línea anterior en paréntesis?

In [18]:
(vuelos_navidad<-filter(flights,month==12,day==25))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,12,25,456,500,-4,649,651,-2,US,1895,N156UW,EWR,CLT,98,529,5,0,2013-12-25 05:00:00
2013,12,25,524,515,9,805,814,-9,UA,1016,N32404,EWR,IAH,203,1400,5,15,2013-12-25 05:00:00
2013,12,25,542,540,2,832,850,-18,AA,2243,N5EBAA,JFK,MIA,146,1089,5,40,2013-12-25 05:00:00
2013,12,25,546,550,-4,1022,1027,-5,B6,939,N665JB,JFK,BQN,191,1576,5,50,2013-12-25 05:00:00
2013,12,25,556,600,-4,730,745,-15,AA,301,N3JLAA,LGA,ORD,123,733,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,743,752,-9,DL,731,N369NB,LGA,DTW,88,502,6,0,2013-12-25 06:00:00
2013,12,25,557,600,-3,818,831,-13,DL,904,N397DA,LGA,ATL,118,762,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,855,856,-1,B6,371,N608JB,LGA,FLL,147,1076,6,0,2013-12-25 06:00:00
2013,12,25,559,600,-1,849,855,-6,B6,605,N536JB,EWR,FLL,149,1065,6,0,2013-12-25 06:00:00
2013,12,25,600,600,0,850,846,4,B6,583,N746JB,JFK,MCO,137,944,6,0,2013-12-25 06:00:00


La condición que acabamos de utilizar era un *Y*, si quisiéramos un *ó*, es decir, si queremos saber los vuelos del 1 de enero *ó* del 25 de diciembre

In [19]:
filter(flights,(day==1 & month==1)|(month==12 & day==25))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


Si queremos, por ejemplo, ver el registro de vuelos con más de 100 minutos de retraso en la llegada

In [20]:
filter(flights,arr_delay>100)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,811,630,101,1047,830,137,MQ,4576,N531MQ,LGA,CLT,118,544,6,30,2013-01-01 06:00:00
2013,1,1,848,1835,853,1001,1950,851,MQ,3944,N942MQ,JFK,BWI,41,184,18,35,2013-01-01 18:00:00
2013,1,1,957,733,144,1056,853,123,UA,856,N534UA,EWR,BOS,37,200,7,33,2013-01-01 07:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1400,1250,70,1645,1502,103,EV,4869,N748EV,LGA,MEM,178,963,12,50,2013-01-01 12:00:00
2013,1,1,1505,1310,115,1638,1431,127,EV,4497,N17984,EWR,RIC,63,277,13,10,2013-01-01 13:00:00
2013,1,1,1525,1340,105,1831,1626,125,B6,525,N231JB,EWR,MCO,152,937,13,40,2013-01-01 13:00:00
2013,1,1,1540,1338,122,2020,1825,115,B6,705,N570JB,JFK,SJU,193,1598,13,38,2013-01-01 13:00:00
2013,1,1,1549,1445,64,1912,1656,136,EV,4181,N21197,EWR,MCI,234,1092,14,45,2013-01-01 14:00:00
2013,1,1,1558,1359,119,1718,1515,123,EV,5712,N826AS,JFK,IAD,53,228,13,59,2013-01-01 13:00:00


Vuelos que llegaron temprano o sin retraso (con 0 o menos minutos)

In [21]:
filter(flights,arr_delay<=0)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,923,937,-14,UA,1124,N53441,EWR,SFO,361,2565,6,0,2013-01-01 06:00:00
2013,1,1,559,559,0,702,706,-4,B6,1806,N708JB,JFK,BOS,44,187,5,59,2013-01-01 05:00:00
2013,1,1,559,600,-1,854,902,-8,UA,1187,N76515,EWR,LAS,337,2227,6,0,2013-01-01 06:00:00
2013,1,1,600,600,0,851,858,-7,B6,371,N595JB,LGA,FLL,152,1076,6,0,2013-01-01 06:00:00


Si nos preguntamos cuáles son los valores únicos de aeropuertos de salida y de llegada?

In [22]:
unique(flights$origin)

In [23]:
distinct(flights,origin)
distinct(flights,dest)

origin
<chr>
EWR
LGA
JFK


dest
<chr>
IAH
MIA
BQN
ATL
ORD
FLL
IAD
MCO
PBI
TPA


Vuelos que salieron desde JFK o LGA

In [24]:
filter(flights,(origin=="JFK")|(origin=="LGA"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00


Otra manera de hacerlo, utilizando %in%

In [25]:
filter(flights,origin %in% c("JFK","LGA"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,849,851,-2,B6,49,N793JB,JFK,PBI,149,1028,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,853,856,-3,B6,71,N657JB,JFK,TPA,158,1005,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00


Cuando usamos filter() o cualquier otro filtro, podemos combinar condiciones con operadores como & (y), | (o), <, >, ==, !=, <=, >= e %in%.

Esto permite construir filtros muy potentes y específicos para quedarse solo con los datos que necesitamos.

## Ejercicios (Filter)

1. Vuelos con retraso de llegada de 2 horas o más

In [26]:
filter(flights,arr_delay>=120)  # nos muestra todos los registros
glimpse(filter(flights,arr_delay>=120)) #resumen de los registros filtrados


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,811,630,101,1047,830,137,MQ,4576,N531MQ,LGA,CLT,118,544,6,30,2013-01-01 06:00:00
2013,1,1,848,1835,853,1001,1950,851,MQ,3944,N942MQ,JFK,BWI,41,184,18,35,2013-01-01 18:00:00
2013,1,1,957,733,144,1056,853,123,UA,856,N534UA,EWR,BOS,37,200,7,33,2013-01-01 07:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1505,1310,115,1638,1431,127,EV,4497,N17984,EWR,RIC,63,277,13,10,2013-01-01 13:00:00
2013,1,1,1525,1340,105,1831,1626,125,B6,525,N231JB,EWR,MCO,152,937,13,40,2013-01-01 13:00:00
2013,1,1,1549,1445,64,1912,1656,136,EV,4181,N21197,EWR,MCI,234,1092,14,45,2013-01-01 14:00:00
2013,1,1,1558,1359,119,1718,1515,123,EV,5712,N826AS,JFK,IAD,53,228,13,59,2013-01-01 13:00:00
2013,1,1,1732,1630,62,2028,1825,123,EV,4092,N16911,EWR,DAY,119,533,16,30,2013-01-01 16:00:00
2013,1,1,1803,1620,103,2008,1750,138,MQ,4622,N504MQ,LGA,BNA,154,764,16,20,2013-01-01 16:00:00


Rows: 10,200
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ day            [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ dep_time       [3m[90m<int>[39m[23m 811[90m, [39m848[90m, [39m957[90m, [39m1114[90m, [39m1505[90m, [39m1525[90m, [39m1549[90m, [39m1558[90m, [39m1732[90m, [39m1803…
$ sched_dep_time [3m[90m<int>[39m[2

2. Vuelos con destino a Houston (IAH o HOU)

In [27]:
#filter(flights,(dest=="IAH")|(dest=="HOU")) #una manera
filter(flights,dest %in% c("IAH","HOU"))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,623,627,-4,933,932,1,UA,496,N459UA,LGA,IAH,229,1416,6,27,2013-01-01 06:00:00
2013,1,1,728,732,-4,1041,1038,3,UA,473,N488UA,LGA,IAH,238,1416,7,32,2013-01-01 07:00:00
2013,1,1,739,739,0,1104,1038,26,UA,1479,N37408,EWR,IAH,249,1400,7,39,2013-01-01 07:00:00
2013,1,1,908,908,0,1228,1219,9,UA,1220,N12216,EWR,IAH,233,1400,9,8,2013-01-01 09:00:00
2013,1,1,1028,1026,2,1350,1339,11,UA,1004,N76508,LGA,IAH,237,1416,10,26,2013-01-01 10:00:00
2013,1,1,1044,1045,-1,1352,1351,1,UA,455,N667UA,EWR,IAH,229,1400,10,45,2013-01-01 10:00:00
2013,1,1,1114,900,134,1447,1222,145,UA,1086,N76502,LGA,IAH,248,1416,9,0,2013-01-01 09:00:00
2013,1,1,1205,1200,5,1503,1505,-2,UA,1461,N39418,EWR,IAH,221,1400,12,0,2013-01-01 12:00:00


3. Vuelos operados por United, American o Delta

In [28]:
#airlines # con esto podemos obtener los carriers de las aerolienas solicitadas
filter(flights,carrier %in% c("UA","AA","DL"))
glimpse(filter(flights,carrier %in% c("UA","AA","DL")))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,924,917,7,UA,194,N29129,JFK,LAX,345,2475,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,923,937,-14,UA,1124,N53441,EWR,SFO,361,2565,6,0,2013-01-01 06:00:00
2013,1,1,559,600,-1,941,910,31,AA,707,N3DUAA,LGA,DFW,257,1389,6,0,2013-01-01 06:00:00
2013,1,1,559,600,-1,854,902,-8,UA,1187,N76515,EWR,LAS,337,2227,6,0,2013-01-01 06:00:00


Rows: 139,504
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ day            [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ dep_time       [3m[90m<int>[39m[23m 517[90m, [39m533[90m, [39m542[90m, [39m554[90m, [39m554[90m, [39m558[90m, [39m558[90m, [39m558[90m, [39m559[90m, [39m559[90m, [39m602[90m, [39m…
$ sched_dep_time 

4. Vuelos que partieron en invierno del hemisferio sur (julio, agosto y septiembre)

In [29]:
filter(flights,month %in% c(7,8,9))
glimpse(filter(flights,month %in% c(7,8,9)))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,7,1,1,2029,212,236,2359,157,B6,915,N653JB,JFK,SFO,315,2586,20,29,2013-07-01 20:00:00
2013,7,1,2,2359,3,344,344,0,B6,1503,N805JB,JFK,SJU,200,1598,23,59,2013-07-01 23:00:00
2013,7,1,29,2245,104,151,1,110,B6,234,N348JB,JFK,BTV,66,266,22,45,2013-07-01 22:00:00
2013,7,1,43,2130,193,322,14,188,B6,1371,N794JB,LGA,FLL,143,1076,21,30,2013-07-01 21:00:00
2013,7,1,44,2150,174,300,100,120,AA,185,N324AA,JFK,LAX,297,2475,21,50,2013-07-01 21:00:00
2013,7,1,46,2051,235,304,2358,186,B6,165,N640JB,JFK,PDX,304,2454,20,51,2013-07-01 20:00:00
2013,7,1,48,2001,287,308,2305,243,VX,415,N627VA,JFK,LAX,298,2475,20,1,2013-07-01 20:00:00
2013,7,1,58,2155,183,335,43,172,B6,425,N535JB,JFK,TPA,140,1005,21,55,2013-07-01 21:00:00
2013,7,1,100,2146,194,327,30,177,B6,1183,N531JB,JFK,MCO,126,944,21,46,2013-07-01 21:00:00
2013,7,1,100,2245,135,337,135,122,B6,623,N663JB,JFK,LAX,304,2475,22,45,2013-07-01 22:00:00


Rows: 86,326
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7[90m, [39m7…
$ day            [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ dep_time       [3m[90m<int>[39m[23m 1[90m, [39m2[90m, [39m29[90m, [39m43[90m, [39m44[90m, [39m46[90m, [39m48[90m, [39m58[90m, [39m100[90m, [39m100[90m, [39m107[90m, [39m111[90m, [39m114[90m, [39m…

5. Vuelos que llegaron más de 2 horas tarde pero no salieron tarde

In [30]:
filter(flights,dep_delay<=0&arr_delay>120)
glimpse(filter(flights,dep_delay<=0&arr_delay>120))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,27,1419,1420,-1,1754,1550,124,MQ,3728,N1EAMQ,EWR,ORD,135,719,14,20,2013-01-27 14:00:00
2013,10,7,1350,1350,0,1736,1526,130,EV,5181,N611QX,LGA,MSN,117,812,13,50,2013-10-07 13:00:00
2013,10,7,1357,1359,-2,1858,1654,124,AA,1151,N3CMAA,LGA,DFW,192,1389,13,59,2013-10-07 13:00:00
2013,10,16,657,700,-3,1258,1056,122,B6,3,N703JB,JFK,SJU,225,1598,7,0,2013-10-16 07:00:00
2013,11,1,658,700,-2,1329,1015,194,VX,399,N629VA,JFK,LAX,336,2475,7,0,2013-11-01 07:00:00
2013,3,18,1844,1847,-3,39,2219,140,UA,389,N560UA,JFK,SFO,386,2586,18,47,2013-03-18 18:00:00
2013,4,17,1635,1640,-5,2049,1845,124,MQ,4540,N721MQ,LGA,DTW,130,502,16,40,2013-04-17 16:00:00
2013,4,18,558,600,-2,1149,850,179,AA,707,N3EXAA,LGA,DFW,234,1389,6,0,2013-04-18 06:00:00
2013,4,18,655,700,-5,1213,950,143,AA,2083,N565AA,EWR,DFW,230,1372,7,0,2013-04-18 07:00:00
2013,5,22,1827,1830,-3,2217,2010,127,MQ,4674,N518MQ,LGA,CLE,90,419,18,30,2013-05-22 18:00:00


Rows: 29
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 1[90m, [39m10[90m, [39m10[90m, [39m10[90m, [39m11[90m, [39m3[90m, [39m4[90m, [39m4[90m, [39m4[90m, [39m5[90m, [39m5[90m, [39m6[90m, [39m6[90m, [39m6[90m, [39m6[90m, [39m6[90m, [39m7[90m, [39m…
$ day            [3m[90m<int>[39m[23m 27[90m, [39m7[90m, [39m7[90m, [39m16[90m, [39m1[90m, [39m18[90m, [39m17[90m, [39m18[90m, [39m18[90m, [39m22[90m, [39m23[90m, [39m5[90m, [39m14[90m, [39m24[90m, [39m27[90m,[39m…
$ dep_time       [3m[90m<int>[39m[23m 1419[90m, [39m1350[90m, [39m1357[90m, [39m657[90m, [39m658[90m, [39m1844[90m, [39m1635[90m, [39m558[90m, [39m655[90m, [39m1827[90m,[39m…
$ sched_dep_time [3m[90m<int>[39m[23m 1420[90m, [39m1350[90m, [39

6. Vuelos que se retrasaron al menos una hora, pero recuperaron más de 30 minutos mientras volaban (diferencia entre partida y llegada)


In [31]:
filter(flights,dep_delay>=60,(dep_delay - arr_delay) >30)
glimpse(filter(flights,dep_delay>=60,(dep_delay - arr_delay) >30))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,2205,1720,285,46,2040,246,AA,1999,N5DNAA,EWR,MIA,146,1085,17,20,2013-01-01 17:00:00
2013,1,1,2326,2130,116,131,18,73,B6,199,N594JB,JFK,LAS,290,2248,21,30,2013-01-01 21:00:00
2013,1,3,1503,1221,162,1803,1555,128,UA,551,N835UA,EWR,SFO,320,2565,12,21,2013-01-03 12:00:00
2013,1,3,1839,1700,99,2056,1950,66,AA,575,N631AA,JFK,EGE,239,1747,17,0,2013-01-03 17:00:00
2013,1,3,1850,1745,65,2148,2120,28,AA,177,N332AA,JFK,SFO,314,2586,17,45,2013-01-03 17:00:00
2013,1,3,1941,1759,102,2246,2139,67,UA,979,N402UA,EWR,PHX,274,2133,17,59,2013-01-03 17:00:00
2013,1,3,1950,1845,65,2228,2227,1,B6,91,N636JB,JFK,OAK,319,2576,18,45,2013-01-03 18:00:00
2013,1,3,2015,1915,60,2135,2111,24,9E,3525,N903XJ,JFK,ORD,110,740,19,15,2013-01-03 19:00:00
2013,1,3,2257,2000,177,45,2224,141,9E,3439,N931XJ,JFK,CVG,90,589,20,0,2013-01-03 20:00:00
2013,1,4,1917,1700,137,2135,1950,105,AA,575,N5EUAA,JFK,EGE,239,1747,17,0,2013-01-04 17:00:00


Rows: 1,844
Columns: 19
$ year           [3m[90m<int>[39m[23m 2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2013[90m, [39m2…
$ month          [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1[90m, [39m1…
$ day            [3m[90m<int>[39m[23m 1[90m, [39m1[90m, [39m3[90m, [39m3[90m, [39m3[90m, [39m3[90m, [39m3[90m, [39m3[90m, [39m3[90m, [39m4[90m, [39m4[90m, [39m4[90m, [39m4[90m, [39m4[90m, [39m4[90m, [39m5[90m, [39m6[90m, [39m7[90m, [39m7…
$ dep_time       [3m[90m<int>[39m[23m 2205[90m, [39m2326[90m, [39m1503[90m, [39m1839[90m, [39m1850[90m, [39m1941[90m, [39m1950[90m, [39m2015[90m, [39m2257[90m, [39m1…
$ sched_dep_time [3m[90m<int>[39m[23

7. Crear una variable llamada vuelos_madrugada con los vuelos que partieron entre medianoche y las 6:00 a.m. (incluyente)

In [32]:
(vuelos_madrugada<-filter(flights,dep_time>=0,dep_time <=600))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


Cada uno de estos filtros permite construir subconjuntos del dataset original para hacer análisis más específicos y enfocados. También podemos almacenar los resultados en un objeto para reutilizarlos más adelante (como en el caso de la creación de vuelos_madrugada).

8. Uso de `between()` para simplificar filtros:

La función `between(x, a, b)` comprueba si los valores de `x` están entre `a` y `b` (ambos inclusive). Reemplaza expresiones como `x >= a & x <= b`, haciéndolas más legibles.

Repetir el ejercicio 7 con between()

In [36]:
(vuelos_magrugada2 <- filter(flights,between(dep_time,0,600)))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


9. Valores faltantes en los datos

¿Cuántos vuelos tienen `dep_time` faltante?


In [37]:
sum(is.na(flights$dep_time))

¿Qué variables tienen valores faltantes?

In [38]:
colSums(is.na(flights))

In [39]:
summary(flights)

      year          month             day           dep_time    sched_dep_time
 Min.   :2013   Min.   : 1.000   Min.   : 1.00   Min.   :   1   Min.   : 106  
 1st Qu.:2013   1st Qu.: 4.000   1st Qu.: 8.00   1st Qu.: 907   1st Qu.: 906  
 Median :2013   Median : 7.000   Median :16.00   Median :1401   Median :1359  
 Mean   :2013   Mean   : 6.549   Mean   :15.71   Mean   :1349   Mean   :1344  
 3rd Qu.:2013   3rd Qu.:10.000   3rd Qu.:23.00   3rd Qu.:1744   3rd Qu.:1729  
 Max.   :2013   Max.   :12.000   Max.   :31.00   Max.   :2400   Max.   :2359  
                                                 NA's   :8255                 
   dep_delay          arr_time    sched_arr_time   arr_delay       
 Min.   : -43.00   Min.   :   1   Min.   :   1   Min.   : -86.000  
 1st Qu.:  -5.00   1st Qu.:1104   1st Qu.:1124   1st Qu.: -17.000  
 Median :  -2.00   Median :1535   Median :1556   Median :  -5.000  
 Mean   :  12.64   Mean   :1502   Mean   :1536   Mean   :   6.895  
 3rd Qu.:  11.00   3rd Qu.:1

Las filas con datos faltantes generalmente corresponden a **vuelos cancelados**.

¿Por qué ciertas operaciones con `NA` no devuelven `NA`?





In [40]:
NA^0
NA*0
NA|TRUE
FALSE & NA

Sea x la edad de María. No sabemos qué edad tiene.

Sea y la edad de Juan. No sabemos qué edad tiene.

¿Tienen Juan y María la misma edad?

In [41]:
x <- NA
y <- NA
x==y

Explicación:

| Expresión       | Resultado | Justificación                                                                 |
|----------------|-----------|--------------------------------------------------------------------------------|
| `NA ^ 0`        | `1`       | Cualquier número (incluso desconocido) elevado a 0 es 1                        |
| `NA | TRUE`     | `TRUE`    | `OR` lógico: si una parte es `TRUE`, el resultado es `TRUE`                   |
| `FALSE & NA`    | `FALSE`   | `AND` lógico: si una parte es `FALSE`, ya no importa la otra                  |
| `NA * 0`        | `NA`      | Multiplicación: si uno es `NA`, el resultado es desconocido                   |

**En general:**

- Si el resultado puede determinarse sin conocer el valor faltante, **no devuelve `NA`**.
- Si depende del valor faltante, **sí devuelve `NA`**.



### 2. `arrange()` – Ordenar filas

`arrange()` **ordena** las filas por una o más variables.

Ahora, si queremos ordenar los vuelos por retraso en llegada de menor a mayor:

In [42]:
arrange(flights,arr_delay)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,5,7,1715,1729,-14,1944,2110,-86,VX,193,N843VA,EWR,SFO,315,2565,17,29,2013-05-07 17:00:00
2013,5,20,719,735,-16,951,1110,-79,VX,11,N840VA,JFK,SFO,316,2586,7,35,2013-05-20 07:00:00
2013,5,2,1947,1949,-2,2209,2324,-75,UA,612,N851UA,EWR,LAX,300,2454,19,49,2013-05-02 19:00:00
2013,5,6,1826,1830,-4,2045,2200,-75,AA,269,N3KCAA,JFK,SEA,289,2422,18,30,2013-05-06 18:00:00
2013,5,4,1816,1820,-4,2017,2131,-74,AS,7,N551AS,EWR,SEA,281,2402,18,20,2013-05-04 18:00:00
2013,5,2,1926,1929,-3,2157,2310,-73,UA,1628,N24212,EWR,SFO,314,2565,19,29,2013-05-02 19:00:00
2013,5,6,1753,1755,-2,2004,2115,-71,DL,1394,N3760C,JFK,PDX,283,2454,17,55,2013-05-06 17:00:00
2013,5,7,2054,2055,-1,2317,28,-71,UA,622,N806UA,EWR,SFO,309,2565,20,55,2013-05-07 20:00:00
2013,5,13,657,700,-3,908,1019,-71,B6,671,N805JB,JFK,LAX,290,2475,7,0,2013-05-13 07:00:00
2013,1,4,1026,1030,-4,1305,1415,-70,VX,23,N855VA,JFK,SFO,324,2586,10,30,2013-01-04 10:00:00



Y si lo necesitamos de mayor a menor:

In [43]:
arrange(flights,desc(arr_delay))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,6,15,1432,1935,1137,1607,2120,1127,MQ,3535,N504MQ,JFK,CMH,74,483,19,35,2013-06-15 19:00:00
2013,1,10,1121,1635,1126,1239,1810,1109,MQ,3695,N517MQ,EWR,ORD,111,719,16,35,2013-01-10 16:00:00
2013,9,20,1139,1845,1014,1457,2210,1007,AA,177,N338AA,JFK,SFO,354,2586,18,45,2013-09-20 18:00:00
2013,7,22,845,1600,1005,1044,1815,989,MQ,3075,N665MQ,JFK,CVG,96,589,16,0,2013-07-22 16:00:00
2013,4,10,1100,1900,960,1342,2211,931,DL,2391,N959DL,JFK,TPA,139,1005,19,0,2013-04-10 19:00:00
2013,3,17,2321,810,911,135,1020,915,DL,2119,N927DA,LGA,MSP,167,1020,8,10,2013-03-17 08:00:00
2013,7,22,2257,759,898,121,1026,895,DL,2047,N6716C,LGA,ATL,109,762,7,59,2013-07-22 07:00:00
2013,12,5,756,1700,896,1058,2020,878,AA,172,N5DMAA,EWR,MIA,149,1085,17,0,2013-12-05 17:00:00
2013,5,3,1133,2055,878,1250,2215,875,MQ,3744,N523MQ,EWR,ORD,112,719,20,55,2013-05-03 20:00:00


También podemos ordenar teniendo en cuenta varias columnas a la vez:

In [44]:
arrange(flights,year,month, day)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


## Ejercicios 2 con la función `arrange()`

1. Ordenar vuelos colocando primero los valores faltantes

In [45]:
arrange(flights,desc(is.na(dep_time)))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,,1630,,,1815,,EV,4308,N18120,EWR,RDU,,416,16,30,2013-01-01 16:00:00
2013,1,1,,1935,,,2240,,AA,791,N3EHAA,LGA,DFW,,1389,19,35,2013-01-01 19:00:00
2013,1,1,,1500,,,1825,,AA,1925,N3EVAA,LGA,MIA,,1096,15,0,2013-01-01 15:00:00
2013,1,1,,600,,,901,,B6,125,N618JB,JFK,FLL,,1069,6,0,2013-01-01 06:00:00
2013,1,2,,1540,,,1747,,EV,4352,N10575,EWR,CVG,,569,15,40,2013-01-02 15:00:00
2013,1,2,,1620,,,1746,,EV,4406,N13949,EWR,PIT,,319,16,20,2013-01-02 16:00:00
2013,1,2,,1355,,,1459,,EV,4434,N10575,EWR,MHT,,209,13,55,2013-01-02 13:00:00
2013,1,2,,1420,,,1644,,EV,4935,N759EV,EWR,ATL,,746,14,20,2013-01-02 14:00:00
2013,1,2,,1321,,,1536,,EV,3849,N13550,EWR,IND,,645,13,21,2013-01-02 13:00:00
2013,1,2,,1545,,,1910,,AA,133,,JFK,LAX,,2475,15,45,2013-01-02 15:00:00


2. Vuelos más retrasados en salida (mayor `dep_delay`).

In [46]:
arrange(flights,desc(dep_delay))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,6,15,1432,1935,1137,1607,2120,1127,MQ,3535,N504MQ,JFK,CMH,74,483,19,35,2013-06-15 19:00:00
2013,1,10,1121,1635,1126,1239,1810,1109,MQ,3695,N517MQ,EWR,ORD,111,719,16,35,2013-01-10 16:00:00
2013,9,20,1139,1845,1014,1457,2210,1007,AA,177,N338AA,JFK,SFO,354,2586,18,45,2013-09-20 18:00:00
2013,7,22,845,1600,1005,1044,1815,989,MQ,3075,N665MQ,JFK,CVG,96,589,16,0,2013-07-22 16:00:00
2013,4,10,1100,1900,960,1342,2211,931,DL,2391,N959DL,JFK,TPA,139,1005,19,0,2013-04-10 19:00:00
2013,3,17,2321,810,911,135,1020,915,DL,2119,N927DA,LGA,MSP,167,1020,8,10,2013-03-17 08:00:00
2013,6,27,959,1900,899,1236,2226,850,DL,2007,N3762Y,JFK,PDX,313,2454,19,0,2013-06-27 19:00:00
2013,7,22,2257,759,898,121,1026,895,DL,2047,N6716C,LGA,ATL,109,762,7,59,2013-07-22 07:00:00
2013,12,5,756,1700,896,1058,2020,878,AA,172,N5DMAA,EWR,MIA,149,1085,17,0,2013-12-05 17:00:00


3. Vuelos que salieron más temprano (menor `dep_time`), sin incluir datos faltantes.

In [47]:
flights %>%
  filter(!is.na(dep_time))%>%
  arrange(dep_time)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,13,1,2249,72,108,2357,71,B6,22,N206JB,JFK,SYR,41,209,22,49,2013-01-13 22:00:00
2013,1,31,1,2100,181,124,2225,179,WN,530,N550WN,LGA,MDW,127,725,21,0,2013-01-31 21:00:00
2013,11,13,1,2359,2,442,440,2,B6,1503,N627JB,JFK,SJU,194,1598,23,59,2013-11-13 23:00:00
2013,12,16,1,2359,2,447,437,10,B6,839,N607JB,JFK,BQN,202,1576,23,59,2013-12-16 23:00:00
2013,12,20,1,2359,2,430,440,-10,B6,1503,N608JB,JFK,SJU,182,1598,23,59,2013-12-20 23:00:00
2013,12,26,1,2359,2,437,440,-3,B6,1503,N527JB,JFK,SJU,197,1598,23,59,2013-12-26 23:00:00
2013,12,30,1,2359,2,441,437,4,B6,839,N508JB,JFK,BQN,198,1576,23,59,2013-12-30 23:00:00
2013,2,11,1,2100,181,111,2225,166,WN,530,N231WN,LGA,MDW,117,725,21,0,2013-02-11 21:00:00
2013,2,24,1,2245,76,121,2354,87,B6,608,N216JB,JFK,PWM,56,273,22,45,2013-02-24 22:00:00
2013,3,8,1,2355,6,431,440,-9,B6,739,N586JB,JFK,PSE,189,1617,23,55,2013-03-08 23:00:00


4. Vuelos más rápidos (que viajaron a mayor velocidad (kilómetros / hora)

In [48]:
arrange(flights,desc((distance*1.60)/(arr_time/60)))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,11,24,2034,2019,15,1,2355,6,B6,915,N834JB,JFK,SFO,341,2586,20,19,2013-11-24 20:00:00
2013,12,22,2027,2021,6,1,2357,4,B6,915,N804JB,JFK,SFO,348,2586,20,21,2013-12-22 20:00:00
2013,6,18,2032,2016,16,1,2359,2,B6,649,N805JB,JFK,SFO,362,2586,20,16,2013-06-18 20:00:00
2013,6,25,2056,1755,181,1,2120,161,AA,177,N320AA,JFK,SFO,336,2586,17,55,2013-06-25 17:00:00
2013,7,2,2037,2029,8,1,2359,2,B6,915,N607JB,JFK,SFO,313,2586,20,29,2013-07-02 20:00:00
2013,6,24,2018,1711,187,1,2039,202,B6,167,N559JB,JFK,OAK,353,2576,17,11,2013-06-24 17:00:00
2013,5,18,2110,2000,70,1,2341,20,UA,1134,N39728,EWR,SFO,340,2565,20,0,2013-05-18 20:00:00
2013,6,10,2051,1729,202,1,2055,186,VX,193,N635VA,EWR,SFO,338,2565,17,29,2013-06-10 17:00:00
2013,7,28,2007,1940,27,1,2255,66,B6,161,N590JB,JFK,SMF,340,2521,19,40,2013-07-28 19:00:00
2013,1,16,2018,2025,-7,1,2329,32,UA,771,N505UA,JFK,LAX,379,2475,20,25,2013-01-16 20:00:00


5. ¿Cuáles vuelos viajaron más lejos? ¿Cuál viajó más cerca?:




In [49]:
arrange(flights,desc(distance))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,857,900,-3,1516,1530,-14,HA,51,N380HA,JFK,HNL,659,4983,9,0,2013-01-01 09:00:00
2013,1,2,909,900,9,1525,1530,-5,HA,51,N380HA,JFK,HNL,638,4983,9,0,2013-01-02 09:00:00
2013,1,3,914,900,14,1504,1530,-26,HA,51,N380HA,JFK,HNL,616,4983,9,0,2013-01-03 09:00:00
2013,1,4,900,900,0,1516,1530,-14,HA,51,N384HA,JFK,HNL,639,4983,9,0,2013-01-04 09:00:00
2013,1,5,858,900,-2,1519,1530,-11,HA,51,N381HA,JFK,HNL,635,4983,9,0,2013-01-05 09:00:00
2013,1,6,1019,900,79,1558,1530,28,HA,51,N385HA,JFK,HNL,611,4983,9,0,2013-01-06 09:00:00
2013,1,7,1042,900,102,1620,1530,50,HA,51,N385HA,JFK,HNL,612,4983,9,0,2013-01-07 09:00:00
2013,1,8,901,900,1,1504,1530,-26,HA,51,N389HA,JFK,HNL,645,4983,9,0,2013-01-08 09:00:00
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00
2013,1,10,859,900,-1,1449,1530,-41,HA,51,N388HA,JFK,HNL,633,4983,9,0,2013-01-10 09:00:00


In [50]:
arrange(flights,distance)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,7,27,,106,,,245,,US,1632,,EWR,LGA,,17,1,6,2013-07-27 01:00:00
2013,1,3,2127,2129,-2,2222,2224,-2,EV,3833,N13989,EWR,PHL,30,80,21,29,2013-01-03 21:00:00
2013,1,4,1240,1200,40,1333,1306,27,EV,4193,N14972,EWR,PHL,30,80,12,0,2013-01-04 12:00:00
2013,1,4,1829,1615,134,1937,1721,136,EV,4502,N15983,EWR,PHL,28,80,16,15,2013-01-04 16:00:00
2013,1,4,2128,2129,-1,2218,2224,-6,EV,4645,N27962,EWR,PHL,32,80,21,29,2013-01-04 21:00:00
2013,1,5,1155,1200,-5,1241,1306,-25,EV,4193,N14902,EWR,PHL,29,80,12,0,2013-01-05 12:00:00
2013,1,6,2125,2129,-4,2224,2224,0,EV,4619,N22909,EWR,PHL,22,80,21,29,2013-01-06 21:00:00
2013,1,7,2124,2129,-5,2212,2224,-12,EV,4619,N33182,EWR,PHL,25,80,21,29,2013-01-07 21:00:00
2013,1,8,2127,2130,-3,2304,2225,39,EV,4619,N11194,EWR,PHL,30,80,21,30,2013-01-08 21:00:00
2013,1,9,2126,2129,-3,2217,2224,-7,EV,4619,N17560,EWR,PHL,27,80,21,29,2013-01-09 21:00:00


Es importante interpreta cada resultado y buscar patrones, por ejemplo, si ciertos destinos suelen ser los más lejanos o si algunas aerolíneas tienen más retrasos sistemáticos.



------------------------------------------------------------------------

### 3. `select()` – Seleccionar columnas

`select()` permite **elegir columnas específicas** de un conjunto de datos

Supongamos que queremos ver solo las columnas `year`, `month`, `day`, `dep_time`, `arr_time`:

In [51]:
select(flights,year,month, day, dep_time,arr_time)

year,month,day,dep_time,arr_time
<int>,<int>,<int>,<int>,<int>
2013,1,1,517,830
2013,1,1,533,850
2013,1,1,542,923
2013,1,1,544,1004
2013,1,1,554,812
2013,1,1,554,740
2013,1,1,555,913
2013,1,1,557,709
2013,1,1,557,838
2013,1,1,558,753


Supongamos que queremos seleccionar varias columnas seguidas (en un rango), digamos entre dep_time y arr_time

In [52]:
select(flights,dep_time:arr_time)

dep_time,sched_dep_time,dep_delay,arr_time
<int>,<int>,<dbl>,<int>
517,515,2,830
533,529,4,850
542,540,2,923
544,545,-1,1004
554,600,-6,812
554,558,-4,740
555,600,-5,913
557,600,-3,709
557,600,-3,838
558,600,-2,753


Si quremos ver lo mismo pero utilizando %>%:

In [53]:
flights%>%
  select(dep_time:arr_time)

dep_time,sched_dep_time,dep_delay,arr_time
<int>,<int>,<dbl>,<int>
517,515,2,830
533,529,4,850
542,540,2,923
544,545,-1,1004
554,600,-6,812
554,558,-4,740
555,600,-5,913
557,600,-3,709
557,600,-3,838
558,600,-2,753


Si queremos seleccionar todas las columnas excepto las que están en un rango, digamos todas las que no están entre dep_time y arr_time


In [54]:
select(flights,-(dep_time:arr_time))

year,month,day,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00
2013,1,1,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00
2013,1,1,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00


**Funciones auxiliares de `select()`**

Cuando tenemos muchas columnas, `dplyr` permite seleccionar variables por su nombre usando funciones auxiliares:

1. `starts_with("texto")`

Selecciona columnas que **comienzan** con una cadena:

Por ejemplo, si queremos seleccionar las columnas relacionadas con el despegue "Departure"

In [55]:
select(flights,starts_with("dep"))

dep_time,dep_delay
<int>,<dbl>
517,2
533,4
542,2
544,-1
554,-6
554,-4
555,-5
557,-3
557,-3
558,-2


2. `ends_with("texto")`

Selecciona columnas que **terminan** en una cadena:

Por ejemplo, si necesitamos información sobre las columnas relacionadas con el tiempo (time)

In [56]:
select(flights,ends_with("time"))

dep_time,sched_dep_time,arr_time,sched_arr_time,air_time
<int>,<int>,<int>,<int>,<dbl>
517,515,830,819,227
533,529,850,830,227
542,540,923,850,160
544,545,1004,1022,183
554,600,812,837,116
554,558,740,728,150
555,600,913,854,158
557,600,709,723,53
557,600,838,846,140
558,600,753,745,138


3. `contains("texto")`

Selecciona columnas que **contienen** una cadena en cualquier parte:

Por ejemplo, si necesitamos recolectar información sobre la demora, en general de los vuelos (delay):

In [57]:
select(flights,contains("delay"))

dep_delay,arr_delay
<dbl>,<dbl>
2,11
4,20
2,33
-1,-18
-6,-25
-4,12
-5,19
-3,-14
-3,-8
-2,8


4. `num_range("prefijo", rango)`

Selecciona columnas con nombres secuenciales como `x1`, `x2`, ..., `x5`:


In [58]:
(df<-tibble(x1= 1:3,x2=4:6,x3=7:9))
select(df,num_range("x",1:2))

x1,x2,x3
<int>,<int>,<int>
1,4,7
2,5,8
3,6,9


x1,x2
<int>,<int>
1,4
2,5
3,6


**Buenas prácticas**

Si se nombran (renombran) las columnas de manera coherente (por ejemplo, `dep_time`, `dep_delay`), se pueden aprovechar estas funciones para seleccionar subconjuntos de columnas fácilmente.

## Ejercicios 3 con `select()`

1. Seleccionar múltiples formas:

Selecciona las variables `dep_time`, `dep_delay`, `arr_time`, `arr_delay` usando distintos métodos:


In [59]:
#nombre exacto:
select(flights,dep_time, dep_delay, arr_time, arr_delay)

dep_time,dep_delay,arr_time,arr_delay
<int>,<dbl>,<int>,<dbl>
517,2,830,11
533,4,850,20
542,2,923,33
544,-1,1004,-18
554,-6,812,-25
554,-4,740,12
555,-5,913,19
557,-3,709,-14
557,-3,838,-8
558,-2,753,8


In [60]:
#Por rangos:
select(flights,dep_time:arr_delay)

dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay
<int>,<int>,<dbl>,<int>,<int>,<dbl>
517,515,2,830,819,11
533,529,4,850,830,20
542,540,2,923,850,33
544,545,-1,1004,1022,-18
554,600,-6,812,837,-25
554,558,-4,740,728,12
555,600,-5,913,854,19
557,600,-3,709,723,-14
557,600,-3,838,846,-8
558,600,-2,753,745,8


In [61]:
#Utilizando contains:
select(flights,contains("time"),contains("delay"))


dep_time,sched_dep_time,arr_time,sched_arr_time,air_time,time_hour,dep_delay,arr_delay
<int>,<int>,<int>,<int>,<dbl>,<dttm>,<dbl>,<dbl>
517,515,830,819,227,2013-01-01 05:00:00,2,11
533,529,850,830,227,2013-01-01 05:00:00,4,20
542,540,923,850,160,2013-01-01 05:00:00,2,33
544,545,1004,1022,183,2013-01-01 05:00:00,-1,-18
554,600,812,837,116,2013-01-01 06:00:00,-6,-25
554,558,740,728,150,2013-01-01 05:00:00,-4,12
555,600,913,854,158,2013-01-01 06:00:00,-5,19
557,600,709,723,53,2013-01-01 06:00:00,-3,-14
557,600,838,846,140,2013-01-01 06:00:00,-3,-8
558,600,753,745,138,2013-01-01 06:00:00,-2,8


In [62]:
select(flights,matches("^(dep|arr)_(time|delay)$"))

dep_time,dep_delay,arr_time,arr_delay
<int>,<dbl>,<int>,<dbl>
517,2,830,11
533,4,850,20
542,2,923,33
544,-1,1004,-18
554,-6,812,-25
554,-4,740,12
555,-5,913,19
557,-3,709,-14
557,-3,838,-8
558,-2,753,8


La función matches() en R pertenece al paquete dplyr, que forma parte del ecosistema tidyverse. Es una de las funciones auxiliares que se utiliza en conjunto con select() para seleccionar columnas cuyos nombres coincidan con una expresión regular (regex).

¿Qué hace matches()?
matches() busca coincidencias en los nombres de las variables usando expresiones regulares. Es muy útil cuando tienes columnas con patrones en sus nombres y quieres seleccionarlas sin tener que escribirlas todas de forma manual.

2. Variable repetida



In [63]:
select(flights, dep_time,arr_delay,dep_time)

dep_time,arr_delay
<int>,<dbl>
517,11
533,20
542,33
544,-18
554,-25
554,12
555,19
557,-14
557,-8
558,8


El resultado solo incluye una vez la columna `dep_time`, no genera error pero ignora repeticiones.
3. Uso de `any_of()`

La función any() en R no pertenece específicamente a dplyr, sino que es parte del núcleo base de R (base package). Es una función lógica muy útil que se utiliza para evaluar si al menos uno de los elementos de un vector lógico es TRUE.
¿Qué hace any()?
any() devuelve TRUE si al menos uno de los elementos evaluados es TRUE; de lo contrario, devuelve FALSE.

In [64]:
vars<- c("anio","mes","dia","dep_delay","arr_delay")
select(flights,any_of(vars))

dep_delay,arr_delay
<dbl>,<dbl>
2,11
4,20
2,33
-1,-18
-6,-25
-4,12
-5,19
-3,-14
-3,-8
-2,8


`any_of()` selecciona solo las variables que existen e **ignora silenciosamente** las que no existen.

4.  `contains()` y sensibilidad a mayúsculas

In [65]:
select(flights, contains("DEST", ignore.case=FALSE))

“number of columns of result is not a multiple of vector length (arg 2)”


### `mutate()` – Crear nuevas variables

`mutate()` agrega **nuevas columnas** calculadas a partir de otras.

Si queremos calcular la velocidad de cada vuelo (utilizando la misma información que en el ejercicio de ordenamiento de antes::

In [66]:
mutate(flights,velocidad = distance/(air_time/60))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,velocidad
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,370.0441
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,374.2731
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,408.3750
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,516.7213
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,394.1379
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,287.6000
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,404.4304
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,259.2453
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,404.5714
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,318.6957


Si queremos calcular la ganancia en tiempo de cada vuelo, es decir, si hay diferencias entre el retraso de despegue y de aterrizaje, a la vez que calculamos la ganancia por hora en vez de minutos:

Podemos ir anidando varias sentencias a la vez:

In [67]:
mutate(flights,
    velocidad = distance/(air_time/60),
    ganancia = dep_delay - arr_delay,
    ganancia_por_hora=ganancia/60)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,⋯,origin,dest,air_time,distance,hour,minute,time_hour,velocidad,ganancia,ganancia_por_hora
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,⋯,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>,<dbl>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,⋯,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,370.0441,-9,-0.15000000
2013,1,1,533,529,4,850,830,20,UA,⋯,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,374.2731,-16,-0.26666667
2013,1,1,542,540,2,923,850,33,AA,⋯,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,408.3750,-31,-0.51666667
2013,1,1,544,545,-1,1004,1022,-18,B6,⋯,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,516.7213,17,0.28333333
2013,1,1,554,600,-6,812,837,-25,DL,⋯,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,394.1379,19,0.31666667
2013,1,1,554,558,-4,740,728,12,UA,⋯,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,287.6000,-16,-0.26666667
2013,1,1,555,600,-5,913,854,19,B6,⋯,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,404.4304,-24,-0.40000000
2013,1,1,557,600,-3,709,723,-14,EV,⋯,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,259.2453,11,0.18333333
2013,1,1,557,600,-3,838,846,-8,B6,⋯,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,404.5714,5,0.08333333
2013,1,1,558,600,-2,753,745,8,AA,⋯,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,318.6957,-10,-0.16666667


**Otras funciones útiles en `dplyr` relacionadas con Mutate:**

Aparte de `mutate()`, existen funciones que permiten realizar transformaciones más específicas sobre los datos. Veamos algunas de las más útiles:

1. `transmute()`

Es como `mutate()`, pero **solo conserva las variables nuevas** que se crean, descartando todas las demás.

Por ejemplo, si sólo necesitamos calcular velocidad, debido a que no necesitamos el resto de información, (descartamos el resto):


In [68]:
(velocidad<-transmute(flights,velocidad = distance/(air_time/60)))

velocidad
<dbl>
370.0441
374.2731
408.3750
516.7213
394.1379
287.6000
404.4304
259.2453
404.5714
318.6957



2. `lag()` y `lead()`

Permiten acceder al **valor anterior (`lag`) o posterior (`lead`)** de una variable. Útiles para comparar observaciones secuenciales (normalmente útiles en análisis de series temporales).




In [69]:
(x<-1:10)
lag(x)
lead(x)

Por ejemplo, si queremos analizar el retraso en la llegada respecto al vuelo anterior/siguiente:

In [70]:
flights%>%
  arrange(year,month,day,sched_dep_time)%>%
  select(year, month, day, sched_dep_time,arr_delay) %>%
  mutate(
    retraso_actual =arr_delay,
    retraso_anterior =lag(arr_delay),
    retraso_siguiente = lead(arr_delay)
  )

year,month,day,sched_dep_time,arr_delay,retraso_actual,retraso_anterior,retraso_siguiente
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,515,11,11,,20
2013,1,1,529,20,20,11,33
2013,1,1,540,33,33,20,-18
2013,1,1,545,-18,-18,33,12
2013,1,1,558,12,12,-18,-4
2013,1,1,559,-4,-4,12,-25
2013,1,1,600,-25,-25,-4,19
2013,1,1,600,19,19,-25,-14
2013,1,1,600,-14,-14,19,-8
2013,1,1,600,-8,-8,-14,8


3. Funciones de acumulación: `cumsum()` y `cummean()`

- `cumsum()`: suma acumulada
- `cummean()`: media acumulada



Tener en cuenta que tenemos que manejar los **na**, ya que muchas funciones estadísticas como mean(), sum(), min(), max() y similares, generan errores con los valores perdidos.
Esto se puede manejar de muchas formas (lo veremos en detalle en el módulo II).
Por ahora, con la función replace_na(), que proviene del paquete tidyr (parte del tidyverse), que sirve para reemplazar los valores faltantes (NA) en una columna o dataframe con un valor eligido, o también, puede usarse na.rm = TRUE, cuando queramos calcular una estadística ignorando los NA, sin modificar los datos originales:


In [71]:
print(x)
cumsum(x)
cummean(x)

 [1]  1  2  3  4  5  6  7  8  9 10


Por ejemplo, si queremos calcular el tiempo total  y el tiempo promedio acumulado del retraso en la llegada de los vuelos:

In [72]:
flights%>%
  arrange(arr_delay)%>%
  select(arr_delay)%>%
  mutate(
    suma_acumulada = cumsum(replace_na(arr_delay,0)),
    media_acumulada = cummean(replace_na(arr_delay,0))
  )

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
-86,-86,-86.00000
-79,-165,-82.50000
-75,-240,-80.00000
-75,-315,-78.75000
-74,-389,-77.80000
-73,-462,-77.00000
-71,-533,-76.14286
-71,-604,-75.50000
-71,-675,-75.00000
-70,-745,-74.50000


```
ifelse(is.na(arr_delay), 0, arr_delay)
```

Reemplaza los NA por 0, similar a replace_na(), pero sin usar tidyr.

No se pueden simplemente ignorar los NA en funciones como cumsum() o cummean() porque estas funciones no aceptan el argumento na.rm = TRUE, y por defecto propagan los NA.

Es decir, en cuanto aparece un NA, todo lo que viene después también se convierte en NA.

Esto es porque cumsum() asume que no sabe cuánto sumar si uno de los valores falta.

In [73]:
flights%>%
  arrange(arr_delay)%>%
  select(arr_delay)%>%
  mutate(
    suma_acumulada = cumsum(ifelse(is.na(arr_delay),0,arr_delay)),
    media_acumulada = cummean(ifelse(is.na(arr_delay),0,arr_delay))
  )

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
-86,-86,-86.00000
-79,-165,-82.50000
-75,-240,-80.00000
-75,-315,-78.75000
-74,-389,-77.80000
-73,-462,-77.00000
-71,-533,-76.14286
-71,-604,-75.50000
-71,-675,-75.00000
-70,-745,-74.50000



Si eliminamos los NAs antes del cálculo:

In [74]:
flights%>%
  filter(!is.na(arr_delay))%>%
  select(arr_delay)%>%
   mutate(
    suma_acumulada = cumsum(arr_delay),
    media_acumulada = cummean(arr_delay)
  )

arr_delay,suma_acumulada,media_acumulada
<dbl>,<dbl>,<dbl>
11,11,11.000000
20,31,15.500000
33,64,21.333333
-18,46,11.500000
-25,21,4.200000
12,33,5.500000
19,52,7.428571
-14,38,4.750000
-8,30,3.333333
8,38,3.800000


## Ejercicios 4 con `mutate()`

1. Convertir dep_time y sched_dep_time en minutos desde medianoche

In [75]:
#Este cálculo convierte la hora de salida (dep_time), que está en formato HHMM (por ejemplo, 745 para 7:45am o 1542 para 3:42pm), a minutos desde la medianoche.
# El operador %/% en R realiza división entera.
#dep_time %/% 100: obtiene las horas completas. Ejemplo: 745 %/% 100 = 7.
#(dep_time %% 100): obtiene los minutos restantes. Ejemplo: 745 %% 100 = 45.
#Multiplicamos las horas por 60 y sumamos los minutos para obtener los minutos totales desde medianoche.

flights %>%
  mutate(
    salida_min = (dep_time %/% 100) * 60 + (dep_time %% 100),
    salida_prog_min = (sched_dep_time %/% 100) * 60 + (sched_dep_time %% 100)
  ) %>%
  select(dep_time, sched_dep_time, salida_min, salida_prog_min)


dep_time,sched_dep_time,salida_min,salida_prog_min
<int>,<int>,<dbl>,<dbl>
517,515,317,315
533,529,333,329
542,540,342,340
544,545,344,345
554,600,354,360
554,558,354,358
555,600,355,360
557,600,357,360
557,600,357,360
558,600,358,360


2. Comparar tiempo de vuelo (air_time) con horario de llegada - horario de salida (arr_time - dep_time)

In [76]:
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    tiempo_calculado = (arr_time %/% 100) * 60 + (arr_time %% 100) - ((dep_time %/% 100) * 60 + (dep_time %% 100)),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month,dep_time, arr_time, air_time, tiempo_calculado, diferencia)

# Este código funciona bien, si los vuelos llegan el mismo día, de lo contrario, podemos ver que nos da valores negativos, por lo tanto:
# Ajustamos el cálculo para sumar 24 horas (1440 minutos) cuando la hora de llegada es anterior a la de salida.
# Esto se logra con un condicional simple dentro de mutate():

day,month,dep_time,arr_time,air_time,tiempo_calculado,diferencia
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>
1,1,517,830,227,193,34
1,1,533,850,227,197,30
1,1,542,923,160,221,-61
1,1,544,1004,183,260,-77
1,1,554,812,116,138,-22
1,1,554,740,150,106,44
1,1,555,913,158,198,-40
1,1,557,709,53,72,-19
1,1,557,838,140,161,-21
1,1,558,753,138,115,23


In [77]:
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    dep_mins = (dep_time %/% 100) * 60 + (dep_time %% 100),
    arr_mins = (arr_time %/% 100) * 60 + (arr_time %% 100),
    tiempo_calculado = if_else(arr_mins >= dep_mins,
                               arr_mins - dep_mins,
                               (arr_mins + 1440) - dep_mins),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month, dep_time, arr_time, air_time, tiempo_calculado, diferencia)

day,month,dep_time,arr_time,air_time,tiempo_calculado,diferencia
<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>
1,1,517,830,227,193,34
1,1,533,850,227,197,30
1,1,542,923,160,221,-61
1,1,544,1004,183,260,-77
1,1,554,812,116,138,-22
1,1,554,740,150,106,44
1,1,555,913,158,198,-40
1,1,557,709,53,72,-19
1,1,557,838,140,161,-21
1,1,558,753,138,115,23


3. Vuelos más retrasados según min_rank()

In [78]:
flights%>%
  filter(!is.na(dep_delay))%>%
  mutate(rango_retraso = min_rank(desc(dep_delay)))%>%
    arrange(rango_retraso)%>%
    head(10)

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,rango_retraso
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<int>
2013,1,9,641,900,1301,1242,1530,1272,HA,51,N384HA,JFK,HNL,640,4983,9,0,2013-01-09 09:00:00,1
2013,6,15,1432,1935,1137,1607,2120,1127,MQ,3535,N504MQ,JFK,CMH,74,483,19,35,2013-06-15 19:00:00,2
2013,1,10,1121,1635,1126,1239,1810,1109,MQ,3695,N517MQ,EWR,ORD,111,719,16,35,2013-01-10 16:00:00,3
2013,9,20,1139,1845,1014,1457,2210,1007,AA,177,N338AA,JFK,SFO,354,2586,18,45,2013-09-20 18:00:00,4
2013,7,22,845,1600,1005,1044,1815,989,MQ,3075,N665MQ,JFK,CVG,96,589,16,0,2013-07-22 16:00:00,5
2013,4,10,1100,1900,960,1342,2211,931,DL,2391,N959DL,JFK,TPA,139,1005,19,0,2013-04-10 19:00:00,6
2013,3,17,2321,810,911,135,1020,915,DL,2119,N927DA,LGA,MSP,167,1020,8,10,2013-03-17 08:00:00,7
2013,6,27,959,1900,899,1236,2226,850,DL,2007,N3762Y,JFK,PDX,313,2454,19,0,2013-06-27 19:00:00,8
2013,7,22,2257,759,898,121,1026,895,DL,2047,N6716C,LGA,ATL,109,762,7,59,2013-07-22 07:00:00,9
2013,12,5,756,1700,896,1058,2020,878,AA,172,N5DMAA,EWR,MIA,149,1085,17,0,2013-12-05 17:00:00,10


4. Funciones trigonométricas de R

In [79]:
sin(pi/2)
cos(0)
tan(pi/4)

También incluye `asin()`, `acos()`, `atan()`, `sinh()`, `cosh()`, `tanh()`, etc.

Los ángulos de las funciones tienen que estar en radiantes. R no tiene una función directa para esto.

In [81]:
#Creamos una función que nos ayuda con esta tarea:

deg2rad<-function(x) x*pi/180
sin(deg2rad(90))

## `min_rank()` y `row_number()`

Permiten asignar **rangos** según el valor de una variable.

- `min_rank()`: asigna el mismo rango a empates
- `row_number()`: asigna rangos sin empates (rompe empates arbitrariamente)

Por ejemplo, si queremos crear un ranking de vuelos según retraso en llegada

In [None]:
flights%>%
  filter(!is.na(arr_delay))%>%
  arrange(arr_delay)%>%
  mutate(
  rango = min_rank(desc(arr_delay)),
  num_fila = row_number(desc(arr_delay))
  )%>%
    select(arr_delay,rango,num_fila)

**A tener en cuenta:**

- Estas funciones deben usarse **dentro de `mutate()` o `transmute()`**.
- `lag()` y `lead()` son ideales para detectar tendencias o diferencias entre registros.
- Las funciones acumuladas (`cumsum`, `cummean`) requieren orden si se desea análisis temporal.
- `min_rank` es más justo cuando hay empates que `row_number`.

------------------------------------
## FILTROS Y MUTATES AGRUPADOS

Para verlo mejor en el dataset de fligths, utilizamos una data ficticia:

Estamos formando dos grupos, A y B, cada uno tiene un valor en una métrica. Si yo quisiera aplicar un filtro, el filtro se aplicaría sobre toda la columna de métrica, la idea del **group_by** es que las operaciones que se hagan en el **mutate** o en el **filtro**, se van a aplicar dentro de los grupos, por ejemplo:

Si yo quiero una nueva columna que sea la suma total dentro de los grupos, como se observa a continuación o si lo que quiero es seleccionar la métrica más baja por grupo ¿qué hacemos? (reinicio de rango):

| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | ?       | ?     |
| A     | 3       | ?       | ?     |
| A     | 5       | ?       | ?     |
| B     | 2       | ?       | ?     |
| B     | 4       | ?       | ?     |
| B     | 6       | ?       | ?     |


creando un nuevo data set con la nueva agrupación


| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | 9       | 1     |
| A     | 3       | 9       | 2     |
| A     | 5       | 9       | 3     |
| B     | 2       | 12      | 1     |
| B     | 4       | 12      | 2     |
| B     | 6       | 12      | 3     |


---

En nuestros datos:

`summarise()` + `group_by()` – Resumir datos agrupados

- `group_by()` agrupa datos por variable(s).
- `summarise()` resume cada grupo con funciones como `mean()`, `n()`, etc.

**Calculemos el promedio de retraso por aeropuerto de origen:**


In [83]:
flights%>%
  group_by(origin)%>%
  summarise(promedio_retraso = mean(dep_delay, na.rm = TRUE))

origin,promedio_retraso
<chr>,<dbl>
EWR,15.10795
JFK,12.11216
LGA,10.34688


¿cómo calculo la media de retraso por día (by_day)?, ¿y por mes?

In [85]:
flights%>%
select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, desc(arr_delay)) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(desc(arr_delay))) %>% #crea la variable de ranking
  filter(obs_rank<=10)

year,month,day,dep_delay,arr_delay,air_time,distance,obs_rank
<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,853,851,41,184,1
2013,1,1,379,456,222,1092,2
2013,1,1,290,338,213,1134,3
2013,1,1,260,263,46,266,4
2013,1,1,255,250,115,589,5
2013,1,1,285,246,146,1085,6
2013,1,1,216,222,121,708,7
2013,1,1,192,191,44,199,8
2013,1,1,157,174,60,213,9
2013,1,1,155,166,68,277,10


Ahora, si quisiéramos encontrar los mejores miembros (mejores tiempos) es decir los que llegaron más temprano o llegaron a tiempo

In [86]:
flights %>%
  select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, arr_delay) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(arr_delay)) %>% #crea la variable de ranking
  filter(obs_rank<=10)

year,month,day,dep_delay,arr_delay,air_time,distance,obs_rank
<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,-1,-48,133,944,1.0
2013,1,1,-1,-47,150,1089,2.0
2013,1,1,0,-40,182,1598,3.5
2013,1,1,-3,-40,354,2586,3.5
2013,1,1,-5,-39,188,1598,5.5
2013,1,1,-7,-39,330,2475,5.5
2013,1,1,-4,-38,188,1598,7.0
2013,1,1,-5,-35,155,1069,8.5
2013,1,1,-15,-35,126,733,8.5
2013,1,1,-9,-34,41,187,10.0


Por ejemplo, si queremos identificar todos los aeropuertos de destino (dest) a los que se voló menos de 20 veces en todo el año, la idea sería mostrar los destinos y el número total de vuelos que recibieron.

In [87]:
flights %>%
  group_by(dest) %>%#agrupa los vuelos por destino.
  summarise(total_vuelos = n()) %>% #cuenta cuántos vuelos hubo a cada destino.
  filter(total_vuelos < 20)#selecciona solo los destinos con menos de 20 vuelos en todo el año.

dest,total_vuelos
<chr>,<int>
ANC,8
EYW,17
HDN,15
LEX,1
LGA,1
MTJ,15
PSP,19
SBN,10


¿Cuántos destinos diferentes recibieron menos de 20 vuelos en total durante 2013?
¿Alguno de estos destinos parece ser un error o un dato atípico?

In [88]:
# Agrupar por destino y contar la cantidad de vuelos
destinos_raros <- flights %>%
  group_by(dest) %>%                            # Agrupar por aeropuerto de destino
  summarise(total_vuelos = n()) %>%             # Contar el número total de vuelos
  filter(total_vuelos < 20) %>%                 # Filtrar los que tienen menos de 20 vuelos
  arrange(total_vuelos)                         # Ordenar de menor a mayor

# Ver resultados
print(destinos_raros)

# Número total de destinos con menos de 20 vuelos, con la funciónm cat
cat("Número de destinos con menos de 20 vuelos:", nrow(destinos_raros), "\n")

[90m# A tibble: 8 × 2[39m
  dest  total_vuelos
  [3m[90m<chr>[39m[23m        [3m[90m<int>[39m[23m
[90m1[39m LEX              1
[90m2[39m LGA              1
[90m3[39m ANC              8
[90m4[39m SBN             10
[90m5[39m HDN             15
[90m6[39m MTJ             15
[90m7[39m EYW             17
[90m8[39m PSP             19
Número de destinos con menos de 20 vuelos: 8 


## Ejercicios con `summarise()` y exploración de datos agrupados

1. Formas de evaluar retraso típico

- `mean(arr_delay, na.rm = TRUE)` — promedio de retraso
- `median(arr_delay, na.rm = TRUE)` — mediana
- `sd(arr_delay, na.rm = TRUE)` — desviación estándar
- `IQR(arr_delay, na.rm = TRUE)` — rango intercuartílico
- `quantile(arr_delay, probs = 0.9, na.rm = TRUE)` — percentil 90


In [90]:
delay_char <- #crea un objeto (un conjunto nuevo de datos)
  flights %>%
  # Agrupa los datos por número de vuelo (flight)
  group_by(flight) %>%
  # Resume las variables de interés por cada grupo (vuelo)
  summarise(
    n = n(),  # Cuenta cuántos registros hay para cada vuelo
    fifteen_early = mean(arr_delay == -15, na.rm = TRUE),  # Proporción de veces que el vuelo llegó exactamente 15 minutos antes
    fifteen_late = mean(arr_delay == 15, na.rm = TRUE),    # Proporción de veces que llegó exactamente 15 minutos tarde
    ten_always = mean(arr_delay == 10, na.rm = TRUE),      # Proporción con 10 minutos exactos de retraso
    thirty_early = mean(arr_delay == -30, na.rm = TRUE),   # Proporción de llegadas 30 minutos antes
    thirty_late = mean(arr_delay == 30, na.rm = TRUE),     # Proporción de llegadas 30 minutos tarde
    percentage_on_time = mean(arr_delay == 0, na.rm = TRUE), # Proporción de llegadas puntuales (sin retraso)
    twohours = mean(arr_delay > 120, na.rm = TRUE)         # Proporción de veces que el retraso fue mayor a 2 horas
  ) %>%
  # Aplica la función round(., 2) solo a las columnas numéricas (tipo double),
  # para redondear los valores a 2 decimales
  map_if(is_double, round, 2) %>%
  # Convierte el resultado a un tibble (formato más legible en consola o View)
  as_tibble() %>%View() #Si agregamos este %>%View() podemos ver el resultado final, similar a encerrar todo entre ()


flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,701,0.02,0.01,0.01,0.01,0.01,0.01,0.01
2,51,0.04,0.02,0.00,0.00,0.00,0.04,0.00
3,631,0.01,0.01,0.02,0.02,0.00,0.03,0.01
4,393,0.04,0.01,0.01,0.01,0.00,0.02,0.01
5,324,0.01,0.01,0.01,0.02,0.00,0.01,0.01
6,210,0.03,0.00,0.00,0.03,0.00,0.00,0.01
7,237,0.02,0.00,0.00,0.01,0.00,0.01,0.04
8,236,0.06,0.01,0.02,0.00,0.00,0.02,0.01
9,153,0.01,0.01,0.02,0.00,0.00,0.02,0.04
10,61,0.02,0.02,0.03,0.00,0.00,0.02,0.10


Un vuelo que se adelanta 15 minutos el 50% de las veces, y se retrasa 15 minutos el 50% de las veces.

In [91]:
delay_char %>%
  filter(fifteen_early ==0.5,fifteen_late ==0.5)

flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>


Un vuelo que siempre llega con 10 minutos de retraso.

In [92]:
filter(delay_char,ten_always==1)

flight,n,fifteen_early,fifteen_late,ten_always,thirty_early,thirty_late,percentage_on_time,twohours
<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2254,1,0,0,1,0,0,0,0
3656,1,0,0,1,0,0,0,0
3785,2,0,0,1,0,0,0,0
3880,1,0,0,1,0,0,0,0
5854,1,0,0,1,0,0,0,0



2. ¿Qué es más importante?

        Depende del objetivo: la llegada afecta al pasajero, la salida al aeropuerto.

3. Consulta la tabla de funciones útiles de mutación y filtrado. Describe cómo cambia cada operación al combinarla con la agrupación.




In [93]:
?mutate

Cuando aplicamos funciones de mutación (mutate()) o filtrado (filter()) a un dataframe sin agrupar, las operaciones se hacen sobre todo el conjunto de datos.

Sin embargo, al agrupar (group_by()), el comportamiento de estas funciones cambia:
cada grupo se trata de forma independiente, como si tuvieras varios subconjuntos separados, y luego se combinan los resultados.


Ejemplo con mutate() sin agrupar:

Calcular el retraso medio de los vuelos:

In [163]:
flights %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,media_retraso
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,12.63907
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,12.63907
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,12.63907
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,12.63907
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,12.63907
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,12.63907
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,12.63907


Ejemplo con mutate() agrupado:

Calcular el retraso promedio de los vuelos, por aeropuerto de destino:

In [94]:
flights %>%
  group_by(dest) %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,media_retraso
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,10.842179
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,10.842179
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,8.876558
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,12.381594
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,12.509824
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,13.570484
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,12.731104
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,16.982935
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,11.275998
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,13.570484


4. ¿Qué avión (tailnum) tiene el peor registro de puntualidad?

In [95]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  group_by(tailnum) %>%
  summarise(prop_time = sum(arr_delay <= 30)/n(),
            mean_arr = mean(arr_delay, na.rm = TRUE),
            fl = n()) %>%
  arrange(desc(prop_time))

# summarise(prop_time = sum(arr_delay <= 30)/n():

# Cuenta cuántos vuelos de ese avión llegaron con un retraso menor o igual a 30
# minutos, y divide por el total de vuelos (n()).
# Resultado: la proporción de vuelos "a tiempo" o con retraso aceptable para ese avión.

#mean_arr = mean(arr_delay, na.rm = TRUE):

#Calcula el retraso promedio de llegada de ese avión,
#ignorando los valores faltantes (na.rm = TRUE).

#fl = n()) %>%:
#Número total de vuelos realizados por ese avión.


tailnum,prop_time,mean_arr,fl
<chr>,<dbl>,<dbl>,<int>
N103US,1,-6.934783,46
N1200K,1,-9.380952,21
N121DE,1,15.000000,2
N137DL,1,-5.000000,1
N143DA,1,24.000000,1
N14628,1,-6.000000,1
N14629,1,-16.250000,4
N1607B,1,-16.000000,3
N1608,1,-11.333333,3
N1610D,1,-14.500000,2


4. ¿A qué hora del día deberías volar para evitar retrasos al máximo?

In [97]:
flights %>%
  group_by(hour) %>%
  filter(!is.na(dep_delay)) %>%
  summarise( delay = mean( dep_delay > 0 , na.rm = T)) #Se puede utilizar sólo T (significa TRUE)

hour,delay
<dbl>,<dbl>
5,0.2515432
6,0.2127243
7,0.2202645
8,0.2533582
9,0.2698024
10,0.3010111
11,0.3198831
12,0.3601416
13,0.4190608
14,0.4378903


Podemos ver que a las 5 am se retrasan menos, en proporción y a las 20:00 se retrasan más en proporción.

5. Para cada destino, calcule el total de minutos de retraso.

In [98]:
flights %>%
  group_by(dest) %>%
  filter(!is.na(dep_delay)) %>%
  summarise(tot_mins = sum(dep_delay[dep_delay > 0]))

dest,tot_mins
<chr>,<dbl>
ABQ,4076
ACK,2603
ALB,10934
ANC,105
ATL,254414
AUS,36623
AVL,3092
BDL,8471
BGR,8170
BHM,8817


6. Para cada vuelo, calcule la proporción del retraso total en su destino.

In [99]:
flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(tailnum, dest) %>%
  summarise(m = mean(dep_delay > 0), n = n()) %>%
  arrange(desc(m))

# Los retrasos suelen estar correlacionados temporalmente:
# incluso una vez resuelto el problema que causó el retraso inicial,
# los vuelos posteriores se retrasan para permitir la salida de los
# primeros. Con lag(), explore cómo se relaciona el retraso de un vuelo
# con el retraso del vuelo inmediatamente anterior.

[1m[22m`summarise()` has grouped output by 'tailnum'. You can override using the
`.groups` argument.


tailnum,dest,m,n
<chr>,<chr>,<dbl>,<int>
D942DN,MCO,1,2
N10156,BDL,1,1
N10156,CLE,1,1
N10156,DCA,1,2
N10156,GSO,1,1
N10156,GSP,1,1
N10156,IAD,1,1
N10156,IND,1,2
N10156,MHT,1,1
N10156,MSN,1,1


In [100]:
# Crea una nueva variable llamada new_sched_dep_time que representa la fecha y hora completa de salida a un objeto más manejable.
# Esto es útil porque sched_dep_time está en formato "HHMM" y no incluye la fecha.
# lubridate::make_datetime() combina año, mes, día, hora y minuto para generar un timestamp real, que se puede ordenar cronológicamente.

flights %>%
  mutate(new_sched_dep_time = lubridate::make_datetime(year, month, day, hour, minute)) %>% # lubridate::make_datetime expresa: de la librería lubridate,
  # use la función date_time.
  arrange(new_sched_dep_time) %>% #Ordenamos según la variable creada new_sched_dep_time
  mutate(prev_time = lag(dep_delay)) %>%
  select(origin, new_sched_dep_time, dep_delay, prev_time) %>%
  View() #vemos la base

# Interpretación de las primeras filas tras crear la variable `prev_time`
# con lag() sobre los retrasos (`dep_delay`)

# Fila 1:
# origin: EWR (Newark)
# new_sched_dep_time: 2013-01-01 05:15:00
# dep_delay: 2 minutos
# prev_time: NA (es el primer vuelo en orden cronológico, no tiene vuelo anterior)

# Fila 2:
# origin: LGA (LaGuardia)
# new_sched_dep_time: 2013-01-01 05:29:00
# dep_delay: 4 minutos
# prev_time: 2 (retraso del vuelo anterior, el de EWR a las 5:15)

# Fila 3:
# origin: JFK (John F. Kennedy)
# new_sched_dep_time: 2013-01-01 05:40:00
# dep_delay: 2 minutos
# prev_time: 4 (retraso del vuelo anterior, el de LGA a las 5:29)

# Con este tipo de análisis se puede explorar si los retrasos tienden a transmitirse:
# es decir, si un vuelo retrasado aumenta la probabilidad de que el siguiente también lo esté.
# Se puede visualizar con ggplot o ajustar un modelo para analizar la relación entre dep_delay y prev_time.


origin,new_sched_dep_time,dep_delay,prev_time
<chr>,<dttm>,<dbl>,<dbl>
EWR,2013-01-01 05:15:00,2,
LGA,2013-01-01 05:29:00,4,2
JFK,2013-01-01 05:40:00,2,4
JFK,2013-01-01 05:45:00,-1,2
EWR,2013-01-01 05:58:00,-4,-1
JFK,2013-01-01 05:59:00,0,-4
LGA,2013-01-01 06:00:00,-6,0
EWR,2013-01-01 06:00:00,-5,-6
LGA,2013-01-01 06:00:00,-3,-5
JFK,2013-01-01 06:00:00,-3,-3


6. Mira cada destino. ¿Puede encontrar vuelos que sean sospechosamente rápidos? (es decir, vuelos que representen un posible error de introducción de datos). Calcule el tiempo de vuelo de un vuelo en relación con el vuelo más corto a ese destino. ¿Qué vuelos sufrieron más retrasos en el aire?

In [103]:
flights %>%
  group_by(dest) %>%
  arrange(air_time) %>%
  slice(1:5) %>% #Después de ordenar por air_time en cada grupo, esta línea selecciona las primeras 5 filas de cada grupo.
# Es decir, para cada destino, se conservan los 5 vuelos más cortos (en tiempo de vuelo).
  select(tailnum, sched_dep_time, sched_arr_time, air_time) %>%
  arrange(dest) #Ordena los resultados por aeropuerto de destino.

[1m[22mAdding missing grouping variables: `dest`


dest,tailnum,sched_dep_time,sched_arr_time,air_time
<chr>,<chr>,<int>,<int>,<dbl>
ABQ,N608JB,2007,2259,212
ABQ,N652JB,2007,2259,213
ABQ,N766JB,2007,2259,213
ABQ,N523JB,2007,2259,217
ABQ,N554JB,2007,2259,220
ACK,N323JB,800,904,35
ACK,N228JB,1159,1259,35
ACK,N203JB,800,909,35
ACK,N193JB,1209,1316,35
ACK,N192JB,800,909,35


------------------------
------------------------
## Relación entre tablas: ¿para qué sirven los joins?

En la mayoría de los análisis de datos no trabajamos con una única tabla. Lo habitual es que tengamos varias tablas que contienen información relacionada entre sí y necesitemos combinarlas para responder a nuestras preguntas. A este conjunto se le conoce como **datos relacionales** porque lo que realmente importa no es cada tabla por separado, sino cómo se relacionan entre sí.

Estas relaciones se establecen siempre entre pares de tablas. Incluso si el análisis involucra más de dos tablas, todo se reduce a cómo se conectan de forma individual cada par. A veces, estas relaciones pueden darse incluso dentro de la misma tabla, por ejemplo, cuando una tabla de empleados incluye referencias a sus jefes, quienes también están en esa misma tabla.

Para manejar este tipo de estructuras relacionales, necesitamos funciones que permitan operar entre dos (o más) tablas a la vez. En `dplyr`, estas funciones se agrupan en tres familias principales:

Tipos de operaciones con datos relacionales

- **Uniones con mutación (`mutating joins`)**: combinan columnas de dos tablas según observaciones coincidentes. Permiten enriquecer una tabla con información de otra.
- **Uniones de filtrado (`filtering joins`)**: seleccionan o eliminan filas de una tabla dependiendo de si tienen coincidencias en otra tabla.
- **Operaciones de conjuntos (`set operations`)**: tratan las filas como elementos de conjuntos y permiten aplicar intersecciones, uniones y diferencias.

Estas herramientas son fundamentales cuando trabajamos con datos almacenados en sistemas de bases de datos relacionales, que es donde suelen encontrarse este tipo de estructuras. Aunque muchas de estas tareas también pueden hacerse con SQL, `dplyr` facilita el análisis de datos al ofrecer una sintaxis más amigable y centrada en las tareas más comunes del análisis.

Por ejemplo, en `flights` encontramos códigos de aerolíneas (`carrier`), pero sus nombres están en `airlines`. Para analizarlos juntos, debemos unirlos.

## Tipos de joins en `dplyr`

| Función         | ¿Qué hace?                                                      |
|----------------|------------------------------------------------------------------|
| `inner_join()` | Solo las coincidencias en ambas tablas  (Intersección)                        |
| `left_join()`  | Todos los registros de la tabla izquierda                     |
| `right_join()` | Todos los registros de la tabla derecha                        |
| `full_join()`  | Todos los registros de ambas tablas(AUB)                            |
| `semi_join()`  | Registros de la izquierda con coincidencia (sin agregar columnas) |
| `anti_join()`  | Registros de la izquierda sin coincidencia                     |

Se puede explorar más con vignette. Pero, ¿Qué es una vignette?:

Es un documento en HTML o PDF incluido en un paquete.
Tiene código R explicativo, gráficos y teoría.
Se utiliza para aprender a usar el paquete con contexto. (No funciona en google colab, veremos sus funciones en RStudio), sin emabrgo, es como si abrieramos:

[vignette("two-table", package = "dplyr") ](https://dplyr.tidyverse.org/articles/two-table.html)




**¿Este tipo de relaciones modifican el dataframe original?**

No. Los joins **devuelven una nueva tabla**. Para conservarla, debemos  asignarla a un objeto.

### Llaves primarias y secundarias

En los datos relacionales, cada tabla suele tener una **clave primaria**, que es una columna (o conjunto de columnas) que identifica de manera única cada fila.

También puede tener una o varias **claves foráneas**, que son columnas que contienen identificadores de otra tabla, permitiendo así establecer relaciones entre ellas.

Por ejemplo:
- En `flights`, la columna `carrier` se refiere a una clave en la tabla `airlines`.
- Las columnas `origin` y `dest` hacen referencia a códigos de aeropuerto presentes en `airports`.


### Tipos de uniones (`joins`) con `dplyr`

`left_join(x, y)`

Devuelve todas las filas de `x` y añade las columnas de `y` que coincidan. Si no hay coincidencia, se completan con `NA`.

`right_join(x, y)`

Como el `left_join()`, pero conserva todas las filas de `y`.

`inner_join(x, y)`

Devuelve solo las filas que tienen coincidencias en ambas tablas.

`full_join(x, y)`

Conserva todas las filas de ambas tablas. Si no hay coincidencia en alguna clave, se completan con `NA`.

Estas funciones se utilizan comúnmente cuando deseamos enriquecer una tabla con información de otra.

### Operaciones de conjuntos

Estas funciones comparan dos conjuntos de observaciones (filas), asumiendo que ambas tablas tienen las mismas columnas:

- `intersect(x, y)`: Filas comunes a ambas tablas.
- `union(x, y)`: Todas las filas que aparecen en al menos una tabla.
- `setdiff(x, y)`: Filas que están en `x` pero no en `y`.

Estas funciones permiten analizar las diferencias y similitudes entre datasets.


---

Ejemplos con datos ficticios

In [105]:
(x <- tibble(
  id = c(1, 2, 3), #creamos un elemento de tipo tibble (que es con el que se trabaja en Dplyr)
  nombre = c("Ana", "Luis", "Carlos")
))

(y <- tibble(
  id = c(1, 2, 4),
  sueldo = c(3000, 3200, 2800)
))

id,nombre
<dbl>,<chr>
1,Ana
2,Luis
3,Carlos


id,sueldo
<dbl>,<dbl>
1,3000
2,3200
4,2800


Inerjoin:

In [106]:
inner_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre,sueldo
<dbl>,<chr>,<dbl>
1,Ana,3000
2,Luis,3200


Todos los de x:

In [107]:
left_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre,sueldo
<dbl>,<chr>,<dbl>
1,Ana,3000.0
2,Luis,3200.0
3,Carlos,



Todos los de y:

In [108]:
right_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre,sueldo
<dbl>,<chr>,<dbl>
1,Ana,3000
2,Luis,3200
4,,2800



Todos:

In [109]:
full_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre,sueldo
<dbl>,<chr>,<dbl>
1,Ana,3000.0
2,Luis,3200.0
3,Carlos,
4,,2800.0


Coincidencias en x:

In [110]:
semi_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre
<dbl>,<chr>
1,Ana
2,Luis


Sin coincidencias:

In [111]:
anti_join(x,y)

[1m[22mJoining with `by = join_by(id)`


id,nombre
<dbl>,<chr>
3,Carlos


Qué pasa si las columnas de ambas tablas no tienen el mismo nombre

In [112]:
a <- tibble(emp_id = c(1, 2, 3), nombre = c("Ana", "Luis", "Carlos"))
b <- tibble(id_sueldo = c(1, 2, 4), sueldo = c(3000, 3200, 2800))

inner_join(a,b,by = c("emp_id"="id_sueldo"))

emp_id,nombre,sueldo
<dbl>,<chr>,<dbl>
1,Ana,3000
2,Luis,3200


**Producto cartesiano:**

Dado dos conjuntos de datos A y B, el producto cartesiano (A × B) es el conjunto de todas las combinaciones posibles entre las filas de A y las filas de B.

Si A tiene n filas y B tiene m filas, entonces A × B tendrá n × m filas.
En términos de JOIN, el producto cartesiano es lo que ocurre cuando se hace un join sin especificar una clave de unión (by = NULL).
En SQL se llama CROSS JOIN.
En dplyr, se obtiene con inner_join() sin by.



In [113]:
A <- tibble(nombre = c("Ana", "Luis"))
B <- tibble(curso = c("R", "Python", "SQL"))
cross_join(A,B)

nombre,curso
<chr>,<chr>
Ana,R
Ana,Python
Ana,SQL
Luis,R
Luis,Python
Luis,SQL


### Aplicación real con `nycflights13`

**Relaciones existentes entre las tablas de nycflights13**

![Relación entre tablas de nycflights13](https://github.com/ednavivianasegura/AccesoImages/blob/main/nycflights.png?raw=true)

Nota: Es importante saber que la ubicación de la imagen tiene que ser en un directorio público, de lo contrario no se puede visualizar

| Tabla base  | Relación                      | Tabla secundaria |
|-------------|-------------------------------|------------------|
| `flights`   | `carrier`                     | `airlines`       |
| `flights`   | `tailnum`                     | `planes`         |
| `flights`   | `origin`                      | `airports`       |
| `flights`   | `origin` + `time_hour`        | `weather`        |

Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

Ejemplo práctico: unir `flights` con `airlines`

In [114]:
flights %>%
  left_join(airlines, by = "carrier") %>%
  select(carrier, name, everything()) %>%
  head()

carrier,name,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
UA,United Air Lines Inc.,2013,1,1,517,515,2,830,819,11,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
UA,United Air Lines Inc.,2013,1,1,533,529,4,850,830,20,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
AA,American Airlines Inc.,2013,1,1,542,540,2,923,850,33,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
B6,JetBlue Airways,2013,1,1,544,545,-1,1004,1022,-18,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
DL,Delta Air Lines Inc.,2013,1,1,554,600,-6,812,837,-25,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
UA,United Air Lines Inc.,2013,1,1,554,558,-4,740,728,12,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00


## Ejercicios:

1. Dibujar rutas de vuelo, **pregunta:** ¿Qué variables necesitamos para dibujar la ruta de cada avión desde su origen hasta su destino? ¿Qué tablas deberíamos combinar?

Necesitamos:
- Código del aeropuerto de origen y destino (en `flights`: `origin` y `dest`)
- Coordenadas de los aeropuertos (`airports`: `lat`, `lon`)

Combinaciones necesarias:

In [115]:
# Obtener tabla con información de los aeropuertos de origen
(origenes <- flights %>%
  select(origin) %>%         # Selecciona solo la columna 'origin' de flights
  distinct() %>%             # Elimina valores repetidos: solo aeropuertos únicos
  left_join(airports,        # Une con la tabla 'airports'
            by = c("origin" = "faa"))) # Relaciona 'origin' de flights con 'faa' de airports

origin,name,lat,lon,alt,tz,dst,tzone
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
EWR,Newark Liberty Intl,40.6925,-74.16867,18,-5,A,America/New_York
LGA,La Guardia,40.77725,-73.87261,22,-5,A,America/New_York
JFK,John F Kennedy Intl,40.63975,-73.77893,13,-5,A,America/New_York


2. Relación entre clima y aeropuertos, **pregunta:** ¿Cuál es la relación entre `weather` y `airports`?

- `weather` contiene datos climáticos **solo de los aeropuertos de origen** de Nueva York: `JFK`, `LGA`, `EWR`
- Se relaciona con `airports` mediante `origin` → `faa`

Relación esperada:
Cada fila en `weather` corresponde a un aeropuerto (por `origin`), una fecha y una hora (`time_hour`). Se puede vincular con `flights` usando:

In [116]:
left_join(flights, weather, by = c("origin", "time_hour"))

year.x,month.x,day.x,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,⋯,hour.y,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,⋯,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,⋯,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10
2013,1,1,533,529,4,850,830,20,UA,⋯,5,39.92,24.98,54.81,250,14.96014,21.86482,0,1011.4,10
2013,1,1,542,540,2,923,850,33,AA,⋯,5,39.02,26.96,61.63,260,14.96014,,0,1012.1,10
2013,1,1,544,545,-1,1004,1022,-18,B6,⋯,5,39.02,26.96,61.63,260,14.96014,,0,1012.1,10
2013,1,1,554,600,-6,812,837,-25,DL,⋯,6,39.92,24.98,54.81,260,16.11092,23.01560,0,1011.7,10
2013,1,1,554,558,-4,740,728,12,UA,⋯,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10
2013,1,1,555,600,-5,913,854,19,B6,⋯,6,37.94,28.04,67.21,240,11.50780,,0,1012.4,10
2013,1,1,557,600,-3,709,723,-14,EV,⋯,6,39.92,24.98,54.81,260,16.11092,23.01560,0,1011.7,10
2013,1,1,557,600,-3,838,846,-8,B6,⋯,6,37.94,26.96,64.29,260,13.80936,,0,1012.6,10
2013,1,1,558,600,-2,753,745,8,AA,⋯,6,39.92,24.98,54.81,260,16.11092,23.01560,0,1011.7,10


 3. ¿Y si `weather` tuviera datos de todo el país?
        Es decir, actualmente, la tabla weather del paquete nycflights13 solo contiene datos meteorológicos de los 3 aeropuertos de Nueva York (JFK, LGA, EWR).

Si la tabla `weather` incluyera todos los aeropuertos de EE.UU., la clave que tenríamos que usar sería:
- `origin` + `time_hour`

En ese caso, para poder unir *flights* con *weather*, ya no sería útil unir por origin, porque origin en flights siempre será uno de los 3 de NYC, y no los destinos nacionales.

En cambio, si quisiéramos conocer el clima en el aeropuerto de destino (dest), habría que usar:


In [117]:
left_join(flights, weather, by = c("dest" = "origin", "time_hour"))

year.x,month.x,day.x,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,⋯,hour.y,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,⋯,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013,1,1,517,515,2,830,819,11,UA,⋯,,,,,,,,,,
2013,1,1,533,529,4,850,830,20,UA,⋯,,,,,,,,,,
2013,1,1,542,540,2,923,850,33,AA,⋯,,,,,,,,,,
2013,1,1,544,545,-1,1004,1022,-18,B6,⋯,,,,,,,,,,
2013,1,1,554,600,-6,812,837,-25,DL,⋯,,,,,,,,,,
2013,1,1,554,558,-4,740,728,12,UA,⋯,,,,,,,,,,
2013,1,1,555,600,-5,913,854,19,B6,⋯,,,,,,,,,,
2013,1,1,557,600,-3,709,723,-14,EV,⋯,,,,,,,,,,
2013,1,1,557,600,-3,838,846,-8,B6,⋯,,,,,,,,,,
2013,1,1,558,600,-2,753,745,8,AA,⋯,,,,,,,,,,


4. Días especiales:

        ¿Cómo representarías en un data frame los días especiales del año?
        Tabla ficticia `dias_especiales`:

In [118]:
(dias_especiales <- tibble(
  year = c(2013, 2013),
  month = c(12, 1),
  day = c(25, 1),
  descripcion = c("Navidad", "Año Nuevo")))

year,month,day,descripcion
<dbl>,<dbl>,<dbl>,<chr>
2013,12,25,Navidad
2013,1,1,Año Nuevo


Clave primaria: `year`, `month`, `day`

Tenemos que unirla con `flights`:

Esto permite identificar los vuelos realizados en días especiales.

---

In [120]:
inner_join(flights,dias_especiales,by=c("year", "month", "day"))

# Ver especialmente la última columna creada

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour,descripcion
<dbl>,<dbl>,<dbl>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>,<chr>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00,Año Nuevo
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00,Año Nuevo
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00,Año Nuevo
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00,Año Nuevo
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00,Año Nuevo
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00,Año Nuevo
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00,Año Nuevo
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00,Año Nuevo
2013,1,1,557,600,-3,838,846,-8,B6,79,N593JB,JFK,MCO,140,944,6,0,2013-01-01 06:00:00,Año Nuevo
2013,1,1,558,600,-2,753,745,8,AA,301,N3ALAA,LGA,ORD,138,733,6,0,2013-01-01 06:00:00,Año Nuevo



5. Agregar una clave sustituta (surrogate key) a `flights`



In [121]:
# Usamos mutate + row_number() para crear una clave única
flights_surrogate <- flights %>%
  mutate(id = row_number())

# Mostramos las primeras filas con la nueva clave
head(flights_surrogate %>% select(id, everything()))


# Explicación:
# - `mutate(id = row_number())`: Crea una columna `id` con valores únicos secuenciales.
# - Esta columna actúa como una clave sustituta, ya que no proviene de los datos originales.
# - Es útil cuando no hay una combinación de variables que actúe como clave primaria.


id,year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
1,2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2,2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
3,2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
4,2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
5,2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
6,2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00


<h3>Joins en <code>dplyr</code> y su equivalencia en SQL</h3>

<p>
Las funciones de unión de <code>dplyr</code> como <code>inner_join()</code>, <code>left_join()</code>, <code>right_join()</code> o <code>full_join()</code> permiten realizar combinaciones entre tablas de forma clara y eficiente. Estas funciones preservan el orden de las filas y son más fáciles de leer que <code>merge()</code> de base R.
</p>

<p>
El diseño de estas funciones está inspirado en SQL, por lo que la traducción es directa:
</p>

<table border="1" style="border-collapse: collapse; text-align: left; width: 100%;">
  <thead style="background-color: #f2f2f2;">
    <tr>
      <th>dplyr</th>
      <th>SQL equivalente</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><code>inner_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x INNER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>left_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x LEFT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>right_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x RIGHT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>full_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x FULL OUTER JOIN y USING (z)</code></td>
    </tr>
  </tbody>
</table>

<p><strong>Nota:</strong> En SQL, los términos <code>INNER</code> y <code>OUTER</code> son opcionales y frecuentemente se omiten.</p>

<h4>Uniendo columnas con nombres diferentes</h4>

<p>Cuando las columnas clave no tienen el mismo nombre en ambas tablas, en <code>dplyr</code> puedes usar:</p>

<pre><code>inner_join(x, y, by = c("a" = "b"))</code></pre>

<p>Esto se traduce en SQL como:</p>

<pre><code>SELECT * FROM x INNER JOIN y ON x.a = y.b</code></pre>

<p>
Esto demuestra que SQL admite más tipos de combinaciones (incluyendo aquellas no basadas en igualdad), mientras que <code>dplyr</code> se enfoca en las más comunes y legibles.
</p>


### Ejercicios finales:

Ejercicio 1: ¿Cuántos vuelos no tienen información de avión?






In [122]:
## Enunciado: Usando `anti_join()`, encuentra cuántos vuelos en el dataset `flights` tienen un `tailnum` que no aparece en la tabla `planes`.

# Filtramos vuelos cuyo número de avión no está en planes
vuelos_sin_avion <- anti_join(flights, planes, by = "tailnum")

# Contamos cuántos son
nrow(vuelos_sin_avion)


#Explicación del código:
# `anti_join(flights, planes, by = "tailnum")`: devuelve solo los vuelos cuyo `tailnum` no tiene coincidencia en `planes`.
# `nrow()`: cuenta cuántas filas tiene el resultado, es decir, cuántos vuelos no tienen datos de avión.

# Interpretación: Este número indica cuántos registros de vuelos no pueden ser conectados con la información técnica del avión (modelo, año, fabricante, etc.).


2.  ¿Todos los aviones tienen al menos un vuelo?



In [123]:
# Enunciado: Verifica si todos los registros en la tabla `planes` tienen al menos un vuelo en la tabla `flights`.

# Aviones que están en planes pero no aparecen en flights
aviones_sin_vuelo <- anti_join(planes, flights, by = "tailnum")

# Mostramos los primeros casos
head(aviones_sin_vuelo)

# Contamos cuántos
nrow(aviones_sin_vuelo)


#Explicación:
# Se invierte el orden de las tablas: ahora queremos saber si hay tailnum en `planes` que no están en `flights`.
# `anti_join(planes, flights, by = "tailnum")`: devuelve los aviones sin vuelos registrados.

#Interpretación: Algunos aviones registrados pueden no haber sido usados en los vuelos de 2013, o bien hay registros desactualizados o inconsistencias.


tailnum,year,type,manufacturer,model,engines,seats,speed,engine
<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<chr>



---

3. ¿Cuáles aerolíneas aparecen en `flights` pero no están en `airlines`?



In [124]:
#Enunciado: Usando `anti_join()`, determina si hay códigos de aerolínea (`carrier`) en `flights` que no aparecen en `airlines`.


# Aerolíneas usadas en vuelos pero que no tienen descripción
aerolineas_faltantes <- anti_join(flights, airlines, by = "carrier") %>%
  select(carrier) %>% distinct()
aerolineas_faltantes


#Explicación:
# Verificamos si `carrier` en `flights` tiene coincidencia en `airlines`.
# Si aparecen códigos sin descripción, podría deberse a errores, cambios recientes o aerolíneas sin registro.

#Interpretación: Si el resultado está vacío, significa que todos los códigos de aerolínea tienen descripción. Si hay resultados, debemos revisar la calidad del dato o actualizar la tabla `airlines`.


carrier
<chr>



---
4. ¿Qué aeropuertos aparecen como destinos pero no como origen?



In [125]:
#Enunciado: Encuentra todos los aeropuertos a los que se vuela (`dest`) pero desde los que no se parte (`origin`).

# Creamos tablas de códigos únicos
origenes <- flights %>% select(origin) %>% distinct()
destinos <- flights %>% select(dest) %>% distinct()

# Filtramos destinos que no son origen
solo_destinos <- anti_join(destinos, origenes, by = c("dest" = "origin"))
solo_destinos

#Explicación:
# Comparamos las columnas `dest` y `origin` como claves.
# `anti_join()` nos da todos los aeropuertos que están como destino pero nunca como origen.

##Interpretación: Estos aeropuertos están al final de una ruta (llegadas), pero no al inicio desde NYC en este conjunto de datos.


dest
<chr>
IAH
MIA
BQN
ATL
ORD
FLL
IAD
MCO
PBI
TPA



---
5. ¿Qué aeropuertos aparecen como origen pero nunca como destino?



In [126]:
# Filtramos origenes que no son destino
solo_origenes <- anti_join(origenes, destinos, by = c("origin" = "dest"))
solo_origenes

# Interpretación: Esto devuelve aeropuertos desde los que salen vuelos,
# pero a los que nunca se regresa. En el dataset de `nycflights13`,
# estos suelen ser JFK, LGA y EWR, ya que es un conjunto de vuelos que salen de Nueva York.

origin
<chr>
EWR
JFK


6. ¿Qué significa que un vuelo tenga `tailnum` faltante? ¿Qué variable lo explica?






In [127]:
flights %>%
  filter(is.na(tailnum)) %>%
  count(
    dep_time_na = is.na(dep_time),
    dep_delay_na = is.na(dep_delay),
    arr_delay_na = is.na(arr_delay)
  )

 # Interpretación:
 # La mayoría de los vuelos con tailnum faltante también tienen dep_time como NA,
 # lo cual indica que el vuelo fue cancelado (porque no despegó, no tiene retraso,
 # y tampoco llegó).

dep_time_na,dep_delay_na,arr_delay_na,n
<lgl>,<lgl>,<lgl>,<int>
True,True,True,2512


---

7. Filtrar vuelos que tienen aviones con al menos 100 vuelos








In [128]:
planes_con_100_vuelos <- flights %>%
  count(tailnum) %>%
  filter(n >= 100)

flights %>%
  semi_join(planes_con_100_vuelos, by = "tailnum") %>%
  head()


# Explicación:
# `count(tailnum)` cuenta cuántos vuelos realizó cada avión.
# `semi_join()` filtra los vuelos que pertenecen a esos aviones.

year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00


In [129]:
# Celda de arriba, pero en un sólo bloque
flights %>%
  semi_join(
    flights %>%
      count(tailnum) %>%
      filter(n >= 100),
    by = "tailnum"
  ) %>%
  head()


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00
2013,1,1,555,600,-5,913,854,19,B6,507,N516JB,EWR,FLL,158,1065,6,0,2013-01-01 06:00:00
2013,1,1,557,600,-3,709,723,-14,EV,5708,N829AS,LGA,IAD,53,229,6,0,2013-01-01 06:00:00


9. Encontrar las 48 horas con más retrasos y cruzarlas con datos climáticos


In [130]:
peores_horas <- flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(origin, year, month, day, hour) %>%
  summarise(delay_total = mean(dep_delay), .groups = "drop") %>%
  arrange(desc(delay_total)) %>%
  slice(1:48)
# Unimos con weather para explorar relación
join_clima <- left_join(peores_horas, weather, by = c("origin", "year", "month", "day", "hour"))
head(join_clima)


#Interpretación: Al cruzar los peores retrasos con clima, podemos identificar patrones
#(como baja visibilidad, lluvia o viento).


origin,year,month,day,hour,delay_total,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib,time_hour
<chr>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
LGA,2013,7,28,21,279.6667,73.94,69.08,84.8,180,8.05546,,0.0,1015.0,8,2013-07-28 21:00:00
EWR,2013,2,9,10,269.0,28.04,15.98,60.1,310,19.56326,28.7695,0.0,1016.5,10,2013-02-09 10:00:00
EWR,2013,2,9,9,266.0,26.96,17.06,65.84,310,13.80936,28.7695,0.0,1015.2,10,2013-02-09 09:00:00
LGA,2013,9,2,16,250.3077,80.06,71.96,76.36,0,0.0,,0.01,1006.6,5,2013-09-02 16:00:00
LGA,2013,7,22,18,246.4,80.06,73.04,79.2,130,9.20624,,0.0,1010.5,10,2013-07-22 18:00:00
LGA,2013,7,28,19,239.5,75.2,69.8,83.32,170,10.35702,,0.01,,8,2013-07-28 19:00:00


10. Interpretar anti_join con aeropuertos




In [131]:
anti_join(flights, airports, by = c("dest" = "faa"))
anti_join(airports, flights, by = c("faa" = "dest"))


#Interpretación:
# El primer `anti_join()` muestra vuelos cuyo destino no tiene información en `airports`.
# El segundo muestra aeropuertos en `airports` que nunca fueron destino en `flights`.


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,615,615,0,1039,1100,-21,B6,709,N794JB,JFK,SJU,182,1598,6,15,2013-01-01 06:00:00
2013,1,1,628,630,-2,1137,1140,-3,AA,413,N3BAAA,JFK,SJU,192,1598,6,30,2013-01-01 06:00:00
2013,1,1,701,700,1,1123,1154,-31,UA,1203,N77296,EWR,SJU,188,1608,7,0,2013-01-01 07:00:00
2013,1,1,711,715,-4,1151,1206,-15,B6,715,N651JB,JFK,SJU,190,1598,7,15,2013-01-01 07:00:00
2013,1,1,820,820,0,1254,1310,-16,B6,717,N527JB,JFK,SJU,190,1598,8,20,2013-01-01 08:00:00
2013,1,1,820,820,0,1249,1329,-40,DL,301,N900PC,JFK,SJU,182,1598,8,20,2013-01-01 08:00:00
2013,1,1,840,845,-5,1311,1350,-39,AA,1357,N5FSAA,JFK,SJU,188,1598,8,45,2013-01-01 08:00:00
2013,1,1,909,810,59,1331,1315,16,AA,655,N5EXAA,JFK,STT,184,1623,8,10,2013-01-01 08:00:00
2013,1,1,913,918,-5,1346,1416,-30,UA,1519,N24715,EWR,STT,189,1634,9,18,2013-01-01 09:00:00


faa,name,lat,lon,alt,tz,dst,tzone
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
04G,Lansdowne Airport,41.13047,-80.61958,1044,-5,A,America/New_York
06A,Moton Field Municipal Airport,32.46057,-85.68003,264,-6,A,America/Chicago
06C,Schaumburg Regional,41.98934,-88.10124,801,-6,A,America/Chicago
06N,Randall Airport,41.43191,-74.39156,523,-5,A,America/New_York
09J,Jekyll Island Airport,31.07447,-81.42778,11,-5,A,America/New_York
0A9,Elizabethton Municipal Airport,36.37122,-82.17342,1593,-5,A,America/New_York
0G6,Williams County Airport,41.46731,-84.50678,730,-5,A,America/New_York
0G7,Finger Lakes Regional Airport,42.88356,-76.78123,492,-5,A,America/New_York
0P2,Shoestring Aviation Airfield,39.79482,-76.64719,1000,-5,U,America/New_York
0S9,Jefferson County Intl,48.05381,-122.81064,108,-8,A,America/Los_Angeles


11. Verificar si un avión es operado por una sola aerolínea



In [136]:
flights %>%
  filter(!is.na(tailnum)) %>%
  distinct(tailnum, carrier) %>%
  count(tailnum) %>% #Cuenta (creando un campo llamado "n", que es usado en el filtro de abajo)
  filter(n > 1)


#Interpretación:
# Significa que algunos aviones son usados por más de una aerolínea.




tailnum,n
<chr>,<int>
N146PQ,2
N153PQ,2
N176PQ,2
N181PQ,2
N197PQ,2
N200PQ,2
N228PQ,2
N232PQ,2
N933AT,2
N935AT,2


## data.table

`data.table` es una alternativa de alto rendimiento a `data.frame`, optimizada para manejar grandes volúmenes de datos de forma eficiente. Su sintaxis concisa permite combinar filtrado, selección y agrupación en una sola línea:

``` r
DT[i, j, by]
```

-   `i`: condiciones para filtrar filas.
-   `j`: operaciones sobre columnas.
-   `by`: agrupamiento por variables.

Ventajas:
- Muy eficiente en términos de velocidad y uso de memoria.
- Permite modificar datos sin copiar (in-place).
- Ideal para trabajar con millones de filas.

En esta sección vamos a replicar parte de los ejercicios realizados en la sección anterior, pero esta vez con data.table.

------------------------------------------------------------------------


### Filtrar:

### Ordenar:

### Seleccionar

### Crear nuevas columnas (mutate)

### Ranking:

### Agrupación y resumen:

### Tablas relacionadas:
Supongamos que tenemos dos tablas: flights_dt y airports_dt.

Más relaciones:

`base::merge()` puede realizar los cuatro tipos de uniones que crean variables ("traen variables de otras bases"):

| `dplyr`             | `merge` en base R                                      |
|---------------------|--------------------------------------------------------|
| `inner_join(x, y)`  | `merge(x, y)`                                          |
| `left_join(x, y)`   | `merge(x, y, all.x = TRUE)`                            |
| `right_join(x, y)`  | `merge(x, y, all.y = TRUE)`                            |
| `full_join(x, y)`   | `merge(x, y, all.x = TRUE, all.y = TRUE)`              |

**Ventajas de los verbos específicos de `dplyr`:**

- Expresan más claramente la intención del código.
- Las diferencias entre los tipos de unión son más evidentes que en los argumentos de `merge()`.
- Las uniones con `dplyr` son mucho más rápidas y no alteran el orden de las filas.

`dplyr` se inspira en SQL, por lo que su sintaxis resulta más intuitiva si ya conoces bases de datos.


Ejercicios data.table:

1. Vuelos que llegaron con más de 2 horas de retraso pero no salieron tarde

2. Vuelos que partieron entre medianoche y las 6:00 a.m. (inclusive)

3. Vuelos ordenados por mayor retraso en salida

4. Vuelos más rápidos (velocidad = distancia / tiempo)

5. Seleccionar columnas desde dep_time hasta arr_time

6. Seleccionar columnas que comienzan con "dep" o terminan con "time"

7. Convertir dep_time y sched_dep_time en minutos desde medianoche

8. Simulación de vuelo que se adelanta o retrasa 15 min (50% cada uno)

9. Avión (tailnum) con peor puntualidad promedio

10. Número de vuelos sin información de avión

11. Aerolíneas que aparecen en flights pero no están en airlines

12. Aeropuertos que aparecen como origen pero nunca como destino