<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_Curso_R/blob/main/ERAP_R_Course.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Título**:  Manipulación de datos con R                                 
                                          
**Autor(es)**:  Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández

**Fecha**: 2025-05

**Institución**: Universidad de La Rioja    

**Contenido del curso:**

**Módulo 1**: Manipulación de Datos con dplyr y data.table  

Objetivo: Aprender a manipular y transformar datos usando las herramientas más comunes de R.

**Módulo 2**: Manejo de Datos Desordenados y Falta de Información

Objetivo: Aprender a limpiar datos desordenados, manejar datos faltantes y formatear conjuntos de datos.

**Módulo 3**: Visualización de Datos con ggplot2

Objetivo: Crear gráficos avanzados para analizar visualmente los datos utilizando ggplot2.

**Módulo 4**: Exploración de Datos y Estadística Descriptiva

Objetivo: Aplicar métodos estadísticos para explorar y describir conjuntos de datos.

# Modulo I: Manipulación de Datos con dplyr y data.table: introducción

En esta sección se presentan dos de las librerías más potentes para manipulación de datos en R: **`dplyr`** y **`data.table`**.

Por su sencillez, desde el punto de vista académico, iniciaremos con Dplyr, luego repetiremos los ejercicios con data.table, mostrando sus diferencias y bondades.
-------------------------------------------------------------------



In [None]:
# @title Librerías: (Instalación e importación)

# Función para instalar si no está instalado
instalar_si_no <- function(paquete) {
    if (!requireNamespace(paquete, quietly = TRUE)) {
    install.packages(paquete, repos = "https://cloud.r-project.org")
  }
  library(paquete, character.only = TRUE)
}

# Lista de paquetes a verificar
paquetes <- c("tidyverse", "data.table", "psych", "moments", "nycflights13", "dplyr")

# Instalar y cargar todos
invisible(lapply(paquetes, instalar_si_no))

## dplyr

`dplyr` forma parte del ecosistema **tidyverse**, diseñado para trabajar con datos de forma ordenada, clara y legible. Utiliza funciones denominadas *verbos* para transformar data frames:

-   `filter()`: selecciona filas según condiciones lógicas.
-   `select()`: selecciona columnas específicas también teniendo en cuenta condiciones.
-   `mutate()`: crea nuevas variables o transforma existentes.
-   `arrange()`: ordena filas.
-   `group_by()` + `summarise()`: agrupa y resume datos.

------------------------------------------------------------------------

**¿Qué es tidyverse?**

El **tidyverse** es una colección de paquetes R con una filosofía de diseño común: trabajar con datos ordenados (*tidy data*).

**Principales paquetes del tidyverse:**

| Paquete         | Función principal                              |
|-----------------|------------------------------------------------|
| ***`dplyr`***   | Manipulación de datos                          |
| ***`ggplot2`*** | Visualización de datos                         |
| `tidyr`         | Transformación y ordenación de datos           |
| `readr`         | Lectura eficiente de archivos CSV y planos     |
| ***`tibble`***  | Versión moderna de `data.frame`                |
| `stringr`       | Manipulación de cadenas de texto               |
| `forcats`       | Manejo de factores (variables categóricas)     |
| `purrr`         | Programación funcional sobre listas y vectores |

------------------------------------------------------------------------


In [None]:
??tidyverse


**Bibliografía recomendada**

- [Web oficial de tidyverse](https://www.tidyverse.org)


-   Wickham, H., & Grolemund, G. (2023). *R para ciencia de datos*.\
    Disponible en línea:\
    <https://r4ds.had.co.nz>
    
-   Dowle, M., & Srinivasan, A. (2024). *data.table: Extension of `data.frame`*. Paquete R. Disponible en: <https://cran.r-project.org/package=data.table>

- Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

**Introducción al paquete de los datos a usar `nycflights13`**

El paquete `nycflights13` contiene datos reales sobre todos los vuelos que salieron desde los aeropuertos de Nueva York durante el año 2013.

**¿Qué datos contiene el paquete?**

El paquete incluye 5 tablas principales:

-   `flights`: datos de vuelos
-   `airlines`: aerolíneas
-   `airports`: aeropuertos
-   `planes`: aviones
-   `weather`: clima

Podemos acceder a cada una directamente por su nombre:

In [None]:
# Acceso a las tablas
head(flights, 3)


In [None]:
head(airlines)

In [None]:
head(airports)

In [None]:
head(planes)

In [None]:
head(weather)


------------------------------------------------------------------------

**Descripción general de las tablas**

Utilizamos las funciones:

dim(): para ver la dimensión de los datos.

str(): para mostrar la estructura del objetos de manera compacta y legible.

glimpse() : para mostrar un resumen estructural horizontal de los datos:

-   `int` enteros.

-   `dbl` dobles, o números reales.

-   `chr` caracteres o cadenas.

-   `dttm` fechas y horas (una fecha + una hora).

Otros tres tipos comunes de variables:

-   `lgl` significa lógico, `TRUE` (verdadero) o `FALSE` (falso).

-   `fctr` significa factores (categóricos).

-   `date` fechas.



1. `flights` — Datos de vuelos


In [None]:
#??flights
dim(flights)
str(flights)
glimpse(airlines)

2. `airlines` — Información de aerolíneas

In [None]:
glimpse(airlines)

3. `airports` — Información de aeropuertos

In [None]:
glimpse(airports)

4. `planes` — Información de los aviones

In [None]:
glimpse(planes)

5. `weather` — Condiciones climáticas por hora

In [None]:
glimpse(weather)

------------------------------------------------------------------------

**Relaciones clave**

Lo veremos en detalle más adelante:

-   `flights$carrier` → `airlines$carrier`
-   `flights$tailnum` → `planes$tailnum`
-   `flights$origin`, `flights$dest` → `airports$faa`
-   `flights$origin` + `flights$time_hour` → `weather`

## Verbos en Dplyr:

Los verbos de `dplyr` permiten transformar datos de forma clara y estructurada.

Su sintaxis es intuitiva y permite encadenar operaciones paso a paso usando el operador `%>%`.

Los verbos de `dplyr` siguen una estructura muy regular:

``` r
datos %>% verbo(argumentos)
```
-   `datos`: es el conjunto de datos original (por ejemplo, `flights`)
-   `%>%`: se lee como "entonces", conecta pasos secuenciales
-   `verbo()`: es la función como `filter()`, `select()`, etc.
-   `argumentos`: lo que queremos hacer (condiciones, columnas, cálculos)

**El operador `%>%` – Pipe (tubo en español) del tidyverse (importancia de que sea gramático)**

El operador `%>%` (pipe) proviene del paquete `magrittr`, que forma parte del `tidyverse`.  
Se usa para **encadenar funciones**, permitiendo escribir código más limpio y legible.

| Plataforma  | Atajo de teclado       |
| ----------- | ---------------------- |
| **Windows** | `Ctrl` + `Shift` + `M` |
| **macOS**   | `Cmd` + `Shift` + `M`  |
| **Linux**   | `Ctrl` + `Shift` + `M` |


**¿Cómo se lee?**

> **“y luego”**.  
> Por ejemplo: *Toma los datos y luego filtra y luego resume*.

---

### Comparación:

Si por ejemplo, queremos agrupar los vuelos por aeropuerto de origen (origin) y calcula el retraso promedio en la salida (dep_delay) para cada uno de ellos (aeropuertos), asegurándonos de ignorar los valores perdidos (NA) en el cálculo de la media:



**Sin pipe (forma tradicional):**

In [None]:
summarise(group_by(flights, origin), promedio = mean(dep_delay, na.rm = TRUE))

**Con pipe (%>%):**

In [None]:
flights %>%
  group_by(origin) %>%
  summarise(promedio = mean(dep_delay, na.rm = TRUE))

---

**Estructura del pipe:**

```r
objeto %>%
  funcion(argumentos)
```

Equivale a:

```r
funcion(objeto, argumentos)
```

Se puede seguir encadenando:

```r
datos %>%
  paso_1() %>%
  paso_2() %>%
  paso_3()
```

---

**Es importante:**

- Colocar `%>%` al final de la línea.
- Mejora la lectura especialmente en cadenas largas de transformación.
- No es necesario crear variables intermedias, lo que se traduce en ahorro en RAM

**Los argumentos del los verbos:**

-   Se separan por **comas**, no por `=`
-   En `mutate()` y `summarise()` se crean nuevas variables con `nombre = cálculo`

------------------------------------------------------------------------


### 1. `filter()` – Filtrar filas

`filter()` selecciona **filas que cumplen condiciones** lógicas.

- Supongamos que queremos ver todos los vuelos del 1 de enero

In [None]:
filter(flights, month == 1, day == 1)

- Y si queremos ver todos los vuelos del 25 de diciembre

In [None]:
filter(flights,month==12,day==25)

Esto crea un nuevo conjunto de datos, pero **no se guarda**, además, **NO** se modifica el conjunto de datos original.

Para guardarlo, por ejemplo los vuelos en navidad:

In [None]:
vuelos_navidad <- filter(flights, month == 12, day == 25)

¿Qué pasa si encerramos toda la línea anterior en paréntesis?

In [None]:
(vuelos_navidad <- filter(flights, month == 12, day == 25))

La condición que acabamos de utilizar era un *Y*, si quisiéramos un *ó*, es decir, si queremos saber los vuelos del 1 de enero *ó* del 25 de diciembre

In [None]:
filter(flights,(day==1 & month==1)|(day==25 & month==12))

Si queremos, por ejemplo, ver el registro de vuelos con más de 100 minutos de retraso en la llegada

In [None]:
filter(flights,arr_delay > 100)

Vuelos que llegaron temprano o sin retraso (con 0 o menos minutos)

In [None]:
flights %>%
  filter(arr_delay<= 0)

Si nos preguntamos cuáles son los valores únicos de aeropuertos de salida y de llegada?

In [None]:
names(flights)
#??distinct
distinct(flights,origin)
distinct(flights,dest)

In [None]:
# Si usamos la base de R utilizaríamos
unique(flights$origin)


Vuelos que salieron desde JFK o LGA

In [None]:
flights%>%
  filter((origin=="JFK")|(origin=="LGA"))

Otra manera de hacerlo, utilizando %in%

In [None]:
flights%>%
  filter(origin %in% c("JFK","LGA"))

Cuando usamos filter() o cualquier otro filtro, podemos combinar condiciones con operadores como & (y), | (o), <, >, ==, !=, <=, >= y %in%.

Esto permite construir filtros muy potentes y específicos para quedarse solo con los datos que necesitamos.

## Ejercicios (Filter)

1. Vuelos con retraso de llegada de 2 horas o más

In [None]:
flights%>%
  filter(arr_delay>=120)

2. Vuelos con destino a Houston (IAH o HOU)

In [None]:
flights%>%
  filter(dest %in% c("IAH","HOU"))

3. Vuelos operados por United, American o Delta

In [None]:
flights %>%
  filter(carrier %in% c("UA", "AA", "DL"))

4. Vuelos que partieron en invierno del hemisferio sur (julio, agosto y septiembre)

In [None]:
flights %>%
  filter(month %in% c(7, 8, 9))
#filter(flights, month %in% 7:9)

5. Vuelos que llegaron más de 2 horas tarde pero no salieron tarde

In [None]:
flights %>%
  filter(arr_delay > 120, dep_delay <= 0)

6. Vuelos que se retrasaron al menos una hora, pero recuperaron más de 30 minutos mientras volaban (diferencia entre partida y llegada)


In [None]:
flights %>%
  filter(dep_delay >= 60, (dep_delay - arr_delay) > 30)

7. Crear una variable llamada vuelos_madrugada con los vuelos que partieron entre medianoche y las 6:00 a.m. (incluyente)

In [None]:
(vuelos_madrugada <- flights %>%
  filter(dep_time >= 0, dep_time <= 600))

Cada uno de estos filtros permite construir subconjuntos del dataset original para hacer análisis más específicos y enfocados. También podemos almacenar los resultados en un objeto para reutilizarlos más adelante (como en el caso de la creación de vuelos_madrugada).

8. Uso de `between()` para simplificar filtros:

La función `between(x, a, b)` comprueba si los valores de `x` están entre `a` y `b` (ambos inclusive). Reemplaza expresiones como `x >= a & x <= b`, haciéndolas más legibles. Así, si repetimos el ejercicio de los vuelos de julio, agosto y septiembre, tendríamos:

In [None]:
flights%>%
  filter(between(month,7,9))

9. Valores faltantes en los datos

¿Cuántos vuelos tienen `dep_time` faltante?


In [None]:
sum(is.na(flights$dep_time)) #usamos primero la función is.na, y luego sumamos los TRUEs

¿Qué variables tienen valores faltantes?

In [None]:
colSums(is.na(flights))


In [None]:
#map_dbl(...)
#Esta función pertenece al paquete purrr (parte del tidyverse).
#Aplica una función a cada columna (en este caso, a cada columna de flights) y devuelve un vector numérico.
#El sufijo _dbl indica que el resultado esperado para cada columna es un número (tipo double), no una lista ni otro tipo de vector.
map_dbl(flights, ~ sum(is.na(.x)))

Las filas con datos faltantes generalmente corresponden a **vuelos cancelados**.

¿Por qué ciertas operaciones con `NA` no devuelven `NA`?





In [None]:
NA ^ 0       # [1] 1
NA | TRUE    # [1] TRUE
FALSE & NA   # [1] FALSE
NA * 0       # [1] NA

Sea x la edad de María. No sabemos qué edad tiene.

Sea y la edad de Juan. No sabemos qué edad tiene.

¿Tienen Juan y María la misma edad?

In [None]:
x <- NA
y <- NA
x==y

Explicación:

| Expresión       | Resultado | Justificación                                                                 |
|----------------|-----------|--------------------------------------------------------------------------------|
| `NA ^ 0`        | `1`       | Cualquier número (incluso desconocido) elevado a 0 es 1                        |
| `NA | TRUE`     | `TRUE`    | `OR` lógico: si una parte es `TRUE`, el resultado es `TRUE`                   |
| `FALSE & NA`    | `FALSE`   | `AND` lógico: si una parte es `FALSE`, ya no importa la otra                  |
| `NA * 0`        | `NA`      | Multiplicación: si uno es `NA`, el resultado es desconocido                   |

**En general:**

- Si el resultado puede determinarse sin conocer el valor faltante, **no devuelve `NA`**.
- Si depende del valor faltante, **sí devuelve `NA`**.



### 2. `arrange()` – Ordenar filas

`arrange()` **ordena** las filas por una o más variables.

Ahora, si queremos ordenar los vuelos por retraso en llegada de menor a mayor:

In [None]:
arrange(flights, arr_delay)


Y si lo necesitamos de mayor a menor:

In [None]:
arrange(flights, desc(arr_delay))

También podemos ordenar teniendo en cuenta varias columnas a la vez:

In [None]:
arrange(flights,
        year, month, day)

## Ejercicios 2 con la función `arrange()`

1. Ordenar vuelos colocando primero los valores faltantes

In [None]:
flights %>%
  arrange(desc(is.na(dep_time)))

2. Vuelos más retrasados en salida (mayor `dep_delay`).

In [None]:
flights %>%
  arrange(desc(dep_delay))

3. Vuelos que salieron más temprano (menor `dep_time`), sin incluir datos faltantes.

In [None]:
flights %>%
  filter(!is.na(dep_time)) %>%
  arrange(dep_time)

4. Vuelos más rápidos (que viajaron a mayor velocidad (kilómetros / hora)

In [None]:
# Unidades:
# Millas a kilómetros (1 milla = 1,60934 kilómetros)
# minutos a hora (60 minutos = 1 hora)
flights%>%
  arrange(desc((distance*1.60394)/(air_time/60)))

#Más adelante veremos una manera distinta de hacerlo

5. ¿Cuáles vuelos viajaron más lejos? ¿Cuál viajó más cerca?:




In [None]:
# Primero  lo que recorrieron mayor distancia (ver google maps entre JFK y HNL)
flights%>%
  arrange(desc(distance))

In [None]:
# Primero  lo que recorrieron menor distancia (ver google maps entre EWR y LGA)
flights%>%
  arrange(distance)

Es importante interpreta cada resultado y buscar patrones, por ejemplo, si ciertos destinos suelen ser los más lejanos o si algunas aerolíneas tienen más retrasos sistemáticos.



------------------------------------------------------------------------

### 3. `select()` – Seleccionar columnas

`select()` permite **elegir columnas específicas** de un conjunto de datos

Supongamos que queremos ver solo las columnas `year`, `month`, `day`, `dep_time`, `arr_time`:

In [None]:
select(flights, year, month, day, dep_time, arr_time)

Supongamos que queremos seleccionar varias columnas seguidas (en un rango), digamos entre dep_time y arr_time

In [None]:
select(flights,dep_time:arr_time)

Si quremos ver lo mismo pero utilizando %>%:

In [None]:
flights%>%
  select(dep_time:arr_time)

Si queremos seleccionar todas las columnas excepto las que están en un rango, digamos todas las que no están entre dep_time y arr_time


In [None]:
select(flights,-(dep_time:arr_time))

**Funciones auxiliares de `select()`**

Cuando tenemos muchas columnas, `dplyr` permite seleccionar variables por su nombre usando funciones auxiliares:

1. `starts_with("texto")`

Selecciona columnas que **comienzan** con una cadena:

Por ejemplo, si queremos seleccionar las columnas relacionadas con el despegue "Departure"

In [None]:
select(flights, starts_with("dep"))

2. `ends_with("texto")`

Selecciona columnas que **terminan** en una cadena:

Por ejemplo, si necesitamos información sobre las columnas relacionadas con el tiempo (time)

In [None]:
select(flights, ends_with("time"))

3. `contains("texto")`

Selecciona columnas que **contienen** una cadena en cualquier parte:

Por ejemplo, si necesitamos recolectar información sobre la demora, en general de los vuelos (delay):

In [None]:
select(flights, contains("delay"))

4. `num_range("prefijo", rango)`

Selecciona columnas con nombres secuenciales como `x1`, `x2`, ..., `x5`:


In [None]:
# Creamos un ejemplo artificial
#Primero creamos un objeto tipo tibble (pra poder utilizar las funciones)
(df <- tibble(x1 = 1:3, x2 = 4:6, x3 = 7:9))
select(df, num_range("x", 1:2))

**Buenas prácticas**

Si se nombran (renombran) las columnas de manera coherente (por ejemplo, `dep_time`, `dep_delay`), se pueden aprovechar estas funciones para seleccionar subconjuntos de columnas fácilmente.

## Ejercicios 3 con `select()`

1. Seleccionar múltiples formas:

Selecciona las variables `dep_time`, `dep_delay`, `arr_time`, `arr_delay` usando distintos métodos:


In [None]:
# Por nombre exacto
select(flights, dep_time, dep_delay, arr_time, arr_delay)


In [None]:

# Usando rangos
select(flights, dep_time:arr_delay)


In [None]:

# Usando contains
select(flights, contains("time"), contains("delay"))


In [None]:
# Usando matches
# ^ significa el inicio del nombre de la columna.
# $ significa el final del nombre de la columna.
select(flights, matches("^(dep|arr)_(time|delay)$"))

La función matches() en R pertenece al paquete dplyr, que forma parte del ecosistema tidyverse. Es una de las funciones auxiliares que se utiliza en conjunto con select() para seleccionar columnas cuyos nombres coincidan con una expresión regular (regex).

¿Qué hace matches()?
matches() busca coincidencias en los nombres de las variables usando expresiones regulares. Es muy útil cuando tienes columnas con patrones en sus nombres y quieres seleccionarlas sin tener que escribirlas todas de forma manual.

2. Variable repetida



In [None]:
select(flights, dep_time, dep_time, dep_time)

El resultado solo incluye una vez la columna `dep_time`, no genera error pero ignora repeticiones.
3. Uso de `any_of()`

La función any() en R no pertenece específicamente a dplyr, sino que es parte del núcleo base de R (base package). Es una función lógica muy útil que se utiliza para evaluar si al menos uno de los elementos de un vector lógico es TRUE.
¿Qué hace any()?
any() devuelve TRUE si al menos uno de los elementos evaluados es TRUE; de lo contrario, devuelve FALSE.

In [None]:
vars <- c("anio", "mes", "dia", "dep_delay", "arr_delay")
select(flights, any_of(vars))

`any_of()` selecciona solo las variables que existen e **ignora silenciosamente** las que no existen.

4.  `contains()` y sensibilidad a mayúsculas

In [None]:
select(flights, contains("DEST"))

In [None]:
select(flights, contains("DEST", ignore.case = FALSE))

In [None]:
names(flights)

### `mutate()` – Crear nuevas variables

`mutate()` agrega **nuevas columnas** calculadas a partir de otras.

Si queremos calcular la velocidad de cada vuelo (utilizando la misma información que en el ejercicio de ordenamiento de antes::

In [None]:
mutate(flights, velocidad = distance / (air_time / 60))

Si queremos calcular la ganancia en tiempo de cada vuelo, es decir, si hay diferencias entre el retraso de despegue y de aterrizaje, a la vez que calculamos la ganancia por hora en vez de minutos:

Podemos ir anidando varias sentencias a la vez:

In [None]:
mutate(flights,
       velocidad = distance / (air_time / 60),
       ganancia = dep_delay - arr_delay,
       ganancia_por_hora = ganancia / 60)

**Otras funciones útiles en `dplyr` relacionadas con Mutate:**

Aparte de `mutate()`, existen funciones que permiten realizar transformaciones más específicas sobre los datos. Veamos algunas de las más útiles:

1. `transmute()`

Es como `mutate()`, pero **solo conserva las variables nuevas** que se crean, descartando todas las demás.

Por ejemplo, si sólo necesitamos calcular velocidad, debido a que no necesitamos el resto de información, (descartamos el resto):


In [None]:
(velocidad<-transmute(flights, velocidad = distance / (air_time / 60)))


2. `lag()` y `lead()`

Permiten acceder al **valor anterior (`lag`) o posterior (`lead`)** de una variable. Útiles para comparar observaciones secuenciales (normalmente útiles en análisis de series temporales).




In [None]:
(x <- 1:10)

lag(x)

lead(x)


Por ejemplo, si queremos analizar el retraso en la llegada respecto al vuelo anterior/siguiente:

In [None]:
flights %>%
  arrange(year, month, day, sched_dep_time) %>%  # orden temporal
  select(year, month, day, sched_dep_time, arr_delay) %>%
  mutate(
    retraso_actual = arr_delay,
    retraso_anterior = lag(arr_delay),
    retraso_siguiente = lead(arr_delay)
  )%>%View()

3. Funciones de acumulación: `cumsum()` y `cummean()`

- `cumsum()`: suma acumulada
- `cummean()`: media acumulada



Tener en cuenta que tenemos que manejar los **na**, ya que muchas funciones estadísticas como mean(), sum(), min(), max() y similares, generan errores con los valores perdidos.
Esto se puede manejar de muchas formas (lo veremos en detalle en el módulo II).
Por ahora, con la función replace_na(), que proviene del paquete tidyr (parte del tidyverse), que sirve para reemplazar los valores faltantes (NA) en una columna o dataframe con un valor eligido, o también, puede usarse na.rm = TRUE, cuando queramos calcular una estadística ignorando los NA, sin modificar los datos originales:


In [None]:
x  #usando el x de arriba

cumsum(x)

cummean(x)


Por ejemplo, si queremos calcular el tiempo total  y el tiempo promedio acumulado del retraso en la llegada de los vuelos:

In [None]:
flights %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(replace_na(arr_delay, 0)),
    media_acumulada = cummean(replace_na(arr_delay, 0))
  )%>%View()

ifelse(is.na(arr_delay), 0, arr_delay)
Reemplaza los NA por 0, similar a replace_na(), pero sin usar tidyr.
No se pueden simplemente ignorar los NA en funciones como cumsum() o cummean() porque estas funciones no aceptan el argumento na.rm = TRUE, y por defecto propagan los NA.
Es decir, en cuanto aparece un NA, todo lo que viene después también se convierte en NA.
Esto es porque cumsum() asume que no sabe cuánto sumar si uno de los valores falta.

In [None]:
flights %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(ifelse(is.na(arr_delay), 0, arr_delay)),
    media_acumulada = cummean(ifelse(is.na(arr_delay), 0, arr_delay))
  )


Si eliminamos los NAs antes del cálculo:

In [None]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  arrange(arr_delay) %>%
  select(arr_delay) %>%
  mutate(
    suma_acumulada = cumsum(arr_delay),
    media_acumulada = cummean(arr_delay)
  )

## Ejercicios 4 con `mutate()`

1. Convertir dep_time y sched_dep_time en minutos desde medianoche

In [None]:
#Este cálculo convierte la hora de salida (dep_time), que está en formato HHMM (por ejemplo, 745 para 7:45am o 1542 para 3:42pm), a minutos desde la medianoche.
# El operador %/% en R realiza división entera.
#dep_time %/% 100: obtiene las horas completas. Ejemplo: 745 %/% 100 = 7.
#(dep_time %% 100): obtiene los minutos restantes. Ejemplo: 745 %% 100 = 45.
#Multiplicamos las horas por 60 y sumamos los minutos para obtener los minutos totales desde medianoche.

flights %>%
  mutate(
    salida_min = (dep_time %/% 100) * 60 + (dep_time %% 100),
    salida_prog_min = (sched_dep_time %/% 100) * 60 + (sched_dep_time %% 100)
  ) %>%
  select(dep_time, sched_dep_time, salida_min, salida_prog_min)

2. Comparar tiempo de vuelo (air_time) con horario de llegada - horario de salida (arr_time - dep_time)

In [None]:
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    tiempo_calculado = (arr_time %/% 100) * 60 + (arr_time %% 100) - ((dep_time %/% 100) * 60 + (dep_time %% 100)),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month,dep_time, arr_time, air_time, tiempo_calculado, diferencia)%>%View()

# Este código funciona bien, si los vuelos llegan el mismo día, de lo contrario, podemos ver que nos da valores negativos, por lo tanto:
# Ajustamos el cálculo para sumar 24 horas (1440 minutos) cuando la hora de llegada es anterior a la de salida.
# Esto se logra con un condicional simple dentro de mutate():
flights %>%
  filter(!is.na(arr_time), !is.na(dep_time)) %>%
  mutate(
    dep_mins = (dep_time %/% 100) * 60 + (dep_time %% 100),
    arr_mins = (arr_time %/% 100) * 60 + (arr_time %% 100),
    tiempo_calculado = if_else(arr_mins >= dep_mins,
                               arr_mins - dep_mins,
                               (arr_mins + 1440) - dep_mins),
    diferencia = air_time - tiempo_calculado
  ) %>%
  select(day, month, dep_time, arr_time, air_time, tiempo_calculado, diferencia) %>%
  View()

3. Vuelos más retrasados según min_rank()

In [None]:
flights %>%
  filter(!is.na(dep_delay)) %>%
  mutate(rango_retraso = min_rank(desc(dep_delay))) %>%
  arrange(rango_retraso) %>%
  select(dep_delay, rango_retraso) %>%
  head(10)


4. Funciones trigonométricas de R

In [None]:
??sin
sin(pi / 2)
cos(0)
tan(pi / 4)


También incluye `asin()`, `acos()`, `atan()`, `sinh()`, `cosh()`, `tanh()`, etc.

Los ángulos de las funciones tienen que estar en radiantes. R no tiene una función directa para esto.

In [None]:
deg2rad <- function(x) x * pi / 180
sin(deg2rad(90))

## `min_rank()` y `row_number()`

Permiten asignar **rangos** según el valor de una variable.

- `min_rank()`: asigna el mismo rango a empates
- `row_number()`: asigna rangos sin empates (rompe empates arbitrariamente)

Por ejemplo, si queremos crear un ranking de vuelos según retraso en llegada

In [None]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  mutate(
    rango = min_rank(desc(arr_delay)),
    #ordena los retrasos de mayor a menor y asigna un rango numérico:
    #el más alto retraso recibe el número 1, el segundo más alto el 2, etc.
    numero_fila = row_number(desc(arr_delay))
    #también ordena de mayor a menor y asigna un número consecutivo a cada
    # fila en ese orden, sin repetir números (aunque haya empates).
  ) %>%
  select(arr_delay, rango, numero_fila)
  #Muestra solo las tres columnas: el retraso (arr_delay), su rango (rango)
  # y su número de fila (numero_fila) en el orden descendente.

**A tener en cuenta:**

- Estas funciones deben usarse **dentro de `mutate()` o `transmute()`**.
- `lag()` y `lead()` son ideales para detectar tendencias o diferencias entre registros.
- Las funciones acumuladas (`cumsum`, `cummean`) requieren orden si se desea análisis temporal.
- `min_rank` es más justo cuando hay empates que `row_number`.

------------------------------------
## FILTROS Y MUTATES AGRUPADOS

Para verlo mejor en el dataset de fligths, utilizamos una data ficticia:

Estamos formando dos grupos, A y B, cada uno tiene un valor en una métrica. Si yo quisiera aplicar un filtro, el filtro se aplicaría sobre toda la columna de métrica, la idea del **group_by** es que las operaciones que se hagan en el **mutate** o en el **filtro**, se van a aplicar dentro de los grupos, por ejemplo:

Si yo quiero una nueva columna que sea la suma total dentro de los grupos, como se observa a continuación o si lo que quiero es seleccionar la métrica más baja por grupo ¿qué hacemos? (reinicio de rango):

| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | ?       | ?     |
| A     | 3       | ?       | ?     |
| A     | 5       | ?       | ?     |
| B     | 2       | ?       | ?     |
| B     | 4       | ?       | ?     |
| B     | 6       | ?       | ?     |


creando un nuevo data set con la nueva agrupación


| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | 9       | 1     |
| A     | 3       | 9       | 2     |
| A     | 5       | 9       | 3     |
| B     | 2       | 12      | 1     |
| B     | 4       | 12      | 2     |
| B     | 6       | 12      | 3     |


---

En nuestros datos:

`summarise()` + `group_by()` – Resumir datos agrupados

- `group_by()` agrupa datos por variable(s).
- `summarise()` resume cada grupo con funciones como `mean()`, `n()`, etc.

**Calculemos el promedio de retraso por aeropuerto de origen:**


In [None]:
flights %>%
  group_by(origin) %>% #esto no le hace nada al data set, sólo le da la propiedad de estar agrupado
  summarise(promedio_retraso = mean(dep_delay, na.rm = TRUE))

¿cómo calculo la media de retraso por día (by_day)?, ¿y por mes?

In [None]:
flights %>%
  select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, desc(arr_delay)) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(desc(arr_delay))) %>% #crea la variable de ranking
  filter(obs_rank<=10) %>% View()#selecciona los 10 tiempos mayores (top 10) (los que más tarde arrivaron)
#ver fila 85 (ver filtro)

Ahora, si quisiéramos encontrar los mejores miembros (mejores tiempos) es decir los que llegaron más temprano o llegaron a tiempo

In [None]:
flights %>%
  select(year:day, ends_with("delay"),air_time, distance) %>%
  group_by(year, month, day) %>% #agrupa por la fecha
  arrange(year, month, day, arr_delay) %>%  #organiza por fecha y por el delay de llegada descendientemente
  mutate(obs_rank=rank(arr_delay)) %>% #crea la variable de ranking
  filter(obs_rank<=10) %>% View()#selecciona los 10 tiempos mayores (top 10) (los que más tarde arrivaron)
#ver fila 85 (ver filtro)

Por ejemplo, si queremos identificar todos los aeropuertos de destino (dest) a los que se voló menos de 20 veces en todo el año, la idea sería mostrar los destinos y el número total de vuelos que recibieron.

In [None]:
flights %>%
  group_by(dest) %>%#agrupa los vuelos por destino.
  summarise(total_vuelos = n()) %>% #cuenta cuántos vuelos hubo a cada destino.
  filter(total_vuelos < 20)#selecciona solo los destinos con menos de 20 vuelos en todo el año.

¿Cuántos destinos diferentes recibieron menos de 20 vuelos en total durante 2013?
¿Alguno de estos destinos parece ser un error o un dato atípico?

In [None]:
# Agrupar por destino y contar la cantidad de vuelos
destinos_raros <- flights %>%
  group_by(dest) %>%                            # Agrupar por aeropuerto de destino
  summarise(total_vuelos = n()) %>%             # Contar el número total de vuelos
  filter(total_vuelos < 20) %>%                 # Filtrar los que tienen menos de 20 vuelos
  arrange(total_vuelos)                         # Ordenar de menor a mayor

# Ver resultados
print(destinos_raros)

# Número total de destinos con menos de 20 vuelos
cat("Número de destinos con menos de 20 vuelos:", nrow(destinos_raros), "\n")

## Ejercicios con `summarise()` y exploración de datos agrupados

1. Formas de evaluar retraso típico

- `mean(arr_delay, na.rm = TRUE)` — promedio de retraso
- `median(arr_delay, na.rm = TRUE)` — mediana
- `sd(arr_delay, na.rm = TRUE)` — desviación estándar
- `IQR(arr_delay, na.rm = TRUE)` — rango intercuartílico
- `quantile(arr_delay, probs = 0.9, na.rm = TRUE)` — percentil 90


In [None]:
delay_char <-
  flights %>%
  group_by(flight) %>%
  summarise(n = n(),
            fifteen_early = mean(arr_delay == -15, na.rm = TRUE),
            fifteen_late = mean(arr_delay == 15, na.rm = TRUE),
            ten_always = mean(arr_delay == 10, na.rm = TRUE),
            thirty_early = mean(arr_delay == -30, na.rm = TRUE),
            thirty_late = mean(arr_delay == 30, na.rm = TRUE),
            percentage_on_time = mean(arr_delay == 0, na.rm = TRUE),
            twohours = mean(arr_delay > 120, na.rm = TRUE)) %>%
#Aplica la función round(., 2) solo a las columnas que son numéricas (is_double),
#redondeando sus valores a 2 decimales.
  map_if(is_double, round, 2) %>%
  as_tibble()%>%View()

Un vuelo que se adelanta 15 minutos el 50% de las veces, y se retrasa 15 minutos el 50% de las veces.

In [None]:
delay_char %>%
  filter(fifteen_early == 0.5, fifteen_late == 0.5)

Un vuelo que siempre llega con 10 minutos de retraso.

In [None]:
delay_char %>%
  filter(ten_always == 1)


2. ¿Qué es más importante?

Depende del objetivo: la llegada afecta al pasajero, la salida al aeropuerto.

3. Consulta la tabla de funciones útiles de mutación y filtrado. Describe cómo cambia cada operación al combinarla con la agrupación.




In [None]:
?mutate



Cuando aplicamos funciones de mutación (mutate()) o filtrado (filter()) a un dataframe sin agrupar, las operaciones se hacen sobre todo el conjunto de datos.

Sin embargo, al agrupar (group_by()), el comportamiento de estas funciones cambia:
cada grupo se trata de forma independiente, como si tuvieras varios subconjuntos separados, y luego se combinan los resultados.
Ejemplo con mutate() sin agrupar

In [None]:
flights %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))
#Esto calcula el retraso promedio de salida considerando todos los vuelos.



Ejemplo con mutate() agrupado

In [None]:
flights %>%
  group_by(dest) %>%
  mutate(media_retraso = mean(dep_delay, na.rm = TRUE))
#Aquí, mean(dep_delay) se calcula para cada destino (dest), y cada fila
#recibe el valor promedio de su grupo.

4. ¿Qué avión (tailnum) tiene el peor registro de puntualidad?

In [None]:
flights %>%
  filter(!is.na(arr_delay)) %>%
  group_by(tailnum) %>%
# summarise(prop_time = sum(arr_delay <= 30)/n():

# Cuenta cuántos vuelos de ese avión llegaron con un retraso menor o igual a 30
# minutos, y divide por el total de vuelos (n()).
# Resultado: la proporción de vuelos "a tiempo" o con retraso aceptable para ese avión.

#mean_arr = mean(arr_delay, na.rm = TRUE):

#Calcula el retraso promedio de llegada de ese avión,
#ignorando los valores faltantes (na.rm = TRUE).

#fl = n()) %>%:
#Número total de vuelos realizados por ese avión.
  summarise(prop_time = sum(arr_delay <= 30)/n(),
            mean_arr = mean(arr_delay, na.rm = TRUE),
            fl = n()) %>%
  arrange(desc(prop_time))

#interpretación de la salida:
#tailnum = N103US: Este es el número de cola (matrícula) del avión.
#Es un identificador único para ese avión.

#prop_time = 1: El 100% de sus vuelos llegaron con 30 minutos de retraso
# o menos (incluidos los que llegaron antes de tiempo).

#mean_arr = -6.93: En promedio, este avión llegó 6.93 minutos antes de
# la hora prevista.

#fl = 46: Realizó un total de 46 vuelos.

# Interpretación: El avión N103US fue muy puntual, ya que nunca tuvo
# un retraso superior a 30 minutos en los 46 vuelos analizados, y en
#promedio llegaba casi 7 minutos antes.

4. ¿A qué hora del día deberías volar para evitar retrasos al máximo?

In [None]:
flights %>%
  group_by(hour) %>%
  filter(!is.na(dep_delay)) %>%
  summarise( delay = mean( dep_delay > 0 , na.rm = T)) %>% View()

# A las 5 am se retrasan menos, en proporción y a las 20:00 se retrasan
# más en proporción

5. Para cada destino, calcule el total de minutos de retraso.

In [None]:
flights %>%
  group_by(dest) %>%
  filter(!is.na(dep_delay)) %>%
  summarise(tot_mins = sum(dep_delay[dep_delay > 0]))

6. Para cada vuelo, calcule la proporción del retraso total en su destino.

In [None]:
flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(tailnum, dest) %>%
  summarise(m = mean(dep_delay > 0), n = n()) %>%
  arrange(desc(m))

# Los retrasos suelen estar correlacionados temporalmente:
# incluso una vez resuelto el problema que causó el retraso inicial,
# los vuelos posteriores se retrasan para permitir la salida de los
# primeros. Con lag(), explore cómo se relaciona el retraso de un vuelo
# con el retraso del vuelo inmediatamente anterior.

In [None]:
# Crea una nueva variable llamada new_sched_dep_time que representa la fecha y hora completa de salida programada como objeto POSIXct.
# Esto es útil porque sched_dep_time está en formato "HHMM" y no incluye la fecha.
# lubridate::make_datetime() combina año, mes, día, hora y minuto para generar un timestamp real, que se puede ordenar cronológicamente.

flights %>%
  mutate(new_sched_dep_time = lubridate::make_datetime(year, month, day, hour, minute)) %>%
  arrange(new_sched_dep_time) %>%
  mutate(prev_time = lag(dep_delay)) %>%
  # filter(between(dep_delay, 0, 300), between(prev_time, 0, 300)) %>% # play with this one
  select(origin, new_sched_dep_time, dep_delay, prev_time) %>% View()

# Interpretación de las primeras filas tras crear la variable `prev_time`
# con lag() sobre los retrasos (`dep_delay`)

# Fila 1:
# origin: EWR (Newark)
# new_sched_dep_time: 2013-01-01 05:15:00
# dep_delay: 2 minutos
# prev_time: NA (es el primer vuelo en orden cronológico, no tiene vuelo anterior)

# Fila 2:
# origin: LGA (LaGuardia)
# new_sched_dep_time: 2013-01-01 05:29:00
# dep_delay: 4 minutos
# prev_time: 2 (retraso del vuelo anterior, el de EWR a las 5:15)

# Fila 3:
# origin: JFK (John F. Kennedy)
# new_sched_dep_time: 2013-01-01 05:40:00
# dep_delay: 2 minutos
# prev_time: 4 (retraso del vuelo anterior, el de LGA a las 5:29)

# Con este tipo de análisis se puede explorar si los retrasos tienden a transmitirse:
# es decir, si un vuelo retrasado aumenta la probabilidad de que el siguiente también lo esté.
# Se puede visualizar con ggplot o ajustar un modelo para analizar la relación entre dep_delay y prev_time.


6. Mira cada destino. ¿Puede encontrar vuelos que sean sospechosamente rápidos? (es decir, vuelos que representen un posible error de introducción de datos). Calcule el tiempo de vuelo de un vuelo en relación con el vuelo más corto a ese destino. ¿Qué vuelos sufrieron más retrasos en el aire?

In [None]:
flights %>%
  group_by(dest) %>%
  arrange(air_time) %>%
  slice(1:5) %>%
# slice(1:5)
#Después de ordenar por air_time en cada grupo, esta línea selecciona las primeras 5 filas de cada grupo.
# Es decir, para cada destino, se conservan los 5 vuelos más cortos (en tiempo de vuelo).
  select(tailnum, sched_dep_time, sched_arr_time, air_time) %>%
  arrange(air_time)

------------------------
------------------------
## Relación entre tablas: ¿para qué sirven los joins?

En la mayoría de los análisis de datos no trabajamos con una única tabla. Lo habitual es que tengamos varias tablas que contienen información relacionada entre sí y necesitemos combinarlas para responder a nuestras preguntas. A este conjunto se le conoce como **datos relacionales** porque lo que realmente importa no es cada tabla por separado, sino cómo se relacionan entre sí.

Estas relaciones se establecen siempre entre pares de tablas. Incluso si el análisis involucra más de dos tablas, todo se reduce a cómo se conectan de forma individual cada par. A veces, estas relaciones pueden darse incluso dentro de la misma tabla, por ejemplo, cuando una tabla de empleados incluye referencias a sus jefes, quienes también están en esa misma tabla.

Para manejar este tipo de estructuras relacionales, necesitamos funciones que permitan operar entre dos (o más) tablas a la vez. En `dplyr`, estas funciones se agrupan en tres familias principales:

Tipos de operaciones con datos relacionales

- **Uniones con mutación (`mutating joins`)**: combinan columnas de dos tablas según observaciones coincidentes. Permiten enriquecer una tabla con información de otra.
- **Uniones de filtrado (`filtering joins`)**: seleccionan o eliminan filas de una tabla dependiendo de si tienen coincidencias en otra tabla.
- **Operaciones de conjuntos (`set operations`)**: tratan las filas como elementos de conjuntos y permiten aplicar intersecciones, uniones y diferencias.

Estas herramientas son fundamentales cuando trabajamos con datos almacenados en sistemas de bases de datos relacionales, que es donde suelen encontrarse este tipo de estructuras. Aunque muchas de estas tareas también pueden hacerse con SQL, `dplyr` facilita el análisis de datos al ofrecer una sintaxis más amigable y centrada en las tareas más comunes del análisis.

Por ejemplo, en `flights` encontramos códigos de aerolíneas (`carrier`), pero sus nombres están en `airlines`. Para analizarlos juntos, debemos unirlos.

## Tipos de joins en `dplyr`

| Función         | ¿Qué hace?                                                      |
|----------------|------------------------------------------------------------------|
| `inner_join()` | Solo las coincidencias en ambas tablas  (Intersección)                        |
| `left_join()`  | Todos los registros de la tabla izquierda                     |
| `right_join()` | Todos los registros de la tabla derecha                        |
| `full_join()`  | Todos los registros de ambas tablas(AUB)                            |
| `semi_join()`  | Registros de la izquierda con coincidencia (sin agregar columnas) |
| `anti_join()`  | Registros de la izquierda sin coincidencia                     |

Se puede explorar más con vignette. Pero, ¿Qué es una vignette?:

Es un documento en HTML o PDF incluido en un paquete.
Tiene código R explicativo, gráficos y teoría.
Se utiliza para aprender a usar el paquete con contexto. (No funciona en google colab, veremos sus funciones en RStudio), sin emabrgo, es como si abrieramos:

[vignette("two-table", package = "dplyr") ](https://dplyr.tidyverse.org/articles/two-table.html)




In [None]:
vignette("two-table", package = "dplyr")

**¿Este tipo de relaciones modifican el dataframe original?**

No. Los joins **devuelven una nueva tabla**. Para conservarla, debemos  asignarla a un objeto.

### Llaves primarias y secundarias

En los datos relacionales, cada tabla suele tener una **clave primaria**, que es una columna (o conjunto de columnas) que identifica de manera única cada fila.

También puede tener una o varias **claves foráneas**, que son columnas que contienen identificadores de otra tabla, permitiendo así establecer relaciones entre ellas.

Por ejemplo:
- En `flights`, la columna `carrier` se refiere a una clave en la tabla `airlines`.
- Las columnas `origin` y `dest` hacen referencia a códigos de aeropuerto presentes en `airports`.


### Tipos de uniones (`joins`) con `dplyr`

`left_join(x, y)`

Devuelve todas las filas de `x` y añade las columnas de `y` que coincidan. Si no hay coincidencia, se completan con `NA`.

`right_join(x, y)`

Como el `left_join()`, pero conserva todas las filas de `y`.

`inner_join(x, y)`

Devuelve solo las filas que tienen coincidencias en ambas tablas.

`full_join(x, y)`

Conserva todas las filas de ambas tablas. Si no hay coincidencia en alguna clave, se completan con `NA`.

Estas funciones se utilizan comúnmente cuando deseamos enriquecer una tabla con información de otra.

### Operaciones de conjuntos

Estas funciones comparan dos conjuntos de observaciones (filas), asumiendo que ambas tablas tienen las mismas columnas:

- `intersect(x, y)`: Filas comunes a ambas tablas.
- `union(x, y)`: Todas las filas que aparecen en al menos una tabla.
- `setdiff(x, y)`: Filas que están en `x` pero no en `y`.

Estas funciones permiten analizar las diferencias y similitudes entre datasets.


---

Ejemplos con datos ficticios

In [None]:
(x <- tibble(
  id = c(1, 2, 3), #creamos un elemento de tipo tibble (que es con el que se trabaja en Dplyr)
  nombre = c("Ana", "Luis", "Carlos")
))

(y <- tibble(
  id = c(1, 2, 4),
  sueldo = c(3000, 3200, 2800)
))

Inerjoin:

In [None]:
inner_join(x, y)       # Solo coincidencias

Todos los de x:

In [None]:
left_join(x, y, by = "id")        # Todos los de x


Todos los de y:

In [None]:
right_join(x, y, by = "id")       # Todos los de y


Todos:

In [None]:
full_join(x, y, by = "id")        # Todos

Coincidencias en x:

In [None]:
semi_join(x, y, by = "id")        # Coincidencias (sin columnas de y)

Sin coincidencias:

In [None]:
anti_join(x, y, by = "id")        # Sin coincidencia

Qué pasa si las columnas de ambas tablas no tienen el mismo nombre

In [None]:
a <- tibble(emp_id = c(1, 2, 3), nombre = c("Ana", "Luis", "Carlos"))
b <- tibble(id_sueldo = c(1, 2, 4), sueldo = c(3000, 3200, 2800))

inner_join(a, b, by = c("emp_id" = "id_sueldo"))

**Producto cartesiano:**

Dado dos conjuntos de datos A y B, el producto cartesiano (A × B) es el conjunto de todas las combinaciones posibles entre las filas de A y las filas de B.

Si A tiene n filas y B tiene m filas, entonces A × B tendrá n × m filas.
En términos de JOIN, el producto cartesiano es lo que ocurre cuando se hace un join sin especificar una clave de unión (by = NULL).
En SQL se llama CROSS JOIN.
En dplyr, se obtiene con inner_join() sin by.



In [None]:
A <- tibble(nombre = c("Ana", "Luis"))
B <- tibble(curso = c("R", "Python", "SQL"))
cross_join(A, B)  #en vez de inner_join(A, B, by = character()) utilizaremos cross_join
#Este uso especial de character() (es decir, un vector de caracteres vacío) le dice a inner_join() que no busque coincidencias, y en cambio, genere todas las combinaciones posibles entre las filas de A y B.
#Aquí es un todos con todos

### Aplicación real con `nycflights13`

**Relaciones existentes entre las tablas de nycflights13**

![Relación entre tablas de nycflights13](https://github.com/ednavivianasegura/AccesoImages/blob/main/nycflights.png?raw=true)

Nota: Es importante saber que la ubicación de la imagen tiene que ser en un directorio público, de lo contrario no se puede visualizar

| Tabla base  | Relación                      | Tabla secundaria |
|-------------|-------------------------------|------------------|
| `flights`   | `carrier`                     | `airlines`       |
| `flights`   | `tailnum`                     | `planes`         |
| `flights`   | `origin`                      | `airports`       |
| `flights`   | `origin` + `time_hour`        | `weather`        |

Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

Ejemplo práctico: unir `flights` con `airlines`

In [None]:
flights %>%
  left_join(airlines, by = "carrier") %>%
  select(carrier, name, everything()) %>%
  head()

#Gracias al left_join(), ahora tietenemos, tanto el código (carrier) como el nombre completo de la aerolínea (name) en la misma fila de cada vuelo.

## Ejercicios:

1. Dibujar rutas de vuelo, **pregunta:** ¿Qué variables necesitamos para dibujar la ruta de cada avión desde su origen hasta su destino? ¿Qué tablas deberíamos combinar?

Necesitamos:
- Código del aeropuerto de origen y destino (en `flights`: `origin` y `dest`)
- Coordenadas de los aeropuertos (`airports`: `lat`, `lon`)

Combinaciones necesarias:

In [None]:
# Obtener tabla con información de los aeropuertos de origen
(origenes <- flights %>%
  select(origin) %>%         # Selecciona solo la columna 'origin' de flights
  distinct() %>%             # Elimina valores repetidos: solo aeropuertos únicos
  left_join(airports,        # Une con la tabla 'airports'
            by = c("origin" = "faa"))) # Relaciona 'origin' de flights con 'faa' de airports

# Obtener tabla con información de los aeropuertos de destino
(destinos <- flights %>%
  select(dest) %>%           # Selecciona solo la columna 'dest' de flights
  distinct() %>%             # Elimina valores repetidos: solo aeropuertos únicos
  left_join(airports,        # Une con la tabla 'airports'
            by = c("dest" = "faa"))) # Relaciona 'dest' de flights con 'faa' de airports


2. Relación entre clima y aeropuertos, **pregunta:** ¿Cuál es la relación entre `weather` y `airports`?

- `weather` contiene datos climáticos **solo de los aeropuertos de origen** de Nueva York: `JFK`, `LGA`, `EWR`
- Se relaciona con `airports` mediante `origin` → `faa`

Relación esperada:
Cada fila en `weather` corresponde a un aeropuerto (por `origin`), una fecha y una hora (`time_hour`). Se puede vincular con `flights` usando:

In [None]:
left_join(flights, weather, by = c("origin", "time_hour"))

 3. ¿Y si `weather` tuviera datos de todo el país?

Si la tabla `weather` incluyera todos los aeropuertos de EE.UU., la clave sería:
- `origin` + `time_hour`

Se podría unir con `flights` igual que antes, pero los datos incluirían más aeropuertos:


In [None]:
left_join(flights, weather, by = c("dest" = "origin", "time_hour"))

4. Días especiales, **pregunta:** ¿Cómo representarías en un data frame los días especiales del año?

Tabla ficticia `dias_especiales`:

In [None]:
(dias_especiales <- tibble(
  year = c(2013, 2013),
  month = c(12, 1),
  day = c(25, 1),
  descripcion = c("Navidad", "Año Nuevo")))

Clave primaria: `year`, `month`, `day`

Tenemos que unirla con `flights`:

Esto permite identificar los vuelos realizados en días especiales.

---

In [None]:
inner_join(flights,dias_especiales,by=c("year", "month", "day"))


5. Agregar una clave sustituta (surrogate key) a `flights`



In [None]:
# Usamos mutate + row_number() para crear una clave única
flights_surrogate <- flights %>%
  mutate(id = row_number())

# Mostramos las primeras filas con la nueva clave
head(flights_surrogate %>% select(id, everything()))


# Explicación:
# - `mutate(id = row_number())`: Crea una columna `id` con valores únicos secuenciales.
# - Esta columna actúa como una clave sustituta, ya que no proviene de los datos originales.
# - Es útil cuando no hay una combinación de variables que actúe como clave primaria.


<h3>Joins en <code>dplyr</code> y su equivalencia en SQL</h3>

<p>
Las funciones de unión de <code>dplyr</code> como <code>inner_join()</code>, <code>left_join()</code>, <code>right_join()</code> o <code>full_join()</code> permiten realizar combinaciones entre tablas de forma clara y eficiente. Estas funciones preservan el orden de las filas y son más fáciles de leer que <code>merge()</code> de base R.
</p>

<p>
El diseño de estas funciones está inspirado en SQL, por lo que la traducción es directa:
</p>

<table border="1" style="border-collapse: collapse; text-align: left; width: 100%;">
  <thead style="background-color: #f2f2f2;">
    <tr>
      <th>dplyr</th>
      <th>SQL equivalente</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><code>inner_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x INNER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>left_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x LEFT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>right_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x RIGHT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>full_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x FULL OUTER JOIN y USING (z)</code></td>
    </tr>
  </tbody>
</table>

<p><strong>Nota:</strong> En SQL, los términos <code>INNER</code> y <code>OUTER</code> son opcionales y frecuentemente se omiten.</p>

<h4>Uniendo columnas con nombres diferentes</h4>

<p>Cuando las columnas clave no tienen el mismo nombre en ambas tablas, en <code>dplyr</code> puedes usar:</p>

<pre><code>inner_join(x, y, by = c("a" = "b"))</code></pre>

<p>Esto se traduce en SQL como:</p>

<pre><code>SELECT * FROM x INNER JOIN y ON x.a = y.b</code></pre>

<p>
Esto demuestra que SQL admite más tipos de combinaciones (incluyendo aquellas no basadas en igualdad), mientras que <code>dplyr</code> se enfoca en las más comunes y legibles.
</p>


### Ejercicios finales:

Ejercicio 1: ¿Cuántos vuelos no tienen información de avión?






In [None]:
## Enunciado: Usando `anti_join()`, encuentra cuántos vuelos en el dataset `flights` tienen un `tailnum` que no aparece en la tabla `planes`.

# Filtramos vuelos cuyo número de avión no está en planes
vuelos_sin_avion <- anti_join(flights, planes, by = "tailnum")

# Contamos cuántos son
nrow(vuelos_sin_avion)


#Explicación del código:
# `anti_join(flights, planes, by = "tailnum")`: devuelve solo los vuelos cuyo `tailnum` no tiene coincidencia en `planes`.
# `nrow()`: cuenta cuántas filas tiene el resultado, es decir, cuántos vuelos no tienen datos de avión.

# Interpretación: Este número indica cuántos registros de vuelos no pueden ser conectados con la información técnica del avión (modelo, año, fabricante, etc.).


2.  ¿Todos los aviones tienen al menos un vuelo?



In [None]:
# Enunciado: Verifica si todos los registros en la tabla `planes` tienen al menos un vuelo en la tabla `flights`.

# Aviones que están en planes pero no aparecen en flights
aviones_sin_vuelo <- anti_join(planes, flights, by = "tailnum")

# Mostramos los primeros casos
head(aviones_sin_vuelo)

# Contamos cuántos
nrow(aviones_sin_vuelo)


#Explicación:
# Se invierte el orden de las tablas: ahora queremos saber si hay tailnum en `planes` que no están en `flights`.
# `anti_join(planes, flights, by = "tailnum")`: devuelve los aviones sin vuelos registrados.

#Interpretación: Algunos aviones registrados pueden no haber sido usados en los vuelos de 2013, o bien hay registros desactualizados o inconsistencias.



---

3. ¿Cuáles aerolíneas aparecen en `flights` pero no están en `airlines`?



In [None]:
#Enunciado: Usando `anti_join()`, determina si hay códigos de aerolínea (`carrier`) en `flights` que no aparecen en `airlines`.


# Aerolíneas usadas en vuelos pero que no tienen descripción
aerolineas_faltantes <- anti_join(flights, airlines, by = "carrier") %>%
  select(carrier) %>% distinct()
aerolineas_faltantes


#Explicación:
# Verificamos si `carrier` en `flights` tiene coincidencia en `airlines`.
# Si aparecen códigos sin descripción, podría deberse a errores, cambios recientes o aerolíneas sin registro.

#Interpretación: Si el resultado está vacío, significa que todos los códigos de aerolínea tienen descripción. Si hay resultados, debemos revisar la calidad del dato o actualizar la tabla `airlines`.



---
4. ¿Qué aeropuertos aparecen como destinos pero no como origen?



In [None]:
#Enunciado: Encuentra todos los aeropuertos a los que se vuela (`dest`) pero desde los que no se parte (`origin`).

# Creamos tablas de códigos únicos
origenes <- flights %>% select(origin) %>% distinct()
destinos <- flights %>% select(dest) %>% distinct()

# Filtramos destinos que no son origen
solo_destinos <- anti_join(destinos, origenes, by = c("dest" = "origin"))
solo_destinos

#Explicación:
# Comparamos las columnas `dest` y `origin` como claves.
# `anti_join()` nos da todos los aeropuertos que están como destino pero nunca como origen.

##Interpretación: Estos aeropuertos están al final de una ruta (llegadas), pero no al inicio desde NYC en este conjunto de datos.



---
5. ¿Qué aeropuertos aparecen como origen pero nunca como destino?



In [None]:
# Filtramos origenes que no son destino
solo_origenes <- anti_join(origenes, destinos, by = c("origin" = "dest"))
solo_origenes

#Interpretación: Esto devuelve aeropuertos desde los que salen vuelos, pero a los que nunca se regresa. En el dataset de `nycflights13`, estos suelen ser JFK, LGA y EWR, ya que es un conjunto de vuelos que salen de Nueva York.

6. ¿Qué significa que un vuelo tenga `tailnum` faltante? ¿Qué variable lo explica?






In [None]:
flights %>%
  filter(is.na(tailnum)) %>%
  count(
    dep_time_na = is.na(dep_time),
    dep_delay_na = is.na(dep_delay),
    arr_delay_na = is.na(arr_delay)
  )

# Interpretación:
 # La mayoría de los vuelos con tailnum faltante también tienen dep_time como NA,
 # lo cual indica que el vuelo fue cancelado (porque no despegó, no tiene retraso,
 #y tampoco llegó).

---

7. Filtrar vuelos que tienen aviones con al menos 100 vuelos








In [None]:
planes_con_100_vuelos <- flights %>%
  count(tailnum) %>%
  filter(n >= 100)

flights %>%
  semi_join(planes_con_100_vuelos, by = "tailnum") %>%
  head()


# Explicación:
# `count(tailnum)` cuenta cuántos vuelos realizó cada avión.
# `semi_join()` filtra los vuelos que pertenecen a esos aviones.

In [None]:
flights %>%
  semi_join(
    flights %>%
      count(tailnum) %>%
      filter(n >= 100),
    by = "tailnum"
  ) %>%
  head()
# todo en un sólo bloque

9. Encontrar las 48 horas con más retrasos y cruzarlas con datos climáticos


In [None]:
peores_horas <- flights %>%
  filter(!is.na(dep_delay)) %>%
  group_by(origin, year, month, day, hour) %>%
  summarise(delay_total = mean(dep_delay), .groups = "drop") %>%
  arrange(desc(delay_total)) %>%
  slice(1:48)
# Unimos con weather para explorar relación
join_clima <- left_join(peores_horas, weather, by = c("origin", "year", "month", "day", "hour"))
head(join_clima)


#Interpretación: Al cruzar los peores retrasos con clima, podemos identificar patrones
#(como baja visibilidad, lluvia o viento).


10. Interpretar anti_join con aeropuertos




In [None]:
anti_join(flights, airports, by = c("dest" = "faa"))
anti_join(airports, flights, by = c("faa" = "dest"))


#Interpretación:
# El primer `anti_join()` muestra vuelos cuyo destino no tiene información en `airports`.
# El segundo muestra aeropuertos en `airports` que nunca fueron destino en `flights`.


11. Verificar si un avión es operado por una sola aerolínea



In [None]:
flights %>%
  filter(!is.na(tailnum)) %>%
  distinct(tailnum, carrier) %>%
  count(tailnum) %>%
  filter(n > 1)


#Interpretación:
# Si hay resultados, significa que **algunos aviones son usados por más de una aerolínea**, por lo que **no se cumple la hipótesis** de relación uno a uno.
# Si el resultado está vacío, cada avión pertenece a una sola aerolínea.




## data.table

`data.table` es una alternativa de alto rendimiento a `data.frame`, optimizada para manejar grandes volúmenes de datos de forma eficiente. Su sintaxis concisa permite combinar filtrado, selección y agrupación en una sola línea:

``` r
DT[i, j, by]
```

-   `i`: condiciones para filtrar filas.
-   `j`: operaciones sobre columnas.
-   `by`: agrupamiento por variables.

Ventajas: - Muy eficiente en términos de velocidad y uso de memoria. - Permite modificar datos sin copiar (in-place). - Ideal para trabajar con millones de filas.

En esta sección vamos a replicar parte de los ejercicios realizados en la sección anterior, pero esta vez con data.table.

------------------------------------------------------------------------


In [None]:
library(data.table)
# Convertimos a data.table
flights_dt <- as.data.table(flights) #tenemos que asegurarnos que la base esté en el formato data.tablepara utilizar las funciones

### Filtrar:

In [None]:
#Dplyr:
filter(flights,month == 1, day == 1)


In [None]:
#data.table
flights_dt[month == 1 & day == 1]


### Ordenar:

In [None]:
# Dplyr
arrange(flights,year, month, day)



In [None]:
# data.table:
flights_dt[order(year, month, day)]

In [None]:
#Dplyr
arrange(flights,desc(dep_delay))

In [None]:
# data.table
flights_dt[order(-dep_delay)]

### Seleccionar

In [None]:
#Dplyr
select(flights,year, month, day)
#data.table:
flights_dt[, .(year, month, day)]
# data.table requiere que las columnas se especifiquen
# con . antes de ()

### Crear nuevas columnas (mutate)

In [None]:
# Dplyr
 mutate(flights,gain = arr_delay - dep_delay)
# data.table:
flights_dt[, gain := arr_delay - dep_delay]
#:= modifica directamente el objeto
#(a menos que se copie explícitamente).

#Quiere decir que si haces una copia del objeto, entonces los cambios con := se hacen sobre la copia, no sobre el original.
#Por ejemplo:

#r
#Copiar código
#copia <- copy(flights_dt)  # copia profunda del objeto
#copia[, nueva_columna := 1]  # modifica solo 'copia'
#En este caso, flights_dt no se ve afectado, porque hicimos
#una copia explícita con copy().

### Ranking:

In [None]:
#Dplyr
mutate(flights,rank = min_rank(dep_delay))
mutate(flights,rn = row_number(dep_delay))



In [None]:
#data.table:
flights_dt[, rank := frank(dep_delay, ties.method = "min")]
flights_dt[, rn := frank(dep_delay, ties.method = "first")]
# frank() es la función de data.table para rankings.
flights_dt

### Agrupación y resumen:

In [None]:
#Dplyr
flights %>%
  group_by(dest) %>%
  summarise(delay = mean(dep_delay, na.rm = TRUE)) %>%
  arrange(dest)


In [None]:
# data.table
flights_dt[, .(delay = mean(dep_delay, na.rm = TRUE)), by = dest][order(dest)]


### Tablas relacionadas:
Supongamos que tenemos dos tablas: flights_dt y airports_dt.

In [None]:
airports_dt <- as.data.table(airports)


In [None]:
#Dplyr
flights %>% left_join(airports, by = c("dest" = "faa"))
flights

In [None]:
#Data.table

merge(flights_dt, airports_dt, by.x = "dest", by.y = "faa", all.x = TRUE)


Más relaciones:

`base::merge()` puede realizar los cuatro tipos de uniones que crean variables ("traen vairalbes de otras bases"):

| `dplyr`             | `merge` en base R                                      |
|---------------------|--------------------------------------------------------|
| `inner_join(x, y)`  | `merge(x, y)`                                          |
| `left_join(x, y)`   | `merge(x, y, all.x = TRUE)`                            |
| `right_join(x, y)`  | `merge(x, y, all.y = TRUE)`                            |
| `full_join(x, y)`   | `merge(x, y, all.x = TRUE, all.y = TRUE)`              |

**Ventajas de los verbos específicos de `dplyr`:**

- Expresan más claramente la intención del código.
- Las diferencias entre los tipos de unión son más evidentes que en los argumentos de `merge()`.
- Las uniones con `dplyr` son mucho más rápidas y no alteran el orden de las filas.

`dplyr` se inspira en SQL, por lo que su sintaxis resulta más intuitiva si ya conoces bases de datos.


Ejercicios data.table:
1.

In [None]:
# Convertir flights a data.table
flights_dt <- as.data.table(flights)

# 1. Vuelos que llegaron con más de 2 horas de retraso pero no salieron tarde
vuelos_retrasados_llegada <- flights_dt[arr_delay > 120 & dep_delay <= 0]

# 2. Vuelos que partieron entre medianoche y las 6:00 a.m. (inclusive)
vuelos_madrugada <- flights_dt[dep_time >= 0 & dep_time <= 600]

# 3. Vuelos ordenados por mayor retraso en salida
dep_mas_retrasados <- flights_dt[order(-dep_delay)]

# 4. Vuelos más rápidos (velocidad = distancia / tiempo)
# Primero creamos una columna tiempo_horas
flights_dt[, tiempo_horas := air_time / 60]
flights_dt[, velocidad_kmh := distance / tiempo_horas]

vuelos_mas_rapidos <- flights_dt[!is.na(velocidad_kmh)][order(-velocidad_kmh)]

# 5. Seleccionar columnas desde dep_time hasta arr_time
cols_range <- which(names(flights_dt) == "dep_time"):which(names(flights_dt) == "arr_time")
dep_arr_info <- flights_dt[, ..cols_range]

# 6. Seleccionar columnas que comienzan con "dep" o terminan con "time"
cols_dep <- grep("^dep", names(flights_dt), value = TRUE)
cols_time <- grep("time$", names(flights_dt), value = TRUE)
cols_comb <- unique(c(cols_dep, cols_time))
info_tiempos <- flights_dt[, ..cols_comb]

# 7. Convertir dep_time y sched_dep_time en minutos desde medianoche
flights_dt[, dep_time_min := (dep_time %/% 100) * 60 + (dep_time %% 100)]
flights_dt[, sched_dep_time_min := (sched_dep_time %/% 100) * 60 + (sched_dep_time %% 100)]

# 8. Simulación de vuelo que se adelanta o retrasa 15 min (50% cada uno)
set.seed(123)
flights_dt[, simulated_delay := sample(c(-15, 15), .N, replace = TRUE)]

# 9. Avión (tailnum) con peor puntualidad promedio
peor_puntualidad <- flights_dt[!is.na(arr_delay), .(media_retraso = mean(arr_delay)), by = tailnum][order(-media_retraso)]

# 10. Número de vuelos sin información de avión
total_sin_avion <- flights_dt[is.na(tailnum), .N]

# 11. Aerolíneas que aparecen en flights pero no están en airlines

# Convertimos airlines a data.table
airlines_dt <- as.data.table(airlines)

# Obtener las aerolíneas únicas en flights
carriers_en_flights <- unique(flights_dt[, .(carrier)])

# Realizar la unión y filtrar las que no están en airlines
lineas_faltantes <- merge(
  carriers_en_flights,
  airlines_dt,
  by = "carrier",
  all.x = TRUE
)

lineas_faltantes[is.na(name)]


# 12. Aeropuertos que aparecen como origen pero nunca como destino
origenes <- unique(flights_dt$origin)
destinos <- unique(flights_dt$dest)
origenes_no_destinos <- setdiff(origenes, destinos)
