<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_Curso_R/blob/main/ERAP_R_Course_ModuloI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Título**:  Manipulación de datos con R                                 
                                          
**Autor(es)**:  Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández

**Fecha**: 2025-05

**Institución**: Universidad de La Rioja    

**Contenido del curso:**

**Módulo 1**: Manipulación de Datos con dplyr y data.table  

Objetivo: Aprender a manipular y transformar datos usando las herramientas más comunes de R.

**Módulo 2**: Manejo de Datos Desordenados y Falta de Información

Objetivo: Aprender a limpiar datos desordenados, manejar datos faltantes y formatear conjuntos de datos.

**Módulo 3**: Visualización de Datos con ggplot2

Objetivo: Crear gráficos avanzados para analizar visualmente los datos utilizando ggplot2.

**Módulo 4**: Exploración de Datos y Estadística Descriptiva

Objetivo: Aplicar métodos estadísticos para explorar y describir conjuntos de datos.

# Modulo I: Manipulación de Datos con dplyr y data.table: introducción

En esta sección se presentan dos de las librerías más potentes para manipulación de datos en R: **`dplyr`** y **`data.table`**.

Por su sencillez, desde el punto de vista académico, iniciaremos con Dplyr, luego repetiremos los ejercicios con data.table, mostrando sus diferencias y bondades.
-------------------------------------------------------------------



In [None]:
# @title Librerías: (Instalación e importación)

# Función para instalar si no está instalado
instalar_si_no <- function(paquete) {
    if (!requireNamespace(paquete, quietly = TRUE)) {
    install.packages(paquete, repos = "https://cloud.r-project.org")
  }
  library(paquete, character.only = TRUE)
}

# Lista de paquetes a verificar
paquetes <- c("tidyverse", "data.table", "psych", "moments", "nycflights13", "dplyr")

# Instalar y cargar todos
invisible(lapply(paquetes, instalar_si_no))

## dplyr

`dplyr` forma parte del ecosistema **tidyverse**, diseñado para trabajar con datos de forma ordenada, clara y legible. Utiliza funciones denominadas *verbos* para transformar data frames:

-   `filter()`: selecciona filas según condiciones lógicas.
-   `select()`: selecciona columnas específicas también teniendo en cuenta condiciones.
-   `mutate()`: crea nuevas variables o transforma existentes.
-   `arrange()`: ordena filas.
-   `group_by()` + `summarise()`: agrupa y resume datos.

------------------------------------------------------------------------

**¿Qué es tidyverse?**

El **tidyverse** es una colección de paquetes R con una filosofía de diseño común: trabajar con datos ordenados (*tidy data*).

**Principales paquetes del tidyverse:**

| Paquete         | Función principal                              |
|-----------------|------------------------------------------------|
| ***`dplyr`***   | Manipulación de datos                          |
| ***`ggplot2`*** | Visualización de datos                         |
| `tidyr`         | Transformación y ordenación de datos           |
| `readr`         | Lectura eficiente de archivos CSV y planos     |
| ***`tibble`***  | Versión moderna de `data.frame`                |
| `stringr`       | Manipulación de cadenas de texto               |
| `forcats`       | Manejo de factores (variables categóricas)     |
| `purrr`         | Programación funcional sobre listas y vectores |

------------------------------------------------------------------------



**Bibliografía recomendada**

- [Web oficial de tidyverse](https://www.tidyverse.org)


-   Wickham, H., & Grolemund, G. (2023). *R para ciencia de datos*.\
    Disponible en línea:\
    <https://r4ds.had.co.nz>
    
-   Dowle, M., & Srinivasan, A. (2024). *data.table: Extension of `data.frame`*. Paquete R. Disponible en: <https://cran.r-project.org/package=data.table>

- Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

**Introducción al paquete de los datos a usar `nycflights13`**

El paquete `nycflights13` contiene datos reales sobre todos los vuelos que salieron desde los aeropuertos de Nueva York durante el año 2013.

**¿Qué datos contiene el paquete?**

El paquete incluye 5 tablas principales:

-   `flights`: datos de vuelos
-   `airlines`: aerolíneas
-   `airports`: aeropuertos
-   `planes`: aviones
-   `weather`: clima

Podemos acceder a cada una directamente por su nombre:


------------------------------------------------------------------------

**Descripción general de las tablas**

Utilizamos las funciones:

dim(): para ver la dimensión de los datos.

str(): para mostrar la estructura del objetos de manera compacta y legible.

glimpse() : para mostrar un resumen estructural horizontal de los datos:

-   `int` enteros.

-   `dbl` dobles, o números reales.

-   `chr` caracteres o cadenas.

-   `dttm` fechas y horas (una fecha + una hora).

Otros tres tipos comunes de variables:

-   `lgl` significa lógico, `TRUE` (verdadero) o `FALSE` (falso).

-   `fctr` significa factores (categóricos).

-   `date` fechas.



1. `flights` — Datos de vuelos


2. `airlines` — Información de aerolíneas

3. `airports` — Información de aeropuertos

4. `planes` — Información de los aviones

5. `weather` — Condiciones climáticas por hora

------------------------------------------------------------------------

**Relaciones clave**

Lo veremos en detalle más adelante:

-   `flights$carrier` → `airlines$carrier`
-   `flights$tailnum` → `planes$tailnum`
-   `flights$origin`, `flights$dest` → `airports$faa`
-   `flights$origin` + `flights$time_hour` → `weather`

## Verbos en Dplyr:

Los verbos de `dplyr` permiten transformar datos de forma clara y estructurada.

Su sintaxis es intuitiva y permite encadenar operaciones paso a paso usando el operador `%>%`.

Los verbos de `dplyr` siguen una estructura muy regular:

``` r
datos %>% verbo(argumentos)
```
-   `datos`: es el conjunto de datos original (por ejemplo, `flights`)
-   `%>%`: se lee como "entonces", conecta pasos secuenciales
-   `verbo()`: es la función como `filter()`, `select()`, etc.
-   `argumentos`: lo que queremos hacer (condiciones, columnas, cálculos)

**El operador `%>%` – Pipe (tubo en español) del tidyverse (importancia de que sea gramático)**

El operador `%>%` (pipe) proviene del paquete `magrittr`, que forma parte del `tidyverse`.  
Se usa para **encadenar funciones**, permitiendo escribir código más limpio y legible.

| Plataforma  | Atajo de teclado       |
| ----------- | ---------------------- |
| **Windows** | `Ctrl` + `Shift` + `M` |
| **macOS**   | `Cmd` + `Shift` + `M`  |
| **Linux**   | `Ctrl` + `Shift` + `M` |


**¿Cómo se lee?**

> **“y luego”**.  
> Por ejemplo: *Toma los datos y luego filtra y luego resume*.

---

### Comparación:

Si por ejemplo, queremos agrupar los vuelos por aeropuerto de origen (origin) y calcula el retraso promedio en la salida (dep_delay) para cada uno de ellos (aeropuertos), asegurándonos de ignorar los valores perdidos (NA) en el cálculo de la media:



**Sin pipe (forma tradicional):**

**Con pipe (%>%):**

---

**Estructura del pipe:**

```r
objeto %>%
  funcion(argumentos)
```

Equivale a:

```r
funcion(objeto, argumentos)
```

Se puede seguir encadenando:

```r
datos %>%
  paso_1() %>%
  paso_2() %>%
  paso_3()
```

---

**Es importante:**

- Colocar `%>%` al final de la línea.
- Mejora la lectura especialmente en cadenas largas de transformación.
- No es necesario crear variables intermedias, lo que se traduce en ahorro en RAM

**Los argumentos del los verbos:**

-   Se separan por **comas**, no por `=`
-   En `mutate()` y `summarise()` se crean nuevas variables con `nombre = cálculo`

------------------------------------------------------------------------


### 1. `filter()` – Filtrar filas

`filter()` selecciona **filas que cumplen condiciones** lógicas.

- Supongamos que queremos ver todos los vuelos del 1 de enero

- Y si queremos ver todos los vuelos del 25 de diciembre

Esto crea un nuevo conjunto de datos, pero **no se guarda**, además, **NO** se modifica el conjunto de datos original.

Para guardarlo, por ejemplo los vuelos en navidad:

¿Qué pasa si encerramos toda la línea anterior en paréntesis?

La condición que acabamos de utilizar era un *Y*, si quisiéramos un *ó*, es decir, si queremos saber los vuelos del 1 de enero *ó* del 25 de diciembre

Si queremos, por ejemplo, ver el registro de vuelos con más de 100 minutos de retraso en la llegada

Vuelos que llegaron temprano o sin retraso (con 0 o menos minutos)

Si nos preguntamos cuáles son los valores únicos de aeropuertos de salida y de llegada?

Vuelos que salieron desde JFK o LGA

Otra manera de hacerlo, utilizando %in%

Cuando usamos filter() o cualquier otro filtro, podemos combinar condiciones con operadores como & (y), | (o), <, >, ==, !=, <=, >= y %in%.

Esto permite construir filtros muy potentes y específicos para quedarse solo con los datos que necesitamos.

## Ejercicios (Filter)

1. Vuelos con retraso de llegada de 2 horas o más

2. Vuelos con destino a Houston (IAH o HOU)

3. Vuelos operados por United, American o Delta

4. Vuelos que partieron en invierno del hemisferio sur (julio, agosto y septiembre)

5. Vuelos que llegaron más de 2 horas tarde pero no salieron tarde

6. Vuelos que se retrasaron al menos una hora, pero recuperaron más de 30 minutos mientras volaban (diferencia entre partida y llegada)


7. Crear una variable llamada vuelos_madrugada con los vuelos que partieron entre medianoche y las 6:00 a.m. (incluyente)

Cada uno de estos filtros permite construir subconjuntos del dataset original para hacer análisis más específicos y enfocados. También podemos almacenar los resultados en un objeto para reutilizarlos más adelante (como en el caso de la creación de vuelos_madrugada).

8. Uso de `between()` para simplificar filtros:

La función `between(x, a, b)` comprueba si los valores de `x` están entre `a` y `b` (ambos inclusive). Reemplaza expresiones como `x >= a & x <= b`, haciéndolas más legibles. Así, si repetimos el ejercicio de los vuelos de julio, agosto y septiembre, tendríamos:

9. Valores faltantes en los datos

¿Cuántos vuelos tienen `dep_time` faltante?


¿Qué variables tienen valores faltantes?

Las filas con datos faltantes generalmente corresponden a **vuelos cancelados**.

¿Por qué ciertas operaciones con `NA` no devuelven `NA`?





Sea x la edad de María. No sabemos qué edad tiene.

Sea y la edad de Juan. No sabemos qué edad tiene.

¿Tienen Juan y María la misma edad?

Explicación:

| Expresión       | Resultado | Justificación                                                                 |
|----------------|-----------|--------------------------------------------------------------------------------|
| `NA ^ 0`        | `1`       | Cualquier número (incluso desconocido) elevado a 0 es 1                        |
| `NA | TRUE`     | `TRUE`    | `OR` lógico: si una parte es `TRUE`, el resultado es `TRUE`                   |
| `FALSE & NA`    | `FALSE`   | `AND` lógico: si una parte es `FALSE`, ya no importa la otra                  |
| `NA * 0`        | `NA`      | Multiplicación: si uno es `NA`, el resultado es desconocido                   |

**En general:**

- Si el resultado puede determinarse sin conocer el valor faltante, **no devuelve `NA`**.
- Si depende del valor faltante, **sí devuelve `NA`**.



### 2. `arrange()` – Ordenar filas

`arrange()` **ordena** las filas por una o más variables.

Ahora, si queremos ordenar los vuelos por retraso en llegada de menor a mayor:


Y si lo necesitamos de mayor a menor:

También podemos ordenar teniendo en cuenta varias columnas a la vez:

## Ejercicios 2 con la función `arrange()`

1. Ordenar vuelos colocando primero los valores faltantes

2. Vuelos más retrasados en salida (mayor `dep_delay`).

3. Vuelos que salieron más temprano (menor `dep_time`), sin incluir datos faltantes.

4. Vuelos más rápidos (que viajaron a mayor velocidad (kilómetros / hora)

5. ¿Cuáles vuelos viajaron más lejos? ¿Cuál viajó más cerca?:




Es importante interpreta cada resultado y buscar patrones, por ejemplo, si ciertos destinos suelen ser los más lejanos o si algunas aerolíneas tienen más retrasos sistemáticos.



------------------------------------------------------------------------

### 3. `select()` – Seleccionar columnas

`select()` permite **elegir columnas específicas** de un conjunto de datos

Supongamos que queremos ver solo las columnas `year`, `month`, `day`, `dep_time`, `arr_time`:

Supongamos que queremos seleccionar varias columnas seguidas (en un rango), digamos entre dep_time y arr_time

Si quremos ver lo mismo pero utilizando %>%:

Si queremos seleccionar todas las columnas excepto las que están en un rango, digamos todas las que no están entre dep_time y arr_time


**Funciones auxiliares de `select()`**

Cuando tenemos muchas columnas, `dplyr` permite seleccionar variables por su nombre usando funciones auxiliares:

1. `starts_with("texto")`

Selecciona columnas que **comienzan** con una cadena:

Por ejemplo, si queremos seleccionar las columnas relacionadas con el despegue "Departure"

2. `ends_with("texto")`

Selecciona columnas que **terminan** en una cadena:

Por ejemplo, si necesitamos información sobre las columnas relacionadas con el tiempo (time)

3. `contains("texto")`

Selecciona columnas que **contienen** una cadena en cualquier parte:

Por ejemplo, si necesitamos recolectar información sobre la demora, en general de los vuelos (delay):

4. `num_range("prefijo", rango)`

Selecciona columnas con nombres secuenciales como `x1`, `x2`, ..., `x5`:


**Buenas prácticas**

Si se nombran (renombran) las columnas de manera coherente (por ejemplo, `dep_time`, `dep_delay`), se pueden aprovechar estas funciones para seleccionar subconjuntos de columnas fácilmente.

## Ejercicios 3 con `select()`

1. Seleccionar múltiples formas:

Selecciona las variables `dep_time`, `dep_delay`, `arr_time`, `arr_delay` usando distintos métodos:


La función matches() en R pertenece al paquete dplyr, que forma parte del ecosistema tidyverse. Es una de las funciones auxiliares que se utiliza en conjunto con select() para seleccionar columnas cuyos nombres coincidan con una expresión regular (regex).

¿Qué hace matches()?
matches() busca coincidencias en los nombres de las variables usando expresiones regulares. Es muy útil cuando tienes columnas con patrones en sus nombres y quieres seleccionarlas sin tener que escribirlas todas de forma manual.

2. Variable repetida



El resultado solo incluye una vez la columna `dep_time`, no genera error pero ignora repeticiones.
3. Uso de `any_of()`

La función any() en R no pertenece específicamente a dplyr, sino que es parte del núcleo base de R (base package). Es una función lógica muy útil que se utiliza para evaluar si al menos uno de los elementos de un vector lógico es TRUE.
¿Qué hace any()?
any() devuelve TRUE si al menos uno de los elementos evaluados es TRUE; de lo contrario, devuelve FALSE.

`any_of()` selecciona solo las variables que existen e **ignora silenciosamente** las que no existen.

4.  `contains()` y sensibilidad a mayúsculas

### `mutate()` – Crear nuevas variables

`mutate()` agrega **nuevas columnas** calculadas a partir de otras.

Si queremos calcular la velocidad de cada vuelo (utilizando la misma información que en el ejercicio de ordenamiento de antes::

Si queremos calcular la ganancia en tiempo de cada vuelo, es decir, si hay diferencias entre el retraso de despegue y de aterrizaje, a la vez que calculamos la ganancia por hora en vez de minutos:

Podemos ir anidando varias sentencias a la vez:

**Otras funciones útiles en `dplyr` relacionadas con Mutate:**

Aparte de `mutate()`, existen funciones que permiten realizar transformaciones más específicas sobre los datos. Veamos algunas de las más útiles:

1. `transmute()`

Es como `mutate()`, pero **solo conserva las variables nuevas** que se crean, descartando todas las demás.

Por ejemplo, si sólo necesitamos calcular velocidad, debido a que no necesitamos el resto de información, (descartamos el resto):



2. `lag()` y `lead()`

Permiten acceder al **valor anterior (`lag`) o posterior (`lead`)** de una variable. Útiles para comparar observaciones secuenciales (normalmente útiles en análisis de series temporales).




Por ejemplo, si queremos analizar el retraso en la llegada respecto al vuelo anterior/siguiente:

3. Funciones de acumulación: `cumsum()` y `cummean()`

- `cumsum()`: suma acumulada
- `cummean()`: media acumulada



Tener en cuenta que tenemos que manejar los **na**, ya que muchas funciones estadísticas como mean(), sum(), min(), max() y similares, generan errores con los valores perdidos.
Esto se puede manejar de muchas formas (lo veremos en detalle en el módulo II).
Por ahora, con la función replace_na(), que proviene del paquete tidyr (parte del tidyverse), que sirve para reemplazar los valores faltantes (NA) en una columna o dataframe con un valor eligido, o también, puede usarse na.rm = TRUE, cuando queramos calcular una estadística ignorando los NA, sin modificar los datos originales:


Por ejemplo, si queremos calcular el tiempo total  y el tiempo promedio acumulado del retraso en la llegada de los vuelos:

ifelse(is.na(arr_delay), 0, arr_delay)
Reemplaza los NA por 0, similar a replace_na(), pero sin usar tidyr.
No se pueden simplemente ignorar los NA en funciones como cumsum() o cummean() porque estas funciones no aceptan el argumento na.rm = TRUE, y por defecto propagan los NA.
Es decir, en cuanto aparece un NA, todo lo que viene después también se convierte en NA.
Esto es porque cumsum() asume que no sabe cuánto sumar si uno de los valores falta.


Si eliminamos los NAs antes del cálculo:

## Ejercicios 4 con `mutate()`

1. Convertir dep_time y sched_dep_time en minutos desde medianoche

2. Comparar tiempo de vuelo (air_time) con horario de llegada - horario de salida (arr_time - dep_time)

3. Vuelos más retrasados según min_rank()

4. Funciones trigonométricas de R

También incluye `asin()`, `acos()`, `atan()`, `sinh()`, `cosh()`, `tanh()`, etc.

Los ángulos de las funciones tienen que estar en radiantes. R no tiene una función directa para esto.

## `min_rank()` y `row_number()`

Permiten asignar **rangos** según el valor de una variable.

- `min_rank()`: asigna el mismo rango a empates
- `row_number()`: asigna rangos sin empates (rompe empates arbitrariamente)

Por ejemplo, si queremos crear un ranking de vuelos según retraso en llegada

**A tener en cuenta:**

- Estas funciones deben usarse **dentro de `mutate()` o `transmute()`**.
- `lag()` y `lead()` son ideales para detectar tendencias o diferencias entre registros.
- Las funciones acumuladas (`cumsum`, `cummean`) requieren orden si se desea análisis temporal.
- `min_rank` es más justo cuando hay empates que `row_number`.

------------------------------------
## FILTROS Y MUTATES AGRUPADOS

Para verlo mejor en el dataset de fligths, utilizamos una data ficticia:

Estamos formando dos grupos, A y B, cada uno tiene un valor en una métrica. Si yo quisiera aplicar un filtro, el filtro se aplicaría sobre toda la columna de métrica, la idea del **group_by** es que las operaciones que se hagan en el **mutate** o en el **filtro**, se van a aplicar dentro de los grupos, por ejemplo:

Si yo quiero una nueva columna que sea la suma total dentro de los grupos, como se observa a continuación o si lo que quiero es seleccionar la métrica más baja por grupo ¿qué hacemos? (reinicio de rango):

| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | ?       | ?     |
| A     | 3       | ?       | ?     |
| A     | 5       | ?       | ?     |
| B     | 2       | ?       | ?     |
| B     | 4       | ?       | ?     |
| B     | 6       | ?       | ?     |


creando un nuevo data set con la nueva agrupación


| Grupo | Métrica | La Suma | Orden |
|-------|---------|---------|-------|
| A     | 1       | 9       | 1     |
| A     | 3       | 9       | 2     |
| A     | 5       | 9       | 3     |
| B     | 2       | 12      | 1     |
| B     | 4       | 12      | 2     |
| B     | 6       | 12      | 3     |


---

En nuestros datos:

`summarise()` + `group_by()` – Resumir datos agrupados

- `group_by()` agrupa datos por variable(s).
- `summarise()` resume cada grupo con funciones como `mean()`, `n()`, etc.

**Calculemos el promedio de retraso por aeropuerto de origen:**


¿cómo calculo la media de retraso por día (by_day)?, ¿y por mes?

Ahora, si quisiéramos encontrar los mejores miembros (mejores tiempos) es decir los que llegaron más temprano o llegaron a tiempo

Por ejemplo, si queremos identificar todos los aeropuertos de destino (dest) a los que se voló menos de 20 veces en todo el año, la idea sería mostrar los destinos y el número total de vuelos que recibieron.

¿Cuántos destinos diferentes recibieron menos de 20 vuelos en total durante 2013?
¿Alguno de estos destinos parece ser un error o un dato atípico?

## Ejercicios con `summarise()` y exploración de datos agrupados

1. Formas de evaluar retraso típico

- `mean(arr_delay, na.rm = TRUE)` — promedio de retraso
- `median(arr_delay, na.rm = TRUE)` — mediana
- `sd(arr_delay, na.rm = TRUE)` — desviación estándar
- `IQR(arr_delay, na.rm = TRUE)` — rango intercuartílico
- `quantile(arr_delay, probs = 0.9, na.rm = TRUE)` — percentil 90


Un vuelo que se adelanta 15 minutos el 50% de las veces, y se retrasa 15 minutos el 50% de las veces.

Un vuelo que siempre llega con 10 minutos de retraso.


2. ¿Qué es más importante?

Depende del objetivo: la llegada afecta al pasajero, la salida al aeropuerto.

3. Consulta la tabla de funciones útiles de mutación y filtrado. Describe cómo cambia cada operación al combinarla con la agrupación.




Cuando aplicamos funciones de mutación (mutate()) o filtrado (filter()) a un dataframe sin agrupar, las operaciones se hacen sobre todo el conjunto de datos.

Sin embargo, al agrupar (group_by()), el comportamiento de estas funciones cambia:
cada grupo se trata de forma independiente, como si tuvieras varios subconjuntos separados, y luego se combinan los resultados.
Ejemplo con mutate() sin agrupar

Ejemplo con mutate() agrupado

4. ¿Qué avión (tailnum) tiene el peor registro de puntualidad?

4. ¿A qué hora del día deberías volar para evitar retrasos al máximo?

5. Para cada destino, calcule el total de minutos de retraso.

6. Para cada vuelo, calcule la proporción del retraso total en su destino.

6. Mira cada destino. ¿Puede encontrar vuelos que sean sospechosamente rápidos? (es decir, vuelos que representen un posible error de introducción de datos). Calcule el tiempo de vuelo de un vuelo en relación con el vuelo más corto a ese destino. ¿Qué vuelos sufrieron más retrasos en el aire?

------------------------
------------------------
## Relación entre tablas: ¿para qué sirven los joins?

En la mayoría de los análisis de datos no trabajamos con una única tabla. Lo habitual es que tengamos varias tablas que contienen información relacionada entre sí y necesitemos combinarlas para responder a nuestras preguntas. A este conjunto se le conoce como **datos relacionales** porque lo que realmente importa no es cada tabla por separado, sino cómo se relacionan entre sí.

Estas relaciones se establecen siempre entre pares de tablas. Incluso si el análisis involucra más de dos tablas, todo se reduce a cómo se conectan de forma individual cada par. A veces, estas relaciones pueden darse incluso dentro de la misma tabla, por ejemplo, cuando una tabla de empleados incluye referencias a sus jefes, quienes también están en esa misma tabla.

Para manejar este tipo de estructuras relacionales, necesitamos funciones que permitan operar entre dos (o más) tablas a la vez. En `dplyr`, estas funciones se agrupan en tres familias principales:

Tipos de operaciones con datos relacionales

- **Uniones con mutación (`mutating joins`)**: combinan columnas de dos tablas según observaciones coincidentes. Permiten enriquecer una tabla con información de otra.
- **Uniones de filtrado (`filtering joins`)**: seleccionan o eliminan filas de una tabla dependiendo de si tienen coincidencias en otra tabla.
- **Operaciones de conjuntos (`set operations`)**: tratan las filas como elementos de conjuntos y permiten aplicar intersecciones, uniones y diferencias.

Estas herramientas son fundamentales cuando trabajamos con datos almacenados en sistemas de bases de datos relacionales, que es donde suelen encontrarse este tipo de estructuras. Aunque muchas de estas tareas también pueden hacerse con SQL, `dplyr` facilita el análisis de datos al ofrecer una sintaxis más amigable y centrada en las tareas más comunes del análisis.

Por ejemplo, en `flights` encontramos códigos de aerolíneas (`carrier`), pero sus nombres están en `airlines`. Para analizarlos juntos, debemos unirlos.

## Tipos de joins en `dplyr`

| Función         | ¿Qué hace?                                                      |
|----------------|------------------------------------------------------------------|
| `inner_join()` | Solo las coincidencias en ambas tablas  (Intersección)                        |
| `left_join()`  | Todos los registros de la tabla izquierda                     |
| `right_join()` | Todos los registros de la tabla derecha                        |
| `full_join()`  | Todos los registros de ambas tablas(AUB)                            |
| `semi_join()`  | Registros de la izquierda con coincidencia (sin agregar columnas) |
| `anti_join()`  | Registros de la izquierda sin coincidencia                     |

Se puede explorar más con vignette. Pero, ¿Qué es una vignette?:

Es un documento en HTML o PDF incluido en un paquete.
Tiene código R explicativo, gráficos y teoría.
Se utiliza para aprender a usar el paquete con contexto. (No funciona en google colab, veremos sus funciones en RStudio), sin emabrgo, es como si abrieramos:

[vignette("two-table", package = "dplyr") ](https://dplyr.tidyverse.org/articles/two-table.html)




**¿Este tipo de relaciones modifican el dataframe original?**

No. Los joins **devuelven una nueva tabla**. Para conservarla, debemos  asignarla a un objeto.

### Llaves primarias y secundarias

En los datos relacionales, cada tabla suele tener una **clave primaria**, que es una columna (o conjunto de columnas) que identifica de manera única cada fila.

También puede tener una o varias **claves foráneas**, que son columnas que contienen identificadores de otra tabla, permitiendo así establecer relaciones entre ellas.

Por ejemplo:
- En `flights`, la columna `carrier` se refiere a una clave en la tabla `airlines`.
- Las columnas `origin` y `dest` hacen referencia a códigos de aeropuerto presentes en `airports`.


### Tipos de uniones (`joins`) con `dplyr`

`left_join(x, y)`

Devuelve todas las filas de `x` y añade las columnas de `y` que coincidan. Si no hay coincidencia, se completan con `NA`.

`right_join(x, y)`

Como el `left_join()`, pero conserva todas las filas de `y`.

`inner_join(x, y)`

Devuelve solo las filas que tienen coincidencias en ambas tablas.

`full_join(x, y)`

Conserva todas las filas de ambas tablas. Si no hay coincidencia en alguna clave, se completan con `NA`.

Estas funciones se utilizan comúnmente cuando deseamos enriquecer una tabla con información de otra.

### Operaciones de conjuntos

Estas funciones comparan dos conjuntos de observaciones (filas), asumiendo que ambas tablas tienen las mismas columnas:

- `intersect(x, y)`: Filas comunes a ambas tablas.
- `union(x, y)`: Todas las filas que aparecen en al menos una tabla.
- `setdiff(x, y)`: Filas que están en `x` pero no en `y`.

Estas funciones permiten analizar las diferencias y similitudes entre datasets.


---

Ejemplos con datos ficticios

Inerjoin:

Todos los de x:


Todos los de y:


Todos:

Coincidencias en x:

Sin coincidencias:

Qué pasa si las columnas de ambas tablas no tienen el mismo nombre

**Producto cartesiano:**

Dado dos conjuntos de datos A y B, el producto cartesiano (A × B) es el conjunto de todas las combinaciones posibles entre las filas de A y las filas de B.

Si A tiene n filas y B tiene m filas, entonces A × B tendrá n × m filas.
En términos de JOIN, el producto cartesiano es lo que ocurre cuando se hace un join sin especificar una clave de unión (by = NULL).
En SQL se llama CROSS JOIN.
En dplyr, se obtiene con inner_join() sin by.



### Aplicación real con `nycflights13`

**Relaciones existentes entre las tablas de nycflights13**

![Relación entre tablas de nycflights13](https://github.com/ednavivianasegura/AccesoImages/blob/main/nycflights.png?raw=true)

Nota: Es importante saber que la ubicación de la imagen tiene que ser en un directorio público, de lo contrario no se puede visualizar

| Tabla base  | Relación                      | Tabla secundaria |
|-------------|-------------------------------|------------------|
| `flights`   | `carrier`                     | `airlines`       |
| `flights`   | `tailnum`                     | `planes`         |
| `flights`   | `origin`                      | `airports`       |
| `flights`   | `origin` + `time_hour`        | `weather`        |

Información sobre los data sets a usar: [nycflights13](https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf)

Ejemplo práctico: unir `flights` con `airlines`

## Ejercicios:

1. Dibujar rutas de vuelo, **pregunta:** ¿Qué variables necesitamos para dibujar la ruta de cada avión desde su origen hasta su destino? ¿Qué tablas deberíamos combinar?

Necesitamos:
- Código del aeropuerto de origen y destino (en `flights`: `origin` y `dest`)
- Coordenadas de los aeropuertos (`airports`: `lat`, `lon`)

Combinaciones necesarias:

2. Relación entre clima y aeropuertos, **pregunta:** ¿Cuál es la relación entre `weather` y `airports`?

- `weather` contiene datos climáticos **solo de los aeropuertos de origen** de Nueva York: `JFK`, `LGA`, `EWR`
- Se relaciona con `airports` mediante `origin` → `faa`

Relación esperada:
Cada fila en `weather` corresponde a un aeropuerto (por `origin`), una fecha y una hora (`time_hour`). Se puede vincular con `flights` usando:

 3. ¿Y si `weather` tuviera datos de todo el país?

Si la tabla `weather` incluyera todos los aeropuertos de EE.UU., la clave sería:
- `origin` + `time_hour`

Se podría unir con `flights` igual que antes, pero los datos incluirían más aeropuertos:


4. Días especiales, **pregunta:** ¿Cómo representarías en un data frame los días especiales del año?

Tabla ficticia `dias_especiales`:

Clave primaria: `year`, `month`, `day`

Tenemos que unirla con `flights`:

Esto permite identificar los vuelos realizados en días especiales.

---


5. Agregar una clave sustituta (surrogate key) a `flights`



<h3>Joins en <code>dplyr</code> y su equivalencia en SQL</h3>

<p>
Las funciones de unión de <code>dplyr</code> como <code>inner_join()</code>, <code>left_join()</code>, <code>right_join()</code> o <code>full_join()</code> permiten realizar combinaciones entre tablas de forma clara y eficiente. Estas funciones preservan el orden de las filas y son más fáciles de leer que <code>merge()</code> de base R.
</p>

<p>
El diseño de estas funciones está inspirado en SQL, por lo que la traducción es directa:
</p>

<table border="1" style="border-collapse: collapse; text-align: left; width: 100%;">
  <thead style="background-color: #f2f2f2;">
    <tr>
      <th>dplyr</th>
      <th>SQL equivalente</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td><code>inner_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x INNER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>left_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x LEFT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>right_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x RIGHT OUTER JOIN y USING (z)</code></td>
    </tr>
    <tr>
      <td><code>full_join(x, y, by = "z")</code></td>
      <td><code>SELECT * FROM x FULL OUTER JOIN y USING (z)</code></td>
    </tr>
  </tbody>
</table>

<p><strong>Nota:</strong> En SQL, los términos <code>INNER</code> y <code>OUTER</code> son opcionales y frecuentemente se omiten.</p>

<h4>Uniendo columnas con nombres diferentes</h4>

<p>Cuando las columnas clave no tienen el mismo nombre en ambas tablas, en <code>dplyr</code> puedes usar:</p>

<pre><code>inner_join(x, y, by = c("a" = "b"))</code></pre>

<p>Esto se traduce en SQL como:</p>

<pre><code>SELECT * FROM x INNER JOIN y ON x.a = y.b</code></pre>

<p>
Esto demuestra que SQL admite más tipos de combinaciones (incluyendo aquellas no basadas en igualdad), mientras que <code>dplyr</code> se enfoca en las más comunes y legibles.
</p>


### Ejercicios finales:

Ejercicio 1: ¿Cuántos vuelos no tienen información de avión?







2.  ¿Todos los aviones tienen al menos un vuelo?




---

3. ¿Cuáles aerolíneas aparecen en `flights` pero no están en `airlines`?




---
4. ¿Qué aeropuertos aparecen como destinos pero no como origen?




---
5. ¿Qué aeropuertos aparecen como origen pero nunca como destino?



6. ¿Qué significa que un vuelo tenga `tailnum` faltante? ¿Qué variable lo explica?






---

7. Filtrar vuelos que tienen aviones con al menos 100 vuelos








9. Encontrar las 48 horas con más retrasos y cruzarlas con datos climáticos


10. Interpretar anti_join con aeropuertos




11. Verificar si un avión es operado por una sola aerolínea



## data.table

`data.table` es una alternativa de alto rendimiento a `data.frame`, optimizada para manejar grandes volúmenes de datos de forma eficiente. Su sintaxis concisa permite combinar filtrado, selección y agrupación en una sola línea:

``` r
DT[i, j, by]
```

-   `i`: condiciones para filtrar filas.
-   `j`: operaciones sobre columnas.
-   `by`: agrupamiento por variables.

Ventajas: - Muy eficiente en términos de velocidad y uso de memoria. - Permite modificar datos sin copiar (in-place). - Ideal para trabajar con millones de filas.

En esta sección vamos a replicar parte de los ejercicios realizados en la sección anterior, pero esta vez con data.table.

------------------------------------------------------------------------


### Filtrar:

### Ordenar:

### Seleccionar

### Crear nuevas columnas (mutate)

### Ranking:

### Agrupación y resumen:

### Tablas relacionadas:
Supongamos que tenemos dos tablas: flights_dt y airports_dt.

Más relaciones:

`base::merge()` puede realizar los cuatro tipos de uniones que crean variables ("traen vairalbes de otras bases"):

| `dplyr`             | `merge` en base R                                      |
|---------------------|--------------------------------------------------------|
| `inner_join(x, y)`  | `merge(x, y)`                                          |
| `left_join(x, y)`   | `merge(x, y, all.x = TRUE)`                            |
| `right_join(x, y)`  | `merge(x, y, all.y = TRUE)`                            |
| `full_join(x, y)`   | `merge(x, y, all.x = TRUE, all.y = TRUE)`              |

**Ventajas de los verbos específicos de `dplyr`:**

- Expresan más claramente la intención del código.
- Las diferencias entre los tipos de unión son más evidentes que en los argumentos de `merge()`.
- Las uniones con `dplyr` son mucho más rápidas y no alteran el orden de las filas.

`dplyr` se inspira en SQL, por lo que su sintaxis resulta más intuitiva si ya conoces bases de datos.


Ejercicios data.table:

1. Vuelos que llegaron con más de 2 horas de retraso pero no salieron tarde

2. Vuelos que partieron entre medianoche y las 6:00 a.m. (inclusive)

3. Vuelos ordenados por mayor retraso en salida

4. Vuelos más rápidos (velocidad = distancia / tiempo)

5. Seleccionar columnas desde dep_time hasta arr_time

6. Seleccionar columnas que comienzan con "dep" o terminan con "time"

7. Convertir dep_time y sched_dep_time en minutos desde medianoche

8. Simulación de vuelo que se adelanta o retrasa 15 min (50% cada uno)

9. Avión (tailnum) con peor puntualidad promedio

10. Número de vuelos sin información de avión

11. Aerolíneas que aparecen en flights pero no están en airlines

12. Aeropuertos que aparecen como origen pero nunca como destino