<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_Curso_R/blob/main/ERAP_R_Course.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
title: "Manipulación de datos con R"
author: "Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández"
date: "2025-05"
subtitle: "Modulo I: Manipulación de Datos con dplyr y data.table"
institution: "Universidad de La Rioja"
output: html_document
---

**Contenido del curso:**

**Módulo 1**: Manipulación de Datos con dplyr y data.table (5 horas) Objetivo: Aprender a manipular y transformar datos usando las herramientas más comunes de R. Práctica: Transformar un conjunto de datos usando diferentes métodos.

**Módulo 2**: Manejo de Datos Desordenados y Falta de Información (5 horas) Objetivo: Aprender a limpiar datos desordenados, manejar datos faltantes y formatear conjuntos de datos. Práctica: Limpieza y estructuración de un conjunto de datos desorganizado.

**Módulo 3**: Visualización de Datos con ggplot2 (5 horas) Objetivo: Crear gráficos avanzados para analizar visualmente los datos utilizando ggplot2. Práctica: Crear una serie de gráficos que exploren visualmente un conjunto de datos.

**Módulo 4**: Exploración de Datos y Estadística Descriptiva (5 horas) Objetivo: Aplicar métodos estadísticos para explorar y describir conjuntos de datos. Práctica: Realizar un análisis descriptivo sobre un conjunto de datos usando técnicas estadísticas básicas

# Modulo I: Manipulación de Datos con dplyr y data.table: introducción

En esta sección se presentan dos de las librerías más potentes para manipulación de datos en R: `dplyr` y `data.table`.

Por su sencillez, desde el punto de vista académico, iniciaremos con Dplyr, luego repetiremos los ejercicios con data.table, mostrando sus diferencias y bondades.
------------------------------------------------------------------------

## dplyr

`dplyr` forma parte del ecosistema **tidyverse**, diseñado para trabajar con datos de forma ordenada, clara y legible. Utiliza funciones denominadas *verbos* para transformar data frames:

-   `filter()`: selecciona filas según condiciones lógicas.
-   `select()`: selecciona columnas específicas también teniendo en cuenta condiciones.
-   `mutate()`: crea nuevas variables o transforma existentes.
-   `arrange()`: ordena filas.
-   `group_by()` + `summarise()`: agrupa y resume datos.

------------------------------------------------------------------------

**¿Qué es tidyverse?**

El **tidyverse** es una colección de paquetes R con una filosofía de diseño común: trabajar con datos ordenados (*tidy data*).

**Principales paquetes del tidyverse:**

| Paquete         | Función principal                              |
|-----------------|------------------------------------------------|
| ***`dplyr`***   | Manipulación de datos                          |
| ***`ggplot2`*** | Visualización de datos                         |
| `tidyr`         | Transformación y ordenación de datos           |
| `readr`         | Lectura eficiente de archivos CSV y planos     |
| ***`tibble`***  | Versión moderna de `data.frame`                |
| `stringr`       | Manipulación de cadenas de texto               |
| `forcats`       | Manejo de factores (variables categóricas)     |
| `purrr`         | Programación funcional sobre listas y vectores |

------------------------------------------------------------------------


In [2]:
??tidyverse

## data.table

`data.table` es una alternativa de alto rendimiento a `data.frame`, optimizada para manejar grandes volúmenes de datos de forma eficiente. Su sintaxis concisa permite combinar filtrado, selección y agrupación en una sola línea:

``` r
DT[i, j, by]
```

-   `i`: condiciones para filtrar filas.
-   `j`: operaciones sobre columnas.
-   `by`: agrupamiento por variables.

Ventajas: - Muy eficiente en términos de velocidad y uso de memoria. - Permite modificar datos sin copiar (in-place). - Ideal para trabajar con millones de filas.

------------------------------------------------------------------------

**Bibliografía recomendada**

-   Wickham, H., & Grolemund, G. (2023). *R para ciencia de datos*.\
    Disponible en línea:\
    <https://r4ds.had.co.nz>
-   Dowle, M., & Srinivasan, A. (2024). *data.table: Extension of `data.frame`*. Paquete R. Disponible en: <https://cran.r-project.org/package=data.table>

In [3]:
# Función para instalar si no está instalado
instalar_si_no <- function(paquete) {
    if (!requireNamespace(paquete, quietly = TRUE)) {
    install.packages(paquete, repos = "https://cloud.r-project.org")
  }
  library(paquete, character.only = TRUE)
}

# Lista de paquetes a verificar
paquetes <- c("tidyverse", "data.table", "psych", "moments", "nycflights13", "dplyr")

# Instalar y cargar todos
invisible(lapply(paquetes, instalar_si_no))

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.2     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.4     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors

Attaching package: ‘data.table’


The following objects are masked from ‘package:lubridate’:

    hour, isoweek, mday, minute, month, quarter, second, wday, week,
    y

**Introducción al paquete de los datos a usar `nycflights13`**

El paquete `nycflights13` contiene datos reales sobre todos los vuelos que salieron desde los aeropuertos de Nueva York durante el año 2013.

**¿Qué datos contiene el paquete?**

El paquete incluye 5 tablas principales:

-   `flights`: datos de vuelos
-   `airlines`: aerolíneas
-   `airports`: aeropuertos
-   `planes`: aviones
-   `weather`: clima

Podemos acceder a cada una directamente por su nombre:

In [5]:
# Acceso a las tablas
head(flights)


year,month,day,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,<dbl>,<chr>,<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
2013,1,1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,2013-01-01 05:00:00
2013,1,1,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,2013-01-01 05:00:00
2013,1,1,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,2013-01-01 05:00:00
2013,1,1,544,545,-1,1004,1022,-18,B6,725,N804JB,JFK,BQN,183,1576,5,45,2013-01-01 05:00:00
2013,1,1,554,600,-6,812,837,-25,DL,461,N668DN,LGA,ATL,116,762,6,0,2013-01-01 06:00:00
2013,1,1,554,558,-4,740,728,12,UA,1696,N39463,EWR,ORD,150,719,5,58,2013-01-01 05:00:00


In [6]:
head(airlines)

carrier,name
<chr>,<chr>
9E,Endeavor Air Inc.
AA,American Airlines Inc.
AS,Alaska Airlines Inc.
B6,JetBlue Airways
DL,Delta Air Lines Inc.
EV,ExpressJet Airlines Inc.


In [7]:

head(airports)

faa,name,lat,lon,alt,tz,dst,tzone
<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
04G,Lansdowne Airport,41.13047,-80.61958,1044,-5,A,America/New_York
06A,Moton Field Municipal Airport,32.46057,-85.68003,264,-6,A,America/Chicago
06C,Schaumburg Regional,41.98934,-88.10124,801,-6,A,America/Chicago
06N,Randall Airport,41.43191,-74.39156,523,-5,A,America/New_York
09J,Jekyll Island Airport,31.07447,-81.42778,11,-5,A,America/New_York
0A9,Elizabethton Municipal Airport,36.37122,-82.17342,1593,-5,A,America/New_York


In [8]:

head(planes)

tailnum,year,type,manufacturer,model,engines,seats,speed,engine
<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<chr>
N10156,2004,Fixed wing multi engine,EMBRAER,EMB-145XR,2,55,,Turbo-fan
N102UW,1998,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N103US,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N104UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan
N10575,2002,Fixed wing multi engine,EMBRAER,EMB-145LR,2,55,,Turbo-fan
N105UW,1999,Fixed wing multi engine,AIRBUS INDUSTRIE,A320-214,2,182,,Turbo-fan


In [9]:

head(weather)

origin,year,month,day,hour,temp,dewp,humid,wind_dir,wind_speed,wind_gust,precip,pressure,visib,time_hour
<chr>,<int>,<int>,<int>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dttm>
EWR,2013,1,1,1,39.02,26.06,59.37,270,10.35702,,0,1012.0,10,2013-01-01 01:00:00
EWR,2013,1,1,2,39.02,26.96,61.63,250,8.05546,,0,1012.3,10,2013-01-01 02:00:00
EWR,2013,1,1,3,39.02,28.04,64.43,240,11.5078,,0,1012.5,10,2013-01-01 03:00:00
EWR,2013,1,1,4,39.92,28.04,62.21,250,12.65858,,0,1012.2,10,2013-01-01 04:00:00
EWR,2013,1,1,5,39.02,28.04,64.43,260,12.65858,,0,1011.9,10,2013-01-01 05:00:00
EWR,2013,1,1,6,37.94,28.04,67.21,240,11.5078,,0,1012.4,10,2013-01-01 06:00:00



------------------------------------------------------------------------

**Descripción general de las tablas**

Utilizamos las funciones:

dim(): para ver la dimensión de los datos.

str(): para mostrar la estructura del objetos de manera compacta y legible.

glimpse() : para mostrar un resumen estructural horizontal de los datos:

-   `int` enteros.

-   `dbl` dobles, o números reales.

-   `chr` caracteres o cadenas.

-   `dttm` fechas y horas (una fecha + una hora).

Otros tres tipos comunes de variables:

-   `lgl` significa lógico, `TRUE` (verdadero) o `FALSE` (falso).

-   `fctr` significa factores (categóricos).

-   `date` fechas.

1. `flights` — Datos de vuelos

In [10]:
??flights
dim(flights)
str(flights)
glimpse(airlines)

tibble [336,776 × 19] (S3: tbl_df/tbl/data.frame)
 $ year          : int [1:336776] 2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
 $ month         : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
 $ day           : int [1:336776] 1 1 1 1 1 1 1 1 1 1 ...
 $ dep_time      : int [1:336776] 517 533 542 544 554 554 555 557 557 558 ...
 $ sched_dep_time: int [1:336776] 515 529 540 545 600 558 600 600 600 600 ...
 $ dep_delay     : num [1:336776] 2 4 2 -1 -6 -4 -5 -3 -3 -2 ...
 $ arr_time      : int [1:336776] 830 850 923 1004 812 740 913 709 838 753 ...
 $ sched_arr_time: int [1:336776] 819 830 850 1022 837 728 854 723 846 745 ...
 $ arr_delay     : num [1:336776] 11 20 33 -18 -25 12 19 -14 -8 8 ...
 $ carrier       : chr [1:336776] "UA" "UA" "AA" "B6" ...
 $ flight        : int [1:336776] 1545 1714 1141 725 461 1696 507 5708 79 301 ...
 $ tailnum       : chr [1:336776] "N14228" "N24211" "N619AA" "N804JB" ...
 $ origin        : chr [1:336776] "EWR" "LGA" "JFK" "JFK" ...
 $ dest          : ch