# Data wrangling con `{dplyr}` y `{tidyr}`

El término *data wrangling* no tiene una traducción directa al español, pero hace referencia a un proceso que consiste en transformar datos crudos en otro formato que pueda ser usado para su análisis, y por esta razón, tener un objetivo de análisis es importante, ya que con base en ese objetivo se planifica la manipulación de la estructura, granularidad, precisión, etc. Generalmente, implica alguno(s) de los siguientes pasos:

1. Descubrir: proceso de familiarización en el que se conceptualiza cómo podrían ser usados los datos, si existen variables incompletas, patrones reconocibles de errores, etc.
2. Estructurar: transformar para que pueda ser aprovechado más fácilmente (por ejemplo, usando el formato `tidy` o `long-format`, que veremos más adelante).
3. Limpiar: remover errores inherentes, que pueden surgir en varias formas. Por ejemplo, en bases de datos que han sido llenadas a mano por diferentes personas, una columna `Años` puede tener entradas que no sigan el mismo formato. Reducir los errores de tal forma que no influyan en los análisis.
4. Enriquecer: una vez que se entiende un conjunto de datos y se ha transformado a un conjunto usable, se puede tomar la decisión de si enriquecerlo con un conjunto de datos adicional.
5. Validar: verificar que el conjunto de datos es consistente y de calidad. Por ejemplo, si una columna en datos tabulares representa una variable, debe tener el mismo tipo de datos. Si una fila representa una observación, debe tener datos solo de esa observación, etc. Algunas reglas de consistencia son: tipo de datos (enteros, punto flotante, cadenas de caracteres), rango de datos (e.g., 0-100; por ejemplo, si una columna son Años, no puede tener valores negativos o mayores a 150), unicidad (e.g., códigos postales o un ID), consistencia de expresiones (e.g., usar solo una entre CP, C.P., Código Postal, CodPost, etc), valores nulos.

## `tidy` data

El formato [`tidy`](https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html#:~:text=Tidy%20data%20is%20a%20standard,Every%20row%20is%20an%20observation.) es un estándar de presentación que mapea el significado de un conjunto de datos a su estructura. Consiste básicamente en las siguientes tres reglas:

1. Cada columna es una variable.
2. Cada fila es una observación.
3. Cada celda es un valor único.

## `{dplyr}`

[`{dplyr}`](https://dplyr.tidyverse.org/) es un paquete para la manipulación de datos que consiste en un conjunto de 'verbos' (o funciones) como:

- `mutate()`: añade nuevas variables (columnas) 
- `select()`
- `filter()`
- `summarise()`

## `{tidyr}`



In [1]:
library(tidyverse)
head(mpg)

── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.1 ──

[32m✔[39m [34mggplot2[39m 3.3.6     [32m✔[39m [34mpurrr  [39m 0.3.4
[32m✔[39m [34mtibble [39m 3.1.7     [32m✔[39m [34mdplyr  [39m 1.0.9
[32m✔[39m [34mtidyr  [39m 1.2.0     [32m✔[39m [34mstringr[39m 1.4.0
[32m✔[39m [34mreadr  [39m 2.1.2     [32m✔[39m [34mforcats[39m 0.5.1

── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()



manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<chr>,<int>,<int>,<chr>,<chr>
audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact


In [2]:
mpg <- mpg %>% 
   mutate(avg_mpg = (cty+hwy)/2)

head(mpg)

manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class,avg_mpg
<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<chr>,<int>,<int>,<chr>,<chr>,<dbl>
audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,23.5
audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,25.0
audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,25.5
audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,25.5
audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,21.0
audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact,22.0


In [None]:
# El df relig_income viene por defecto en tidyverse; el conjunto de datos
# explora la relación entre ingreso y religión en USA. Tiene 3 *variables*:
# religión, ingreso y frecuencia (de esas dos variables). El ingreso es una
# variable categórica (dada por rangos)

# imprimir en consola y observar su estructura
head(relig_income)
# o también View(relig_income)

# Los nombres de las columnas no definen variables. De hecho, todos los nombres
# pertenencen a una variable (ingreso). Tenemos que forzar el conjunto a tidy
# para eso, usamos pivot_longer del paquete tidyr, tidyr::pivot_longer()
# ver ayuda ?pivot_longer

relig_income %>% # función 'pipe'
  pivot_longer(
    cols = -religion, # todas excepto religion, más rápido
    names_to = 'income', # crea variable 'income' con nombres de columnas
    values_to = 'freq' # crea var 'freq' con los valores de las columnas
  ) 

# asignar a relig_income_tidy
relig_income_tidy <- relig_income %>% 
  pivot_longer(
    cols = -religion,
    names_to = 'income',
    values_to = 'freq'
  )

# ver primeros 6 de relig_income_tidy
head(relig_income_tidy)