![imagenes](logo.png)

# Datos "tidy"

Ahora aprendamos sobre el concepto de formato de datos "tidy" (es decir, formato de datos "ordenado") con un ejemplo del paquete ``fivethirtyeigh``. El paquete ``fivethirtyeight`` brinda acceso a los conjuntos de datos utilizados en muchos artículos publicados por el sitio web de periodismo de datos [FiveThirtyEight.com](https://fivethirtyeight.com/). Para obtener una lista completa de los dataframes incluidos en el paquete ``fivethirtyeight``, consulta la página web del paquete en: https://fivethirtyeight-r.netlify.app/articles/fivethirtyeight.html.

In [None]:
#install.packages("fivethirtyeight")
library(fivethirtyeight)
library(tidyverse)

Centremos nuestra atención en el dataframe de bebidas ``drinks``:

In [None]:
drinks

In [None]:
?drinks

Después de leer la ayuda ejecutando ``?drinks``, verás que ``drinks`` es un dataframe que contiene los resultados de una encuesta sobre la cantidad promedio de porciones de cerveza, licores y vino que se consumen en 193 países. Estos datos se informaron originalmente en FiveThirtyEight.com en el artículo de Mona Chalabi: [ “Dear Mona Followup: Where Do People Drink The Most Beer, Wine And Spirits?”](https://fivethirtyeight.com/features/dear-mona-followup-where-do-people-drink-the-most-beer-wine-and-spirits/).

Apliquemos algunas de las funciones de procesamiento de datos que aprendimos en el **Capítulo 3**:

1. Filtra las bebidas para considerar solo 5 países: Estados Unidos (USA), China (China), Italia (Italy), Arabia Saudita (Saudi Arabia) y México (Mexico).
2. Luego selecciona todas las columnas excepto total de litros de alcohol (``total_litres_of_pure_alcohol``) usando el signo ``-``.
3. Luego renombra las variables ``beer_servings``, ``spirit_servings``, y ``wine_servings`` como ``beer``, ``spirit`` y ``wine``, respectivamente.

Llama ``drinks_smaller`` al dataframe obtenido

In [None]:
drink_smaller <- drinks %>%
    filter(country %in% c("USA","China","Italy","Saudi Arabia","Mexico")) %>%
    select(-total_litres_of_pure_alcohol) %>%
    rename(beer = beer_servings, spirit = spirit_servings, wine = wine_servings)

drink_smaller

Ahora hagámonos una pregunta: usando ``drinks_smaller``, ¿cómo crearíamos el diagrama de barras de lado a lado de la siguiente figura? 

![imagenes](im014.png)

Analicemos la gramática de los gráficos:

* La variable categórica ``country``, que cuenta con cinco niveles (China, Italia, Arabia Saudita, EE. UU. y México), tendría que asignarse a la posición x de las barras.

* Las porciones de la variable numérica tendrían que asignarse a la posición y de las barras (la altura de las barras).

* El tipo de variable categórica con tres niveles (cerveza, licor, vino) tendría que asignarse al color de relleno de las barras.

Observa que ``drinks_smaller`` tiene tres variables separadas: ``beer``, ``spirit`` y ``wine``. Sin embargo, para usar la función ``ggplot()`` para recrear el gráfico de barras de arriba necesitamos un solo tipo de variable con tres valores posibles: ``beer``, ``spirit`` y ``wine``. 

Entonces podríamos asignar esta variable de tipo a la estética de relleno de nuestra trama. En otras palabras, para recrear el diagrama de barras anterior, nuestro marco de datos tendría que verse así:

|country      |type   | servings|
|:------------|:------|--------:|
|China        |beer   |       79|
|China        |spirit |      192|
|China        |wine   |        8|
|Italy        |beer   |       85|
|Italy        |spirit |       42|
|Italy        |wine   |      237|
|Mexico       |beer   |      238|
|Mexico       |spirit |       68|
|Mexico       |wine   |        5|
|Saudi Arabia |beer   |        0|
|Saudi Arabia |spirit |        5|
|Saudi Arabia |wine   |        0|
|USA          |beer   |      249|
|USA          |spirit |      158|
|USA          |wine   |       84|

LLamemos ``drinks_smaller_tidy`` a esta última tabla.

Nota que, si bien ``drinks_smaller`` y ``drinks_smaller_tidy`` tienen forma rectangular y contienen los mismos 15 valores numéricos (3 tipos de alcohol de 5 países), tienen un formato diferente. ``drinks_smaller`` se formatea en lo que se conoce como formato "ancho" (wide), mientras que ``drinks_smaller_tidy`` se formatea en lo que se conoce como formato "largo/estrecho" (long).

En el contexto de hacer Ciencia de datos en **R**, el formato largo/estrecho también se conoce como formato **"tidy"**. Para poder utilizar los paquetes ``ggplot2`` y ``dplyr`` para la visualización de datos y la gestión de datos, tus dataframes de entrada deben estar, por lo general aunque no siempre, en formato tidy. Por lo tanto, todos los datos que no sean tidy deben convertirse primero. 

Antes de convertir dataframes no "ordenados" como ``drinks_smaller`` en dataframes "ordenados" como ``drinks_smaller_tidy``, definamos datos tidy.

## Definición de datos tidy

Seguramente has escuchado la palabra "ordenar" en tu vida:

* "¡Ordena tu habitación!"
* "Escribe tu tarea de manera ordenada para que sea más fácil hacerte comentarios".
* El libro más vendido de Marie Kondo, The Life-Changing Magic of Tidying Up: The Japanese Art of Decluttering and Organizing, y la serie de televisión de Netflix Tidying Up with Marie Kondo.
* "No soy ni mucho menos una persona ordenada, y los montones de libros sin leer en la mesa de café y junto a mi cama tienen una cualidad lastimera y suplicante para mí: '¡Léeme, por favor!'" - Linda Grant

¿Qué significa que sus datos estén "ordenados"? Si bien "ordenado" tiene un claro significado de "organizado", la palabra "ordenado" en Ciencia de datos usando **R** significa que tus datos siguen un formato estandarizado:

Un dataframe es una colección de valores, generalmente números (si son cuantitativos) o cadenas, también conocidos como datos de texto (si son cualitativos/categóricos). Los valores se organizan de dos maneras: todo valor pertenece a una variable y a una observación. Una variable contiene todos los valores que miden el mismo atributo subyacente (como altura, temperatura, duración) en todas las unidades. Una observación contiene todos los valores medidos en la misma unidad (como una persona, un día o una ciudad) en todos los atributos.

Los datos tidy son una forma estándar de asignar el significado de un dataframe a su estructura. Un dataframe es desordenado u ordenado según cómo se combinen las filas, columnas y tablas con las observaciones, las variables y los tipos. En datos ordenados:

1. Cada variable forma una columna.
2. Cada observación forma una fila.
3. Cada tipo de unidad de observación forma una tabla.

Por ejemplo, supongamos que tienes la siguiente tabla de precios de acciones en

Fecha|Precio de las acciones de Boeing |Precio de las acciones de Amazon|Precio de las acciones de Google
:--|:--:|:--:|:--:
2009-01-01|	173.55|174.90|174.34
2009-01-02|	172.61|171.42|170.04

Aunque los datos están perfectamente organizados en un formato rectangular tipo hoja de cálculo, no siguen la definición de datos en formato "ordenado". Si bien hay tres variables que corresponden a tres piezas únicas de información (fecha, nombre de la acción y precio de la acción), no hay tres columnas. En el formato de datos "ordenado", cada variable debe ser su propia columna, como se muestra en la siguiente tabla. Observa que ambas tablas presentan la misma información, pero en diferentes formatos.

Fecha|Nombre de la acción|Precio de la acción
:--:|:--:|:--:
2009-01-01|Boeing|173.55
2009-01-01|Amazon|174.90
2009-01-01|Google|174.34
2009-01-02|Boeing|172.61
2009-01-02|Amazon|171.42
2009-01-02|Google|170.04

Ahora tenemos las tres columnas necesarias: Fecha, Nombre de la acción y Precio de la acción. Por otro lado, ahora consideremos esta tabla:

Fecha|Precio Boeing|Clima
:--:|:--:|:--
2009-01-01|173.55|Soleado
2009-01-02|172.61|Nublado

En este caso, aunque la variable "Precio de Boeing" aparece como en nuestros datos no "ordenados" de hace dos tablas, los datos son "ordenados" ya que hay tres variables que corresponden a tres piezas únicas de información: Fecha, precio de Boeing y el clima de ese día en particular.

---
---
**Ejercicios**

**4.2.1.** ¿Cuáles son las características comunes de los dataframes "ordenados"?

**4.2.2.** ¿Qué hace que los dataframes "ordenados" sean útiles para organizar datos?

---
---