# <u>Tidy Data</u>

## Introducción

* El concepto de <b>Tidy Data</b> nace en un paper de Hadley Wickam publicado en 2014.
* Tidy Data (Datos Ordenados) $\neq$ Messy Data (Datos Desordenados).
* Formaliza cómo se describe la <b>forma de los datos</b>.
* Nos entrega un <b>objetivo</b> cuando estamos dando formato a nuestros datos.
* Formalmente, corresponde a un <b>"Formato estándar para organizar valores dentro de un conjunto de datos"</b>.

### Ejemplos de Messy Data
Los ejemplos a continuación muestran la misma información, y se requiere un estándar para aplicarles formato.

In [None]:
import pandas as pd
from IPython.display import display, Image

df1 = pd.read_csv("treatment_messy_1.csv", index_col = 0)
display(df1)

df2 = pd.read_csv("treatment_messy_2.csv", index_col = 0)
display(df2)

## Principios de Tidy Data

In [None]:
Image("principles.jpeg")

### Problemas más comunes:
* Las columnas corresponden a valores y no nombres de variable.
* Se almacenan varias variables en la misma columna.
* Las variables se almacenan en filas y columnas al mismo tiempo.
* Múltiples tipos de unidades observacionales se almacenan en la misma tabla.
* Una unidad observacional se almacena en más de una tabla.

## Ejercicio 1: Convertir datos de tratamiento a formato tidy.
* ¿Por qué el conjunto de datos (dataset) no está en formato Tidy? <b>Respuesta:</b> Las columnas contienen valores en vez de variables.
* ¿Cuál es el formato adecuado para el conjunto de datos? <b>Respuesta:</b> Usar columnas "name", "treatment" y "value".
* ¿Cómo se puede utilizar la librería <b>pandas</b> para convertir a el dataset a formato Tidy? <b>Respuesta:</b> Utilizando la función <b>pd.melt( )</b>

Documentación de pd.melt( ) en https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.melt.html

In [None]:
# Se importa el archivo con los datos
df = pd.read_csv("treatment_messy_1.csv", index_col = 0)

# Escribe tu código aquí
pd.melt(frame = df, id_vars = "name", value_vars = ["treatment a", "treatment b"])

* La información en formato Tidy puede parecer extraña. No es fácil visualizar la diferencia en los resultados de los tratamientos.
* Existen formatos que son mejores para la <b>Reportabilidad</b> y otros mejores para el <b>Análisis</b>.
* El formato Tidy nos permite solucionar problemas comunes en los datos de forma más eficiente y sencilla.
* Además, nos permite cambiar la forma en que se presentan los datos rápidamente.
* Un dataset se denomina "derretido" (molten), cuando se le ha aplicado la función melt.

## Ejercicio 2: Convertir datos de calidad de aire a formato tidy.
* ¿Por qué el conjunto dataset no está en formato Tidy? <b>Respuesta:</b> Existen varias variables en la misma columna.
* ¿Cuál es el formato adecuado para el conjunto de datos? <b>Respuesta:</b> Que la columna "variable" se separe en varias columnas, una por cada variable.
* ¿Cómo se puede utilizar la librería <b>pandas</b> para convertir a el dataset a formato Tidy? <b>Respuesta:</b> Utilizando el método <b>df.pivot_table( )</b>

Documentación de df.pivot_table( ) en https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot_table.html

In [None]:
# Se importa el archivo con los datos
df = pd.read_csv("airquality_messy.csv", index_col = 0)

# Escribe tu código aquí
df.pivot_table(index = ["Month", "Day"], columns = "variable", values = "value").reset_index()
df

* El método <b>df.pivot_table( )</b> puede generar un dataframe con multi-index, lo que tal vez no corresponda al formato buscado.
* Si el método entrega como resultado un dataframe con multi-index, se puede aplicar otro método que reinicia el índice del dataframe: <b>df.reset_index( )</b>

## Ejercicio 3: Llevar datos de tuberculosis a formato tidy.

In [None]:
# Importar archivo con los datos
df = pd.read_csv("tb_messy.csv", index_col = 0)

# Explorar todas las columnas disponibles
df.head()

In [None]:
# Utilizar la función pd.melt() para derretir las columnas y almacenar resultado en df
df = pd.melt(df, id_vars = ["iso2", "year"])
df

In [None]:
# Extraer información de sexo desde la columna
df["sex"] = df["variable"].str[7:8]
df

In [None]:
# Extraer información de rango de edad desde la columna
df["age"] = df["variable"].str[8:]

# Revisar posibles categorías en columna "age"
df["age"].value_counts()

In [None]:
# Definir función para aplicar a la columna
def rango(x):
    if x == "04":
        return "0-4"
    elif x == "65":
        return "65+"
    else:
        return x[:-2] + "-" + x[-2:]
    
# Aplicar función a la columna entera y guardar resultado en la misma columna (reemplazar valores)
df["age"] = df["age"].apply(rango)
df

In [None]:
# Eliminar columna "variable" y almacenar resultado en df
df = df.drop(columns = "variable")
df

In [None]:
# Eliminar filas específicas donde falten valores y almacenar resultado en df
df = df.dropna()
df

In [None]:
# Cambiar decimal en "value" a entero
df["value"] = df["value"].astype("int")
df

In [None]:
# Reiniciar índice del Dataframe y eliminar índice antiguo
df = df.reset_index()
df = df.drop(columns = "index")
df

### Operaciones que se vuelven más eficientes con formato Tidy.

* <u><b>Manipulación de Datos</b></u>:
 * <b>Filtrar</b>: Seleccionar conjuntos o eliminar observaciones según un criterio.
 * <b>Transformar</b>: Añadir o modificar variables. En forma singular o múltiple, esto incluye la aplicación de transformaciones matemáticas.
 * <b>Agregar</b>: Generar medidas que colapsen múltiples valores en uno sólo (sumas, promedios).
 * <b>Ordenar</b>: Cambiar el orden de las observaciones.
 
 
* <u><b>Visualización de Datos</b></u>:
 * Uso extendido de herramientas de visualización que requieren datos ordenados.
 * Opciones adicionales para mapear variables y aspectos estéticos de la visualización.


* <u><b>Modelación de Datos</b></u>:
 * Tests Estadísticos.
 * Machine Learning.