## Tidy Data

<a id="indice"></a>
<h2>Índice</h2>

* [1. Introducción](#section1)
* [2. Tidy Data](#section2)
* [3. Problema #1](#sectionp1)
* [4. Problema #2](#sectionp2)
* [5. Problema #3](#sectionp3)
* [6. Problema #4](#sectionp4)
* [7. Problema #5](#sectionp5)
* [8. Problema #6](#sectionp6)

<a id="section1"></a>
---


# 1. Introducción

Ya hemos visto que un formato tabular o relacional es quizás el más organizado o rico en detalles para almacenar nuestros datos. No obstante este formato no garantiza una representación óptima de los datos de cara a minimizar espacio, flexibilidad y facilidad de manipulación.

En un proceso de análisis de datos dedicamos en torno al 80% del tiempo a __limpiar__ los datos (__Data Cleaning__), y aunque en la mayoría de los casos esto incluye una gran cantidad de trabajo transformando nuestros datos o extrayendo información a partir de formatos no estructurados, también se realizan muchas tareas procesando y limpiando datos en formatos estructurados.

El trabajo de un analista o de un científico de datos es el análisis de la información después de haberse recopilado por lo que debemos adaptar su formato para que sea lo más estándar posible y compatible con las herramientas a utilizar. _Puede que el formato original de los datos_ sea más adecuado para su recopilación o directamente sea erróneo.


## Tidy Data

Tidy data es un esfuerzo por crear un estándar en el formato de los datos estructurados de cara a desarrollar __técnicas y tecnologías__ estandarizadas a su vez para manipulación y análisis de datos. Dada la enorme cantidad de herramientas disponibles en la comunidad muchas veces acabamos dedicando demasiado tiempo a adaptar la salida de una tecnología concreta para poder utilizarla como entrada de otra. Unas pautas de modelado estandarizadas permitirán que la interfaz de nuevas herramientas se unifique.

Además el modelo relacional normalizado propuesto por Codd está planteado en un lenguaje alejado del lenguaje __estadístico__, Tidy Data puede verse como una reinterpretación del modelo relacional en términos naturales y más útiles para el análisis de datos y la estadística. Esto implica también que algunas de las pautas que impone el estándar ayuden también a optimizar la representación de la información no solo a nivel instrumental sino a nivel estadístico.


### Origen

El estándar Tidy data fue propuesto por [Hadley Wickham](http://hadley.nz), un estadístico que ha trabajado tanto en el campo académico como en el empresarial (Director científico en Rstudio). El trabajo original contextualiza el estándar dentro de las herramientas del lenguaje de programación R, no obstante los principios básicos se explican de manera genérica para cualquier conjunto de datos, lo que ha permitido extrapolar sus resultados al conjunto de herramientas para la ciencia de Datos.

El paper puede encontrarse públicamente y es una lectura básica para cualquier profesional de este campo.

> <i class="fa fa-book" style="color:#113D68"></i> [2014 Hadley Wickham. Tidy Data. Journal of Statistical Software](http://vita.had.co.nz/papers/tidy-data.html)


### Definición

El estándar __tidy data__ se basa en tres reglas sencillas:

1. Cada __variable__ es representada por una __columna__.
2. Cada __observación__ representada por una __fila__.
3. Cada __unidad observacional__ es representada por una __tabla__.

Cualquier dataset que no este organizado de esta manera se denomina __messy data__ o datos desorganizados.


### Ejemplo

El siguiente ejemplo muestra un como estructurar un mismo problema de distintas formas, una de ellas tidy.

El problema consta de tres variables:

- `patient` con tres posibles valores (John, Mary, Jane)
- `treatment` con dos posibles valores
- `result` con 5 valores más la posibilidad de estar perdido (-, 16, 3, 2, 11, 1)

Se han realizado una experimentación cruzada en la que se le ha aplicado un tratamiento a cada paciente y se ha medido el resultado. Los datos podrían haberse recopilado de la siguiente manera durante el estudio original:

<table class="table table-hover">
    <thead>
        <tr> <th></th> <th>treatmenta</th> <th>treatmentb</th> </tr> 
    </thead>
    <tbody>
        <tr> <td>John</td> <td>-</td> <td>2</td> </tr>
        <tr> <td>Jane</td> <td>16</td> <td>11</td> </tr>
        <tr> <td>Mary</td> <td>3</td> <td>1</td> </tr>
    </tbody>
</table>

En otro contexto los datos podrían haberse recopilado por tratamiento

<table class="table table-hover">
    <thead>
        <tr> <th></th> <th>John</th> <th>Jane</th> <th>Mary</th> </tr> 
    </thead>
    <tbody>
        <tr> <td>treatmenta</td> <td>-</td> <td>16</td> <td>3</td> </tr>
        <tr> <td>treatmentb</td> <td>2</td> <td>11</td> <td>1</td> </tr>
    </tbody>
</table>

Estos formatos no nos permiten identificar los elementos experimentales, no obstante si nos ceñimos al estándar tidy el resultado es mucho más representativo.

<table class="table table-hover">
    <thead>
        <tr> <th>name</th> <th>treatment</th> <th>result</th> </tr> 
    </thead>
    <tbody>
        <tr> <td>John</td> <td>a</td> <td>-</td> </tr>
        <tr> <td>Jane</td> <td>a</td> <td>16</td> </tr>
        <tr> <td>Mary</td> <td>a</td> <td>3</td> </tr>
        <tr> <td>John</td> <td>b</td> <td>2</td> </tr>
        <tr> <td>Jane</td> <td>b</td> <td>11</td> </tr>
        <tr> <td>Mary</td> <td>b</td> <td>31</td> </tr>
    </tbody>
</table>

El formato tidy nos permite determinar claramente que columnas son observaciones y cuales variables, relaciones funcionales entre ellas, restricciones y una única forma de extraer toda la información del dataset. Además permite identificar mejor cualquier anomalía, como por ejemplo los casos perdidos.

<a id="section2"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

En esta práctica plantearemos los mismos supuestos que en el paper original de tidy data y trataremos de obtener el formato tidy utilizando las herramientas de python a nuestra disposición como `pandas` y `numpy`.

No hay una solución única a cada problema ni una receta básica que podamos aplicar, pero si podemos identificar patrones comunes en cada dataset. Como cita Wickham en el paper original:

> _Happy families are all alike; every unhappy family is unhappy in its own way_

> _Leo Tolstoy_



## Objetivos

### Obtener el formato Tidy de los datos

Todos los datasets originales (__raw__) se encuentran en formatos no ordenados y es necesario transformarlos para poder generar su version tidy.


### Utilización de técnicas reproducibles y entender las transformaciones de manera "agnóstica" al lenguaje

En el paper original de tidy data se definen las operaciones de manera general, explicado las transformaciones sobre los datos de manera independiente o agnóstica a cualquier lenguaje antes de aplicar instrucciones propias de R. Es muy importante no obsesionarse con los detalles instrumentales de herramientas particulares como `pandas` y quedarse con las estrategias y técnicas a nivel teórico.

Intentaremos utilizar funciones de alto nivel y escribir un código lo más reproducible posible, cercano casi al lenguaje natural, que permita entender y reproducir el proceso de transformación con solo leerlo.

Un buen recurso para ir absorbiendo el vocabulario es la siguiente referencia de `pandas` enfocada más al lenguaje de la Ciencia de Datos que a la propia librería.

> <i class="fa fa-book" style="color:#113D68"></i> [Pandas Data Wrangling Cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)


Resulta curioso contrastar el documento anterior con la [fuente original](https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf), la misma hoja orientada al lenguaje `R`, donde la __semántica__ es la misma y solo cambia la __sintaxis__.


### Limpieza adicional de los datos

Además de obtener el formato tidy, vamos a realizar una serie de transformaciones sobre los datos que limpien aun más el formato y obtengan un dataset cómodo y representativo de cara a hacer exploración de datos y modelado.

1. El nombre de las variables cumplirá las restriciones de python en cuanto caracteres, empezará en minúscula y utilizara `snake_case`.
2. Las variables estarán ordenadas de manera lógica a la unidad observacional representada. En primer lugar colocaremos variables experimentales y en segundo lugar observaciones, además intentaremos preservar órdenes jerárquicos y colocaremos factores o categorias antes de variables numéricas.
3. Los casos del dataset se ordenarán conforme a patrones temporales o alfabéticos en función de sus variables

## Dependencias

Antes de comenzar cargaremos las dependencias necesarias:

In [1]:
import re
import datetime

import pandas as pd
import numpy as np

## Conjuntos de datos

Se proporcionan los siguientes conjuntos de datos en la carpeta `./data`, en sus versiones desorganizadas y tidy, durante las siguientes secciones estudiaremos los diferentes problemas que plantean.

* `pew-raw.csv`
* `pew-tidy.csv`
* `billboard-raw.csv`
* `billboard-tidy.csv`
* `tb-raw.csv`
* `tb-tidy.csv`
* `weather-raw.csv`
* `weather-tidy.csv`
* `2014-baby-names-raw.csv`
* `2015-baby-names-raw.csv`
* `baby-names-tidy.csv`

In [2]:
df_health = pd.DataFrame([
    ("John", None, 2),
    ("Jane", 16, 11),
    ("Mary", 3, 1)
], columns=["patient", "treatmenta", "treatmentb"])
df_health

Unnamed: 0,patient,treatmenta,treatmentb
0,John,,2
1,Jane,16.0,11
2,Mary,3.0,1


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="reestructuracion"></a>

# Tablas dinámicas y reestructuración

### `melt`

Esta función utiliza los nombres de varias columnas como valores en otra nueva, y una lista de columnas a despivotar. Toma tres parámetros principales. 

* `id_vars`. Lista de columnas de referencia. 
* `value_vars`. Lista de columnas que son despivotadas. 
* `var_name` y `value_name`. Nombre de las columnas con los nombres de las variables, y los valores correspondientes. 

In [3]:
df_health_tidy = (
    df_health
    .melt(
        id_vars="patient",
        var_name="treatment",
        value_name="result"
    )
)
df_health_tidy

Unnamed: 0,patient,treatment,result
0,John,treatmenta,
1,Jane,treatmenta,16.0
2,Mary,treatmenta,3.0
3,John,treatmentb,2.0
4,Jane,treatmentb,11.0
5,Mary,treatmentb,1.0


### `pivot`

Sirve para crear tablas dinámicas, es decir, crea una tabla con tantas columnas como valores distintos tiene una columna indicada. Es el efecto contrario de `melt`.

In [4]:
df_health_tidy.pivot(index="patient", columns="treatment", values="result")

treatment,treatmenta,treatmentb
patient,Unnamed: 1_level_1,Unnamed: 2_level_1
Jane,16.0,11.0
John,,2.0
Mary,3.0,1.0


### `pivot_table`

Para usar la función `pivot` **cada par de valores _(índice, columna)_ debe aparece solo una vez en la tabla original**. En caso contrarío, devuelve un error. 

In [5]:
df_market = pd.DataFrame([
    ("Juan", "Madrid", 20),
    ("Pedro", "Albacete", 35),
    ("María", "Madrid", 36),
    ("Juan", "Barcelona", 26),
    ("María", "Madrid", 17),
], columns=["name", "city", "age"])
df_market

Unnamed: 0,name,city,age
0,Juan,Madrid,20
1,Pedro,Albacete,35
2,María,Madrid,36
3,Juan,Barcelona,26
4,María,Madrid,17


La función `pivot_table` permite construir una tabla dinámica a partir de los datos de un `DataFrame`. Es parecida a la anterior, pero utiliza una __función de agregación__ para agregar datos correspondientes a la misma fila/columna. Toma principalmente cuatro parámetros [(documentación)](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html):

In [6]:
(
    df_market
    .pivot_table(
        index="name",
        columns="city",
        values="age",
        aggfunc="mean"
    )
)

city,Albacete,Barcelona,Madrid
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Juan,,26.0,20.0
María,,,26.5
Pedro,35.0,,


<a id="sectionp1"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

# Problema #1: Cabeceras de columnas como valores

Este es uno de los problemas más comunes en datasets desorganizados. Si bien es un formato comprimido que puede resultar útil para su almacenamiento o introducción manual, resulta inconveniente para su análisis ya que no todos los datos están almacenados como valores.

El dataset de ejemplo `pew` explora la relación entre los ingresos y la religión de diversos ciudadanos americanos consultados por un centro de investigación.

In [7]:
df_pew = pd.read_csv("../data/pew-raw.csv")
df_pew.head(8)

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223


Este dataset tiene las siguientes variables `religion`, `income` y `freqcuency`. No obstante la variable `income` se encuentra representada por las distintas columnas. La versión tidy de este dataset utilizaría una única columna para cada variable.

In [8]:
df_pew_tidy = pd.read_csv("../data/pew-tidy.csv")
df_pew_tidy

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Agnostic,$10-20k,34
2,Agnostic,$20-30k,60
3,Agnostic,$30-40k,81
4,Agnostic,$40-50k,76
5,Agnostic,$50-75k,137
6,Atheist,<$10k,12
7,Atheist,$10-20k,27
8,Atheist,$20-30k,37
9,Atheist,$30-40k,52


Para obtener la versión tidy de este dataset necesitamos realizar las siguientes operaciones:
* Una operación de `reshape` para transformar las columnas que representan un valor (_colvars_) a una sola columna, mapeando el dato correspondiente de la tabla y manteniendo el valor de la religión fijo para dicho caso. En pandas esta operación se denomina `melt`.
* En este caso el dataset se ha ordenado por la variable `religion` e `income`, que deben aparecer en ese orden por ser el campo de agrupación.
* En el caso de la variable income lo ideal es reordenar las categorias por orden ascendiente, para ello es necesario transformar la columna de un valor `object` que representa un `string` a un valor `category` y establecer un orden entre las categorias.

In [9]:
df_pew.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [10]:
categories = ["<$10k", "$10-20k", "$20-30k", "$30-40k", "$40-50k", "$50-75k"]

df_pew_new_tidy = (
    df_pew
    .melt(id_vars="religion", var_name="income", value_name="freq")
    .assign(
            income=lambda df: pd.Categorical(df.income, categories=categories, ordered=True)
    )
    .sort_values(["religion", "income"])
)

df_pew_new_tidy.head()

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76


Una vez que tengamos los datos en formato tidy, vamos a trabajar con este dataframe para responder a ciertas preguntas. En primer lugar, para poder trabajar con valores numéricos con respecto al income vamos a extraer el valor mínimo y máximo a partir de los valores de la columna `income`, y crear una nueva columna que se llame `estimated_income`, que será la media del valor mínimo y máximo para cada rango (usad expresiones regulares) multiplicado por `freq`.

1. Muestra las 3 religiones com más y con menos seguidores.
2. Muestra las 3 religiones com más y con menos income medio por religión.
3. Muestra las 3 religiones com más y con menos income medio por persona.

In [11]:
# 1
(
    df_pew_new_tidy
    .groupby("religion")
    .agg({"freq": "sum"})
    .nlargest(3, "freq")
    #.nsmallest(3, "freq")
)

Unnamed: 0_level_0,freq
religion,Unnamed: 1_level_1
Evangelical Prot,5857
Catholic,4191
Historically Black Prot,1366


In [12]:
# 2 = 3
pew_incomes = {
    "<$10k": 5000,
    "$10-20k": 15000,
    "$20-30k": 25000,
    "$30-40k": 35000,
    "$40-50k": 45000,
    "$50-75k": 62500
}
(
    df_pew_new_tidy
    .assign(
        income_mean_sum=lambda df: df.income.map(pew_incomes).astype("Int64") * df.freq
    )
    .groupby("religion")
    .agg(
        {
            "income_mean_sum": "sum",
            "freq": "sum"
        }
    )
    .assign(
        income_mean=lambda df: df.income_mean_sum / df.freq
    )
    .nlargest(3, "income_mean")
)

Unnamed: 0_level_0,income_mean_sum,freq,income_mean
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Hindu,3250000,71,45774.647887
Jewish,9167500,213,43039.906103
Agnostic,16962500,415,40873.493976


<a id="sectionp2"></a>

<div style="text-align: right"><font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

# Problema #2: Cabeceras de columnas como valores, variables redundantes


Este problema es similar al anterior pero añade una capa de complejidad adicional, ya que los valores almacenados en las columnas están codificados como string cuando podrían ser de tipo numérico.

El dataset `billboard` contiene un estudio sobre el ranking que mantiene una canción que entra en la lista de las 100 más populares cada nueva semana a partir de la que entró.

En la representación original tenemos una serie de variables para identificar cada canción como `year`, `artist.inverted`, `track`, `time`, `genre` y una serie de variables observacionales que representan los datos medidos, donde `date.entered` corresponde con la fecha en la que entró la canción en el ranking y 100 variables `x[0-100].week` que representan el ranking para esa semana concreta. En el caso de que la canción saliese antes de la lista el valor para esa columna es `NaN`.

In [13]:
df_bill = pd.read_csv("../data/billboard-raw.csv")
df_bill.head(10)

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,x1st.week,x2nd.week,x3rd.week,x4th.week,...,x67th.week,x68th.week,x69th.week,x70th.week,x71st.week,x72nd.week,x73rd.week,x74th.week,x75th.week,x76th.week
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,78,63.0,49.0,33.0,...,,,,,,,,,,
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,15,8.0,6.0,5.0,...,,,,,,,,,,
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,71,48.0,43.0,31.0,...,,,,,,,,,,
3,2000,Madonna,Music,3:45,Rock,2000-08-12,41,23.0,18.0,14.0,...,,,,,,,,,,
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,57,47.0,45.0,29.0,...,,,,,,,,,,
5,2000,Janet,Doesn't Really Matter,4:17,Rock,2000-06-17,59,52.0,43.0,30.0,...,,,,,,,,,,
6,2000,Destiny's Child,Say My Name,4:31,Rock,1999-12-25,83,83.0,44.0,38.0,...,,,,,,,,,,
7,2000,"Iglesias, Enrique",Be With You,3:36,Latin,2000-04-01,63,45.0,34.0,23.0,...,,,,,,,,,,
8,2000,Sisqo,Incomplete,3:52,Rock,2000-06-24,77,66.0,61.0,61.0,...,,,,,,,,,,
9,2000,Lonestar,Amazed,4:25,Country,1999-06-05,81,54.0,44.0,39.0,...,,,,,,,,,,


La versión tidy de este dataset muestra una organización mucho más razonable. La fecha y las columnas representando cada semana se han fusionado para representar la fecha de la medición asignandole a dicha entrada el ranking concreto para el resto de datos de la canción. En el caso de que la canción saliese de la lista se ha eliminado dicha observación, ya que el hecho de que no se encuentre en el dataset representa la existencia de un dato perdido __implícito__.

In [14]:
df_bill_tidy = pd.read_csv("../data/billboard-tidy.csv")

In [15]:
df_bill_tidy.head(10)

Unnamed: 0,track,artist,genre,time,year,date,rank
0,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-04-29,100.0
1,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-05-06,99.0
2,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-05-13,96.0
3,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-05-20,76.0
4,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-05-27,55.0
5,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-06-03,37.0
6,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-06-10,24.0
7,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-06-17,24.0
8,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-06-24,30.0
9,(Hot S**t) Country Grammar,Nelly,Rap,4:17,2000,2000-07-01,36.0


Para transformar el dataset a un formato tidy necesitamos realizar los siguientes pasos:

- Realizar una operación de `reshaping` (`melt`) para transformar las colvars que representan cada semana en una sola columna, manteniendo los identificadores de cada canción.
- Transformar la variable week resultante en una columna numérica, extrayendo el valor de la semana del string correspondiente. Utilizando expresiones regulares por ejemplo.
- Eliminar los casos perdidos
- Computar la nueva variable fecha `date` utilizando para ello la fecha de inicio a la que sumamos la semana actual.
- Renombrar y reorganizar las variables para que utilicen snake_case y se ordenen de manera lógica
- Ordenar el dataset por año y canción.

In [16]:
df_bill_tidy_ex = (
    df_bill
    .rename(columns={"artist.inverted": "artist", "date.entered": "date"})
    .melt(id_vars=["year", "artist", "track", "time", "genre", "date"], var_name="week", value_name="rank")
    .assign(
        week=lambda df: df.week.str.extract("(\d+)").astype("int"),
        date=lambda df: pd.to_datetime(df.date) + df.week.map(lambda x: pd.Timedelta(x * 7, unit="days"))
    )
    .drop(columns=["week"])
    .dropna(subset=["rank"])
    .sort_values(["track", "artist", "genre", "time", "year", "date", "rank"])
)

df_bill_tidy_ex.head()

Unnamed: 0,year,artist,track,time,genre,date,rank
47,2000,Nelly,(Hot S**t) Country Grammar,4:17,Rap,2000-05-06,100.0
364,2000,Nelly,(Hot S**t) Country Grammar,4:17,Rap,2000-05-13,99.0
681,2000,Nelly,(Hot S**t) Country Grammar,4:17,Rap,2000-05-20,96.0
998,2000,Nelly,(Hot S**t) Country Grammar,4:17,Rap,2000-05-27,76.0
1315,2000,Nelly,(Hot S**t) Country Grammar,4:17,Rap,2000-06-03,55.0


Una vez obtenido el dataframe en formato tidy responded a las siguientes preguntas:

1. ¿Qué 3 canciones son las que han permanecido durante más tiempo en el ranking? ¿Y las 3 que menos?
2. ¿Qué 3 canciones son las que han tenido mejor ranking en media? ¿Y las 3 que menos?
2. ¿Qué 3 canciones son las que han tenido mejor ranking en media? ¿Y las 3 que menos?

In [17]:
# 1
(
    df_bill_tidy_ex
    .groupby(["track", "artist"])
    .agg({"rank": "count"})
    .nlargest(3, "rank")
)

Unnamed: 0_level_0,Unnamed: 1_level_0,rank
track,artist,Unnamed: 2_level_1
Higher,Creed,57
Amazed,Lonestar,55
Breathe,"Hill, Faith",53


In [18]:
# 2
(
    df_bill_tidy_ex
    .groupby(["track", "artist"])
    .agg({"rank": "mean"})
    .nlargest(3, "rank")
)

Unnamed: 0_level_0,Unnamed: 1_level_0,rank
track,artist,Unnamed: 2_level_1
Freakin' It,"Smith, Will",99.0
Got Beef,"Eastsidaz, The",99.0
Kernkraft 400,Zombie Nation,99.0


<a id="sectionp3"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

#  Problema #3: Múltiples variables almacenadas en las columnas


Este problema es una generalización del anterior en el que las columnas que representan valores de una variable o `colvars` están codificadas para mezclar varias variables al mismo tiempo.

El dataset `TB`es un estudio médico de la incidencia de la tuberculosis en distintos grupos demográficos por paises. Las variables que contiene son `country`, `year`, `age`, `sex` y `cases`. No obstante el formato original codifica los disintos grupos de género y edad como columnas para contar los casos.

In [19]:
df_tb = pd.read_csv("../data/tb-raw.csv")
df_tb.head(10)

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


En este caso el dataset tidy extrae ambas variables género y edad de las distintas colvars para obtener observaciones únicas por cada grupo poblacional.

In [20]:
df_tb_tidy = pd.read_csv("../data/tb-tidy.csv")
df_tb_tidy.head()

Unnamed: 0,country,year,sex,age,cases
0,AD,2000,m,0-14,0.0
1,AD,2000,m,15-24,0.0
2,AD,2000,m,25-34,1.0
3,AD,2000,m,35-44,0.0
4,AD,2000,m,45-54,0.0


Para obtener el dataset tidy hemos de realizar un proceso muy similar al del problema anterior pero generalizando la extracción de valores para varias variables:

- Realizamos un reshaping `melt` para transformar las colvars en una columna `sex_and_age`
- Eliminamos los valores perdidos
- Transformamos la nueva columna `sex_and_age` en dos columnas `sex` y `age`
- Renombramos las variables y las ordenamos conforme a su jerarquía y valores

In [21]:
???

Object `?` not found.


Una vez obtenido el dataframe denormalizado, responder a las siguientes preguntas:

1. ¿Qué rango de edad es el más afectado?
2. ¿Qué genero es el más afectado?

In [22]:
???

Object `?` not found.


<a id="sectionp4"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

# Problema #4: Variables almacenadas simultáneamente en columnas y filas


El siguiente dataset presenta uno de los problemas más complejos a la hora de ordenar un dataset. En el que tenemos valores almacenados a modo de columnas y filas.

El dataset `weather` representa las medidiones de temperatura de una estación metereológica en Mexico en la que se han tomado mediciones de tempreatura máxima y mínima durante todos los días durante un periodo de meses. Las variables que codifican el problema son `id`, `date`, `tmax`, `tmin` representando el identificador de la estación de medida, la fecha de la medición y la variable de temperatura respectivamente.

No obstante el dataset original plantea un diseño de "calendario", en el que cada fila representa un mes. Además, cada mes tiene dos entradas independientes para la temperatura mínima y máxima.

In [23]:
df_weather = pd.read_csv("../data/weather-raw.csv")

In [24]:
df_weather.head(10)

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,
5,MX17004,2010,3,tmin,,,,,14.2,,...,,,,,,,,,,
6,MX17004,2010,4,tmax,,,,,,,...,,,,,,36.3,,,,
7,MX17004,2010,4,tmin,,,,,,,...,,,,,,16.7,,,,
8,MX17004,2010,5,tmax,,,,,,,...,,,,,,33.2,,,,
9,MX17004,2010,5,tmin,,,,,,,...,,,,,,18.2,,,,


El dataset tidy especifica como unidad observacional el día concreto, unificando la fecha de la medición y eliminando así la necesidad de utilizar variables para cada componente. Además de esta forma podemos tener una representación `sparse` que elimine la necesidad de incluir los datos perdidos de manera __explícita__.

In [25]:
df_weather_tidy = pd.read_csv("../data/weather-tidy.csv")
df_weather_tidy.head(10)

Unnamed: 0,id,date,tmax,tmin
0,MX17004,2010-01-30,27.8,14.5
1,MX17004,2010-02-02,27.3,14.4
2,MX17004,2010-02-03,24.1,14.4
3,MX17004,2010-02-11,29.7,13.4
4,MX17004,2010-02-23,29.9,10.7
5,MX17004,2010-03-05,32.1,14.2
6,MX17004,2010-03-10,34.5,16.8
7,MX17004,2010-03-16,31.1,17.6
8,MX17004,2010-04-27,36.3,16.7
9,MX17004,2010-05-27,33.2,18.2


Para obtener la versión tidy de este dataset tenemos realizar los siguientes pasos:
- Realizar una operación de reshaping de tipo `melt` sobre las colvars represetando los días para obtener una única columna indicando el día de la medición.
- Generar una nueva variable que combine el dia, mes y año en una única fecha.
- Eliminar los datos perdidos.
- Realizar una operación de reshaping inversa al `melt`, comunmente conocida como `spread`o `pivot` y disponible en pandas como `pivot_table`. Para obtener una variable individual para cada medida (`tmax` y `tmin`)
- Renombrar variables y reordenar según corresponda

In [26]:
df_weather_tidy_ex = (
    df_weather
    .melt(id_vars=["id", "year", "month", "element"], var_name="day", value_name="temp")
    .pivot(index=["id", "year", "month", "day"], columns="element", values="temp")
    .reset_index()
    .assign(
        day=lambda df: df.day.str[1:].str.pad(2, "left", "0"),
        month=lambda df: df.month.astype("string").str.pad(2, "left", "0"),
        year=lambda df: df.year.astype("string"),
        date=lambda df: pd.to_datetime(df.year + "-" + df.month + "-" + df.day, format="%Y-%m-%d", errors="coerce")
    )
    .dropna()
    .drop(columns=["year", "month", "day"])
    .reset_index(drop=True)
)
df_weather_tidy_ex.head()

element,id,tmax,tmin,date
0,MX17004,27.8,14.5,2010-01-30
1,MX17004,29.7,13.4,2010-02-11
2,MX17004,27.3,14.4,2010-02-02
3,MX17004,29.9,10.7,2010-02-23
4,MX17004,24.1,14.4,2010-02-03


Una vez obtenido el dataframe denormalizado, responder a las siguientes preguntas:

1. ¿En qué día se ha producido la temperatura más alta? ¿Y la más baja?
2. ¿Qué semanas son las más calurosos en media? ¿Y más fríos? (utiliza la función `resample` sobre agrupación por fecha)

In [27]:
# 1
(
    df_weather_tidy_ex
    .groupby("date")
    .agg({"tmax": "max"})
    .nlargest(3, "tmax")
)

Unnamed: 0_level_0,tmax
date,Unnamed: 1_level_1
2010-04-27,36.3
2010-03-10,34.5
2010-05-27,33.2


In [28]:
# 1
(
    df_weather_tidy_ex
    .groupby("date")
    .agg({"tmin": "min"})
    .nsmallest(3, "tmin")
)

Unnamed: 0_level_0,tmin
date,Unnamed: 1_level_1
2010-11-05,7.9
2010-10-15,10.5
2010-12-06,10.5


In [29]:
# 2
(
    df_weather_tidy_ex
    .set_index("date")
    .resample("1W")
    .agg({
        "tmax": "sum",
        "tmin": "sum",
        "id": "count"
    })
    .assign(
        temp_mean=lambda df: (df.tmax + df.tmin) / (df["id"] * 2)
    )
    #.nlargest(3, "temp_mean")
    .nsmallest(3, "temp_mean")
)

Unnamed: 0_level_0,tmax,tmin,id,temp_mean
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-12-12,27.8,10.5,1,19.15
2010-02-07,51.4,28.8,2,20.05
2010-11-07,84.8,36.2,3,20.166667


<a id="sectionp5"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

#  Problema #5: Múltiples tipos en la misma tabla


Este problema conocido como normalización identifica datos que se encuentran potencialmente repetidos al incluir todas las variables de identificación de la unidad observacional en otra unidad obersavacional que represente un conjunto de mediciones.

Por ejemplo en el dataset `billboard` anterior estamos incluyendo toda la información referente a la canción en cada entrada para identificar el rango en una semana concreta. Esto supone una gran cantidad de información repetida. La representación ideal normalizará este modelo en dos tablas, una para la información de la canción y otra para las mediciones de ranking. Relacionando las dos con una variable de identificación (modelo relacional)

In [30]:
df_bill_norm_tracks = pd.read_csv("../data/billboard-norm-tracks.csv")
df_bill_norm_ranks = pd.read_csv("../data/billboard-norm-ranks.csv")

display(df_bill_norm_tracks.head(8))
display(df_bill_norm_ranks.head(8))

Unnamed: 0,id,year,track,artist,time,genre
0,0,2000,(Hot S**t) Country Grammar,Nelly,4:17,Rap
1,1,2000,3 Little Words,Nu Flavor,3:54,R&B
2,2,2000,911,"Jean, Wyclef",4:00,Rap
3,3,2000,A Country Boy Can Survive,"Brock, Chad",3:54,Country
4,4,2000,A Little Gasoline,"Clark, Terri",3:07,Country
5,5,2000,A Puro Dolor (Purest Of Pain),Son By Four,3:30,Latin
6,6,2000,Aaron's Party (Come Get It),"Carter, Aaron",3:23,R&B
7,7,2000,Absolutely (Story Of A Girl),Nine Days,3:09,Rock


Unnamed: 0,id,date,rank
0,0,2000-04-29,100.0
1,0,2000-05-06,99.0
2,0,2000-05-13,96.0
3,0,2000-05-20,76.0
4,0,2000-05-27,55.0
5,0,2000-06-03,37.0
6,0,2000-06-10,24.0
7,0,2000-06-17,24.0


Para obtener la representación normalizada de este conjunto de datos debemos realizar los siguientes pasos:

Para crear la tabla `tracks`:

- Eliminar las columnas `date` y `ranks` y eliminar todas las filas duplicadas resultantes.
- Crear una nueva columna `id` que sea un identificador con un valor único para cada caso
- Reordenar y renombrar si es necesario

In [31]:
???

Object `?` not found.


Para crear la tabla `ranks`:

- A partir de la tabla original, añadir la columna `id` para cada caso (debe identificar correctamente la canción conforme a la tabla `tracks`). Para esto podemos hacer un `merge` entre la tabla original y la nueva creata `tracks`.
- Eliminar, renombrar y reordenar las columnas resultantes si es necesario

In [32]:
???

Object `?` not found.


<a id="sectionp6"></a>

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---

# Problema 6: Un tipo dividido en varias tablas


Este último problema es el opuesto al anterior, en el que nuestros datos están divididos en distintas tablas aun representando el mismo modelo y existe información implícita en la representación, por ejemplo en el nombre de las tablas o los ficheros.

Éste es el caso del dataset `baby-names`, que contiene un estudio sobre la frecuencia de los nombres que se les ponen a los bebés en USA en distintos años. Este dataset viene en un formato que proporciona un fichero por año, donde el año viene especificado en el nombre del fichero.

Este dataset tiene las variables `year`, `rank`, `name`, `frequency` y `sex`, pero la variable year está implícita en los datos (nombre del fichero) y no aparece en el modelo.

In [33]:
display(pd.read_csv("../data/2014-baby-names-raw.csv").head())
display(pd.read_csv("../data/2015-baby-names-raw.csv").head())

Unnamed: 0,rank,name,frequency,sex
0,1,Noah,837,Male
1,2,Alexander,747,Male
2,3,William,687,Male
3,4,Michael,680,Male
4,5,Liam,670,Male


Unnamed: 0,rank,name,frequency,sex
0,1,Noah,863,Male
1,2,Liam,709,Male
2,3,Alexander,703,Male
3,4,Jacob,650,Male
4,5,William,618,Male


La versión tidy agregaría las distintas tablas y capturaría esta información del nombre de los ficheros:

In [34]:
display( pd.read_csv("../data/baby-names-tidy.csv").head() )

Unnamed: 0,year,name,sex,rank,frequency
0,2014,Noah,Male,1,837
1,2014,Alexander,Male,2,747
2,2014,William,Male,3,687
3,2014,Michael,Male,4,680
4,2014,Liam,Male,5,670


Para obtener la representación tidy de este conjunto de datos debemos realizar los siguientes pasos:
- Cargar cada fichero en un DataFrame diferente en `pandas` capturando en una lista por ejemplo el nombre del fichero.
- Utilizar expresiones regulares para extraer el año del nombre del fichero.
- Para cada DataFrame añadir una columna `year` indicando el año correspondiente.
- Concatenar los datasets.
- Renombrar y reordenar si es necesario

In [35]:
import glob

def read_df(path):
    year = int(path[5: 9])
    df = pd.read_csv(path)
    df["year"] = year
    return df

dfs = [read_df(path) for path in glob.glob("../data/*baby-names-raw.csv")]

df_baby_names_tidy_ex = pd.concat(dfs)
df_baby_names_tidy_ex.head()

ValueError: invalid literal for int() with base 10: 'ta/2'

Ahora que tenemos todos los datos unificados en un único dataframe y en formato tidy responder a las siguientes preguntas.

1. ¿Qué nombre fue el más comun en 2015?
2. ¿Cuántos niños han nacido en total entre todos los años?
3. ¿Qué nombre es el más común teniendo en cuenta todos los datos?

In [None]:
???

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></a>
</font></div>

---
