# Tidy data

In [1]:
import pandas as pd
import numpy as np

In [3]:
data = [
    {"name": "Rosalind", "test_1": pd.NA, "test_2": 4, "test_3": 6},
    {"name": "Simone", "test_1": 2, "test_2": pd.NA, "test_3": pd.NA},
    {"name": "Ada", "test_1": 9, "test_2": 7, "test_3": 8},
    {"name": "Marie", "test_1": 10, "test_2": 10, "test_3": 9}
]

In [4]:
df = pd.DataFrame(data)

In [5]:
df

Unnamed: 0,name,test_1,test_2,test_3
0,Rosalind,,4.0,6.0
1,Simone,2.0,,
2,Ada,9.0,7.0,8.0
3,Marie,10.0,10.0,9.0


Pero podriamos poner la data de la siguiente forma

In [8]:
data2 = [
    {"assesment": "test_1", "Rosalind": pd.NA, "Simone": 2, "Ada": 9, "Marie": 10},
    {"assesment": "test_2", "Rosalind": 4, "Simone": pd.NA, "Ada": 7, "Marie": 10},
    {"assesment": "test_3", "Rosalind": 6, "Simone": pd.NA, "Ada": 8, "Marie": 9}]
    
df_2 = pd.DataFrame(data2)

In [9]:
df_2

Unnamed: 0,assesment,Rosalind,Simone,Ada,Marie
0,test_1,,2.0,9,10
1,test_2,4.0,,7,10
2,test_3,6.0,,8,9


Los datos son los mismos, pero el diseño es diferente. Nuestro vocabulario de filas y columnas simplemente no es lo suficientemente rico como para describir por qué las dos tablas representan los mismos datos.

## Semántica de datos

Un dataset, como vimos en general, es una colección de valores, numeros (cuantitativos) o strings (cualitativos)

Cada valor corresponde a una **variable** y a una **observación**. Una **variable** tiene todos los valores medidos de todas las muestras sobre un atributo subyacente (por ejemplo, altura, temperatura) . Una **observación** contiene todos los valores medidos de una muestra en todos los atributos (por ejemplo, una persona particular, un día particular).

In [10]:
df

Unnamed: 0,name,test_1,test_2,test_3
0,Rosalind,,4.0,6.0
1,Simone,2.0,,
2,Ada,9.0,7.0,8.0
3,Marie,10.0,10.0,9.0


In [14]:
df_tidy = pd.melt(df, id_vars=['name'], value_vars=["test_1", "test_2", "test_3"],
             var_name='assesment', value_name='grade')

In [15]:
df_tidy

Unnamed: 0,name,assesment,grade
0,Rosalind,test_1,
1,Simone,test_1,2.0
2,Ada,test_1,9.0
3,Marie,test_1,10.0
4,Rosalind,test_2,4.0
5,Simone,test_2,
6,Ada,test_2,7.0
7,Marie,test_2,10.0
8,Rosalind,test_3,6.0
9,Simone,test_3,


Esto hace que los valores, variables y observaciones sean más claros. El conjunto de datos contiene 36 valores que representan tres variables y 12 observaciones. Las variables son:

- name: Cuatro posibles valores (Rosalind, Simone, Ada, Marie)
- assesment: Con tres posibles valores (test_1, test_2, test_3)
- grade: Con 9 o 10 valores (dependiendo de como se considera el NaN).

El tidy dataframe nos dice explícitamente la definición de una observación. En esta clase, cada combinación de nombre y evaluación es una sola observación medida. El conjunto de datos también nos informa de los valores faltantes, que pueden tener y tienen significado. 

Rosalind estuvo ausente en el primer examen, pero trató de salvar su calificación. 
Simone reprobó la primera prueba, por lo que decidió abandonar la clase. 

Para calcular la calificación final de Rosalind, podríamos reemplazar este valor faltante con un 0 (o podría tener una segunda oportunidad para tomar la prueba). 

Sin embargo, si queremos saber el promedio de la clase para la test 1, sería más apropiado descartar el valor faltante estructural de Rosalind que imputar un nuevo valor.

Para un conjunto de datos dado, generalmente es fácil averiguar qué son observaciones y qué son variables, pero es sorprendentemente difícil definir con precisión las variables y las observaciones en general, ya que varia en el caso particular. 

Por ejemplo, si este dataset tuviera teléfono de casa y teléfono del trabajo, podríamos tratarlas como dos variables. Pero en un problema de deteccion de fraude, podriamos tener como variables a número de teléfono y tipo de número porque el uso de un número de teléfono para varias personas podría sugerir un fraude. 

Una regla general es que es más fácil describir relaciones funcionales entre variables (p. ej., z es una combinación lineal de x e y, la densidad es la relación entre peso y volumen) que entre filas, y es más fácil hacer comparaciones entre grupos de observaciones (p. ej., promedio del grupo a frente al promedio del grupo b) que entre grupos de columnas.

In [13]:
df

Unnamed: 0,name,test_1,test_2,test_3
0,Rosalind,,4.0,6.0
1,Simone,2.0,,
2,Ada,9.0,7.0,8.0
3,Marie,10.0,10.0,9.0


In [16]:
df_2

Unnamed: 0,assesment,Rosalind,Simone,Ada,Marie
0,test_1,,2.0,9,10
1,test_2,4.0,,7,10
2,test_3,6.0,,8,9


In [18]:
df_tidy

Unnamed: 0,name,assesment,grade
0,Rosalind,test_1,
1,Simone,test_1,2.0
2,Ada,test_1,9.0
3,Marie,test_1,10.0
4,Rosalind,test_2,4.0
5,Simone,test_2,
6,Ada,test_2,7.0
7,Marie,test_2,10.0
8,Rosalind,test_3,6.0
9,Simone,test_3,


Observese que las dos formas iniciales, se necesitan diferentes estrategias para extraer la información que no son triviales y llevan a errores.

En cambio, una tabla en formato tidy, permite extraer información agregada de forma sistematica y rápida. Permite utilizar las ventajas de operaciones vectoriales (lo que lo hace más eficiente).

Por último, aunque el orden de variables y observaciones no es necesario, tener los datos ordenados es importante para el analisis. 

- Variables fijas son aquellas que describen un experimento y se conocen de antemano.
- Variables medidas son aquellas que se miden en el estudio.

En general es recomendable qeu las variables fijas sean las primeras y luego las variables medidas. Por otro lado, las observaciones se pueden ordenar en funcion de una de las variables, o por ejemplo, en función de como fueron registradas.


(a) Un tipo común de conjunto de datos desordenado son los datos tabulares diseñados para la presentación, donde las variables forman tanto las filas como las columnas, y los encabezados de las columnas son valores, no nombres de variables.

Este formato tabular (excelestico) en algunos casos puede ser extremadamente útil. Proporciona un almacenamiento eficiente para diseños completamente cruzados y puede conducir a un cálculo extremadamente eficiente si las operaciones deseadas se pueden expresar como operaciones matriciales. 

In [23]:
df = pd.read_csv("./countries_population.csv").sample(5)

In [24]:
# Ejemplo, la columnas son valores (1960, 1961)

In [25]:
df

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Unnamed: 66
91,Greenland,GRL,"Population, total",SP.POP.TOTL,32500.0,33700.0,35000.0,36400.0,37600.0,39200.0,...,56483.0,56295.0,56114.0,56186.0,56171.0,56023.0,56225.0,56367.0,56653.0,
11,American Samoa,ASM,"Population, total",SP.POP.TOTL,20127.0,20605.0,21246.0,22029.0,22850.0,23675.0,...,55717.0,55791.0,55806.0,55739.0,55617.0,55461.0,55312.0,55197.0,55103.0,
72,Ethiopia,ETH,"Population, total",SP.POP.TOTL,22151284.0,22671193.0,23221385.0,23798418.0,24397010.0,25013634.0,...,95385793.0,98094264.0,100835453.0,103603461.0,106399926.0,109224410.0,112078727.0,114963583.0,117876226.0,
176,Netherlands,NLD,"Population, total",SP.POP.TOTL,11486631.0,11638712.0,11805689.0,11965966.0,12127120.0,12294732.0,...,16804432.0,16865008.0,16939923.0,17030314.0,17131296.0,17231624.0,17344874.0,17441500.0,17533405.0,
214,Serbia,SRB,"Population, total",SP.POP.TOTL,6608000.0,6655000.0,6696000.0,6732000.0,6765000.0,6794000.0,...,7164132.0,7130576.0,7095383.0,7058322.0,7020858.0,6982604.0,6945235.0,6899126.0,6844078.0,


In [29]:
df_pop = pd.melt(df, id_vars=["Country Name"], value_vars=["2018", "2019", "2020", "2021"], 
                 var_name="year", value_name=df.loc[91, "Indicator Name"])

In [30]:
df_pop

Unnamed: 0,Country Name,year,"Population, total"
0,Greenland,2018,56023.0
1,American Samoa,2018,55461.0
2,Ethiopia,2018,109224410.0
3,Netherlands,2018,17231624.0
4,Serbia,2018,6982604.0
5,Greenland,2019,56225.0
6,American Samoa,2019,55312.0
7,Ethiopia,2019,112078727.0
8,Netherlands,2019,17344874.0
9,Serbia,2019,6945235.0


In [34]:
#Puedo agregar muy facil
df_pop[df_pop["year"] == "2018"]["Population, total"].mean()

26710024.4

(b) Muchas variables guardadas en una columna.

This dataset comes from the World Health Organisation, 

In [39]:
df = pd.read_csv("./tuberculosis.csv")

Registra los recuentos de casos confirmados de tuberculosis por país, año y grupo demográfico. Los grupos demográficos se desglosan por sexo (m, f) y edad (0-14, 15-25, 25-34, 35-44, 45-54, 55-64, desconocido).

In [40]:
df

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0,0,1,0,0,0,0,---,---
1,AE,2000,2,4,4,6,5,12,10,---,3
2,AF,2000,52,228,183,149,129,94,80,---,93
3,AG,2000,0,0,0,0,0,0,1,---,1
4,AL,2000,2,19,21,14,24,19,16,---,3
5,AM,2000,2,152,130,131,63,26,21,---,1
6,AN,2000,0,0,1,2,0,0,0,---,0
7,AO,2000,186,999,1003,912,482,312,194,---,247
8,AR,2000,97,278,594,402,419,368,330,---,121
9,AS,2000,---,---,---,---,1,1,---,---,---


In [49]:
df_tidy = pd.melt(df, id_vars=['country', 'year'], value_vars=list(df.columns)[2:],
             var_name='column', value_name='cases')
df_tidy.tail(15)

Unnamed: 0,country,year,column,cases
75,AM,2000,mu,---
76,AN,2000,mu,---
77,AO,2000,mu,---
78,AR,2000,mu,---
79,AS,2000,mu,---
80,AD,2000,f014,---
81,AE,2000,f014,3
82,AF,2000,f014,93
83,AG,2000,f014,1
84,AL,2000,f014,3


In [50]:
df_tidy["cases"] = df_tidy["cases"].replace("---", pd.NA) 

In [51]:
df_tidy.tail(15)

Unnamed: 0,country,year,column,cases
75,AM,2000,mu,
76,AN,2000,mu,
77,AO,2000,mu,
78,AR,2000,mu,
79,AS,2000,mu,
80,AD,2000,f014,
81,AE,2000,f014,3.0
82,AF,2000,f014,93.0
83,AG,2000,f014,1.0
84,AL,2000,f014,3.0


In [52]:
# Si no nos sirven, tiramos los NaN
df_tidy.dropna(inplace=True)
df_tidy.reset_index(drop=True, inplace=True)

In [54]:
df_tidy.tail(15)

Unnamed: 0,country,year,column,cases
58,AF,2000,m65,80
59,AG,2000,m65,1
60,AL,2000,m65,16
61,AM,2000,m65,21
62,AN,2000,m65,0
63,AO,2000,m65,194
64,AR,2000,m65,330
65,AE,2000,f014,3
66,AF,2000,f014,93
67,AG,2000,f014,1


In [57]:
# Separa a las variables lo vamos a hacer usando operaciones de strings
df_tidy["sex"] = df_tidy["column"].str[0]
df_tidy["age"] = df_tidy["column"].str[1:].replace({
    '014': '0-14',
    '1524': '15-24',
    '2534': '25-34',
    '3544': '35-44',
    '4554': '45-54',
    '5564': '55-64',
    '65': '65+'})

In [58]:
df_tidy

Unnamed: 0,country,year,column,cases,sex,age
0,AD,2000,m014,0,m,0-14
1,AE,2000,m014,2,m,0-14
2,AF,2000,m014,52,m,0-14
3,AG,2000,m014,0,m,0-14
4,AL,2000,m014,2,m,0-14
...,...,...,...,...,...,...
68,AL,2000,f014,3,f,0-14
69,AM,2000,f014,1,f,0-14
70,AN,2000,f014,0,f,0-14
71,AO,2000,f014,247,f,0-14


In [60]:
df_tidy = df_tidy[["country", "year", "sex", "age", "cases"]]

In [61]:
df_tidy

Unnamed: 0,country,year,sex,age,cases
0,AD,2000,m,0-14,0
1,AE,2000,m,0-14,2
2,AF,2000,m,0-14,52
3,AG,2000,m,0-14,0
4,AL,2000,m,0-14,2
...,...,...,...,...,...
68,AL,2000,f,0-14,3
69,AM,2000,f,0-14,1
70,AN,2000,f,0-14,0
71,AO,2000,f,0-14,247


In [63]:
df_tidy[df_tidy["country"] == "AE"]

Unnamed: 0,country,year,sex,age,cases
1,AE,2000,m,0-14,2
10,AE,2000,m,15-24,4
19,AE,2000,m,25-34,4
28,AE,2000,m,35-44,6
37,AE,2000,m,45-54,5
47,AE,2000,m,55-64,12
57,AE,2000,m,65+,10
65,AE,2000,f,0-14,3


(C) Variables guardadas como filas y columnas.

Uno de los peores casos.

Ejemplo, the code below loads daily weather data from the Global Historical Climatology Network for one weather station (MX17004) in Mexico for five months in 2010.

In [64]:
df = pd.read_csv("./wheather_example.csv")

In [66]:
# Variables en columnas individuales (id, años y mes) y esperdigado por las columnas (d1 a d8 ...). Aunque acá
# no se vea, los meses con menos de 30 dias, tiene datos faltantes cuando no deberian.

In [65]:
df

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,d7,d8
0,MX17004,2010,1,tmax,---,---,---,---,---,---,---,---
1,MX17004,2010,1,tmin,---,---,---,---,---,---,---,---
2,MX17004,2010,2,tmax,---,27.3,24.1,---,---,---,---,---
3,MX17004,2010,2,tmin,---,14.4,14.4,---,---,---,---,---
4,MX17004,2010,3,tmax,---,---,---,---,32.1,---,---,---
5,MX17004,2010,3,tmin,---,---,---,---,14.2,---,---,---
6,MX17004,2010,4,tmax,---,---,---,---,---,---,---,---
7,MX17004,2010,4,tmin,---,---,---,---,---,---,---,---
8,MX17004,2010,5,tmax,---,---,---,---,---,---,---,---
9,MX17004,2010,5,tmin,---,---,---,---,---,---,---,---


In [82]:
df_tidy = pd.melt(df, id_vars=['id', 'year', 'month', 'element'], 
                  value_vars=["d1", "d2", "d3", "d4", "d5", "d6", "d7", "d8"],
                  var_name='day', value_name='value')

In [83]:
df_tidy["value"] = df_tidy["value"].replace("---", pd.NA) 

In [84]:
df_tidy.dropna(inplace=True)
df_tidy.reset_index(drop=True, inplace=True)

In [85]:
df_tidy["day"] = df_tidy["day"].str[1:].astype(int)

In [86]:
df_tidy = df_tidy.pivot_table(df_tidy, index=["id", "year", "month", "day"], columns=["element"]).reset_index()
df_tidy.columns = ['id', 'year', 'month', 'day', 'tmax', 'tmin']

In [87]:
df_tidy

Unnamed: 0,id,year,month,day,tmax,tmin
0,MX17004,2010,2,2,27.3,14.4
1,MX17004,2010,2,3,24.1,14.4
2,MX17004,2010,3,5,32.1,14.2


(d) Muchas unidades de observación en una tabla.

In [144]:
df = pd.read_csv("./billboard.csv")

El billboard dataset contiene observaciones de dos unidades de observacion. La canción y el ranking en cada semana. 
Esto se manifiesta en el hecho que "artist" se repite multiple veces.

Se necesita separar en dos tablas.

In [145]:
df_track = df[['artist', 'track', 'time']].drop_duplicates()

In [146]:
df_track["id"] = df["track"] + " - " + df["artist"]

In [147]:
df_track

Unnamed: 0,artist,track,time,id
0,2 Pac,Baby Don't Cry,4:22,Baby Don't Cry - 2 Pac
1,2Ge+her,The Hardest Part Of ...,3:15,The Hardest Part Of ... - 2Ge+her
2,3 Doors Down,Kryptonite,3:53,Kryptonite - 3 Doors Down
3,98^0,Give Me Just One Nig...,3:24,Give Me Just One Nig... - 98^0
4,A*Teens,Dancing Queen,3:44,Dancing Queen - A*Teens
5,Aaliyah,I Don't Wanna,4:15,I Don't Wanna - Aaliyah
6,Aaliyah,Try Again,4:03,Try Again - Aaliyah
7,"Adams, Yolanda",Open My Heart,5:30,"Open My Heart - Adams, Yolanda"


In [148]:
df = df.merge(right=df_track, on=["artist", "track", "time"])

In [149]:
import datetime

In [150]:
df["date.entered"] = pd.to_datetime(df["date.entered"])
df["date_wk1"] = df["date.entered"]
df["date_wk2"] = df["date.entered"] + datetime.timedelta(days=7)
df["date_wk3"] = df["date.entered"] + datetime.timedelta(days=14)

In [151]:
df = pd.melt(df, id_vars=['id', "wk1", "wk2", "wk3"], 
                  value_vars=["date_wk1", "date_wk2", "date_wk3"],
                  var_name='temp', value_name='date')
df

Unnamed: 0,id,wk1,wk2,wk3,temp,date
0,Baby Don't Cry - 2 Pac,87,82,72,date_wk1,2000-02-26
1,The Hardest Part Of ... - 2Ge+her,91,87,92,date_wk1,2000-09-02
2,Kryptonite - 3 Doors Down,81,70,68,date_wk1,2000-04-08
3,Give Me Just One Nig... - 98^0,51,39,34,date_wk1,2000-08-19
4,Dancing Queen - A*Teens,97,97,96,date_wk1,2000-07-08
5,I Don't Wanna - Aaliyah,84,62,51,date_wk1,2000-01-29
6,Try Again - Aaliyah,59,53,38,date_wk1,2000-03-18
7,"Open My Heart - Adams, Yolanda",76,76,74,date_wk1,2000-08-26
8,Baby Don't Cry - 2 Pac,87,82,72,date_wk2,2000-03-04
9,The Hardest Part Of ... - 2Ge+her,91,87,92,date_wk2,2000-09-09


In [152]:
df = pd.melt(df, id_vars=['id', "date"], 
                  value_vars=["wk1", "wk2", "wk3"],
                  var_name='week', value_name='rank')
df["week"] = df["week"].str[2:].astype(int)
df

Unnamed: 0,id,date,week,rank
0,Baby Don't Cry - 2 Pac,2000-02-26,1,87
1,The Hardest Part Of ... - 2Ge+her,2000-09-02,1,91
2,Kryptonite - 3 Doors Down,2000-04-08,1,81
3,Give Me Just One Nig... - 98^0,2000-08-19,1,51
4,Dancing Queen - A*Teens,2000-07-08,1,97
...,...,...,...,...
67,Give Me Just One Nig... - 98^0,2000-09-02,3,34
68,Dancing Queen - A*Teens,2000-07-22,3,96
69,I Don't Wanna - Aaliyah,2000-02-12,3,51
70,Try Again - Aaliyah,2000-04-01,3,38


In [153]:
df_track

Unnamed: 0,artist,track,time,id
0,2 Pac,Baby Don't Cry,4:22,Baby Don't Cry - 2 Pac
1,2Ge+her,The Hardest Part Of ...,3:15,The Hardest Part Of ... - 2Ge+her
2,3 Doors Down,Kryptonite,3:53,Kryptonite - 3 Doors Down
3,98^0,Give Me Just One Nig...,3:24,Give Me Just One Nig... - 98^0
4,A*Teens,Dancing Queen,3:44,Dancing Queen - A*Teens
5,Aaliyah,I Don't Wanna,4:15,I Don't Wanna - Aaliyah
6,Aaliyah,Try Again,4:03,Try Again - Aaliyah
7,"Adams, Yolanda",Open My Heart,5:30,"Open My Heart - Adams, Yolanda"
