# Capítulo 6 - Tidy data (dados organizados)

## Seção 6.1 - Introdução

Conjuntos organizados de dados atendem aos seguintes critérios:

- cada linha é uma observação
- cada coluna é uma variável
- cada tipo de unidade de observação forma uma tabela

## Seção 6.2 - Colunas contêm valores, e não variáveis

As colunas dos dados podem ter valores (e não a variável). Por exemplo, os dados abaixo sobre religião e renda nos EUA mostram colunas por faixa de renda. Essa formatação da tabela é conveniente para coleta e apresentação de dados, mas não é conveniente para análise de dados.

In [1]:
import pandas as pd

pew = pd.read_csv('../data/pew.csv')

pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116
5,Evangelical Prot,575,869,1064,982,881,1486,949,723,414,1529
6,Hindu,1,9,7,9,11,34,47,48,54,37
7,Historically Black Prot,228,244,236,238,197,223,131,81,78,339
8,Jehovah's Witness,20,27,24,24,21,30,15,11,6,37
9,Jewish,19,19,25,25,30,95,69,87,151,162


Observe que as primeiras colunas indicam faixa de renda. A própria coluna já é um valor. 

Esse banco de dados tem 18 linhas e 11 colunas e os dados representam contadores por faixa de renda/religião. Se essa base estivesse preparada para análise de dados nós deveríamos ter um base com apenas três colunas, Religião, Faixa de renda, total. E cada observação indicaria a religião e a faixa de renda e o total daquela religião/faixa. Teríamos no total (18 * 10) registros.

Diz-se que essa base nesse esquema tem **formato largo**. Precisamos de uma operação que transforme ela para o **formato longo**. Dependendo da linguagem de programação utilizada isso é chamado de unpivot/metl/gather. O pandas faz isso usando a função melt:

In [2]:
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')

print(pew_long.head())

print(pew_long.tail())

print(pew_long.shape)

             religion income  count
0            Agnostic  <$10k     27
1             Atheist  <$10k     12
2            Buddhist  <$10k     27
3            Catholic  <$10k    418
4  Don’t know/refused  <$10k     15
                  religion              income  count
175               Orthodox  Don't know/refused     73
176        Other Christian  Don't know/refused     18
177           Other Faiths  Don't know/refused     71
178  Other World Religions  Don't know/refused      8
179           Unaffiliated  Don't know/refused    597
(180, 3)


O nome (ou lista de nomes) passado como parâmetro para id_vars mostra o nome das variáveis identificadas no dataframe, ou seja, são as colunas que não serão despivotadas. Todas as outras serão.

## Seção 6.3 - Colunas contendo diversas variáveis

Em alguns casos uma coluna representa mais de uma variável. Por exemplo, na dataframea baixo (ebola), as colunas Cases_Guinea e Death_Guinea representa o status individual (se é caso ou morte) e o país:

In [3]:
ebola = pd.read_csv('../data/country_timeseries.csv')

print(ebola.columns)

# Exibe os cinco primeiros registros de casos e mortes em Guiné e na Libéria:
print(ebola.iloc[:5, [0, 1, 2, 3, 10, 11]])

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')
         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


In [4]:
ebola.head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


Vamos despivotar esses dados. As datas e dias serão as variáveis já identificadas.

Como originalmente são 122 linhas e 18 colunas e 2 dessas já são variáveis, teremos (122 * 16) registros após a operação:

In [5]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
print(ebola.shape)
print(ebola_long.shape)

print(ebola_long.head())
print(ebola_long.tail())

(122, 18)
(1952, 4)
         Date  Day      variable   value
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3    1/2/2015  286  Cases_Guinea     NaN
4  12/31/2014  284  Cases_Guinea  2730.0
           Date  Day     variable  value
1947  3/27/2014    5  Deaths_Mali    NaN
1948  3/26/2014    4  Deaths_Mali    NaN
1949  3/25/2014    3  Deaths_Mali    NaN
1950  3/24/2014    2  Deaths_Mali    NaN
1951  3/22/2014    0  Deaths_Mali    NaN


Pela forma como foi construído o dataframe, a variável de interesse ainda tem informações sobre casos e país, tudo codificado dentro da string. Podemos quebrar a string no underscore para separar isso. O container resultante é um Series de lista de string:

In [6]:
variable_split = ebola_long.variable.str.split('_')
print(type(variable_split))
print(variable_split)

<class 'pandas.core.series.Series'>
0       [Cases, Guinea]
1       [Cases, Guinea]
2       [Cases, Guinea]
3       [Cases, Guinea]
4       [Cases, Guinea]
             ...       
1947     [Deaths, Mali]
1948     [Deaths, Mali]
1949     [Deaths, Mali]
1950     [Deaths, Mali]
1951     [Deaths, Mali]
Name: variable, Length: 1952, dtype: object


Podemos separar esses elementos usando o atributo str de uma Series. Esse atributo é um alias pra um pandas.core.strings.accessor.StringMethods e fornece vários métodos pra trabalhar vetorizado numa string. No caso do método get, além de strings ele funciona também com list e tuplas: https://pandas.pydata.org/pandas-docs/version/0.15.2/generated/pandas.core.strings.StringMethods.get.html

In [7]:
ebola_long['status'] = variable_split.str.get(0)
ebola_long['country'] = variable_split.str.get(1)
ebola_long.head()

Unnamed: 0,Date,Day,variable,value,status,country
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea


O método str.split já poderia ter expandido o resultado, de forma que não precisaríamos ter depois acessado cada elemento da lista com str.get:

In [8]:
ebola_long.variable.str.split('_', expand=True).head()

Unnamed: 0,0,1
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
3,Cases,Guinea
4,Cases,Guinea


## Seção 6.4 - Variáveis tanto em linhas quanto em colunas

Em alguns casos a tabea pode possuir variáveis em linhas e algumas colunas podem ter valores nas colunas. Essa segunda questão já foi feita na seção anterior e podemos fazer o despivotamento para resolver. No caso de variáveis dispersas nas linhas, fazemos a operação contrária, o povitamento.

Como exemplo considere o dataframe de tempo abaixo. As colunas d1 a d31 são valores para uma variável 'day'. O conteúdo de 'element' indica se se trata de temperatura máxima ou mínima. 'tmin' e 'tmax' na verdade são variáveis aqui e deveriam ter sua própria coluna.

Primeiro vamos trabalhar o despivotamento das colunas:

In [9]:
weather = pd.read_csv('../data/weather.csv')

weather.head()

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,


Ao fazer o melt dessas 31 colunas, o dataframe que tem 22 linhas e 35 colunas passará a ter 22 * 31 linhas = 682:

In [10]:
weather_melt = pd.melt(weather, id_vars=['id', 'year', 'month', 'element'], var_name='day', value_name='temp')

print(weather_melt.head())
print(weather.shape)
print(weather_melt.shape)

        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004  2010      3    tmax  d1   NaN
(22, 35)
(682, 6)


Agora fazemos o pivotamento das variáveis armazenadas na coluna 'element'. No caso do pandas o pivotamento é feito como um método do dataframe (diferentemente do melt que é uma função do pandas):

In [11]:
weather_tidy = weather_melt.pivot_table(index=['id', 'year', 'month', 'day'], columns='element', values='temp')

weather_tidy.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,element,tmax,tmin
id,year,month,day,Unnamed: 4_level_1,Unnamed: 5_level_1
MX17004,2010,1,d30,27.8,14.5
MX17004,2010,2,d11,29.7,13.4
MX17004,2010,2,d2,27.3,14.4
MX17004,2010,2,d23,29.9,10.7
MX17004,2010,2,d3,24.1,14.4


Uma tabela pivot é feita para sumarizar estatísticas/dados. O pandas permite fazer também algumas sumarizações usando o parâmetro aggfunc: https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html

Note que a tabela tem uma forma hierárquica. Podemos deixar ela flat:

In [12]:
weather_tidy_flat = weather_tidy.reset_index()

weather_tidy_flat.head()

element,id,year,month,day,tmax,tmin
0,MX17004,2010,1,d30,27.8,14.5
1,MX17004,2010,2,d11,29.7,13.4
2,MX17004,2010,2,d2,27.3,14.4
3,MX17004,2010,2,d23,29.9,10.7
4,MX17004,2010,2,d3,24.1,14.4


# Seção 6.5 - Várias unidades de observação em uma tabela (normalização)

Algumas vezes a tabela fornecida responde mais de uma pergunta. É possível ver esse tipo de informação quando há muita coisa duplicada (valores repetidos) nas linhas.

Por exemplo, veja os dados da Billboard abaixo:

In [13]:
billboard = pd.read_csv('../data/billboard.csv')

billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating')

billboard_long.head()

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0


Esses dados possuem informações das faixas e a sua classificação semanal. Por exemplo, vamos filtrar uma faixa específica:

In [14]:
billboard_long[billboard_long.track == 'Loser'].head()

Unnamed: 0,year,artist,track,time,date.entered,week,rating
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
320,2000,3 Doors Down,Loser,4:24,2000-10-21,wk2,76.0
637,2000,3 Doors Down,Loser,4:24,2000-10-21,wk3,72.0
954,2000,3 Doors Down,Loser,4:24,2000-10-21,wk4,69.0
1271,2000,3 Doors Down,Loser,4:24,2000-10-21,wk5,67.0


As variáveis year, artist e time se referem a faixa, e não a sua classificação. Poderiam ser extraídas pra uma tabela separada. Ao retirar apenas as colunas de interesse do dataframe original, teremos várias duplicatas que deverão ser removidas:

In [15]:
billboard_songs = billboard_long[['year', 'artist', 'track', 'time']]
billboard_songs = billboard_songs.drop_duplicates()
print(billboard_songs.shape)
print(billboard_songs.head())

(317, 4)
   year        artist                    track  time
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22
1  2000       2Ge+her  The Hardest Part Of ...  3:15
2  2000  3 Doors Down               Kryptonite  3:53
3  2000  3 Doors Down                    Loser  4:24
4  2000      504 Boyz            Wobble Wobble  3:35


Feito isso podemos adicionar uma coluna id (uma chave) pra cada registro dessa nova tabela:

In [16]:
billboard_songs['id'] = range(len(billboard_songs))
print(billboard_songs.head())

   year        artist                    track  time  id
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   1
2  2000  3 Doors Down               Kryptonite  3:53   2
3  2000  3 Doors Down                    Loser  4:24   3
4  2000      504 Boyz            Wobble Wobble  3:35   4


Agora basta substitui no dataframe de rating essas 4 colunas pelo id da música e selecionar apenas as colunas que nos interessam pra análise da classificação:

In [17]:
billboard_ratings = billboard_long.merge(billboard_songs, on=['year', 'artist', 'track', 'time'])

billboard_ratings = billboard_ratings[['id', 'date.entered', 'week', 'rating']]

billboard_ratings.head()

Unnamed: 0,id,date.entered,week,rating
0,0,2000-02-26,wk1,87.0
1,0,2000-02-26,wk2,82.0
2,0,2000-02-26,wk3,72.0
3,0,2000-02-26,wk4,77.0
4,0,2000-02-26,wk5,87.0
