CAPÍTULO 6 
-
Tidy data (dados organizados)

6.1 Introdução  
O conceito de Hadley Wickham o define como um conceito quqe atende os seguintes critérios:  
 - Cada linha é uma observação (observation)
 - Cada coluna é uma variável (variable)
 - Cada tipo de unidade de observação forma uma tabela

Este capítulo descreve diversas formas de como organizar os dados conforme identificadas pelo artigo

6.2 Colunas contêm valores, e não variáveis

Os dados podem conter colunas que contêm valores em vez de variáveis. Em geral, é um formato conveniente para a coleta e apresentação dos dados

6.2.1 Mantendo uma coluna fixa

In [1]:
import pandas as pd

Ao observar esse conjunto de dados podemos ver que nem todas as colunas são variáveis, os valores relacionados à renda estão espalhados em varias colunas.  
Esse formato é uma ótima opção para tabelas, mas para analise de dados precisamos reformatar esses dados para que religião, renda e contador sejam variáveis

In [2]:
pew = pd.read_csv('../../data/pew.csv')

print(pew.iloc[:, 0:6])

                   religion  <$10k  $10-20k  $20-30k  $30-40k  $40-50k
0                  Agnostic     27       34       60       81       76
1                   Atheist     12       27       37       52       35
2                  Buddhist     27       21       30       34       33
3                  Catholic    418      617      732      670      638
4        Don’t know/refused     15       14       15       11       10
5          Evangelical Prot    575      869     1064      982      881
6                     Hindu      1        9        7        9       11
7   Historically Black Prot    228      244      236      238      197
8         Jehovah's Witness     20       27       24       24       21
9                    Jewish     19       19       25       25       30
10            Mainline Prot    289      495      619      655      651
11                   Mormon     29       40       48       51       56
12                   Muslim      6        7        9       10        9
13    

Essa vizualização é conhecida como dados "largos" (wide). Para transformar dados largos em dados "longos" (long) precisamos efetuar uma operação unpivot/melt/gather em nosso dataframe.  
O Pandas usa a função melt para reformatar o dataframe de maneira organizada.

melt aceita alguns parâmetros: 
 - id_vars: é um contêiner que representa as variáveis que permanecerão inalteradas
 - value_vars: identifica as colunas que a operação melt será execultada. Por padrão ela será execultada em todas as colunas que não foram especificadas por id_vars
 - var_name: é uma string para o nome da nova coluna quando melty é execultado em value_vars
 - value_name: é uma string para o nome da nova coluna que representa os valores para var_name

In [3]:
#Não precisamor passar value_vars pois queremos pivotear todas as colunas, exeto a coluna religion
pew_long = pd.melt(pew, id_vars='religion')

print(pew_long.head(), '\n')
print(pew_long.tail())

             religion variable  value
0            Agnostic    <$10k     27
1             Atheist    <$10k     12
2            Buddhist    <$10k     27
3            Catholic    <$10k    418
4  Don’t know/refused    <$10k     15 

                  religion            variable  value
175               Orthodox  Don't know/refused     73
176        Other Christian  Don't know/refused     18
177           Other Faiths  Don't know/refused     71
178  Other World Religions  Don't know/refused      8
179           Unaffiliated  Don't know/refused    597


Podemos alterar os defaults de modo que as colunas sejeitas à operação de melt/unpivot sejam nomeadas

In [4]:
pew_long = pd.melt(pew,
                   id_vars='religion',
                   var_name='income',
                   value_name='count')

print(pew_long.head(), '\n')
print(pew_long.tail())

             religion income  count
0            Agnostic  <$10k     27
1             Atheist  <$10k     12
2            Buddhist  <$10k     27
3            Catholic  <$10k    418
4  Don’t know/refused  <$10k     15 

                  religion              income  count
175               Orthodox  Don't know/refused     73
176        Other Christian  Don't know/refused     18
177           Other Faiths  Don't know/refused     71
178  Other World Religions  Don't know/refused      8
179           Unaffiliated  Don't know/refused    597


6.2.2 Mantendo várias colunas fixas

Nem todo conjunto de dados terá uma coluna que permanecerá inalterada em quanto você execulta um unpivot no restante das colunas.

In [5]:
billboard = pd.read_csv('../../data/billboard.csv')

print(billboard.iloc[0:5, 0:16])

   year        artist                    track  time date.entered  wk1   wk2  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   87  82.0   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   91  87.0   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08   81  70.0   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21   76  76.0   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15   57  34.0   

    wk3   wk4   wk5   wk6   wk7   wk8   wk9  wk10  wk11  
0  72.0  77.0  87.0  94.0  99.0   NaN   NaN   NaN   NaN  
1  92.0   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  
2  68.0  67.0  66.0  57.0  54.0  53.0  51.0  51.0  51.0  
3  72.0  69.0  67.0  65.0  55.0  59.0  62.0  61.0  61.0  
4  25.0  17.0  17.0  31.0  36.0  49.0  53.0  57.0  64.0  


Exemplo: se quisesse criar uma plotagem de faceta com as classificações semnais, a variável de faceta teria de ser uma coluna do dataframe

In [6]:
#fizemos um melt e passamos as colunas que deveriam permanecer inalteradas
#depois passamos um nome para a nova variável das semanas e um nome para os valores desta variável
billboard_long = pd.melt(
    billboard,
    id_vars=['year', 'artist',  'track', 'time', 'date.entered'],
    var_name='week',
    value_name='rating'
)

print(billboard_long.head(), '\n')
print(billboard_long.tail())

   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0 

       year            artist                    track  time date.entered  \
24087  2000       Yankee Grey     Another Nine Minutes  3:10   2000-04-29   
24088  2000  Yearwood, Trisha          Real Live Woman  3:55   2000-04-01   
24089  2000   Ying Yang Twins  Whistle While You Tw...  4:19   2000-03-18   
24090  2000     Zombie Nation            Kernkraft 400  3:30   2000-09-02   
24091  2000   matchbox twenty                     Bent  4:12   2000-04-29   

       week  rating  
24087  wk76     NaN  
24088  wk76     N

6.3 Colunas contendo diversas variáveis

As vezes as colunas podem representar diversas variáveis. Esse formato é comunmente visto quando trabalhamos com dados de saúde.

In [7]:
ebola = pd.read_csv('../../data/country_timeseries.csv')
print(ebola.columns)

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')


In [8]:
print(ebola.iloc[:5, [0,1,2,3,10,11]])

         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


In [9]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])

print(ebola_long)

            Date  Day      variable   value
0       1/5/2015  289  Cases_Guinea  2776.0
1       1/4/2015  288  Cases_Guinea  2775.0
2       1/3/2015  287  Cases_Guinea  2769.0
3       1/2/2015  286  Cases_Guinea     NaN
4     12/31/2014  284  Cases_Guinea  2730.0
...          ...  ...           ...     ...
1947   3/27/2014    5   Deaths_Mali     NaN
1948   3/26/2014    4   Deaths_Mali     NaN
1949   3/25/2014    3   Deaths_Mali     NaN
1950   3/24/2014    2   Deaths_Mali     NaN
1951   3/22/2014    0   Deaths_Mali     NaN

[1952 rows x 4 columns]


6.3.1 Separar e adicionar colunas individualmente (método simples)

PG 174 one hundread seventy-four