# Tidy Data (Dados organizados)

Hadley Wickham, um dos memnros mais proeminentes da comunidade R, introduziu o conceito de tindy data (dados organizados) em um artigo do journal of statistical software. Tindy data é um framework para estruturar conjuntos de dados de modo que sejam facilmente analisados e visualizados. Podemos pensar nele como um objetivo a que devemos visar quando limpamos os dados.

Então, o que é tidy data? O artigo de Handley Wickham o define como um conceito que atende aos seguintes critérios:
    - Cada linha é uma observação (observation).
    - Cada coluna é uma variável (variable).
    - Cada tipo de unidade de observação forma uma tabela(observation).

### Colunas contem Valores não variáveis
Os dados podem ter colunas que contem valores em vez de variáveis. Em gera, é um formato conveniente para colta e apresentação de dados.

### Matendo uma coluna fixa

In [1]:
"""
O dataset do Pew Research Center é sobre renda e religião nos Estadus unimdos
"""

import pandas as pd
pew = pd.read_csv('data/pew.csv')
pew.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


Quando o esse conjunto de dados, podemos ver que nem toda as colunas são variáveis. Os valores relacionados à reda estão espalhados em várias colunas. O formato exibido é uma ótima opção quando apresentamos dados em uma tabela, mas , para análise de dados, a tabela precisa ser reformatada a fim de que tenhamos variáveis para religião, renda e contador.<br>
Essa visualização dos dados também é conhecida como dados 'largos'(wide). Para transforma-la no formato de dados longos (long) do tidy data, teremos que efetuar uma operação de fusão (unpivot/melt/gather) no nosso dataframe. Pandas tem a função chamada melt que reformatará o dataframe de maneira organizada. **melt** aceita alguns parâmetros:

- **id_vars:** É um conteiner (lista, tupla e etcO que represnta as variáveis que permanecerão inalteradas.
- **value_vars:** Identifica as colunas em que a operação de melt (fusão) será executada. Por padrão, ela será executada em  todas as cuonas não especificadas pelo *id_vars*. 
- **var_name:** é uma string para o nome da nova coluna quando um melt é executado em *value_vars*. Por padrão ela é chamada de **variable**.
- **value_name:** é uma string para o nome da nova coluna que representa os valores para *var_name*. Por padrão, ela será chamada value.

In [2]:
# Não precisamos espeficar um value_vars, 
# pois queremos pivotear todas as colunas, exeto a coluna 'religion'
pew_long = pd.melt(pew, id_vars='religion')
print(pew_long.head())

             religion variable  value
0            Agnostic    <$10k     27
1             Atheist    <$10k     12
2            Buddhist    <$10k     27
3            Catholic    <$10k    418
4  Don’t know/refused    <$10k     15


Podemos altearr os defauls de modo que as colunas sujeitas à operação do **melt** sejam nomeadas.

In [3]:
pew_long = pd.melt(pew,
                  id_vars ='religion',
                  var_name ='income',
                  value_name ='cont')
print(pew_long.head())

             religion income  cont
0            Agnostic  <$10k    27
1             Atheist  <$10k    12
2            Buddhist  <$10k    27
3            Catholic  <$10k   418
4  Don’t know/refused  <$10k    15


### Mantendo várias colunas fixas 
Nem todo conjunto de dados terá uma coluna que permanecerá inalterada enquanto você executar um unpivot ('Despivotear') no restante das colunas. Como exemplo, considere o conjunto de dados billboard.

In [4]:
billboard = pd.read_csv('data/billboard.csv')

In [5]:
# observe as primeiras linhas e colunas
print(billboard.iloc[0:5, 0:16])

   year        artist                    track  time date.entered  wk1   wk2  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   87  82.0   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   91  87.0   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08   81  70.0   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21   76  76.0   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15   57  34.0   

    wk3   wk4   wk5   wk6   wk7   wk8   wk9  wk10  wk11  
0  72.0  77.0  87.0  94.0  99.0   NaN   NaN   NaN   NaN  
1  92.0   NaN   NaN   NaN   NaN   NaN   NaN   NaN   NaN  
2  68.0  67.0  66.0  57.0  54.0  53.0  51.0  51.0  51.0  
3  72.0  69.0  67.0  65.0  55.0  59.0  62.0  61.0  61.0  
4  25.0  17.0  17.0  31.0  36.0  49.0  53.0  57.0  64.0  


Podemos ver, nos dados acima, que cada semana tem suam proporia coluna, o que é bem normal. No entanto, pode haver um momento em que você precisará executar um melt nos dados. Por exemplo, se quisesse criar uma plotagem com faceta com as classificações semanais, a variavel faceta teria de ser uma coluna do dataframe.


In [6]:
billboard_long = pd.melt(
            billboard,
            id_vars= ['year', 'artist', 'track', 'time', 'date.entered'],
            var_name='week',
            value_name='ratting')

print(billboard_long.head())

   year        artist                    track  time date.entered week  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1   

   ratting  
0     87.0  
1     91.0  
2     81.0  
3     76.0  
4     57.0  


### Colunas contendo diversas variáveis
Colunas em um conjunto de dadpos podem representar diversas variáveis.

In [7]:
ebola = pd.read_csv('data/country_timeseries.csv')
print(ebola.columns)

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')


In [8]:
#Exibindo linhas selecionadas
print(ebola.iloc[:5, [0, 1, 2, 3, 10, 11]])

         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


Os nomes de colunas **Cases_Guinea e Deaths_Guinea** na verdade contêm duas variáveis: o status individual (casos e mortes, recpecitvamente), assim como o nome  do país, Guinea (Guiné). Os dados também estão organizados em formato largo, e a operação  de um umpivot deve ser executada.

In [9]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
print(ebola_long.head())

         Date  Day      variable   value
0    1/5/2015  289  Cases_Guinea  2776.0
1    1/4/2015  288  Cases_Guinea  2775.0
2    1/3/2015  287  Cases_Guinea  2769.0
3    1/2/2015  286  Cases_Guinea     NaN
4  12/31/2014  284  Cases_Guinea  2730.0


### Separar e adicionar colunas individualmente (método simples)

In [10]:
# Obtém a coluna variable,
# acessa os métodos de string
# e separa a coluna com base em um delimitador
variable_split = ebola_long.variable.str.split('_')
print(variable_split[:5])

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object


Depois da separação com base nos underscore, os valores são devolvidos em uma lista. Sabemos se tratar de uma lista proque é assim que o método split funciona, mas a pista visual encontra-se no fato de o resultado estar cercado por colchetes.

In [11]:
# o contêiner inteiro
print(type(variable_split))

<class 'pandas.core.series.Series'>


Agora que a coluna foi separada em várias partes, o próximo passo é atribuir essas partes a uma nova coluna. Inicialmente, porem, precisamos extrair todos os elementos com índice 0 da coluna de *status* e os elementos de índice 1 da coluna de país. Para isso, temos de acessar os métodos de string novamente e então usar o método *get* para obter o índice que queremos em cada linha. 

In [12]:
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)
print(status_values[:5])

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: variable, dtype: object


In [13]:
# Agora que temos os vetores desejados, podemos adiciona-los em nosso dataframe.
ebola_long['status'] = status_values
ebola_long['country'] = country_values
print(ebola_long.head())

         Date  Day      variable   value status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea


### Separar e combinar em um único passo (método simples)
Nesta sessão, exploraremos o fato de que o vetor devolvido está na mesma ordem que nossos dados. Podemos concatenar o novo vetor aos nossos dados originais.

In [14]:
variabe_split = ebola_long.variable.str.split('_', expand=True)
variabe_split.columns = ['status', 'country']
ebola_parsed = pd.concat([ebola_long, variable_split], axis=1)
print(ebola_parsed.head())

         Date  Day      variable   value status country         variable
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea  [Cases, Guinea]
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea  [Cases, Guinea]
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea  [Cases, Guinea]
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea  [Cases, Guinea]
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea  [Cases, Guinea]


### Variáveis Tanto em linhas quanto em colunas
As vezes, os dados estarão formatados de modo que as variáveis se encontrarão tanto nas linhas quanto nas colunas. Apresentaremos o que acontecerá se uma coluna de dados armazenar duas variáveis em vez de uma. Nesse caso teremos que executar uma operação de pivot ou cast da variavel em colunas separadas.

In [15]:
weather = pd.read_csv('data/weather.csv')
print(weather.iloc[:5, :11])

        id  year  month element  d1    d2    d3  d4    d5  d6  d7
0  MX17004  2010      1    tmax NaN   NaN   NaN NaN   NaN NaN NaN
1  MX17004  2010      1    tmin NaN   NaN   NaN NaN   NaN NaN NaN
2  MX17004  2010      2    tmax NaN  27.3  24.1 NaN   NaN NaN NaN
3  MX17004  2010      2    tmin NaN  14.4  14.4 NaN   NaN NaN NaN
4  MX17004  2010      3    tmax NaN   NaN   NaN NaN  32.1 NaN NaN


Os dados meteorológicos incluem temperaturas mínima e máxima (valores tmin e tmax na colnuna *element*, respectivamente) registradas para cada dia (d1, d2, ...,d31) do mês (month). A coluna *element* contém variáveis que devem ser submetidas a cast/pivot para que se trasformem em novas colunas, e as variáveis de dia devem ser sujeitas à operação de melt, gerando valores de linhas.

In [16]:
# Vamos executar primeiro a operação de melt/unpivot nos valores dos dias.
weather_melt = pd.melt(weather,
                      id_vars=['id', 'year', 'month', 'element'],
                      var_name='day',
                      value_name='temp')
print(weather_melt.head())

        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004  2010      3    tmax  d1   NaN


A seguir devemos pivotear as variáveis armazenadas na coluna element. Esse processo é conhecido como casting ou spreading em outras linguagens estatísticas. Uma das principais diferenças entre *pivot_table* e *melt* é uma função no Pandas, enquanto *pivot_table* é um método que chamamos em um objeto DataFrame. 

In [17]:
weather_tidy = weather_melt.pivot_table(
    index=['id', 'year', 'month', 'day'],
    columns='element',
    values='temp')

Observandoa table após a operação de pivot, percebemos que cada valor na coluna element está agora em uma coluna separada. É possível deixar essa tabela em seu estado atual, mas também podemos linearizar as colunas hierárquicas.


In [18]:
weather_tidy_flat = weather_tidy.reset_index()
print(weather_tidy_flat.head())

element       id  year  month  day  tmax  tmin
0        MX17004  2010      1  d30  27.8  14.5
1        MX17004  2010      2  d11  29.7  13.4
2        MX17004  2010      2   d2  27.3  14.4
3        MX17004  2010      2  d23  29.9  10.7
4        MX17004  2010      2   d3  24.1  14.4


In [19]:
# Do mesmo modo, podemos aplicar esses métodos sem o dataframe intermediário:
weather_tidy = weather_melt.\
    pivot_table(
        index=['id', 'year', 'month', 'day'],
        columns='element',
        values='temp').\
    reset_index()
print(weather_tidy.head())

element       id  year  month  day  tmax  tmin
0        MX17004  2010      1  d30  27.8  14.5
1        MX17004  2010      2  d11  29.7  13.4
2        MX17004  2010      2   d2  27.3  14.4
3        MX17004  2010      2  d23  29.9  10.7
4        MX17004  2010      2   d3  24.1  14.4


### Várias unidades de observação em uma tabela(normalização)
um dos modos mais simples de saber se várias unidades de observação estão represetadas em uma tabela é observar cada uma das linha e prestar atenção se há alguma célula ou valor sendo repetido nas linhas. Isso é muito comum em dados administrativos de educação do governo, em que informações demofráficas de estudantes são informadas para cada aluno, para cada ano em que esse aluno estiver matriculado.

In [21]:
# Observemos novamente os dados da Billboard que limpamos anteriormente.
print(billboard_long.head())

   year        artist                    track  time date.entered week  \
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1   
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1   
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1   
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1   
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1   

   ratting  
0     87.0  
1     91.0  
2     81.0  
3     76.0  
4     57.0  


Suponhamos que tenhamos criado um subconjunto dos dados com base em uma faiza musical em particular

In [22]:
print(billboard_long[billboard_long.track =='Loser'].head())

      year        artist  track  time date.entered week  ratting
3     2000  3 Doors Down  Loser  4:24   2000-10-21  wk1     76.0
320   2000  3 Doors Down  Loser  4:24   2000-10-21  wk2     76.0
637   2000  3 Doors Down  Loser  4:24   2000-10-21  wk3     72.0
954   2000  3 Doors Down  Loser  4:24   2000-10-21  wk4     69.0
1271  2000  3 Doors Down  Loser  4:24   2000-10-21  wk5     67.0


Podemos ver que essa tabela, na verdade, armazena dois tipos de dados: a informação da faiza musical (track) e a classificação semanal. Dessa forma,  as informações armazenadas nas colunas year, artist, track e time não estariam repedidas no conjunto de dados. Essa consideração é particularmente importante se os dados forem inseridos manualmente. Repetir os mesmos valores de modo contínuo durante a entreda de dados eleva o risco de haver dados inconsistentes.

O que deveríamos fazer nesse caso é colocar year, artist, track, time e date.enterde em um novo dataframe, com cada conjunto unico de valores recevendo um ID único. Podemos então usar esse ID único em um segundo dataframe que represente a música, a data, o número da semana e a classificação. Esse processo como um todo pode ser pensado com uma inversão dos passos de concatenação e combinação de dados. 

In [23]:
billboard_songs = billboard_long[['year', 'artist', 'track','time']]
print(billboard_songs.shape)

(24092, 4)


In [24]:
'''
Sabemos que há entradas duplicadas nesse dataframe, portanto devemos descartas as linhas duplicadas.
'''
billboard_songs = billboard_songs.drop_duplicates()
billboard_songs.shape

(317, 4)

Podemos então atribuir um valor unico para cada linha de dados.

In [26]:
billboard_songs['id'] = range(len(billboard_songs))
print(billboard_songs.head(n=10))


   year          artist                    track  time  id
0  2000           2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000         2Ge+her  The Hardest Part Of ...  3:15   1
2  2000    3 Doors Down               Kryptonite  3:53   2
3  2000    3 Doors Down                    Loser  4:24   3
4  2000        504 Boyz            Wobble Wobble  3:35   4
5  2000            98^0  Give Me Just One Nig...  3:24   5
6  2000         A*Teens            Dancing Queen  3:44   6
7  2000         Aaliyah            I Don't Wanna  4:15   7
8  2000         Aaliyah                Try Again  4:03   8
9  2000  Adams, Yolanda            Open My Heart  5:30   9


Agora que temos um dataframe separado com as músicas, podemos usar a colina id recém criada para fazer uma correspondencia entre uma música e sua classificação semanal.

In [38]:
# Combina o dataframe de música com o conjunto de dados original
billboard_ratings = billboard_long.merge(
    billboard_songs, on=['year', 'artist', 'track', 'time'])
print(billboard_ratings.shape)

(24092, 8)


In [39]:
print(billboard_ratings.head())

   year artist                    track  time date.entered week  ratting  id
0  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1     87.0   0
1  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk2     82.0   0
2  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk3     72.0   0
3  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk4     77.0   0
4  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk5     87.0   0


Por fim, vamos obter um subconjunto com as colunas que queremos em nosso dataframe de classificações

In [43]:
billboard_ratings = \
    billboard_ratings[['id', 'date.entered', 'week', 'ratting']]
print(billboard_ratings.head())

   id date.entered week  ratting
0   0   2000-02-26  wk1     87.0
1   0   2000-02-26  wk2     82.0
2   0   2000-02-26  wk3     72.0
3   0   2000-02-26  wk4     77.0
4   0   2000-02-26  wk5     87.0


A ultima porão da organização dos dados relaciona-se à situação em que o mesmo tipo de dado está espalhado por vários conjuntos de dados. Um dos motivos pelos quais os dados podem estar separados em varios arquivos é devido ao tamanho destes. Ao separar os dados em várias partes, cada uma delas se torna menor. Isso pode ser bom se houver necessidade de compartilhar dados na internet ou por emaiol, pois muitos serviçoes limitam o tamanho de um arquivo que pode ser aberto ou compartilhado. O processo de coleta de dados é outro motivo pelo qual um conjunto de dados separado contendo informações sobre ações no mercado poderia ser criado a cada dia.

O Unifed New York City Taxi and Uber Data será o data set que iremos trabalhar. este dataset contem o histórico de 1,3 bilhoes de corridas de taxi e uber na cidade de NY e está organizado em mais de 140 arquivos. 


In [48]:
import os
import urllib

# Código para fazer download dos dados;
# faz o download somente dos cinco primeiro conjunto de dados da lista de arquivos
with open('data/raw_data_urls.txt', 'r') as data_urls:
    for line, url in enumerate(data_urls):
        if line == 5:
            break
        fn = url.split('/')[-1].strip()
        fp = os.path.join('..', 'data', fn)
        print(url)
        print(fp)
        urllib.request.urlretrieve(url, fp)

https://s3.amazonaws.com/nyc-tlc/trip+data/fhv_tripdata_2015-01.csv

..\data\fhv_tripdata_2015-01.csv


FileNotFoundError: [Errno 2] No such file or directory: '..\\data\\fhv_tripdata_2015-01.csv'