O objetivo dessa aula é introduzir conceitos sobre formatação de dados e formato ```tidy```.

**Tópicos**:
 - **O que é Data Wrangling:**
 - **Definição de Tidy Format** 
 - **Os 5 problemas mais comuns**
     - As Colunas são Valores e Não nomes de Variáveis
     - Múltiplas Unidades Observacionais armazenadas na mesma tabela

 

# O que é Data Wrangling

**Data Wrangling** é o processo pelo qual os dados coletados passam por uma transformação para que se tornem mais acionáveis, apropriados e valiosos para uma variedade de finalidades.

Muitas vezes o formato do dado recebido/coletado facilita a visualização e apresentação, mas dificulta a modelagem e exploração. Dessa forma, as operações envolvidas no processo de Data Wrangling tentam justamente resolver esse problema.

# Definição de Tidy Format

Wickham em seu <a href="http://vita.had.co.nz/papers/tidy-data.pdf"> artigo </a> 
definiu o conceito de tidy data de acordo com algumas propriedades que esse tipo de formato possuiria:

* Cada variável forma uma coluna e contém valores
* Cada observação forma uma linha
* Cada tipo de unidade observacional forma uma tabela



* Algumas Outras definições: 

    - Variável: Um atributo (característica). Altura, Peso, Sexo, etc.
    - Valor: Medição de alguma variável (atributo). 152 cm, 80 kg, Feminino etc.
    - Observação: Todas as medidads coletadas de um único evento, usuário, entre outros.


O que é uma unidade observacional?

A unidade observacional é a estrutura mais fundamental da observação. É nossa referência! Veja a tabela abaixo:

Temos medições de temperatura em duas cidades distintas e em semanas distintas.

| Week| Temperatura_Cidade_A | Temperatura_Cidade_B 
| :- | -: | :-: |
| 1 | 35 | 30| 30
| 2 | 40 | 33

Que também poderia ser representada assim:

| Week| 1 | 2 
| :- | -: | :-: |
| Temperatura_Cidade_A | 35 | 30| 30
| Temepratura_Cidade_B | 40 | 33

Contudo ambas são messy. O formato tidy para essa tabela seria esse:

| Week| Cidade | Temperatura 
| :- | -: | :-: |
| 1 | A | 35| 
| 1 | B | 30|
| 2 | A | 40| 
| 2 | B | 33|

Note que nossa referência (unidade observacional) é ```cidade-semana```.

Agora, imagine se estivéssemos coletando também a altitude da cidade. Note que a altitude.

Teríamos uma unidade observacional 1 (cidade-semana) e outra unidade observacional (cidade). Na mesma tabela teríamos informações sobre cidade-semana (temperaturas) e somente sobre as cidades. Do ponto de vista tidy, o ideal é que essas informações fiquem em tabelas diferentes.

Exemplo de um Messy Data (dado com formato não adequado.)

| Nome | Tratamento A | Tratamento B |
| :- | -: | :-: |
| Bruno | 25 | 2.3
| Maurício | 10 | 18.3
| Laura | 4.9 | 40.2



Exemplo de um Tidy Data (dado com formato adequado)

| Nome | Tratamento | Resultado |
| :- | -: | :-: |
| Bruno | A | 25
| Bruno | B | 2.3
| Mauricio | A | 10
| Mauricio | B | 18.3
| Laura | A | 4.9
| Laura | B | 40.2

**OBS**: Um Messy Data é todo aquele conjunto que não é Tidy :))

## Os 5 problemas mais comuns 

Em seu artigo, Wichkam traz alguns dos problemas mais frequentes em conjuntos de dados


* As colunas são valores e não nomes de variáveis
* Múltiplas variáveis armazenadas na mesma coluna
* Variáveis armazenadas nas linhas e nas colunas simultaneamente
* Múltiplos tipos de unidades observacionais armazenadas na mesma tabela
* Uma única unidade observacional representada em mais de uma tabela

Vamos estudar um pouco caso a caso e praticar um poouco a arte de transfomar os dados.

### As Colunas são Valores e Não nomes de Variáveis

Vamos ler o arquivo ```pew-raw.csv```

In [1]:
import pandas as pd

In [3]:
df_pew_raw = pd.read_csv('pew_raw.csv')

In [4]:
df_pew_raw

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


A coluna religion é um idenitifcador do registro e as demais colunas representam variáveis (faixas de valores) associadas a receita. Contudo, note que essas colunas poderiam ser condensadas em uma única coluna de receita.
Para fazer isso vamos utilizar a função ```pd.melt()``` do pandas.

```pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value')```

* ```frame```: Objeto de dados (dataframe)
* ```id_vars```: Coluna identificadora (não será usada na transformação)
* ```value_vars```: Coluna(s) que você queira transformar
* ```var_name```: Nome da variável que será criada na transformação
* ```value_name```: Nome do valor associado a variável criada    

In [5]:
pd.melt(df_pew_raw, id_vars='religion', var_name='faixa_receita', value_name='frequencia')

Unnamed: 0,religion,faixa_receita,frequencia
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Dont know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovahs Witness,<$10k,20
9,Jewish,<$10k,19


Perceba o que ocorreu:
+ Cada coluna (faixa) foi transformada em uma linha (uma nova linha para cada religião). 
+ O valor contido nas celulas do primeiro data frame foram transferidos para a coluna de frequência, onde há o match exato entre religião e faixa.

In [6]:
df_billboard = pd.read_csv('billboard.csv')

In [7]:
df_billboard

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,x1st.week,x2nd.week,x3rd.week,...,x67th.week,x68th.week,x69th.week,x70th.week,x71st.week,x72nd.week,x73rd.week,x74th.week,x75th.week,x76th.week
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,78,63.0,49.0,...,,,,,,,,,,
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,15,8.0,6.0,...,,,,,,,,,,
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,71,48.0,43.0,...,,,,,,,,,,
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,41,23.0,18.0,...,,,,,,,,,,
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,57,47.0,45.0,...,,,,,,,,,,
5,2000,Janet,Doesn't Really Matter,4:17,Rock,2000-06-17,2000-08-26,59,52.0,43.0,...,,,,,,,,,,
6,2000,Destiny's Child,Say My Name,4:31,Rock,1999-12-25,2000-03-18,83,83.0,44.0,...,,,,,,,,,,
7,2000,"Iglesias, Enrique",Be With You,3:36,Latin,2000-04-01,2000-06-24,63,45.0,34.0,...,,,,,,,,,,
8,2000,Sisqo,Incomplete,3:52,Rock,2000-06-24,2000-08-12,77,66.0,61.0,...,,,,,,,,,,
9,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,81,54.0,44.0,...,,,,,,,,,,


Billboard é um ranking musical lá dos EUA que mostra o ranking semanal das músicas ao longo de 75 semanas, a partir do momento em que a música entra no TOP 100.
* Problemas:
    - As colunas possuem valores (x1st.week, x2nd.week e etc.)
* O que podemos fazer:
    - Criar uma única coluna com as datas (cada semana irá tornar-se uma linha para cada música do ranking) e usar seu valor para criar a colunad e ranking. No caso de valores missing, deletaremos as linhas referentes às músicas que estiveram fora do ranking por menos de 75 semanas.

In [10]:
id_vars=['year', 'artist.inverted', 'track', 'time', 'genre', 'date.entered','date.peaked']
df_tidy_billboard = pd.melt(df_billboard, id_vars=id_vars, var_name='semana',value_name='posicao')

In [11]:
df_tidy_billboard

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,semana,posicao
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,x1st.week,78.0
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,x1st.week,15.0
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,x1st.week,71.0
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,x1st.week,41.0
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,x1st.week,57.0
5,2000,Janet,Doesn't Really Matter,4:17,Rock,2000-06-17,2000-08-26,x1st.week,59.0
6,2000,Destiny's Child,Say My Name,4:31,Rock,1999-12-25,2000-03-18,x1st.week,83.0
7,2000,"Iglesias, Enrique",Be With You,3:36,Latin,2000-04-01,2000-06-24,x1st.week,63.0
8,2000,Sisqo,Incomplete,3:52,Rock,2000-06-24,2000-08-12,x1st.week,77.0
9,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,x1st.week,81.0


* Exercício:
    - Extraia o Número da Semana da coluna semana e armazene em uma nova coluna (tipo inteiro).
    - Extraia a Data referente a semana específica para cada artista e música e armazene em uma nova coluna.

Para o primeiro exercício precisamos usar uma expressão regular (regex) para extrair padrões em cadeias de caracteres (stirngs)

 Temos a data de entrada (que seria a primeira semana).
Então basta contar quantas semanas a frente da primeira semana estamos e adicionar a data de entrada para obter a data atual

A primeira semana se refere a data de entrada. A data segunda semana, se refere a data da primeira semana + 1 semana inteira. E assim por diante.

Data da semana = Data Entrada + Semanas Passadas 

Semanas passadas = Semana atual - 1

### Múltiplas Unidades Observacionais armazenadas na mesma tabela

Mesmo já melhorando a estrutura mais bruta do dataset, note que existe muita informação repetida (ano, título da música, artista, tempo de execução e gênero)

Isso ocorre, pois nosso dataset ainda não está de acordo com os princípios tidy em sua totalidade. Há um em especial que está sendo violado.

Veja que temos mais de uma unidade observacional nos nossos dados: (Ranking+Música+Data) e Música, que contém informações descritivas como artista, tempo e gênero. Pelo princípio do tidy data, precisamos separar esas informações em tabelas separadas.

Inicialmente vamos separar as músicas e suas respectivas informações.

Agora as duas tabelas podem se comunicar por meio da coluna ```identificador_musica```.