# Agenda

> Data: 22/02/2021<br>
> Aula: 09 <br>
> Módulo: 00 <br>


**Tópicos**:
 - **O que é Data Wrangling:**
 - **Definição de Tidy Format** 
 
 

# O que é Data Wrangling

**Data Wrangling** é o processo pelo qual os dados coletados passam por uma transformação para que se tornem mais acionáveis, apropriados e valiosos para uma variedade de finalidades.

Muitas vezes o formato do dado recebido/coletado facilita a visualização e apresentação, mas dificulta o processo de  exploração. 

## Os cientistas de dados gastam cerca de 70% a 80% do tempo limpando e organizando os dados. O Tidy Data é uma forma de estruturar conjuntos de dados para facilitar a análise.

## Uma das referências nesse assunto é um artigo publicado em 2014: <a href="http://vita.had.co.nz/papers/tidy-data.pdf"> artigo </a> 


O artigo concentra-se em um aspecto da limpeza de dados, organização de dados: estruturar conjuntos de dados para facilitar a análise. Por meio do artigo, Wickham demonstra como qualquer conjunto de dados pode ser estruturado de forma padronizada antes da análise. Ele apresenta em detalhes os diferentes tipos de conjuntos de dados e como transformá-los em um formato padrão.

# Definição de Tidy Data

Wickham definiu o conceito de tidy data de acordo com algumas propriedades que esse tipo de formato possuiria:

* Cada variável forma uma coluna e contém valores
* Cada observação forma uma linha
* Cada tipo de unidade observacional forma uma tabela



* Algumas Outras definições: 

    - Variável: Um atributo (característica). Altura, Peso, Sexo, etc.
    - Observação: Todas as medidads coletadas de um único evento, usuário, entre outros.
    - Valor: Medição de alguma variável (atributo). 152 cm, 80 kg, Feminino etc.



## O que é uma unidade observacional?

A unidade observacional é a estrutura mais fundamental da observação. É nossa referência! Veja o exemplo abaixo:

# Dados bagunçados


### Para entender por que os dados organizados são tão importantes, vamos ao exemplo:

Temos medições de temperatura em duas cidades distintas e em semanas distintas.

| Week| Temperatura_Cidade_A | Temperatura_Cidade_B 
| :- | -: | :-: |
| 1 | 35 | 30| 30
| 2 | 40 | 33

Que também poderia ser representada assim:

| Week| 1 | 2 
| :- | -: | :-: |
| Temperatura_Cidade_A | 35 | 30| 30
| Temepratura_Cidade_B | 40 | 33

Contudo ambas são messy (dado com formato não adequado.). O formato tidy para essa tabela seria esse:

| Week| Cidade | Temperatura 
| :- | -: | :-: |
| 1 | A | 35| 
| 1 | B | 30|
| 2 | A | 40| 
| 2 | B | 33|

Note que nossa referência (unidade observacional) é ```cidade-semana```.

**OBS**: Um Messy Data é todo aquele conjunto que não é Tidy :))

## Os 5 problemas mais comuns 

Em seu artigo, Wichkam traz alguns dos problemas mais frequentes em conjuntos de dados


* Os cabeçalhos das colunas são valores, não nomes de variáveis
* Múltiplas variáveis armazenadas na mesma coluna
* Variáveis armazenadas nas linhas e nas colunas simultaneamente
* Múltiplos tipos de unidades observacionais armazenadas na mesma tabela
* Uma única unidade observacional representada em mais de uma tabela (redundância)

### Vamos praticar um pouco a arte de transfomar os dados em algumas dessa situações citadas acima:

### As Colunas são Valores e Não nomes de Variáveis

In [2]:
import pandas as pd

Vamos ler o arquivo ```pew-raw.csv```

In [3]:
df_pew_raw = pd.read_csv('pew_raw.csv')

In [5]:
df_pew_raw.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35


A coluna religion é um idenitifcador do registro e as demais colunas representam variáveis (faixas de valores) associadas a receita. Contudo, note que essas colunas poderiam ser condensadas em uma única coluna de receita.
Para fazer isso vamos utilizar a função ```pd.melt()``` do pandas.

```pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value')```

* ```frame```: Objeto de dados (dataframe)
* ```id_vars```: Coluna identificadora (não será usada na transformação)
* ```value_vars```: Coluna(s) que você queira transformar
* ```var_name```: Nome da variável que será criada na transformação
* ```value_name```: Nome do valor associado a variável criada    

Para reorganizar o conjunto de dados, utilizamos o método .melt(). Nos parâmetros, indicamos que a variável que vamos conservar é "religion" (é possível conservar mais variáveis). E que com o restante das colunas vamos construir uma nova variável onde cada coluna seja uma categoria.

In [1]:

# não passei o parâmetro 'value_vars', logo, com exceção da coluna 'religion',todas as outras serão transformadas


Perceba o que ocorreu:
+ Cada coluna (faixa) foi transformada em uma linha (uma nova linha para cada religião). 
+ O valor contido nas celulas do primeiro data frame foram transferidos para a coluna de frequência, onde há o match exato entre religião e faixa.

## Lendo outro dataset

Billboard é um ranking musical lá dos EUA que mostra o ranking semanal das músicas ao longo de 75 semanas, a partir do moomento em que a música entra no TOP 100.
* Problemas:
    - As colunas possuem valores (x1st.week, x2nd.week e etc.)
* O que podemos fazer:
    - Criar uma única coluna com as datas (cada semana irá tornar-se uma linha para cada música do ranking) e usar seu valor para criar a coluna de ranking. No caso de valores missing, deletaremos as linhas referentes às músicas que estiveram fora do ranking por menos de 75 semanas.

In [14]:
df_billboard = pd.read_csv('billboard.csv')

In [15]:
df_billboard.head()

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,x1st.week,x2nd.week,x3rd.week,...,x67th.week,x68th.week,x69th.week,x70th.week,x71st.week,x72nd.week,x73rd.week,x74th.week,x75th.week,x76th.week
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,78,63.0,49.0,...,,,,,,,,,,
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,15,8.0,6.0,...,,,,,,,,,,
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,71,48.0,43.0,...,,,,,,,,,,
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,41,23.0,18.0,...,,,,,,,,,,
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,57,47.0,45.0,...,,,,,,,,,,


## Relembrando parâmetros do pd.melt()

```pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value')```

* ```frame```: Objeto de dados (dataframe)
* ```id_vars```: Coluna identificadora (não será usada na transformação)
* ```value_vars```: Coluna(s) que você queira transformar
* ```var_name```: Nome da variável que será criada na transformação
* ```value_name```: Nome do valor associado a variável criada    

In [2]:
id_vars = ['year','artist.inverted', 'track', 'time', 'genre', 'date.entered', 'date.peaked'] # colunas que desejo manter no formato em que estão


In [3]:
 # apaga os dados faltantes

# Exercício - pesquisar:

## 1. Extraia o Número da semana da coluna 'semana' e armazene em uma nova coluna (tipo inteiro).


Para o primeiro exercício precisamos usar uma expressão regular (regex) para extrair padrões em cadeias de caracteres (strings)

## Métodos que ajudam na limpeza e manipulação de dados
O Pandas tem um conjunto de métodos que permitem operar sobre os elementos de um Dataframe ou uma Series. Para aplicar a lógica desejada, podemos definir funções com nome ou utilizar expressões lambda que depois não podem ser reutilizadas
 - pd.DataFrame.apply: Opera sobre linhas ou colunas completas.
 - pd.DataFrame.applymap: Opera sobre cada um dos elementos do Dataframe.
 - pd.Series.apply: Opera sobre cada um dos elementos da Série.
 - pd.Series.map: Opera sobre cada um dos elementos da Serie, muito parecido com Series.apply.

### Função .apply().
Aplique uma função ao longo de um eixo do DataFrame (linha ou coluna)

In [24]:
import numpy as np


In [25]:
df = pd.DataFrame({
                   'A': [2, 7, 16, 25],
                   'B': [4, -2, 76, 67]
                  })
df

Unnamed: 0,A,B
0,2,4
1,7,-2
2,16,76
3,25,67


#### Utilizando df.apply para encontrar a raiz quadrada dos elementos de cada coluna. A quantidade NaN significa "Not a Number" e é o valor atribuído a operações inválidas, como a raiz de um número negativo.

### Calculando média, para parâmetro axis = 0 faz referência às colunas, axis = 1 faz referência as linhas

### As funções map(), apply() são muito convenientes para usar em tratamento de dados.

 - Por exemplo, vamos supor que queremos tirar todos os acentos de todas as strings de um Dataframe.

 - Além disso, queremos converter todas as letras para minúscula.


In [28]:
data = pd.DataFrame({'nome': ['Tomás','Carla','Paula'], 'cidade': ['Rio','São Paulo','sao paulo']}, 
columns =['nome','cidade'])
data

Unnamed: 0,nome,cidade
0,Tomás,Rio
1,Carla,São Paulo
2,Paula,sao paulo


In [30]:
data.cidade.unique() #nome que não são repetidos

array(['Rio', 'São Paulo', 'sao paulo'], dtype=object)

In [4]:
#testando com texto = 'São Paulo'



### Criando função

In [5]:
#testando com função para ser aplicada em qualquer string
def trata_caracter(entrada):
    texto_sem_acento = unidecode.unidecode(entrada)
    texto_minusculo = str.lower(texto_sem_acento)
    return texto_minusculo

### apply - Aplique uma função ao longo de um eixo do DataFrame.

### map() - Usado para substituir cada valor em uma Série por outro valor (que pode ser derivado de uma função)

### applymap() - Aplique uma função a todos elementos do um Dataframe

In [6]:
# conferindo novamente os valores únicos


## Algumas diferentes entre os métodos usados

Primeira grande diferença: DEFINIÇÃO

 - map é definido apenas na série
 - applymap é definido  no DataFrame
 - apply é definido em AMBOS
 
Segunda grande diferença: ARGUMENTO DE ENTRADA

- map aceita dicts ou Series
- applymap aceita apenas callables (anything that can be called)
 
 
Terceira grande diferença: COMPORTAMENTO

 - map é elementar para Series
 - applymap é elemento a elemento para DataFrames
 - apply também funciona de maneira elementar, mas é adequado para operações e agregações mais complexas. 