# Tidy Data / Dados Organizados

R segue um conjunto de convenções que tornam um layout de dados tabulares muito mais fácil de trabalhar do que outros. Seus dados serão mais fáceis de trabalhar no R se seguirem três regras:

* **Cada variável** no conjunto de dados é colocada em sua **própria coluna**;
* **Cada observação** é colocada em sua **própria linha**;
* **Cada valor** é colocado em sua **própria célula**.
<br>
<br>
<left><img src="./image/tidy_data.png" alt="Drawing" style="width:400px;"/></left>  
Os dados que satisfazem essas regras são conhecidos como **tidy data** ou **dados organizados**.

# Aqui lidaremos com conversão entre os formatos WIDE e LONG


## Importando dados em planilha Excel

A planilha **anorexigenos.xls** contém dados de um ensaio clínico, em que se comparou dois anorexígenos, A e B, e as perdas de peso foram registradas. Deseja-se testar se a diferença observada nas duas amostras é estatisticamente significante, assumindo-se $\alpha = 1\%$.
<br>
<br>
<br>
<br>
<br>
<center><img src="./image/anorexigenos.png" alt="Drawing" style="width:400px;"/></center>
<br>

Esse conjunto de dados estão codificados num arquivo Excel, **anorexigenos.xls**, em duas planilhas, **Grupo_A** e **Grupo_B**, na seguinte forma:
<center><img src="./image/planilha_grupo_A.png" alt="Drawing" style="width:200px;"/></center>
<center><img src="./image/planilha_grupo_B.png" alt="Drawing" style="width:200px;"/></center>

Para podermos analisar esses dados no R é necessário rearrumá-los no formato **long**:
<br>
<br>
<center><img src="./image/planilha_total_long.png" alt="Drawing" style="width:200px;"/></center>

In [43]:
if (!require("xlsx")) install.packages("xlsx", repo = "https://vps.fmvz.usp.br/CRAN/",dep = TRUE)
# if (!require("read_excel")) install.packages("read_excel", repo = "https://vps.fmvz.usp.br/CRAN/",dep = TRUE)

# library(xlsx)

Loading required package: xlsx
“internal error -3 in R_decompress1”Error: package or namespace load failed for ‘xlsx’ in get(Info[i, 1], envir = env):
 lazy-load database '/Library/Frameworks/R.framework/Versions/3.6/Resources/library/rJava/R/rJava.rdb' is corrupt



The downloaded binary packages are in
	/var/folders/c4/zt5q_wjd3_770cbppzg45jyh0000gp/T//RtmpT4ajFM/downloaded_packages


Leia a primeira planilha Grupo_A do arquivo anorexigenos.xls.  
Primeira linha contém os nomes das variábeis

In [37]:
?read_excel

In [38]:
mydata_A <- read_excel("anorexigenos.xls", 
                       sheet="Grupo_A",
                       col_types=c("numeric","numeric"))

“Expecting numeric in B7 / R7C2: got a date”

In [39]:
head(mydata_A)

Paciente,Perda
<dbl>,<dbl>
1,0.9
2,1.3
3,1.5
4,2.4
5,2.9
6,3.0


In [4]:
mydata_B <- read_excel("anorexigenos.xls",sheet="Grupo_B")
head(mydata_B)

Paciente,Perda
<dbl>,<dttm>
7,1900-01-03 19:12:00
8,1900-01-04 21:36:00
9,1900-01-05 21:36:00
10,1900-01-06 14:24:00
11,1900-01-06 16:48:00
12,1900-01-07 02:24:00


### Crie uma coluna Grupo em cada um dos dataframes:

In [5]:
mydata_B$Grupo <- "B"

mydata_A$Grupo <- "A"

### Empilhando dois dataframes com rbind

In [6]:
mydata_total <- rbind(mydata_A, mydata_B)

In [7]:
print(mydata_total)

[38;5;246m# A tibble: 13 x 3[39m
   Paciente Perda               Grupo
      [3m[38;5;246m<dbl>[39m[23m [3m[38;5;246m<dttm>[39m[23m              [3m[38;5;246m<chr>[39m[23m
[38;5;250m 1[39m        1 1899-12-31 [38;5;246m21:36:00[39m A    
[38;5;250m 2[39m        2 1900-01-01 [38;5;246m07:12:00[39m A    
[38;5;250m 3[39m        3 1900-01-01 [38;5;246m12:00:00[39m A    
[38;5;250m 4[39m        4 1900-01-02 [38;5;246m09:36:00[39m A    
[38;5;250m 5[39m        5 1900-01-02 [38;5;246m21:36:00[39m A    
[38;5;250m 6[39m        6 1900-01-03 [38;5;246m00:00:00[39m A    
[38;5;250m 7[39m        7 1900-01-03 [38;5;246m19:12:00[39m B    
[38;5;250m 8[39m        8 1900-01-04 [38;5;246m21:36:00[39m B    
[38;5;250m 9[39m        9 1900-01-05 [38;5;246m21:36:00[39m B    
[38;5;250m10[39m       10 1900-01-06 [38;5;246m14:24:00[39m B    
[38;5;250m11[39m       11 1900-01-06 [38;5;246m16:48:00[39m B    
[38;5;250m12[39m       12 1900-01-07 [38;

In [8]:
# ?read.xlsx2

In [9]:
if (!require("readxl")) install.packages("readxl", repo = "https://vps.fmvz.usp.br/CRAN/", 
    dep = TRUE)

library(readxl)

In [10]:
df_A <- read_excel("anorexigenos.xls",sheet="Grupo_A")
df_A

Paciente,Perda
<dbl>,<dttm>
1,1899-12-31 21:36:00
2,1900-01-01 07:12:00
3,1900-01-01 12:00:00
4,1900-01-02 09:36:00
5,1900-01-02 21:36:00
6,1900-01-03 00:00:00


In [11]:
df_B <- read_excel("anorexigenos.xls",sheet="Grupo_B")
df_B

Paciente,Perda
<dbl>,<dttm>
7,1900-01-03 19:12:00
8,1900-01-04 21:36:00
9,1900-01-05 21:36:00
10,1900-01-06 14:24:00
11,1900-01-06 16:48:00
12,1900-01-07 02:24:00
13,1900-01-07 00:00:00


## Conversão entre formatos WIDE e LONG

Na prática de análises estatísticas é necessário converter dados entre os formatos "wide" e "long".

Muitas funções do R requerem que os dados estejam no formato "long" em vez de formato "wide", usado frequentemente em programas de análise estatística comerciais tais como SPSS, Minitab e etc.

 O roteiro que segue foi adaptado de [Converting data between wide and long format](http://www.cookbook-r.com/Manipulating_data/Converting_data_between_wide_and_long_format/).
 
No exemplo abaixo, os dois dataframes contêm os mesmos conjuntos de dados em formatos "wide" e "long". Aqui mostraremos como converter de um formato ao outro e vice-versa.

In [12]:
dadosinicial_wide <- read.table(header=TRUE, text='
sujeito sexo controle cond1 cond2
      1    M      7.9  12.3  10.7
      2    F      6.3  10.6  11.1
      3    F      9.5  13.1  13.8
      4    M     11.5  13.4  12.9
')
# Make sure the subject column is a factor
dadosinicial_wide$sujeito <- factor(dadosinicial_wide$sujeito)

In [13]:
dadosinicial_long <- read.table(header=TRUE, text='
sujeito sexo condicao medida
      1    M controle    7.9
      1    M    cond1   12.3
      1    M    cond2   10.7
      2    F controle    6.3
      2    F    cond1   10.6
      2    F    cond2   11.1
      3    F controle    9.5
      3    F    cond1   13.1
      3    F    cond2   13.8
      4    M controle   11.5
      4    M    cond1   13.4
      4    M    cond2   12.9
')
# Make sure the subject column is a factor
dadosinicial_long$sujeito <- factor(dadosinicial_long$sujeito)

In [14]:
dadosinicial_wide

sujeito,sexo,controle,cond1,cond2
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,7.9,12.3,10.7
2,F,6.3,10.6,11.1
3,F,9.5,13.1,13.8
4,M,11.5,13.4,12.9


In [15]:
dadosinicial_long

sujeito,sexo,condicao,medida
<fct>,<fct>,<fct>,<dbl>
1,M,controle,7.9
1,M,cond1,12.3
1,M,cond2,10.7
2,F,controle,6.3
2,F,cond1,10.6
2,F,cond2,11.1
3,F,controle,9.5
3,F,cond1,13.1
3,F,cond2,13.8
4,M,controle,11.5


## Conversão de WIDE --> LONG

### Usando a rotina `gather`

In [16]:
if (!require("tidyr")) install.packages("tidyr",repo="https://vps.fmvz.usp.br/CRAN/",dep=TRUE)

library(tidyr)

# The arguments to gather():
# - data: Data object
# - key: Name of new key column (made from names of data columns)
# - value: Name of new value column
# - ...: Names of source columns that contain values
# - factor_key: Treat the new key column as a factor (instead of character vector)
dadosinicial_wide

Loading required package: tidyr


sujeito,sexo,controle,cond1,cond2
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,7.9,12.3,10.7
2,F,6.3,10.6,11.1
3,F,9.5,13.1,13.8
4,M,11.5,13.4,12.9


In [17]:
dados_long <- gather(dadosinicial_wide, condicao, medida, controle:cond2, factor_key=TRUE)
dados_long

sujeito,sexo,condicao,medida
<fct>,<fct>,<fct>,<dbl>
1,M,controle,7.9
2,F,controle,6.3
3,F,controle,9.5
4,M,controle,11.5
1,M,cond1,12.3
2,F,cond1,10.6
3,F,cond1,13.1
4,M,cond1,13.4
1,M,cond2,10.7
2,F,cond2,11.1


Neste exemplo, as colunas que serão juntadas (gathered) são especificados por **controle:cond2**, i.e. todas as colunas posiciondas entre **controle** e **cond2**.  

Outra maneira de se executar a mesma coisa, é listando todas as colunas individualmente, via **gather**:

In [18]:
gather(dadosinicial_wide, condicao, medida, controle, cond1, cond2)

sujeito,sexo,condicao,medida
<fct>,<fct>,<chr>,<dbl>
1,M,controle,7.9
2,F,controle,6.3
3,F,controle,9.5
4,M,controle,11.5
1,M,cond1,12.3
2,F,cond1,10.6
3,F,cond1,13.1
4,M,cond1,13.4
1,M,cond2,10.7
2,F,cond2,11.1


Se tens intenção de usar esta função, gather( ), dentro de um programa e talvez queiras colocar variáveis contendo os nomes das colunas como parâmetro da função. Neste caso, será necessário usar a função gather_( ), que aceita "strings" em vez de nomes de colunas sem aspas ou apóstrofes.

In [19]:
keycol <- "condicao"  # coluna chave
valuecol <- "medida"  # variável dependente (VD)
gathercols <- c("controle", "cond1", "cond2") 

gather_(dadosinicial_wide, keycol, valuecol, gathercols)

sujeito,sexo,condicao,medida
<fct>,<fct>,<chr>,<dbl>
1,M,controle,7.9
2,F,controle,6.3
3,F,controle,9.5
4,M,controle,11.5
1,M,cond1,12.3
2,F,cond1,10.6
3,F,cond1,13.1
4,M,cond1,13.4
1,M,cond2,10.7
2,F,cond2,11.1


É possível ou desejável opcionalmente renomear os níveis de fator da coluna de variável, e classificá-los.

In [20]:
# Renomear nomes de fator de "cond1" and "cond2" to "nivel1" and "nivel2"
levels(dados_long$condicao)[levels(dados_long$condicao)=="cond1"] <- "nivel1"
levels(dados_long$condicao)[levels(dados_long$condicao)=="cond2"] <- "nivel2"

# Sortear por sujeito, depois por condicao
dados_long <- dados_long[order(dados_long$sujeito, dados_long$condicao) , ]
dados_long
#

Unnamed: 0_level_0,sujeito,sexo,condicao,medida
Unnamed: 0_level_1,<fct>,<fct>,<fct>,<dbl>
1,1,M,controle,7.9
5,1,M,nivel1,12.3
9,1,M,nivel2,10.7
2,2,F,controle,6.3
6,2,F,nivel1,10.6
10,2,F,nivel2,11.1
3,3,F,controle,9.5
7,3,F,nivel1,13.1
11,3,F,nivel2,13.8
4,4,M,controle,11.5


In [21]:
levels(dados_long$sujeito)

In [22]:
# ?order

## Conversão de LONG --> WIDE

### Usando rotina spread da biblioteca `tidyr`

In [23]:
library(tidyr)

# os argumentos para spread(data, key, value):
# - data: Objeto de dados 
# - key: Nome de coluna contendo os novos nomes de colunas
# - value: Nome da coluna que contém os valores (VD)
dados_wide <- spread(dadosinicial_long, condicao, medida)
dados_wide
#>   sujeito sexo cond1 cond2 controle
#> 1       1    M  12.3  10.7      7.9
#> 2       2    F  10.6  11.1      6.3
#> 3       3    F  13.1  13.8      9.5
#> 4       4    M  13.4  12.9     11.5

sujeito,sexo,cond1,cond2,controle
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,12.3,10.7,7.9
2,F,10.6,11.1,6.3
3,F,13.1,13.8,9.5
4,M,13.4,12.9,11.5


À semelhança do **formato long** em que se mudou os nomes do fator, aqui no **formato wide** também se pode mudar os nomes das variáveis coluna:  

In [24]:
# Renomear de cond1 para nivel1, e cond2 para nivel2
names(dados_wide)[names(dados_wide)=="cond1"] <- "nivel1"
names(dados_wide)[names(dados_wide)=="cond2"] <- "nivel2"

# Aqui podemos reordenar as colunas
dados_wide <- dados_wide[, c(1,2,5,3,4)]
dados_wide
#>   sujeito sexo controle nivel1 nivel2
#> 1       1    M      7.9   12.3   10.7
#> 2       2    F      6.3   10.6   11.1
#> 3       3    F      9.5   13.1   13.8
#> 4       4    M     11.5   13.4   12.9

sujeito,sexo,controle,nivel1,nivel2
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,7.9,12.3,10.7
2,F,6.3,10.6,11.1
3,F,9.5,13.1,13.8
4,M,11.5,13.4,12.9


A ordem dos níveis dos fatores determina a ordem de aparecimento das colunas. A ordem dos níveis pode ser alterado antes de "reshaping", ou as colunas poder ser reordenados depois.

## Biblioteca reshape2

### Conversão  WIDE => LONG

Uso `melt`:

In [25]:
if (!require("reshape2")) install.packages("reshape2", repo = "https://vps.fmvz.usp.br/CRAN/", 
    dep = TRUE)

library(reshape2)

Loading required package: reshape2

Attaching package: ‘reshape2’

The following object is masked from ‘package:tidyr’:

    smiths



In [26]:
# ?melt

In [27]:
dadosinicial_wide
#>   sujeito sexo controle cond1 cond2
#> 1       1    M      7.9  12.3  10.7
#> 2       2    F      6.3  10.6  11.1
#> 3       3    F      9.5  13.1  13.8
#> 4       4    M     11.5  13.4  12.9



# Especificar id.vars: as variáveis para manter mas não separá-los
melt(dadosinicial_wide, id.vars=c("sujeito", "sexo"))
#>    sujeito sexo  variable value
#> 1        1    M  controle   7.9
#> 2        2    F  controle   6.3
#> 3        3    F  controle   9.5
#> 4        4    M  controle  11.5
#> 5        1    M     cond1  12.3
#> 6        2    F     cond1  10.6
#> 7        3    F     cond1  13.1
#> 8        4    M     cond1  13.4
#> 9        1    M     cond2  10.7
#> 10       2    F     cond2  11.1
#> 11       3    F     cond2  13.8
#> 12       4    M     cond2  12.9

sujeito,sexo,controle,cond1,cond2
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,7.9,12.3,10.7
2,F,6.3,10.6,11.1
3,F,9.5,13.1,13.8
4,M,11.5,13.4,12.9


sujeito,sexo,variable,value
<fct>,<fct>,<fct>,<dbl>
1,M,controle,7.9
2,F,controle,6.3
3,F,controle,9.5
4,M,controle,11.5
1,M,cond1,12.3
2,F,cond1,10.6
3,F,cond1,13.1
4,M,cond1,13.4
1,M,cond2,10.7
2,F,cond2,11.1


Note que os nomes para duas colunas à direita foram atribuídas automaticamente pela rotina melt, "variable" e "value".

Há opções de `melt` que torna a saída um pouco mais adequada para o trabalho:

In [28]:
dados_long <- melt(dadosinicial_wide,
        # ID variables - todas as variáveis a preservar mas não separadas.
    id.vars=c("sujeito", "sexo"),
        # Fontes das colunas
    measure.vars=c("controle", "cond1", "cond2" ),
        # Nome de coluna destino que identificará a coluna original
        # de onde a medida proveio
    variable.name="condicao",
    value.name="medida"
)

In [29]:
dados_long
#>    sujeito sexo   condicao  medida
#> 1        1    M   controle     7.9
#> 2        2    F   controle     6.3
#> 3        3    F   controle     9.5
#> 4        4    M   controle    11.5
#> 5        1    M      cond1    12.3
#> 6        2    F      cond1    10.6
#> 7        3    F      cond1    13.1
#> 8        4    M      cond1    13.4
#> 9        1    M      cond2    10.7
#> 10       2    F      cond2    11.1
#> 11       3    F      cond2    13.8
#> 12       4    M      cond2    12.9

sujeito,sexo,condicao,medida
<fct>,<fct>,<fct>,<dbl>
1,M,controle,7.9
2,F,controle,6.3
3,F,controle,9.5
4,M,controle,11.5
1,M,cond1,12.3
2,F,cond1,10.6
3,F,cond1,13.1
4,M,cond1,13.4
1,M,cond2,10.7
2,F,cond2,11.1


Se omitir o argumento `measure.vars`, `melt( )` usará automaticamente todas as outras variáveis como `id.vars`. O complemento é verdadeiro se `id.vars` for omitido.

Como visto, se não se especificar `variable.name`, `melt()` nomeará a coluna como "variable", e se  `value.name` for omitido, a coluna de VD será denominada "measurement".

Opcionalmente pode-se renomenar os níveis dos fatores da variável coluna.

In [30]:
# Renomear nomes de fator de "cond1" e "cond2" para, por exemplo, "prima" e "seconda"
levels(dados_long$condicao)[levels(dados_long$condicao)=="cond1"] <- "prima"
levels(dados_long$condicao)[levels(dados_long$condicao)=="cond2"] <- "seconda"

# Ordenar primeiro por sujeito, depois pela condição
dados_long <- dados_long[ order(dados_long$sujeito, dados_long$condicao), ]
dados_long
#>    sujeito sexo   condicao medida
#> 1        1    M   controle    7.9
#> 5        1    M      prima   12.3
#> 9        1    M    seconda   10.7
#> 2        2    F   controle    6.3
#> 6        2    F      prima   10.6
#> 10       2    F    seconda   11.1
#> 3        3    F   controle    9.5
#> 7        3    F      prima   13.1
#> 11       3    F    seconda   13.8
#> 4        4    M   controle   11.5
#> 8        4    M      prima   13.4
#> 12       4    M    seconda   12.9

Unnamed: 0_level_0,sujeito,sexo,condicao,medida
Unnamed: 0_level_1,<fct>,<fct>,<fct>,<dbl>
1,1,M,controle,7.9
5,1,M,prima,12.3
9,1,M,seconda,10.7
2,2,F,controle,6.3
6,2,F,prima,10.6
10,2,F,seconda,11.1
3,3,F,controle,9.5
7,3,F,prima,13.1
11,3,F,seconda,13.8
4,4,M,controle,11.5


### Conversão LONG => WIDE
O seguinte código usa `dcast` para remodelar (reshape) os dados. Esta função é destinada para **data frames**; se estiver lidando com **arrays ou matrizes**, use `acast`.

In [31]:
library(reshape2)

In [32]:
dadosinicial_long
#>    sujeito sexo   condicao  medida
#> 1        1    M   controle     7.9
#> 2        2    F   controle     6.3
#> 3        3    F   controle     9.5
#> 4        4    M   controle    11.5
#> 5        1    M      cond1    12.3
#> 6        2    F      cond1    10.6
#> 7        3    F      cond1    13.1
#> 8        4    M      cond1    13.4
#> 9        1    M      cond2    10.7
#> 10       2    F      cond2    11.1
#> 11       3    F      cond2    13.8
#> 12       4    M      cond2    12.9

sujeito,sexo,condicao,medida
<fct>,<fct>,<fct>,<dbl>
1,M,controle,7.9
1,M,cond1,12.3
1,M,cond2,10.7
2,F,controle,6.3
2,F,cond1,10.6
2,F,cond2,11.1
3,F,controle,9.5
3,F,cond1,13.1
3,F,cond2,13.8
4,M,controle,11.5


In [33]:
# Da fonte:
# "sujeito" e "sexo" são colunas que desejmos manter na mesma forma
# "condicao" é a coluna que contém os nomes das novas colunas destinos para colocar as coisas da 
# "medida" para conter as medidas (VD)
dados_wide <- dcast(dadosinicial_long, sujeito + sexo ~ condicao, value.var="medida")
dados_wide
#>   sujeito sexo controle cond1 cond2
#> 1       1    M      7.9  12.3  10.7
#> 2       2    F      6.3  10.6  11.1
#> 3       3    F      9.5  13.1  13.8
#> 4       4    M     11.5  13.4  12.9

sujeito,sexo,cond1,cond2,controle
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,12.3,10.7,7.9
2,F,10.6,11.1,6.3
3,F,13.1,13.8,9.5
4,M,13.4,12.9,11.5


Como sempre, opcionalmente pode-se modificar a nomeação das colunas de forma adequada.

In [34]:
# Renomear cond1 para prima, e cond2 para seconda
names(dados_wide)[names(dados_wide)=="cond1"] <- "prima"
names(dados_wide)[names(dados_wide)=="cond2"] <- "seconda"

# Reordernar as colunas
dados_wide <- dados_wide[, c(1,2,5,3,4)]
dados_wide
#>   sujeito sexo controle prima seconda
#> 1       1    M      7.9  12.3    10.7
#> 2       2    F      6.3  10.6    11.1
#> 3       3    F      9.5  13.1    13.8
#> 4       4    M     11.5  13.4    12.9

sujeito,sexo,controle,prima,seconda
<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,M,7.9,12.3,10.7
2,F,6.3,10.6,11.1
3,F,9.5,13.1,13.8
4,M,11.5,13.4,12.9
