# IMPORTANDO ARQUIVOS DE DADOS

## Exemplo 4.1 de Sardanelli & Di Leo (2008)

> **Example 4.1.** Measuring myocardial delayed enhancement in cardiac MR imaging. Let us suppose we want to evaluate the difference in delayed enhancement of the myocardium provided by **two contrast agents (CAs)**. A sample of 50 post-ischemic patients undergo a cardiac MR with inversion recovery turbo- gradient-echo sequence ten minutes after the injection of 0.1 mmol/kg of CA 1. The signal intensity (SI), expressed in arbitrary units (a.u.), is measured in a region of interest placed in the infarcted myocardium. A second sample made up of another 50 post-ischemic patients is studied with the same technique but using 0.1 mmol/kg of CA 2. Data are summarized in Tables 4.2 and 4.3.

### Resultados com CA1

<p align="center">
    <center><img src="./image/Table_4_2.png" alt="drawing" width="500"/></center>
</p>

### Resultados com CA2

<p align="center">
    <center><img src="./image/Table_4_3.png" alt="drawing" width="500"/></center>
</p>

## Arquivos e Diretórios/Pastas no R

Em ambiente R e no Jupyter Notebook, todos os arquivos serão lidos e salvos no diretório ativo, a menos que se especifique o contrário. Logo, a primeira coisa que você precisa se preocupar é como obter e configurar seu **diretório de trabalho**.
```{R}
# Para obter o diretório de trabalho corrente, execute:
getwd ()
 
#Configure o diretório de trabalho:
setwd ("C:/Documents and Settings/Aula06")
````

### Diretório de Trabalho
Os códigos ou comandos executados a seguir assumirão que os arquivos de dados estão localizados num diretório relativo ao **diretório de trabalho R do Jupyter Notebook**. O diretório atual pode ser verificado com a função getwd. Assim no meu caso:

In [None]:
getwd()               # get current working directory

Poderá selecionar diferentes diretórios de trabalho com a função `setwd()`, evitando-se assim a necessidade de especificar o caminho completo para arquivos de dados para leitura e gravação. Neste exemplo criou-se um diretório "Sardanelli" no caminho obtido por getwd(). Vamos verificar isso por meio da função `list.files()`:

In [None]:
list.files()

Pronto, podemos verificar que há um arquivo ou diretório denominado **Sardanelli**.

In [None]:
dir.exists("Sardanelli")  # Vamos testar se Sardanelli existe como um diretório ou não.

In [None]:
# Verifica-se neste caso que Sardanelli é um diretório. Assim teremos sucesso em executar o seguinte comando
setwd("Sardanelli")   # set working directory para o subdiretório ./Sardanelli

In [None]:
getwd()

In [None]:
setwd("../")
getwd()

Como pode ser verificado por meio de **`getwd()`**, o diretório corrente foi configurado para o subdiretório `./Aula06/Tidying_data/Sardanelli`. 
Note que a barra normal (/) deve ser usada no abiente R como separador de diretórios, mesmo na plataforma Windows, ao invés da barra invertida (\).
Por exemplo
`> setwd("C:/Users/usuario/Documents")`


### Listando os arquivos e as pastas no diretório

```{R}
#lista arquivos no diretório de trabalho
list.files()
 
#lista arquivos in a specific folder
list.files (path = "C:/Folder/Subfolder1/Subfolder2")
 
#lista arquivos no diretório escolhido, choose.dir() funciona somente no Windows
list.files(path = choose.dir())
 
#lista de subdiretórios e arquivos dentro dos subdiretórios recursivamente
list.files(recursive = TRUE)
 
#obtém o nome completo (caminho e nome de arquivos) de cada arquivo
list.files(full.name = TRUE)
```

#### Se a lista obtida for muito longa,  poderá filtrar os resultados usando o argumento padrão da função `list.files()`

```{R}
#lista todos os arquivos que contêm a palavra "anorex"
list.files(pattern = "anorex")
 
#lista arquivos que termina com a palavra "csv"
list.files (pattern = "csv$")
 
#lista arquivos que começam com a palavra "anorex" seguida por quaisquer characteres e finalizado com "xlsx":
list.files(pattern = "^anorex(.*)xlsx$")
```

In [None]:
list.files()

#### Expressões regulares
> Se ficou curioso o que são os símbolos "^", "$\bullet $", "$\ast$", "**$**" nos comandos acima, bem estes são chamados **metacaracteres em expressões regulares**. Se você quiser saber mais sobre expressões regulares, consultem estas duas fontes: [Cheat Sheet de "Expressões Regulares"](https://rstudio.com/wp-content/uploads/2016/09/RegExCheatsheet.pdf) ou ["Expressões Regulares" que um programador R deve saber](https://www.r-bloggers.com/regular-expressions-every-r-programmer-should-know/).

In [None]:
#setwd("./Aula06/Tidying_data")
getwd()
list.files(pattern = "^anorex(.*)xls$")

Checking if a file or folder exists

#Check if the file "raw data.csv" exists in the working directory
file.exists("filename.extension")
 
#Check if the folder "Data" exists in the current directory, if not creates it
ifelse(!dir.exists("Data"), dir.create("Data"), "Folder exists already")

## Importando dados para Data.Frame

[Tutorial genérico para importação de dados em R](http://www.r-tutor.com/r-introduction/data-frame/data-import)

### Arquivos textos separador = espaço com cabeçalho

In [None]:
si_ca1 = read.table("./Sardanelli/table_4_2.txt",header=TRUE)  # read text file 
si_ca2 = read.table("./Sardanelli/table_4_3.txt",header=TRUE)  # read second text file

In [None]:
head(si_ca1)

In [None]:
head(si_ca2)

In [None]:
tail(si_ca1)
mean(si_ca1$SI)

In [None]:
tail(si_ca2)
mean(si_ca2$SI)

### Importando arquivo em formato CSV

**CSV = comma separated values**

In [None]:
si_ca1_csv = read.csv("./Sardanelli/table_4_2.csv")  # read csv file 
si_ca2_csv = read.csv("./Sardanelli/table_4_3.csv")  # read second csv file 
head(si_ca1_csv)
head(si_ca2_csv)

In [None]:
**Estatística Descritiva**

In [None]:
summary(si_ca1_csv)

## Cálculo do Erro Padrão da Média (EPM)

Leia sobre EPM em [An R Companion for the Handbook of Biological Statistics - SEM](https://rcompanion.org/rcompanion/c_03.html) e [neste site de John H. McDonald](http://www.biostathandbook.com/standarderror.html). 

**Recomendamos**: Este site elaborado por Salvatore S. Mangiafico é uma excelente fonte para praticantes da análise estatística em R. 

No R, o erro padrão da média (EPM) pode ser calculado com funções padrão no pacote de estatísticas nativas. Similar à função `summary( )`, existe uma função de **descrição no pacote psych** que inclui o cálculo do erro padrão da média junto com outras estatísticas descritivas. Esta função é útil para resumir várias variáveis em um quadro de dados. Nesse caso é interessante que os dados estejam no formato WIDE.

In [None]:
# Instala o pacote/bliblioteca `psych` se ainda não está presente
if (!require("psych")) install.packages("psych",repo="https://vps.fmvz.usp.br/CRAN/",dep=TRUE)

In [None]:
library(psych)

### Cálculo de EPM manualmente


$$EPM = \frac{\text{desvio-padrão}}{\sqrt{N}}$$

In [None]:
# Aplicação acima para cálculo do EPM para os contrastes CA1 e CA2.
se_ca1 <- sd(si_ca1$SI)/sqrt(length(si_ca1$SI[!is.na(si_ca1$SI)])) # se = standard error ~ epm
se_ca2 <- sd(si_ca2$SI)/sqrt(length(si_ca2$SI[!is.na(si_ca2$SI)]))

cat('sd_ca1 = ', sd(si_ca1$SI), '; sd_ca2 = ', sd(si_ca2$SI), '; ')
cat('se_ca1 = ', se_ca1, '; se_ca2 = ', se_ca2)

In [1]:
str(si_ca1)

ERROR: Error in str(si_ca1):  オブジェクト 'si_ca1' がありません 


In [None]:
tail(si_ca1)

In [None]:
head(si_ca1)

In [None]:
?read.table

In [None]:
filename <- "./Sardanelli/table_4_2.txt" # arquivo no subdiretório "./Sardanelli"
data1_csv <- read.csv(filename, sep = " ", quote = "\"",
         dec = ".", fill = TRUE)

In [None]:
head(data1_csv)

### Acrescentando terceira coluna, a variável tipo de **contrast**

In [None]:
si_ca1$contrast <- "CA1"
si_ca2$contrast <- "CA2"

head(si_ca1)
head(si_ca2)

## Juntando dois dataframes ou arquivos 

Dois conjunto de dataframes com nomes de colunas comuns podem ser juntados

### 

In [None]:
si_total <- rbind(si_ca1, si_ca2)
# si_total

### LONG => WIDE

In [None]:
library(tidyr)
si_total_wide <- spread(si_total, contrast, SI)

In [None]:
head(si_total_wide)

## Gerando sumários dos dados

In [None]:
library(psych) # Para usar função describe( )

In [None]:
summary(si_total_wide)

In [None]:
# A função describe do pacote psych requer dados no formato WIDE
psych::describe(si_total_wide)

## Visualizar os dados por box plots

Fonte: [Statistical tools for high-throughput data analysis](http://www.sthda.com/english/wiki/paired-samples-t-test-in-r)

In [None]:
if (!require("ggpubr")) install.packages("ggpubr",repo="https://vps.fmvz.usp.br/CRAN/",dep=TRUE)

library(ggpubr)

# Note que aqui é necessário usar o formato LONG de dados

ggboxplot(si_total, x = "contrast", y = "SI", 
          color = "contrast", palette = c("#00AFDD", "#E77700"),
          order = c("CA1", "CA2"),
          ylab = "SI (a.u.)", xlab = "Tipo de contraste")

Por box plot fica evidente que o sinal gerado pelo contraste CA2 é bem maior que o do contraste CA1.

Com isso poderíamos ter feito um teste monocaudal de tal sorte que a hipótese alternativa poderia ser  $H_1: si_{CA2} > si_{CA1}$  (**Prof. Siqueira está de acordo**)

Mas insistiremos no teste bicaudal:

## Teste t não pareado bicaudal

Neste caso o teste estatístico é 

> $H_0: \mu_{CA1} = \mu_{CA2}$;  
> $H_1: \mu_{CA1} \neq \mu_{CA2}$.  
> $\alpha = 5%$

In [None]:
?t.test # Para visualizar o help de t.test

In [None]:
t.test(si_total_wide$CA2,
       si_total_wide$CA1,
       paired=FALSE,
       alternative="two.sided",  # bicaudal
       conf.level=0.95)

***

<p align="center">
    <center><img src="./image/sardanelli_t_teste_SI.png" alt="drawing" width="600"/></center>
</p>

## Reordenando a posição das colunas

Parece ser lógico ordenar as variáveis de coluna hierarquicamente, por exemplo, nessa ordem: **contrast** => **Individual** => **SI**.
<br>
Há diversas maneiras de se obter este efeito em R. Vejamos quatro métodos:

In [None]:
head(si_total)

In [None]:
### Reordenação método 1
si_total_reord <- si_total[, c(3, 1, 2)]  # A primeira vírgula sinaliza que todas as linhas devem ser mantidas, 
                        # e 3, 1, 2 refere-se a ordem das colunas.

In [None]:
### Reordenação método 2
salvar <- si_total[, c("contrast", "SI")] # Vide observação acima.
write.csv(salvar,"salvando.csv")
list.files()

In [None]:
### Reordenação método 3
si_subset <- subset(si_total, select = c(3, 2))
head(si_subset)
tail(si_subset)

In [None]:
### Reordenação ou pipeline por meio do dplyr método 4
if (!require("dplyr")) install.packages("dplyr", repo = "https://vps.fmvz.usp.br/CRAN/", 
    dep = TRUE)
library(dplyr)

si_total %>% select(contrast, Individual, SI) %>% select(SI>20) # %>% indica operação de pipeline do dplyr 