## Aula 06 - Iteradores e funções

Na aula vamos aprender sobre iteradores e funções utilizando simulação para calcular uma análise polinomial para um conjunto de amostras independentes t-test.

### 6.1.1. Básico

1. Trabalhar com funções de iteração, como `rep`, `seq` e `replicate`
2. Utilizar parâmetros em ordem ou por nome
3. Escrever suas próprias funções customizadas com `function()`
4. Colocar valores padrão para os seus parâmetros de função

### 6.1.2. Intermediário

5. Entender o conceito de escopo
6. Utilizar tratamento de erros e _warnings_ em uma função

### 6.1.3. Avançado

Os tópicos avançados não serão cobertos na aula, mas o tratamento de funções pode ser melhor implementado utilizando o módulo `purr`. Consulte a documentação se desejar obter mais informações.

### 6.2. Recursos

* [Capítulo 19: Funções](https://r4ds.had.co.nz/functions.html) do livro _R for Data Science_
* [Capítulo 21: Iterações](https://r4ds.had.co.nz/iteration.html) do livro _R for Data Science_
* [_cheat sheet_ do R Studio para utilização de funções](https://github.com/rstudio/cheatsheets/raw/master/purrr.pdf)

Na próxima aula utilizaremos mais iteração, repetindo os mesmos comandos, e também criaremos funções do usuário para o exercício de simulação de dados. Durante as lições será possível aprender mais sobre como criar vetores e tabelas no R.

### 6.3. Ajustes

É necessário instalar e ativar as bibliotecas que serão utilizadas nos exercícios

In [3]:
home <- path.expand("~")
lib_dir <- file.path(file.path(home, "R"), "lib")
dir.create(lib_dir, showWarnings = FALSE)

library(utils)
.libPaths(c(lib_dir, .libPaths()))

# libraries needed for these examples
install.packages("tidyverse")
library(tidyverse)  ## contains purrr, tidyr, dplyr

set.seed(8675309) # makes sure random numbers are reproducible

Installing package into ‘/home/eduardo/R/lib’
(as ‘lib’ is unspecified)



## 6.4. Funções de iteração

### 6.4.1. `rep()`

A função `rep()` cria n repetições para o primeiro parâmetro fornecido.

Vamos utilizar a função `rep()` para criar um vetor de tamanho 24 que alterne entre os valores `"A"` e `"B"`.

In [4]:
rep(c("A", "B"), 12)

Se o nome do segundo parâmetro não for especificado, o valor padrão é `times`, repetindo o vetor no primeiro parâmetro até atingir o valor definido. É o mesmo que escrever o seguinte:

In [5]:
rep(c("A", "B"), times = 12)

Se o segundo parâmetro for um vetor do mesmo tamanho do primeiro argumento, cada um dos elementos será repetido com o índice correspondente. O exemplo a seguir repete `"A"` 11 vezes e `"B"` 3 vezes.

In [6]:
rep(c("A", "B"), c(11, 3))

Também é possível utilizar o parâmetro `each` para repetir cada um dos valores.

In [7]:
rep(c("A", "B"), each = 12)

Agora utilizamos `times` e `each`:

In [8]:
rep(c("A", "B"), times = 3, each = 2)

### 6.4.2. `seq()`

A função `seq()` gera uma seqûencia de números  com algum padrão.

O exemplo a seguir cria um vetor com os iteiros de 0 a 10:

In [9]:
seq(0, 10)

O parâmetro `by` conta os números considerando como intervalo mínimo o valor fornecido. O exemplo a seguir cria um vetor com os números de 0 a 100 de 10 em 10:

In [10]:
seq(0, 100, by = 10)

O parâmetro `length.out` é útil se quisermos saber em quantos passos um problema deve ser dividido. O exemplo a seguir cria um vetor que começa em 0, termina em 100 e possui exatamente 12 passos igualmente espaçados no intervalo.

In [11]:
seq(0, 100, length.out = 13)

## 6.5. Funções do usuário

### 6.5.1. Estruturando uma função

Uma função possui a seguinte estrutura:

In [12]:
function_name <- function(my_args) {
  # process the arguments
  # return some value
}

Um exemplo simples para uma função. O que será que ela faz?

In [13]:
add1 <- function(my_number) {
  my_number + 1
}

add1(10)

Vamos utilizar a sintaxe para construir uma função estatística mais complexa. O objetivo é reportar os p-valores no formato APA (com p = "valor arredondado" quando p >= 0.001 e "p < 0.001" quando p < 0.001.

Primeiro é preciso encontrar um nome para a função, tomando o cuidado para não duplicar ou sobrescrever uma função já existente. Se a sua função tiver nome `rep()` será preciso utilizar `base::rep()` para chamar a função padrão. Nossa função se chamará `report_p`:

In [14]:
report_p <- function() {
}

### 6.5.2. Parâmetros

Nossa função precisa de apenas um parâmetro: o p-valor que será reportado. Os nomes escolhidos para os parâmetros estão no escopo da função e não colidem com as demais variáveis do script. 

In [15]:
report_p <- function(p) {
}

### 6.5.3. Valores padrão

É possível adicionar um valor padrão para qualquer um dos parâmetros. Se o valor não for ajustado pelo usuário, o padrão será utilizado. Não faz sentido, para o exemplo que estamos tratando, chamar a função sem especificar um p-valor, mas podemos adicionar um segundo parâmetro chamado `digits` para arredondar os p-valores para 3 dígitos como padrão.

In [16]:
report_p <- function(p, digits = 3) {
}

Adicionamos no corpo da função o código que retornará o valor desejado. A saída vai no final da função

In [17]:
report_p <- function(p, digits = 3) {
  if (p < .001) {
    reported = "p < .001"
  } else {
    roundp <- round(p, digits)
    reported = paste("p =", roundp)
  }
  
  reported
}

Também é possível utilizar a chamada `return`.

In [18]:
report_p <- function(p, digits = 3) {
  if (p < .001) {
    reported = "p < .001"
  } else {
    roundp <- round(p, digits)
    reported = paste("p =", roundp)
  }
  
  return(reported)
}

Definir a função não retorna nenhuma saída, mas torna o novo objeto recém criado disponível para utilização.

In [19]:
report_p(0.04869)
report_p(0.0000023)

### 6.5.4. Escopo

Todos os dados definidos no corpo da função ficam dentro do seu escopo. É possível alterar o valor de uma variável enviada para a função, mas não é possível alterar o seu valor fora da função.

In [20]:
half <- function(x) {
  x <- x/2
  return(x)
}

x <- 10
list(
  "half(x)" = half(x),
  "x" = x
)

### 6.5.5. _Warning_ e erros

Normalmente é uma boa prática adicionar avisos específicos  e parar a execução da função caso algum valor inválido fornecido, como por exemplo o envio de valores não numéricos para a função `report_p`. A chamada `stop()` para a execução da função.

Se alguém fornecer um número que não seja possível para um p-valor (0-1) é uma boa ideia avisar que os dados estão inválidos, mas continuar a execução de qualquer maneira. Para atingir o objetivo utilizamos a função `warning()`.

In [21]:
report_p <- function(p, digits = 3) {
  if (!is.numeric(p)) stop("p must be a number")
  if (p <= 0) warning("p-values are normally greater than 0")
  if (p >= 1) warning("p-values are normally less than 1")
  
  if (p < .001) {
    reported = "p < .001"
  } else {
    roundp <- round(p, digits)
    reported = paste("p =", roundp)
  }
  
  reported
}

In [22]:
report_p()

ERROR: Error in report_p(): argumento "p" ausente, sem padrão


In [23]:
report_p("a")

ERROR: Error in report_p("a"): p must be a number


In [24]:
report_p(-2)

“p-values are normally greater than 0”


In [25]:
report_p(2)

“p-values are normally less than 1”


## 6.6. Interagindo com suas funções

Primeiro é necessário construir o código que será utilizado.

### 6.6.1. `rnorm()`

Crie um vetor de 20 números aleatórios pertencentes a uma distribuição normal com média 5 e desvio padrão 1 utilizando a função `rnorm()`, armazenando os resultados na variável `A`.

In [26]:
A <- rnorm(20, mean = 5, sd = 1)

### 6.6.2. `tibble::tibble()`

A função `tibble::tibble()` cria um tibble com uma coluna para cada parâmetro. Cada um dos parâmetros possui o formato `column_name = data_vector`.

Crie um dataset de nome `dat` incluindo dois vetores: `A`, que é um vetor de 20 números aleatórios pertencentes a uma distribuição normal com média 5 e e desvio padrão 1 e `B`, que é um vetor de 20 números aleatórios pertencentes a uma distribuição normal com média 5.5 e desvio padrão 1.

In [27]:
dat <- tibble(
  A = rnorm(20, 5, 1),
  B = rnorm(20, 5.5, 1)
)

### 6.6.3. `t.test`

Vamos testar os dados recém criados rodando um t-test de Welch incluindo as duas amostras como os dois primeiros parâmetros da função `t.test`. Para acessar uma coluna em uma tabela utilizamos o formato `table_name$column_name`.

In [34]:
t.test(dat$A, dat$B)


	Welch Two Sample t-test

data:  dat$A and dat$B
t = 0.029301, df = 37.27, p-value = 0.9768
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4829147  0.4970899
sample estimates:
mean of x mean of y 
 5.251942  5.244854 


Também podemos converter os dados para o formato longo utilizando a função `gather` e especificando o t.test utilizando o formato `dv_column~grouping_column`

In [35]:
longdat <- gather(dat, group, score, A:B)
t.test(score~group, data = longdat) 


	Welch Two Sample t-test

data:  score by group
t = 0.029301, df = 37.27, p-value = 0.9768
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.4829147  0.4970899
sample estimates:
mean in group A mean in group B 
       5.251942        5.244854 


### 6.6.4. `broom::tidy()`

A função `broom::tidy()` permite extrair os dados de um teste estatístico no formato de tabela.

In [36]:
tibble(
  A = rnorm(20, 5, 1),
  B = rnorm(20, 5.5, 1)
) %>%
  gather(group, score, A:B) %>%
  t.test(score~group, data = .) %>%
  broom::tidy()

estimate,estimate1,estimate2,statistic,p.value,parameter,conf.low,conf.high,method,alternative
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
-0.9028235,4.85629,5.759114,-2.819616,0.007872814,34.89848,-1.552919,-0.252728,Welch Two Sample t-test,two.sided


A utilização de `pull()` permite extrair um único valor.

In [37]:
tibble(
  A = rnorm(20, 5, 1),
  B = rnorm(20, 5.5, 1)
) %>%
  gather(group, score, A:B) %>%
  t.test(score~group, data = .) %>%
  broom::tidy() %>%
  pull(p.value)

### 6.6.5. Transformando em uma função

A função `t_sim` vai abrigar todas as operações e não recebe nenhum parâmetro.

In [38]:
t_sim <- function() {
  tibble(
    A = rnorm(20, 5, 1),
    B = rnorm(20, 5.5, 1)
  ) %>%
    gather(group, score, A:B) %>%
    t.test(score~group, data = .) %>%
    broom::tidy() %>%
    pull(p.value) 
}

Execute algumas vezes para ver o resultado

In [40]:
t_sim()

### 6.6.6. `replicate()`

Utilize `replicate()` para rodar uma função qualquer número de vezes.

In [41]:
replicate(3, rnorm(5))

0,1,2
0.38719957,-0.01375654,-0.5102323
1.03018135,-2.72281902,1.3368846
0.51648698,0.41191338,-0.8905043
0.09786637,1.23162468,-1.5533902
-0.07268211,1.59030643,1.3712995


Vamos rodar a função t_sim 1000 vezes, atribuindo os p-valores resultantes a um vetor chamado `reps`, verificando a proporção dos p-valores que é menor do que alpha (0.05, por exemplo). Este número representa a potência da análise.

In [42]:
reps <- replicate(1000, t_sim())
alpha <- .05
power <- mean(reps < alpha)
power

### 6.6.7. _Set seed_

A chamada `set.seed` antes de uma função que utilize números aleatórios para garantir que os números sejam diferentes a cada chamada. Qualquer inteiro pode ser utilizado como _seed_

In [43]:
set.seed(90201)

### 6.6.8. Adicionando parâmetros

É possível simplesmente alterar a função sempre que quisermos calcular os resultados para uma amostra diferente, contudo é mais eficiente utilizar parâmetros da função. Vamos redefinir a função `t_sim`, atribuindo parâmetros para média e desvio padrão dos grupos A e B, além do número de observações do grupo. Todos os parâmetros serão construídos com valores padrão.

In [44]:
t_sim <- function(n = 10, m1=0, sd1=1, m2=0, sd2=1) {
  tibble(
    A = rnorm(n, m1, sd1),
    B = rnorm(n, m2, sd2)
  ) %>%
    gather(group, score, A:B) %>%
    t.test(score~group, data = .) %>%
    broom::tidy() %>%
    pull(p.value) 
}

Teste a função com diferentes valores para verificar se os resultados fazem sentido

In [45]:
t_sim(100)
t_sim(100, 0, 1, 0.5, 1)

Adicionamos `replicate` para calcular os valores para 100 observações por grupo, com um efeito de tamanho 0.2 (A: m = 0, SD = 1; B: m = 0.2, SD = 1). Repetimos 1000 vezes.

In [46]:
reps <- replicate(1000, t_sim(100, 0, 1, 0.2, 1))
power <- mean(reps < .05)
power

Compare os resultados com o valor calculado pela função `power.t.test`.

In [47]:
power.t.test(n = 100, delta = 0.2, sd = 1, type="two.sample")


     Two-sample t test power calculation 

              n = 100
          delta = 0.2
             sd = 1
      sig.level = 0.05
          power = 0.2902664
    alternative = two.sided

NOTE: n is number in *each* group
