# **Sobre o notebook**

Aproveite esse espaço para as atividades do curso de **Estatística com R: aplicando testes de hipóteses** da Alura. Aqui você pode escrever e testar os códigos dos diversos exercícios do **Mão na Massa** envolvendo os aprendizados de cada aula.

Este notebook foi construído com espaços para adicionar as células dos desafios propostos no curso, com eles você tem espaço para construir e executar suas soluções.

> O código abaixo deve ser rodado para quando utilizar funções específicas de cada pacote


#### **Importando os pacotes e configurando o ambiente**

In [None]:
# Baixando o arquivo de ambiente do R
R_environment_file <- "https://github.com/alura-cursos/estatistica-r-testes-hipoteses/raw/refs/heads/main/libs/library.tar.gz"

download.file(R_environment_file, destfile="./library.tar.gz")

# unzip do arquivo library do R: 'library.tar.gz' para a pasta library do R
untar("library.tar.gz", "library")

# Mudando a pasta das libs do R para './library'
.libPaths("library")

In [21]:
# Importando os pacotes do projeto
library(dplyr, warn.conflicts = F)
library(ggplot2, warn.conflicts = F)
library(rstatix, warn.conflicts = F)
library(BSDA, warn.conflicts = F)
library(car, warn.conflicts = F)
options(repr.matrix.max.rows = 10)

Loading required package: lattice

Loading required package: carData


Attaching package: ‘carData’


The following objects are masked from ‘package:BSDA’:

    Vocab, Wool




## **Aula 01 - Teste de normalidade e etapas de um teste de hipóteses**

### **Mão na Massa - Consultoria para uma indústria de cereais**




Você está atuando como consultor em uma indústria que produz cereais. A empresa gostaria de analisar se a produção de arroz está seguindo os padrões de qualidade e, por isso, você utilizará os conceitos de testes de hipóteses para realizar essa investigação.


#### Case 1: Verificando a normalidade dos dados

A indústria coletou dados sobre o peso das embalagens de arroz de 5 kg. Eles suspeitam que o processo de enchimento das embalagens pode estar variando além do esperado. Para garantir a qualidade do produto, é necessário verificar se os pesos das embalagens seguem uma distribuição normal antes de prosseguir para o teste de hipóteses.

* Dada a amostra de **45 embalagens** coletadas abaixo, com o peso em kg dos pacotes de arroz, verifique se os pesos das embalagens seguem uma distribuição normal utilizando o Teste de Shapiro-Wilk.


In [1]:
# Dados dos pesos das embalagens de arroz (em kg)
pesos_arroz <- c(4.78, 5.16, 5.10, 4.94, 5.05, 5.21, 4.89, 5.10, 4.99, 5.16, 5.05,
                 4.94, 5.10, 4.99, 5.05, 5.16, 4.89, 5.10, 4.94, 5.05, 5.21, 4.99,
                 5.10, 4.94, 5.05, 5.16, 4.89, 5.10, 4.99, 5.05, 5.16, 4.94, 5.10,
                 4.99, 5.05, 5.21, 4.89, 5.10, 4.94, 5.05, 5.16, 4.99, 5.10, 4.94,
                 5.05)

In [2]:
significancia <- 0.05

In [3]:
resultado <- shapiro.test(pesos_arroz)
resultado


	Shapiro-Wilk normality test

data:  pesos_arroz
W = 0.95704, p-value = 0.09418


In [4]:
p_valor <- resultado$p.value

In [5]:
p_valor <= significancia

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.094$) é maior que o nível de significância ($\alpha$ = 0,05), **não rejeitamos a hipótese nula**. Portanto, os pesos das embalagens seguem uma distribuição normal.

#### Case 2: Testando a afirmação da indústria
A indústria afirma que a quantidade média de arroz nas embalagens é exatamente **5 kg**. No entanto, a amostra de **45 embalagens** que utilizamos no case anterior apresentou um peso médio de **5,04 kg**. Sabendo que o desvio padrão populacional é de **100 g** e que os dados seguem uma distribuição normal, precisamos testar se há evidências estatísticas para questionar a afirmação da empresa.

Considerando um nível de significância igual a 5%, responda às seguintes questões:
1. Quais as hipóteses a serem testadas?
2. Qual o valor crítico dado o nível de significância?
3. Qual o valor da estatística de teste? E o p-valor?
4. Qual a conclusão do teste?


##### **Dados do problema**

In [11]:
media <- 5
media_amostra <- mean(pesos_arroz)
desvio_padrao_pop <- 0.1
n <- 45

##### 1. Quais as hipóteses a serem testadas?

$H_0:$ A média dos pesos das embalagens é igual a 5 kg

$H_1:$ A média dos pesos das embalagens é diferente de 5 kg

##### 2. Qual o valor crítico dado o nível de significância?

In [6]:
significancia <- 0.05
confianca <- 1 - significancia

In [7]:
probabilidade <- (0.5 + (confianca / 2))
probabilidade

In [8]:
z_alpha_2 <- qnorm(probabilidade)
z_alpha_2

##### 3. Qual o valor da estatística de teste? E o p-valor?

Para o nosso caso, aplicando um Teste Z:

# $$z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}}$$

onde,
* $\bar{x}$ = media amostral
* $\mu_0$ = média populacional sob $H_0$
* $\sigma$ = desvio padrão populacional
* $n$ = tamanho da amostra

In [12]:
z <- (media_amostra - media) / (desvio_padrao_pop  / sqrt(n))
z

###### $p_{valor}$ ?

In [13]:
p_valor <- 2 * (1 - pnorm(z))
p_valor

##### 4. Qual a conclusão do teste?

In [14]:
if (z <= -z_alpha_2 || z >= z_alpha_2) {
    'Rejeitar H0'
} else {
    'Aceitar H0'
}

In [16]:
p_valor <= significancia

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.007$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula**.
>
> Portanto, há evidências estatísticas para afirmar que a média dos pesos das embalagens é significativamente diferente de 5 kg ao nível de significância de 5%.
>
> Esses resultados sugerem que a indústria pode precisar revisar seu processo de enchimento para garantir que as embalagens estejam dentro do peso especificado.

## **Aula 02 - Testes paramétricos: bicaudal e unicaudal**

### **Mão na Massa - Consultoria em uma empresa de saneamento**

Você foi contratado como consultor por uma empresa de saneamento que realiza tratamento de esgoto e de água. A empresa enfrenta dois problemas que precisam ser resolvidos com base em análises estatísticas.

#### Case 1: Verificação do Nível de Impurezas

A empresa afirma que consegue tratar o esgoto e obter, no máximo, **150g de impurezas** para cada mil litros de esgoto tratado. No entanto, **20 amostras** de mil litros de esgoto apresentou uma média de **210g de impurezas**, com um **desvio padrão amostral de 80g**. Assumindo que os dados seguem uma distribuição normal e um **nível de significância de 5%**, precisamos verificar se há evidências para discordar da afirmação da empresa.

* Com base nos dados fornecidos, realize um teste para verificar se a média de impurezas é **significativamente maior que 150g**.



In [18]:
media <- 150
media_amostra <- 210
desvio_padrao_amostra <- 80
n <- 20
df <- n - 1

##### 1. Quais as hipóteses a serem testadas?

$H_0:$ A média de impurezas é menor ou igual a 150g (μ ≤ 150)

$H_1:$ A média de impurezas é maior que 150g (μ > 150)

##### 2. Qual o valor crítico dado o nível de significância?

In [19]:
significancia <- 0.05
confianca <- 1 - significancia

In [20]:
t_alpha <- qt(confianca, df)
t_alpha

##### 3. Qual o valor da estatística de teste? E o p-valor?

Para o nosso caso, aplicando um Teste t:

# $$t = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}$$

onde,
* $\bar{x}$ = media amostral
* $\mu_0$ = média populacional sob $H_0$
* $\sigma$ = desvio padrão populacional
* $n$ = tamanho da amostra

In [21]:
t <- (media_amostra - media) / (desvio_padrao_amostra / sqrt(n))
t

###### $p_{valor}$ ?

In [11]:
p_valor <- pt(t, df, lower.tail = F)
p_valor

##### 4. Qual a conclusão do teste?

In [12]:
t >= t_alpha

In [13]:
p_valor <= significancia

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.002$) é menor que o nível de significância ($\alpha$ = 0,05), **rejeitamos a hipótese nula**. Portanto, há evidências estatísticas para **discordar** da afirmação da empresa ao nível de significância de 5%.
>
> Ou seja, a empresa não está cumprindo a meta de no máximo 150g de impurezas por mil litros de esgoto tratado.

#### Case 2: Testando a afirmação da indústria

A empresa também afirma que em **no máximo 10%** das amostras de água tratada, a concentração de flúor excede 1 mg/L. Em uma pesquisa com **150 amostras**, **20 amostras** apresentaram concentração de flúor acima de 1 mg/L. Com um nível de significância de 5%, precisamos verificar se há evidências para discordar da afirmação da empresa.

* Com base nos dados fornecidos, realize um **teste Z de uma proporção unicaudal superior** para verificar se a proporção de amostras com flúor acima de 1 mg/L é significativamente maior que 10%.


##### **Dados do problema**

In [22]:
n <- 150
itens <- 20
p_hat <- itens / n
p_0 <- 0.10

In [23]:
# Testando se é aplicável o teste Z de uma proporção
n * p_0 >= 10
n * (1 - p_0) >= 10

##### 1. Quais as hipóteses a serem testadas?

$H_0:$ A proporção de amostras com flúor acima de 1 mg/L é menor ou igual a 10% (p ≤ 0.10)

$H_1:$ A proporção de amostras com flúor acima de 1 mg/L é maior que 10% (p> 10)

##### 2. Qual o valor crítico dado o nível de significância?

In [26]:
significancia <- 0.05
confianca <- 1 - significancia

In [28]:
z_alpha <- qnorm(confianca)
z_alpha

##### 3. Qual o valor da estatística de teste? E o p-valor?

Para o nosso caso, aplicando um Teste Z de uma proporção:

# $$z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1- p_0)}{n}}}$$

onde,
* $\hat{p}$ = proporção da amostra
* $p_0$ = proporção sob $H_0$
* $n$ = tamanho da amostra

In [29]:
dif_prop <- p_hat - p_0
erro_padrao <- sqrt((p_0 * (1 - p_0)) / n)

In [30]:
z <- dif_prop / erro_padrao
z

###### $p_{valor}$ ?

In [31]:
p_valor <- pnorm(z, lower.tail = F)
p_valor

##### 4. Qual a conclusão do teste?

In [32]:
z <= -z_alpha

In [33]:
p_valor <= significancia

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.087$) é maior que o nível de significância ($\alpha$ = 0.05), **não rejeitamos a hipótese nula**.
>
> Portanto, não há evidências estatísticas para discordar da afirmação da empresa ao nível de significância de 5%.
>
> Ou seja, a empresa está cumprindo a meta de no máximo 10% das amostras com flúor acima de 1 mg/L.

## **Aula 03 - Testes paramétricos para duas ou mais amostras**

### **Mão na Massa - Consultoria na rede de supermercados**

Você foi contratado como consultor por uma rede de supermercados que deseja melhorar seu desempenho operacional. A empresa enfrenta dois problemas que precisam ser resolvidos com base em análises estatísticas.

#### Case 1: Analisando o layout das prateleiras
A rede de supermercados implementou uma nova estratégia de layout nas prateleiras para aumentar as vendas de um produto específico. Foram coletados dados das médias de vendas diárias do produto **antes** e **depois** da mudança em 20 lojas.

* Com base nos dados fornecidos, realize um teste t para duas amostras pareadas para verificar se a mudança no layout aumentou significativamente as vendas para um **nível de significância de 5%**.


##### **Dados do problema**

In [1]:
# Gerar dados de vendas antes e depois
antes <- c(109, 101, 112, 119, 106, 98, 106, 99, 95, 111,
           94, 74, 94, 111, 116, 97, 99, 106, 80, 136)
depois <- c(115, 135, 177, 133, 118, 94, 102, 121, 112, 134,
            99, 156, 95, 132, 107, 95, 126, 90, 138, 139)

dados <- data.frame(Loja = 1:20, Antes = antes, Depois = depois)
head(dados)

Unnamed: 0_level_0,Loja,Antes,Depois
Unnamed: 0_level_1,<int>,<dbl>,<dbl>
1,1,109,115
2,2,101,135
3,3,112,177
4,4,119,133
5,5,106,118
6,6,98,94


##### 1. Quais as hipóteses a serem testadas?

$H_0:$ A média das diferenças entre as vendas do produto antes e depois é igual a zero

$H_1:$ A média das diferenças entre as vendas do produto antes e depois é diferente de zero

##### 2. Qual o valor crítico dado o nível de significância?

In [2]:
significancia <- 0.05
confianca <- 1 - significancia

In [3]:
probabilidade <- (0.5 + confianca/2)
probabilidade

In [4]:
t_alpha_2 <- qt(probabilidade, nrow(dados))
t_alpha_2

##### 3. Qual o valor da estatística de teste? E o p-valor?

In [5]:
resultado_teste <- t.test(dados$Antes, dados$Depois, paired = TRUE)
resultado_teste


	Paired t-test

data:  dados$Antes and dados$Depois
t = -3.1043, df = 19, p-value = 0.005839
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
 -29.717647  -5.782353
sample estimates:
mean difference 
         -17.75 


In [6]:
t <- resultado_teste$statistic
t

###### $p_{valor}$ ?

In [8]:
p_valor <- resultado_teste$p.value
p_valor

##### 4. Qual a conclusão do teste?

In [9]:
if(t <= -t_alpha_2 || t >= t_alpha_2){
    'Rejeitar H0'
}else{
    'Aceitar H0'
}

In [10]:
p_valor <= significancia

##### 5.Houve melhora ou piora?

In [11]:
summary(dados)

      Loja           Antes           Depois     
 Min.   : 1.00   Min.   : 74.0   Min.   : 90.0  
 1st Qu.: 5.75   1st Qu.: 96.5   1st Qu.:101.2  
 Median :10.50   Median :103.5   Median :119.5  
 Mean   :10.50   Mean   :103.2   Mean   :120.9  
 3rd Qu.:15.25   3rd Qu.:111.0   3rd Qu.:134.2  
 Max.   :20.00   Max.   :136.0   Max.   :177.0  

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.006$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula**.
>
> Portanto, há evidências estatísticas de que a mudança no layout **afetou significativamente** as vendas do produto.
>
> Esse efeito foi **positivo**, dado que a média das vendas nas lojas depois da alteração (u2 = 120.9) é maior que a média antes da alteração (u1 = 103.2). Portanto, a mudança do layout foi eficaz ao nível de significância de 5%.

#### Case 2: Analisando efeitos nas vendas
A rede de supermercados deseja avaliar o impacto de dois fatores nas vendas de um produto:
* **Tipo de Promoção:** Promoção A, Promoção B ou Sem Promoção.
* **Dia da Semana:** Fim de semana (Sábado e Domingo) ou Dia útil (Segunda a Sexta).

Foram coletados dados das vendas diárias em 30 lojas, considerando todas as combinações dos fatores.

* Com base nos dados fornecidos, realize um teste ANOVA de duas vias para verificar se há efeitos significativos do tipo de promoção, do dia da semana e da interação entre eles nas vendas a um **nível de significância de 5%**

> Lembre-se de rodar os códigos na aba **Importando os pacotes e configurando o ambiente** localizado no início deste documento, pois será preciso utilizar alguns dos pacotes aqui.

##### **Dados do problema**

In [10]:
promocao <- c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A",
              "A", "A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B",
              "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B",
              "B", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem",
              "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem", "Sem")
dia = c("Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim",
        "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil",
        "Útil", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim",
        "Fim", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil",
        "Útil", "Útil", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim", "Fim",
        "Fim", "Fim", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil", "Útil",
        "Útil", "Útil", "Útil")
vendas = c(165, 155, 165, 175, 157, 147, 158, 148, 143, 164, 124, 104, 124, 141,
           146, 127, 129, 136, 110, 166, 136, 153, 191, 152, 138, 117, 123, 141,
           133, 153, 108, 142, 115, 127, 115, 105, 123, 102, 131, 132, 113, 115,
           94, 96, 85, 111, 96, 101, 109, 105, 93, 80, 89, 99, 93, 99, 95, 83, 84, 90)

# Gerar data.frame de vendas
dados <- data.frame(Promocao = promocao, Dia = dia,  Vendas = vendas)
head(dados)

Unnamed: 0_level_0,Promocao,Dia,Vendas
Unnamed: 0_level_1,<chr>,<chr>,<dbl>
1,A,Fim,165
2,A,Fim,155
3,A,Fim,165
4,A,Fim,175
5,A,Fim,157
6,A,Fim,147


##### 1. Verificação dos Pressupostos

**Teste de normalidade de Shapiro-Wilk**

In [11]:
dados %>%
  group_by(Promocao, Dia) %>%
  shapiro_test(Vendas)

Promocao,Dia,variable,statistic,p
<chr>,<chr>,<chr>,<dbl>,<dbl>
A,Fim,Vendas,0.9623437,0.8122321
A,Útil,Vendas,0.967087,0.862601
B,Fim,Vendas,0.89857,0.2113009
B,Útil,Vendas,0.9590247,0.7746968
Sem,Fim,Vendas,0.9483608,0.6491473
Sem,Útil,Vendas,0.9423057,0.5789435


**Teste de homogeneidade das variâncias (Levene)**

In [12]:
leveneTest(Vendas ~ Promocao * Dia, data = dados)

Unnamed: 0_level_0,Df,F value,Pr(>F)
Unnamed: 0_level_1,<int>,<dbl>,<dbl>
group,5,1.51633,0.2001314
,54,,


**Verificação dos outliers**

In [13]:
dados %>%
  group_by(Promocao, Dia) %>%
  identify_outliers(Vendas)

Promocao,Dia,Vendas,is.outlier,is.extreme
<chr>,<chr>,<dbl>,<lgl>,<lgl>
A,Útil,166,True,False
B,Fim,191,True,False


##### 2. Quais as hipóteses a serem testadas?

$H_0:$
- Não há diferença nas vendas devido o tipo de promoção ou ausência deste.
- Não há diferença nas vendas devido o tipo de dia da semana, sendo útil ou final de semana.
- Não há interação entre o tipo de promoção e o dia da semana nas vendas.

$H_1:$
- O tipo de produção afeta nas vendas do produto.
- O dia da semana afeta nas vendas do produto.
- Há interação entre o tipo de promoção e o dia da semana nas vendas.

##### 3. Qual o valor da estatística de teste? E o p-valor?

In [14]:
resultado_anova <- anova_test(Vendas ~ Promocao * Dia, data = dados)
resultado_anova

Unnamed: 0_level_0,Effect,DFn,DFd,F,p,p<.05,ges
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
1,Promocao,2,54,63.861,5.9e-15,*,0.703
2,Dia,1,54,34.135,3.05e-07,*,0.387
3,Promocao:Dia,2,54,1.618,0.208,,0.057


##### 4. Qual a conclusão do teste?

In [16]:
significancia <- 0.05

In [15]:
p_valor_promo <- resultado_anova$p[1]
p_valor_dia <- resultado_anova$p[2]
p_valor_promo_dia <- resultado_anova$p[3]

In [17]:
p_valor_promo < significancia
p_valor_dia < significancia
p_valor_promo_dia < significancia

##### **Conclusão**

Com base nesses resultados, podemos concluir que:

* Ao aplicar o **Teste ANOVA de duas vias**, obtivemos as estatísticas para o nível de significância ($\alpha = 0.05$):
  * **Tipo de Promoção**: $p_{value} < 0.05$ (rejeitamos $H_0$).
  * **Dia da semana**: $p_{value} < 0.05$ (rejeitamos $H_0$).  
  * **Interação entre promoção e dia da semana**: $p_{value} > 0.05$ (aceitamos $H_0$).

* Isso indica que:

  * O **tipo de promoção** tem um efeito significativo nas vendas.
  * O **dia da semana** tem um efeito significativo nas vendas.
  * **Não há uma interação significativa** entre o tipo de promoção e o dia da semana nas vendas.



## **Aula 04 - Testes não paramétricos para dados categóricos**

### **Mão na Massa - Consultoria para uma empresa de móveis**

Você foi contratado como consultor por uma empresa de móveis que deseja compreender sua clientela e melhorar as ofertas das condições de venda de seus produtos. A empresa enfrenta dois problemas que precisam ser resolvidos com base em análises estatísticas.

#### Case 1: Analisando a preferência de pagamento
A empresa deseja entender melhor o comportamento de seus clientes e, por isso, nos forneceu dados sobre duas variáveis categóricas:

1. **Preferência de Pagamento:** Cartão de Crédito (CC) ou Boleto (Boleto).
2. **Faixa Etária:** Jovem (18-25 anos), Adulto (26-50 anos) ou Idoso (51+ anos).

* A empresa quer saber se há associação entre a preferência de pagamento e a faixa etária dos clientes ao nível de significância de 5%


##### **Dados do problema**

In [4]:
faixa <- c("Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem",
            "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem",
            "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem",
            "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Jovem", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto",
            "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto",
            "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto",
            "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto", "Adulto",
            "Adulto", "Adulto", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso",
            "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso",
            "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso",
            "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso", "Idoso")

pref_pag <- c("CC", "Boleto", "Boleto", "Boleto", "CC", "CC", "Boleto", "CC", "Boleto", "CC", "CC", "Boleto", "Boleto", "CC", "CC", "CC", "CC",
              "CC", "CC", "CC", "CC", "Boleto", "CC", "Boleto", "CC", "CC",  "CC", "Boleto", "CC", "CC", "CC", "CC", "CC", "CC", "CC", "Boleto",
              "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "CC", "CC", "CC", "Boleto", "Boleto", "CC",
              "CC", "CC", "CC", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "CC", "CC", "CC", "CC", "CC", "CC", "Boleto", "Boleto", "Boleto",
              "Boleto", "CC", "CC", "Boleto", "CC", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "CC", "CC", "Boleto", "CC", "CC",
              "CC", "Boleto", "Boleto", "CC", "CC", "Boleto", "Boleto", "CC", "Boleto", "CC", "Boleto", "Boleto", "Boleto", "CC", "CC", "Boleto",
              "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "Boleto", "CC",
              "CC", "Boleto", "Boleto", "CC", "Boleto", "Boleto", "Boleto", "Boleto", "CC", "CC", "CC", "CC", "CC", "Boleto", "CC", "Boleto",
              "Boleto", "Boleto", "Boleto", "Boleto", "CC", "CC", "Boleto", "CC", "Boleto", "CC", "Boleto", "Boleto", "Boleto", "Boleto",
              "Boleto", "Boleto", "Boleto", "CC", "CC", "Boleto")
dados <- data.frame(Faixa_Etaria = faixa ,Preferencia_Pagamento = pref_pag)
head(dados)

Unnamed: 0_level_0,Faixa_Etaria,Preferencia_Pagamento
Unnamed: 0_level_1,<chr>,<chr>
1,Jovem,CC
2,Jovem,Boleto
3,Jovem,Boleto
4,Jovem,Boleto
5,Jovem,CC
6,Jovem,CC


In [25]:
tabela <- table(dados$Faixa_Etaria, dados$Preferencia_Pagamento)
tabela

        
         Boleto CC
  Adulto     26 24
  Idoso      35 15
  Jovem      22 28

##### 1. Quais as hipóteses a serem testadas?

$H_0:$ Não há associação entre a preferência de pagamento e a faixa etária (as variáveis são independentes).

$H_1:$ Há associação entre a preferência de pagamento e a faixa etária (as variáveis não são independentes).

##### 2. Qual o valor da estatística de teste? E o p-valor?

In [6]:
qui_2 <- chisq.test(tabela)
qui_2


	Pearson's Chi-squared test

data:  tabela
X-squared = 7.175, df = 2, p-value = 0.02767


###### $p_{valor}$ ?

In [7]:
p_valor <- qui_2$p.value
p_valor

##### 3. Qual a conclusão do teste?

In [8]:
significancia <- 0.05

In [9]:
p_valor <= significancia

###### Quais as frequências esperadas?

In [11]:
tab_esperada <- qui_2$expected
tab_esperada

Unnamed: 0,Boleto,CC
Adulto,27.66667,22.33333
Idoso,27.66667,22.33333
Jovem,27.66667,22.33333


###### Análise dos resíduos padronizados ajustados

In [32]:
tabela
tab_esperada

        
         Boleto CC
  Adulto     26 24
  Idoso      35 15
  Jovem      22 28

Unnamed: 0,Boleto,CC
Adulto,27.66667,22.33333
Idoso,27.66667,22.33333
Jovem,27.66667,22.33333


In [33]:
qui_2$stdres

        
            Boleto        CC
  Adulto -0.580663  0.580663
  Idoso   2.554917 -2.554917
  Jovem  -1.974254  1.974254

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.028$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula**.
>
> Isso indica que **há uma associação significativa** entre a faixa etária dos clientes e o tipo de pagamento ao **nível de significância de 5%**.
>
> Além disso, a análise dos resíduos padronizados ajustados mostrou que as células **Idoso** e **Jovem** contribuíram significativamente para a rejeição de $H_0$.

#### Case 2: Avaliando e-mail marketing de um produto
A empresa lançou uma campanha de marketing por e-mail para promover um novo produto. A campanha foi enviada para um grupo de clientes, e a empresa quer saber se houve associação entre o **recebimento do e-mail** e a **compra do produto**.

* Com base nos dados fornecidos, verifique se há associação entre receber o e-mail e comprar o produto, dada uma pequena amostra a um **nível de significância de 5%**. Neste caso, o teste exato de Fisher será o mais adequado.


##### **Dados do problema**

In [36]:
dados <- matrix(c(12, 4, 6, 11), nrow = 2, byrow = TRUE,
                dimnames = list(c("Recebeu E-mail", "Não Recebeu E-mail"),
                                c("Comprou", "Não Comprou")))
dados

Unnamed: 0,Comprou,Não Comprou
Recebeu E-mail,12,4
Não Recebeu E-mail,6,11


##### 1. Quais as hipóteses a serem testadas?

$H_0:$ Não há associação entre receber o e-mail e comprar o produto (as variáveis são independentes).

$H_1:$ Há associação entre receber o e-mail e comprar o produto (as variáveis não são independentes).

##### 2. Qual o valor da estatística de teste? E o p-valor?

In [40]:
resultado_fisher <- fisher.test(dados)
resultado_fisher


	Fisher's Exact Test for Count Data

data:  dados
p-value = 0.03664
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.996045 33.128576
sample estimates:
odds ratio 
  5.191776 


###### $p_{valor}$ ?

In [41]:
p_valor <- resultado_fisher$p.value
p_valor

##### 3. Qual a conclusão do teste?

In [42]:
significancia <- 0.05

In [43]:
p_valor <= significancia

###### Enviar e-mail ajuda nas vendas?

In [44]:
taxa_compra_com_email <- dados[1,1] / rowSums(dados)[1]
taxa_compra_sem_email <- dados[2,1] / rowSums(dados)[2]

In [45]:
cat(paste0("Taxa de compra com email: ", 100 * taxa_compra_com_email, "%\n"))
cat(paste0("Taxa de compra sem email: ", 100 * taxa_compra_sem_email, "%"))

Taxa de compra com email: 75%
Taxa de compra sem email: 35.2941176470588%

##### **Conclusão**

> Como o p-valor ($p_{value} = 0.037$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula**.
>
> Isso indica que **há uma associação significativa** entre receber o e-mail e comprar o produto ao **nível de significância de 5%**.
>
> Além disso, a análise da **taxa de compras** mostrou que ao enviar e-mail temos uma taxa de conversão significativamente maior (75%) em comparação com não enviando e-mail (35.3%). Portanto, a empresa pode continuar priorizando o e-mail marketing desse produto visando maximizar as vendas.

## **Aula 05 - Cálculo do tamanho da amostra**

### **Mão na Massa - Consultoria para um produtor rural**

Você foi contratado como consultor por um produtor rural que deseja melhorar a eficiência de sua produção. Para isso, ele nos solicitou resolver dois problemas:
* Case 1: Avaliar o efeito de um novo composto na ração de suínos sobre o ganho de peso dos animais.
* Case 2: Comparar duas variedades de milho em relação ao rendimento e a necessidade de uso de água.


####  Case 1: Analisando inserção de novo composto em ração
O produtor rural deseja saber se a adição de um novo composto na ração de suínos tem um efeito significativo no ganho de peso dos animais. Para isso, ele testou o mesmo grupo de **35 porcos** em duas situações:
* **Sem Composto:** Alimentou os porcos com a ração tradicional por uma semana e registrou a variação de peso.
* **Com Composto:** Alimentou os mesmos porcos com a ração contendo o novo composto por mais uma semana e registrou a variação de peso.

Com base nos dados, queremos saber se há diferença no ganho de peso dos porcos de acordo a presença ou não do composto ao **nível de significância de 5%**.


> Lembre-se de rodar os códigos na aba **Importando os pacotes e configurando o ambiente** localizado no início deste documento, pois será preciso utilizar alguns dos pacotes aqui.

##### **Dados do problema**

In [7]:
pesos <- data.frame(
  Sem_Composto = c(180, 139, 325, 303, 127, 149, 271, 163, 287, 255, 398, 324, 335, 421,
                   216, 274, 373, 116, 197, 237, 321, 431, 112, 304, 417, 362, 151, 187,
                   195, 304, 202, 158, 105, 190, 245),
  Com_Composto = c(384, 187, 442, 208, 488, 283, 286, 319, 240, 266, 298, 230, 484, 424,
                   185, 233, 282, 286, 208, 290, 429, 386, 218, 390, 347, 442, 240, 356,
                   317, 454, 301, 108, 228, 271, 395)
)
head(pesos)

Unnamed: 0_level_0,Sem_Composto,Com_Composto
Unnamed: 0_level_1,<dbl>,<dbl>
1,180,384
2,139,187
3,325,442
4,303,208
5,127,488
6,149,283


##### 1. Quais as hipóteses a serem testadas?

$H_0:$ Não há diferença no ganho de peso dos porcos com e sem o composto (as medianas são iguais).

$H_1:$ Há diferença no ganho de peso dos porcos com e sem o composto (as medianas são diferentes).

##### 2. Qual o valor da estatística de teste? E o p-valor?

In [12]:
teste_wilcoxon <- wilcox.test(pesos$Sem_Composto, pesos$Com_Composto, paired = T, correct = F)
teste_wilcoxon

“cannot compute exact p-value with ties”



	Wilcoxon signed rank test

data:  pesos$Sem_Composto and pesos$Com_Composto
V = 123, p-value = 0.001661
alternative hypothesis: true location shift is not equal to 0


###### $p_{valor}$ ?

In [13]:
p_valor <- teste_wilcoxon$p.value
p_valor

##### 3. Qual a conclusão do teste?

In [15]:
significancia <- 0.05

In [16]:
p_valor <= significancia

##### 4. Análise descritiva dos dados

In [18]:
pesos$Dif <- pesos$Com_Composto - pesos$Sem_Composto

In [22]:
pesos %>%
  get_summary_stats(Sem_Composto, Com_Composto, Dif, type = "median_iqr")

variable,n,median,iqr
<fct>,<dbl>,<dbl>,<dbl>
Sem_Composto,35,245,151.0
Com_Composto,35,290,151.5
Dif,35,81,164.5


##### **Conclusão**

> Como o p-valor ($p_{value} = 0.002$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula**.
>
> Isso indica que **há uma diferença significativa** no ganho de peso dos porcos com e sem o composto ao **nível de significância de 5%**.
>
> Além disso, a análise da mediana e intervalo interquartil nos mostrou que a diferença (Dif = Com - Sem) é **positiva** e de 80 quilos e varia entre 164.5 quilos entre o 1º e 3º quartil. Logo, a inserção do composto na ração se demonstrou eficaz no ganho de peso dos porcos.

#### Case 2: Comparando variedades do milho
O produtor rural deseja comparar o rendimento e o uso de água entre duas variedades de milho (Variedade A e Variedade B). Ele coletou os seguintes dados:
* **Rendimento (kg/hectare):** Medida de produtividade.
* **Uso de Água (litros/hectare):** Quantidade de água utilizada no cultivo.

Com base nos dados fornecidos, queremos verificar a um **nível de significância de 5%**:
* Se o rendimento difere entre as variedades de milho.
* Se o uso de água difere entre as variedades de milho.


> Lembre-se de rodar os códigos na aba **Importando os pacotes e configurando o ambiente** localizado no início deste documento, pois será preciso utilizar alguns dos pacotes aqui.

##### **Dados do problema**

In [57]:
dados <- data.frame(
  Variedade = rep(c("A", "B"), each = 20),
  Rendimento = c(120, 130, 125, 135, 140, 150, 145, 155, 160, 170, 165, 175, 180,
                 190, 185, 195, 200, 210, 205, 215, 110, 115, 105, 115, 120, 130,
                 125, 135, 140, 150, 150, 155, 160, 170, 165, 175, 180, 190, 190, 195),
  Uso_Agua = c(500, 510, 505, 515, 520, 530, 525, 535, 540, 550, 545, 555, 560, 570,
               565, 575, 580, 590, 585, 595, 600, 620, 615, 625, 630, 630, 635, 635,
               640, 640, 655, 655, 660, 660, 665, 675, 680, 690, 685, 695)
)
head(dados)

Unnamed: 0_level_0,Variedade,Rendimento,Uso_Agua
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
1,A,120,500
2,A,130,510
3,A,125,505
4,A,135,515
5,A,140,520
6,A,150,530


In [58]:
dados %>%
  group_by(Variedade) %>%
  count()

Variedade,n
<chr>,<int>
A,20
B,20


##### 1. Quais as hipóteses a serem testadas?

$H_0:$ Não há diferença entre as variedades de milho (as medianas são iguais).

$H_1:$ Há diferença entre as variedades de milho (as medianas são diferentes).

##### 2. Qual o valor da estatística de teste? E o p-valor?

###### 2.1 Teste para o rendimento

In [59]:
teste_rendimento <- dados %>%
  wilcox_test(Rendimento ~ Variedade)
teste_rendimento

Unnamed: 0_level_0,.y.,group1,group2,n1,n2,statistic,p
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<dbl>
W,Rendimento,A,B,20,20,270,0.0599


In [60]:
p_valor_rendimento <- teste_rendimento$p
p_valor_rendimento

###### 2.2 Teste para o uso de água

In [61]:
teste_agua <- dados %>%
  wilcox_test(Uso_Agua ~ Variedade)
teste_agua

Unnamed: 0_level_0,.y.,group1,group2,n1,n2,statistic,p
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<int>,<int>,<dbl>,<dbl>
W,Uso_Agua,A,B,20,20,0,6.75e-08


In [62]:
p_valor_agua <- teste_rendimento$p
p_valor_agua

##### 3. Qual a conclusão do teste?

In [63]:
significancia <- 0.05

In [64]:
p_valor_rendimento <= significancia
p_valor_agua <= significancia

##### 4.Análise descritiva dos dados

In [65]:
dados %>%
  group_by(Variedade) %>%
  get_summary_stats(Rendimento, Uso_Agua, type = "median_iqr")

Variedade,variable,n,median,iqr
<chr>,<fct>,<dbl>,<dbl>,<dbl>
A,Rendimento,20,167.5,47.5
A,Uso_Agua,20,547.5,47.5
B,Rendimento,20,150.0,47.5
B,Uso_Agua,20,647.5,37.5


##### **Conclusão**

Com base nesses resultados, podemos concluir que:

#### **Para o rendimento**

> Como o p-valor ($p_{value} = 0.06$) é maior que o nível de significância ($\alpha$ = 0.05), **não rejeitamos a hipótese nula** para um nível de significância de 5% ($\alpha = 0.05$).
>
> Isso indica que **não há diferença significativa** entre as variedades do milho. Embora a Variedade A tem uma mediana de rendimento maior (167.5 kg/hectare) em comparação com a Variedade B (150 kg/hectare).
>
> Isso se deve a uma **variação no intervalo interquartil** que traz muitos valores na mesma faixa: Variedade A e B (IQR = 47.5 kg/hectare). O que contribui para não rejeição da hipótese nula.

#### **Para uso de água**

> Como o p-valor ($p_{value} < 0.001$) é menor que o nível de significância ($\alpha$ = 0.05), **rejeitamos a hipótese nula** para um nível de significância de 5% ($\alpha = 0.05$).
>
> Isso indica que **há diferenças significativas** entre as variedades do milho. As variedades possuem medianas de uso de água distantes (547.5 litros/hectare para A e 647.5 litros/hectare para B).
>
> Além disso, a análise descritiva mostrou que **variação no intervalo interquartil** assegura os valores em faixas distintas, tendo a Variedade A com IQR = 47.5 e a Variedade B com IQR = 37.5.