Em um testes de hipótese envolvendo duas médias, verificamos se a diferença entre as duas médias amostrais é significante. Por outro lado, o teste ANOVA é usado para comparar **múltiplas** (três ou mais) médias, e verificar se a diferença entre múltiplas médias amostrais é significante.

A ANOVA (*ANalysis Of VAriance*) é um teste estatístico para determinar se as médias de vários grupos são iguais. A ANOVA generaliza o teste t para os casos em que há mais do que dois grupos.

A ANOVA pode ser usada em situações nas quais, para cada elemento em alguma das amostras disponíveis, há duas variáveis, a *variável independente* e a *variável dependente*.

- A variável independente é discreta. Seus valores, denominados *níveis* ou *fatores*, são usados para alocar indíviduos pelos grupos.

- A variável dependente é contínua.

A lista a seguir fornece exemplos de perguntas de pesquisa que poderiam ser investigadas por meio da ANOVA.

- Variável independente: *uso de mídia social* com valores em {baixo, médio,  alto}. Variável dependente: *média de horas de sono por noite*. Pergunta de pesquisa: há uma diferença nas horas de sono por noite em função do nível de uso de mídia social.

- Variável independente: *marca de detergente* com valores em {Odd, Ypê, Minuano, Finish}. Há diversas observações sobre o preço de detergentes. Variável dependente: *preço médio do refrigerante*. Pergunta de pesquisa: há diferença no preço (por 100ml) de detergentes?

- Variável independente: *tipo de fertilizante* com  valores em {1, 2, 3}. Há observações sobre diversos campos de cultivo, cada um tratado com um tipo de fertilizante. Variável dependente: *rendimento médio da colheita*. Pergunta de pesquisa: há diferença no rendimento da colheita dependendo do tipo de fertilizante usado no tratamento?


## Declaração das hipóteses

Na ANOVA, a hipótese nula ($H_0$) declara que não há diferença estatisticamente significativa entre as médias das populações. Já a hipótese alternativa ($H_a$) declara que há diferença estatisticamente significativa entre as médias de ao menos um par de populações.

Formalmente, se existem $k$ amostras, temos que:

- $H_0$: $\mu_1 = \mu_2 = \ldots = \mu_k$
- $H_a$: existem índices $i$ e $j$ tais que $\mu_i \neq \mu_j$ ($1 \leq i, j \leq k$)


## Distribuição F

A estatística de teste da ANOVA segue a **distribuição $F$** ($F$-distribution). O nome dessa distribuição é em homenagem a [Ronald Fisher](https://en.wikipedia.org/wiki/Ronald_Fisher), um dos estatísticos que trabalharam em sua formulação.

Quando uma variável aleatória $X$ segue a distribuição $F$, usamos a notação $X \sim F(d_1, d_2)$. Nessa notação, $d_1$ e $d_2$ são os parâmetros da distribuição.

A figura a seguir ([fonte](https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/F-distribution_pdf.svg/1280px-F-distribution_pdf.svg.png)) apresenta gráficos (relativos à função densidade de probabilidade) da distribuição $F$ para diferentes combinações dos parâmetros $d_1$ e $d_2$. Repare que a variável aleatória correspondente assume valores estritamente positivos.

![texto do link](https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/F-distribution_pdf.svg/1280px-F-distribution_pdf.svg.png)

## Estatística de teste

Já sabemos que a estatística de teste da ANOVA segue a distribuição $F$. Vamos denota essa estatística pela letra $F$. Nesta seção descrevemos de que forma calcular o valor de $F$ para um conjunto de $k$ amostras.

O cálculo da estatística $F$ utiliza as seguintes informações.

- $k$, a quantidade de *grupos* (*tratamentos*)

- $\overline{x}$: a média global (i.e., o valor da média considerando os valores de variável dependente de todas as $k$ amostras)

- $n_1, n_2\ldots, n_k$: os tamanhos de cada grupo (amostra)

- $\overline{x}_1, \overline{x}_2, \ldots, \overline{x}_k$: as médias de cada grupo
$$
\overline{x}_i = \frac{1}{n_i} \sum_{j=1}^{n_{i}} x_{ij}
$$

- $s_1^2, s_2^2, \ldots, s_k^2$: as variâncias de cada grupo
$$
s_i^2 = \frac{1}{n_i-1} \sum_{j=1}^{n_{i}}\left(x_{ij}-{\bar{x}}_{i}\right)^{2}
$$

- $N = \sum_{i=1}^{i=k} n_i$

De posse dos valores acima, devemos prosseguir computando dois tipos de variância, a intra-grupos e a inter-grupos.

A variância inter-grupos (*explained variance*, *between-group variability*) é definida por

$$
\frac{1}{k-1}\sum_{i=1}^{k}n_{i}({\bar{x}}_{i} - {\bar {x}})^{2} = \frac{n_1(\bar{x}_1 - \bar{x})^2 + \cdots + n_k(\bar{x}_k-\bar{x})^2}{k-1}
$$

A variância intra-grupos (*unexplained variance*, *within-group variability*) é definida por

$$
\frac{1}{N-k} \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(x_{ij}-{\bar{x}}_{i}\right)^{2} = \frac{(n_1-1)s_1^2 + \cdots + (n_k-1)s_k^2 }{N-k}
$$

![texto do link](https://www.scielo.br/img/revistas/rbccv/v33n6//0102-7638-rbccv-33-06-000V-gf04.jpg)

A estatística $F$ é definida como a razão entre as variâncias inter-grupos e a variância intra-grupos:
$$
F = \frac{\text{variabilidade inter-grupos}}{\text{variabilidade intra-grupos}}
$$

A estatística $F$ assume valores grandes quando a variabilidade entre os grupos for grande em relação à variabilidade dentro dos grupos, o que é improvável de acontecer se as médias populacionais de todos os grupos tiverem o mesmo valor.Em outras palavras, a estatística $F$ é definida de forma que seus valores tendem a ser maiores quando a hipótese nula não for verdadeira.

Embora a distribuição $F$ esteja definida para valores dos parâmetros tais que $d_1 > 0$ e $d_2 > 0$, no contexto da ANOVA esses parâmetros assumem apenas valores inteiros positivos. Mais específicamente, considerando a hipótese nula com sendo verdadeira, para computar valores de probabilidade no caso da ANOVA, usamos os seguintes valores para os dois parâmetros:
- $d_1 = k - 1$ (Qtd. de grupos – 1)
- $d_2 = N - k$ (Total geral de indivíduos – Qtd. de Grupos)

De todo modo, independente dos valores desses parâmetros, o valor computado para a estatística de teste da ANOVA também está associado a um valor de probabilidade $p$, conforme ilustra a figura abaixo ([fonte](https://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test)). Essa figura mostra que o valor computado para a estatística foi de $3.3$ e que o valor $p$ correspondente é de aproximadamente $0.03$ (área hachurada em cor marrom). Se o nível de significância tivessa sido definido com $\alpha=0.05$, aquele valor de $p$ seria suficiente para rejeitar a hipótese nula.

![texto do link](https://blog.minitab.com/hubfs/Imported_Blog_Media/f_distribution_probability.png)

## Procedimento de aplicação

A seguir, descrevemos de que forma a ANOVA pode ser aplicada. Consideramos aqui o caso com $k=3$ amostras. Mas note que o procedimento pode ser aplicado a um número arbitrário de amostras.

1. Declarar as hipóteses nula e alternativa
2. Computar a estatística $F$
3. Determinar o valor $p$ associado à estatística
4. Interpretar o resultado.


## Condições de aplicabilidade

ANOVA pode ser usada apenas se as seguintes condições são verdadeiras:

- Todas as amostras devem ter sido produzidas por meio de amostragem aleatória simples;
- As populações têm variâncias similares (e.g., não há uma população com variância muito diferente do que outra);
- Todas as populações são aproximadamente normalmente distribuídas.


## Exemplo 1

Nesta seção, apresentamos um exemplo de aplicação do teste ANOVA. Para isso vamos usar o conjunto de dados [PlantGrowth](https://vincentarelbundock.github.io/Rdatasets/doc/datasets/PlantGrowth.html). A situação-problema que vamos considerar é descrita abaixo.

> Durante o cultivo de uma certa uma plantação, dois tratamentos foram aplicados com o propósito de investigar a efetivididade desses tratamentos no peso médio final dos frutos obtidos na colheita. Além disso, algumas plantas foram seleciondas (também de forma aleatória) para não receber tratamento algum, como forma de controle. Após a colheita, o peso médio do frutos foi calculado. A pergunta de pesquisa é a seguinte: há diferença significativa do ponto de vista estatístico entre os pesos médios da colheita em cada um dos três grupos (primeiro tratamento, segundo tratamento, grupo de controle)?

Repare que na situação-problema acima, a variável independente é o tipo de tratamento, com valores trt1, trt2 e ctrl. Há também a variável dependente, peso dos frutos.

A célula de código abaixo faz a carga das observações realizadas. As colunas `group` e `weight` correspondem às variáveis independente e dependente, respectivamente.

In [None]:
import pandas as pd
import numpy as np

frutos_df = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/datasets/PlantGrowth.csv')
print(frutos_df.shape)
frutos_df.head(30)

(30, 3)


Unnamed: 0.1,Unnamed: 0,weight,group
0,1,4.17,ctrl
1,2,5.58,ctrl
2,3,5.18,ctrl
3,4,6.11,ctrl
4,5,4.5,ctrl
5,6,4.61,ctrl
6,7,5.17,ctrl
7,8,4.53,ctrl
8,9,5.33,ctrl
9,10,5.14,ctrl


In [None]:
frutos_df.group.unique()

array(['ctrl', 'trt1', 'trt2'], dtype=object)

In [None]:
frutos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  30 non-null     int64  
 1   weight      30 non-null     float64
 2   group       30 non-null     object 
dtypes: float64(1), int64(1), object(1)
memory usage: 848.0+ bytes



Antes da aplicação do ANOVA, devemos verificar se as condições de aplicabilidade se verificam.

A primeira condição de aplicabilidade que vamos verificar diz respeito a igualdade das variâncias das amostras. Há vários teste que podem ser aplicados para realizar essa verificação. Um deles é denominado [teste de Levene](https://en.wikipedia.org/wiki/Levene%27s_test). Esse teste serve para verificar a hipótese nula de que as variâncias de duas ou mais populações são iguais (essa propriedade é conhecida como *homocedasticidade*). Se o valor $p$ resultante do teste de Levene for menor do que algum nível de significância (normalmente 0,05), é improvável que as diferenças obtidas nas variâncias das amostras tenham ocorrido com base na amostragem aleatória de uma população com variâncias iguais. Se esse for o caso, a hipótese nula (que alega que as variâncias são iguais) é rejeitada e conclui-se que existe uma diferença entre as variâncias na população.

A célula de código a seguir aplica o [teste de Levene](https://en.wikipedia.org/wiki/Levene%27s_test) para verificar se cada uma das três amostras é aproximadamente normalmente distribuída.

In [None]:
import numpy as np
from scipy.stats import levene

trt1 = frutos_df['weight'][frutos_df.group == 'trt1']
trt2 = frutos_df['weight'][frutos_df.group == 'trt2']
ctrl = frutos_df['weight'][frutos_df.group == 'ctrl']

stat, p = levene(trt1, trt2, ctrl, center = 'mean')

print(stat)
print(p)

1.236962954469784
0.30619492299144735


Pelo valor obtido para $p$ (aproximadamente $0.30$), podemos concluir, no nível de significância de 5% que devemos aceitar a hipótese nula: não há diferença significativa entre as variâncias das três populações.

De fato, as variâncias das amostras, apresentadas a seguir, estão na mesma ordem de grandeza.

In [None]:
[np.var(x, ddof=1) for x in [trt1, trt2, ctrl]]

[0.6299211111111114, 0.19587111111111105, 0.3399955555555556]

Outra condição de aplicabilidade a ser verificada diz respeito à **normalidade**. Mais especificamente, devemos verificar se as amostras usadas são provenientes de populações aproximadamente normais. Para isso, aplicamos a função [scipy.stats.normtest](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html). Veja a célula de código abaixo.

In [None]:
from scipy import stats

np.random.seed(28041990)

def apply_normaltest(x):
  k2, p = stats.normaltest(x)
  alpha = .05
  print("p = {:g}".format(p))

  if p < alpha:  # H_0: x é proveniente de uma distribuição normal
    print("A hipótese nula pode ser rejeitada")
  else:
    print("A hipótese nula pode NÃO ser rejeitada")

[apply_normaltest(x) for x in [trt1, trt2, ctrl]]

p = 0.616393
A hipótese nula pode NÃO ser rejeitada
p = 0.602548
A hipótese nula pode NÃO ser rejeitada
p = 0.88981
A hipótese nula pode NÃO ser rejeitada


  "anyway, n=%i" % int(n))


[None, None, None]

Considerando no nível de significância $\alpha=0.05$, os três valores obtidos para $p$ (todos maiores do que $\alpha$) nos levam a concluir que a hipótese nula não pode ser rejeitada, i.e., há evidências para concluir que as amostras são provenientes de distribuições aproximadamente normais.

Após a verificação das condições de aplicabilidade (normalidade das amostras e igualdade da variâncias), podemos finalmente aplicar o ANOVA. Para isso, vamos usar a função [scipy.stats.f_oneway](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html). Essa função encapsula parte do procedimento de aplicação do ANOVA. Para invocar essa função, basta passar cada grupo (amostra) como um array numpy. Essa função retorna o valor da estatística $F$ e o valor de $p$ correspondente.

In [None]:
from scipy.stats import f_oneway

f_oneway(trt1, trt2, ctrl)

F_onewayResult(statistic=4.846087862380135, pvalue=0.01590995832562293)

O valor obtido para $p$ (aprodimadamente $0.016$) nos leva a concluir que devemos, no nível de significância de 5%, podemos rejeitar a hipótese nula (que alega que as médias dos três tratamentos são iguais).

## Exemplo 2

In [None]:
import pandas as pd
import numpy as np

# Read data source
df_sandwichAnts = pd.read_csv('SandwichAnts.csv')
df_sandwichAnts.head()

Unnamed: 0,rownames,Trial,Bread,Filling,Butter,Ants
0,1,1,WholeWheat,HamPickles,no,34
1,2,2,MultiGrain,PeanutButter,yes,47
2,3,3,Rye,HamPickles,yes,67
3,4,4,MultiGrain,HamPickles,yes,63
4,5,5,WholeWheat,HamPickles,no,65


In [None]:
# Calculate mean and standard deviation for each sandwich filling
means = df_sandwichAnts.groupby('Filling')['Ants'].mean()
std_devs = df_sandwichAnts.groupby('Filling')['Ants'].std()

print("Mean number of ants for each sandwich filling:")
print(means)

print("\nStandard deviation of ants for each sandwich filling:")
print(std_devs)

Mean number of ants for each sandwich filling:
Filling
HamPickles      55.500
PeanutButter    40.375
Vegemite        34.625
Name: Ants, dtype: float64

Standard deviation of ants for each sandwich filling:
Filling
HamPickles      12.055428
PeanutButter    14.183911
Vegemite        11.158704
Name: Ants, dtype: float64


In [None]:
df_HamPickles = df_sandwichAnts['Ants'][df_sandwichAnts.Filling == 'HamPickles']
df_PeanutButter = df_sandwichAnts['Ants'][df_sandwichAnts.Filling == 'PeanutButter']
df_Vegemite = df_sandwichAnts['Ants'][df_sandwichAnts.Filling == 'Vegemite']

In [None]:
print(f'Sample sizes (HamPickles/PeanutButter/Vegemite): {df_HamPickles.shape[0]}, {df_PeanutButter.shape[0]}, {df_Vegemite.shape[0]}')

Sample sizes (HamPickles/PeanutButter/Vegemite): 16, 16, 16


In [None]:
from scipy.stats import f_oneway
f_oneway(df_HamPickles, df_PeanutButter, df_Vegemite)

F_onewayResult(statistic=11.84788762295662, pvalue=7.351160543218634e-05)