# Análise de variância (ANOVA)

Para conduzir uma análise de variância nos dividimos a variação de um set de dados em duas partes
- A distância dos scores dentro de cada grupo, conhecida como <b>variância intragrupo</b>
- A distância da média dos scores de cada grupo, conhecida como <b>variância entre grupo</b>

A partir desses dados, podemos calcular o valor F
<br>
$F = \frac{Var_{entre}}{Var_{intra}}$

O valor F indica o tamanho da variação entre grupos em relação ao tamanho da variação dentro de cada grupo.
Portanto, quando maior for o valor F, maiores são as chances de reijeitar a hipótese nula.

Para que possamos calcular as variações intra e entre grupos, precisamos do conteito da soma dos desvios quadrados.
Representado pela fórmula:
<br>
$\sum (X - \bar{X})²$

<br>
$SS_{total} = \sum (X - \bar{X_{total}})²$ <br>
$SS_{intra} = \sum (X - \bar{X_{grupo}})²$ <br>
$SS_{entre} = \sum N_{grupo}(\bar{X_{grupo}} - \bar{X_{total}})²$ <br>

Com esses valores podemos calcular as médias quadradas:

<br>
$MS_{intra} = \frac{SS_{intra}}{df{intra}$ <br>
$MS_{entre} = \frac{SS_{entre}}{df{entre}$ <br>
onde $df_{intra}$ e $df_{entre}$ são os graus de liberdade.

In [32]:
def media(lista):
    return sum(lista)/len(lista)

def soma_desvios_quadrados(lista):
    soma = 0
    for i in lista:
        soma += (i - media(lista))**2
    return soma

def soma_desvios_quadrados_entre_grupos(df, coluna_score, coluna_grupo):
    soma = 0
    media_total = media(df[coluna_score])
    grupos = df[coluna_grupo].unique()

    for grupo in grupos:
        tamanho_grupo = len(df[df[coluna_grupo] == grupo])
        media_grupo = media(df[df[coluna_grupo] == grupo][coluna_score])

        soma += tamanho_grupo * (media_grupo - media_total)**2

    return soma

def quantidade_grupos(df, coluna_grupo):
    return len(df[coluna_grupo].unique())

Com a soma dos desvios quadrados, podemos calcular:
 - Soma total dos desvios quadrados do nosso dataset ($SS_{total}$)
 - Soma dos desvios quadrados entre grupos ($SS_{entre}$)
 - Soma dos desvios quadrados dentro de cada grupo ($SS_{intra}$)


Agora podemos colocar esses conceitos em prática para chegar mais perto de calcular o valor F

In [11]:
import pandas as pd

dados = pd.DataFrame({
    'grupo': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C', 'D', 'D', 'D', 'D', 'D'],
    'score': [5, 6, 4, 5, 0, 16, 5, 9, 10, 5, 23, 30, 20, 20, 27, 19, 35, 15, 26, 30]
})

In [16]:
ss_total = soma_desvios_quadrados(dados['score'])
print(f'{ss_total = }')

ss_total = 2129.0


In [23]:
ss_intra_aux = dados.pivot_table(index='grupo', values='score', aggfunc=soma_desvios_quadrados)
ss_intra = ss_intra_aux.sum().values[0]

display(ss_intra_aux)
print(f'{ss_intra = }')

Unnamed: 0_level_0,score
grupo,Unnamed: 1_level_1
A,22
B,82
C,78
D,262


ss_intra = 444


In [31]:
ss_entre = soma_desvios_quadrados_entre_grupos(dados, 'score', 'grupo')
print(f'{ss_entre = }')

ss_entre = 1685.0


In [33]:
df_entre = quantidade_grupos(dados, 'grupo') - 1
df_intra = len(dados['score']) - quantidade_grupos(dados, 'grupo')

ms_intra = ss_intra / df_intra
ms_entre = ss_entre / df_entre

print(f'{ms_intra = } {ms_entre = }')

ms_intra = 27.75 ms_entre = 561.6666666666666


In [34]:
f = ms_entre / ms_intra
print(f'{f = }')

f = 20.24024024024024
