# Tutorial de Análise de Variância (ANOVA)

Este notebook demonstra a aplicação da Análise de Variância (ANOVA) usando Python.

## Conteúdo
1. Introdução à ANOVA
2. Implementação em Python
3. Visualização dos Resultados
4. Interpretação

## Referências
- Montgomery, D. C., & Runger, G. C. (2010). Applied Statistics and Probability for Engineers.
- Hair, J. F., et al. (2009). Multivariate Data Analysis.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from conceitos.intermediarios.ANOVA import calculate_anova

# Configuração para gráficos
plt.style.use('seaborn')
sns.set_palette('husl')

## Teoria da ANOVA

A ANOVA é usada para comparar médias de diferentes grupos. A hipótese nula ($H_0$) é que todas as médias são iguais:

$H_0: \mu_1 = \mu_2 = ... = \mu_k$

A estatística F é calculada como:

$F = \frac{QME}{QMD} = \frac{SQE/(k-1)}{SQD/(N-k)}$

Onde:
- QME: Quadrado Médio Entre grupos
- QMD: Quadrado Médio Dentro dos grupos
- k: número de grupos
- N: número total de observações

In [None]:
# Exemplo com dados reais - Notas por nível de escolaridade
data = {
    'fundamental': [30.85, 30.34, 24.90, 31.36, 30.14, 30.69, 23.91, 24.07],
    'medio': [31.01, 25.82, 22.59, 29.66, 26.36, 32.50, 26.27, 26.79],
    'superior': [21.67, 20.39, 28.80, 25.78, 27.88, 25.87, 20.01, 24.83]
}

# Criar visualização das distribuições
plt.figure(figsize=(12, 6))
for i, (grupo, valores) in enumerate(data.items()):
    sns.kdeplot(valores, label=grupo)

plt.title('Distribuição das Notas por Nível de Escolaridade')
plt.xlabel('Notas')
plt.ylabel('Densidade')
plt.legend()
plt.show()

In [None]:
# Calcular ANOVA
resultado = calculate_anova(data)
print('Resultados da ANOVA:\n')
display(resultado)

# Calcular valor-p
f_value = resultado.loc[0, 'Valor F']
df_between = resultado.loc[0, 'Graus de Liberdade (df)']
df_within = resultado.loc[1, 'Graus de Liberdade (df)']
p_value = 1 - stats.f.cdf(f_value, df_between, df_within)

print(f'\nValor-p: {p_value:.4f}')

## Interpretação dos Resultados

1. **Valor F**: Uma estatística F grande indica diferenças significativas entre os grupos
2. **Valor-p**: Se menor que o nível de significância (geralmente 0.05), rejeitamos a hipótese nula
3. **Graus de Liberdade**: Afetam os valores críticos da distribuição F

### Pressupostos da ANOVA
- Normalidade dos resíduos
- Homogeneidade das variâncias
- Independência das observações