<a href="https://colab.research.google.com/github/leandracarneiro/estatistica/blob/main/Teste_F_ANOVA_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Teste F - ANOVA - Análise de variâncias - Variáveis independentes**
Três ou mais médias - Exemplo: Prematuro, Termo-precoce, Termo

O teste F é uma estatística de teste que calcula a razão entre duas variâncias, sendo utilizado na análise de variância (ANOVA). A ANOVA é um teste estatístico que compara as médias de dois ou mais grupos.

## **O que é o teste F?**

O teste F é um método estatístico que verifica se duas variâncias são iguais ou diferentes.

O teste F é usado para determinar se as médias de três ou mais grupos são diferentes.

O teste F calcula a razão entre o quadrado médio do tratamento e do resíduo.

## **Como interpretar o teste F?**

Um valor F elevado sugere que há uma diferença significativa entre os grupos analisados.

Um F-Valor próximo de 1 indica que as variâncias são semelhantes.

Para saber se o valor de F é alto o suficiente para considerar os tratamentos como diferentes estatisticamente, é preciso considerar a distribuição de probabilidade da distribuição F.

## **Quando usar o teste ANOVA?**

O teste ANOVA é popular na pesquisa científica para avaliar experimentos.

In [None]:
# importar as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import scipy.stats as stats
import statsmodels.stats.multicomp as stsmodels
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.anova import AnovaRM

In [None]:
# caso a biblioteca scipy não esteja no servidor da Google
# instalar ela com o comando !pip (somente se der algum erro no bloco de cima)

# !pip install scipy

In [None]:
# Endereço do arquivo com a base de dados
arquivo = 'sua url do seu banco de dados'

# Ler o arquivo
dados = pd.read_excel(arquivo)
dados

# **três ou mais médias**



**Os pressupostos básicos da análise de variância são:**


As amostras são aleatórias e independentes.

As populações têm distribuição normal (o teste é paramétrico).

As variâncias populacionais são iguais.

Exemplo 1: a média dos valores do equipamento A é igual entre os RNs prematuros, termo-precoce e termo?

Importante: em pelo menos uma das três distribuições deve ter distribuição normal.

Ex:
**variavel numerica** nº de carros

**variavel categórica:**  marca(fiat, honda, chevrolet)


In [None]:
# Selecionar os nomes das variáveis  (carros, marca)
varNumerica = 'carros'
varCategorica = 'marca'

# Filtrar registros que sem nulos nas duas colunas
dados2 = dados.dropna(how = 'any', subset=[varNumerica, varCategorica])

# Separar os dois grupos pela categoria, e selecionar só a coluna numérica desejada
grupo1 = dados2[(dados2.marca == 'honda')].carros
grupo2 = dados2[(dados2.marca == 'fiat')].carros
grupo3 = dados2[(dados2.marca == 'chevrolet')].carros

ordem = ['honda', 'chevrolet', 'fiat']

In [None]:
# 1ª ETAPA - Estatística descritiva

# Estatística descritiva - Análise dos valores médios
mediaG1 = grupo1.mean()
mediaG2 = grupo2.mean()
mediaG3 = grupo3.mean()

print(f'Média do Grupo 1: {mediaG1:.3f}')
print(f'Média do Grupo 2: {mediaG2:.3f}')
print(f'Média do Grupo 3: {mediaG3:.3f}')
print()

# ___________________________________________________________________
# 2º ETAPA - Realizar o teste ANOVA - 3+ variáveis

# Teste F - ANOVA
# H0 = As médias são iguais
resultado = stats.f_oneway(grupo1, grupo2, grupo3)
print('Teste-F ANOVA')
print(f'p-value: {resultado.pvalue:.3f}')

# interpretação
if resultado.pvalue <= 0.05:
    print('Rejeita H0 => As médias são diferentes!')
else:
    print('Aceita H0 => As médias são iguais!')

print()
# Estatística descritiva - Análise Gráfica
# Boxplot agrupado
ordem = ['Prematuro', 'Termo-precoce', 'Termo']
sns.boxplot(data=dados2, y=varNumerica, x=varCategorica, linewidth=1, order=ordem)

# Estatística descritiva - Análise Gráfica
grafico = sns.FacetGrid(dados, col=varCategorica, col_order=ordem)
grafico.map(sns.histplot, varNumerica)

**IMPORTANTE:** No exemplo acima as médias são diferentes, então precisamos investigar onde está diferença - Teste de Tukey-HSD

O Teste de Tukey-HSD (Honest Significant Difference) é uma técnica estatística que compara as médias de diferentes grupos. É usado para identificar quais grupos são significativamente diferentes entre si.

# **Quando é usado**

É frequentemente usado após a realização de uma ANOVA (Análise de Variância)

É um teste exato quando os tamanhos amostrais dos grupos são iguais

Quando os tamanhos amostrais dos grupos são diferentes, o Teste de Tukey é alterado e passa a ser chamado de Tukey-Kramer

# ** Como é interpretado**

Quando letras diferentes aparecem em frente a duas médias, a diferença entre essas médias é estatisticamente significante

Quando a mesma letra aparece em frente a duas médias, a diferença entre essas médias não é estatisticamente significante



In [None]:
# ___________________________________________________________________
# 3º ETAPA - Se houver diferença, aplicar teste TUKEY para saber em qual combinação está a diferença

# Teste de Tukey-HSD
# H0: as médias são iguais (entre os sub-grupos analisados)

resultado = stsmodels.pairwise_tukeyhsd(endog=dados2[varNumerica], groups=dados2[varCategorica], alpha=0.05)

# resultados
print(resultado)

Na tabela de resultado do Tukey o p-value é mostrado na coluna "p-adj" e ao final a tabela em REJECT indica se rejeita ou aceita a hipótese nula (de que as médias são iguais).

Saiba mais - Tukey: https://www.statsmodels.org/dev/generated/statsmodels.sandbox.stats.multicomp.MultiComparison.html

In [None]:
# 1ª ETAPA - Estatística descritiva

# Estatística descritiva - Análise dos valores médios
mediaG1 = grupo1.mean()
mediaG2 = grupo2.mean()
mediaG3 = grupo3.mean()

print(f'Média do Grupo 1: {mediaG1:.3f}')
print(f'Média do Grupo 2: {mediaG2:.3f}')
print(f'Média do Grupo 3: {mediaG3:.3f}')
print()

# ___________________________________________________________________
# 2º ETAPA - Realizar o teste ANOVA - 3+ variáveis

# Teste F - ANOVA
# H0 = As médias são iguais
resultado = stats.f_oneway(grupo1, grupo2, grupo3)
print('Teste-F ANOVA')
print(f'p-value: {resultado.pvalue:.3f}')

# interpretação
if resultado.pvalue <= 0.05:
    print('Rejeita H0 => As médias são diferentes!')
else:
    print('Aceita H0 => As médias são iguais!')
print()

# ___________________________________________________________________
# 3º ETAPA - Se houver diferença, aplicar teste TUKEY para saber em qual combinação está a diferença

# Teste de Tukey-HSD
# H0: as médias são iguais (entre os sub-grupos analisados)

resultado = stsmodels.pairwise_tukeyhsd(endog=dados2[varNumerica], groups=dados2[varCategorica], alpha=0.05)
print(resultado)

# _____________________________________________________________________
print()
# Estatística descritiva - Análise Gráfica
# Boxplot agrupado
sns.boxplot(data=dados2, y=varNumerica, x=varCategorica, linewidth=1, order=ordem)

# Estatística descritiva - Análise Gráfica
grafico = sns.FacetGrid(dados, col=varCategorica, col_order=ordem)
grafico.map(sns.histplot, varNumerica)