<a href="https://colab.research.google.com/github/mori-mkm/UFSCar/blob/main/Exemplo_ANOVA_com_dois_fatores.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo: ANOVA com duas fatores em Python

Um botânico quer saber se o crescimento das plantas é ou não influenciado pela exposição ao sol e pela frequência de rega. Ela planta 30 sementes e as deixa crescer por dois meses em diferentes condições de exposição ao sol e frequência de rega. Depois de dois meses, ela registra a altura de cada planta, em centímetros.

Use as etapas a seguir para realizar uma ANOVA bidirecional para determinar se a frequência de irrigação e a exposição à luz solar têm um efeito significativo no crescimento da planta e para determinar se há algum efeito de interação entre a frequência de irrigação e a exposição à luz solar.

## Importando as bibliotecas

In [4]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

  import pandas.util.testing as tm


## Criando o banco de dados

Primeiro, criaremos um DataFrame com o pandas que contém as três variáveis a seguir:

* agua: com que frequência cada planta foi regada: diariamente ou semanalmente

* sol: quanta exposição ao sol cada planta recebeu: baixa, média ou alta

* altura: a altura de cada planta (em polegadas) após dois meses

In [6]:
#criando o banco de dados
df = pd.DataFrame({'water': np.repeat(['daily', 'weekly'], 15),
                   'sun': np.tile(np.repeat(['low', 'med', 'high'], 5), 2),
                   'height': [6, 6, 6, 5, 6, 5, 5, 6, 4, 5,
                              6, 6, 7, 8, 7, 3, 4, 4, 4, 5,
                              4, 4, 4, 4, 4, 5, 6, 6, 7, 8]})

#visualizando o banco de dados criado
df[:10]

Unnamed: 0,water,sun,height
0,daily,low,6
1,daily,low,6
2,daily,low,6
3,daily,low,5
4,daily,low,6
5,daily,med,5
6,daily,med,5
7,daily,med,6
8,daily,med,4
9,daily,med,5


## Modelo ANOVA


A seguir, vamos realizar a ANOVA com dois fatores usando a função **anova_lm()** da biblioteca **statsmodels**:

In [7]:
#rodando ANOVA para dois fatores
model = ols('height ~ C(water) + C(sun) + C(water):C(sun)', data=df).fit()
sm.stats.anova_lm(model, typ=2)

Unnamed: 0,sum_sq,df,F,PR(>F)
C(water),8.533333,1.0,16.0,0.000527
C(sun),24.866667,2.0,23.3125,2e-06
C(water):C(sun),2.466667,2.0,2.3125,0.120667
Residual,12.8,24.0,,


## Interpretação do modelo

Perceba que temos os seguintes valores de p para cada um dos fatores da tabela acima:

* water: valor p = 0,000527

* sun: valor p = 0,00002

* water x sun: valor p = 0,120667

> Como os valores p para water e sun são menores que 0,05, isso significa que ambos os fatores têm um efeito estatisticamente significativo na altura da planta.


> E uma vez que o valor p para o efeito de interação (0,120667) não é inferior a 0,05, isso nos diz que não há efeito de interação significativo entre a exposição à luz solar e a frequência de rega.

Nota: Embora os resultados da ANOVA nos digam que a frequência de rega e a exposição à luz solar têm um efeito estatisticamente significativo na altura das plantas, precisaríamos realizar testes post-hoc para determinar exatamente como os diferentes níveis de água e luz solar afetam a altura das plantas.