# Two way Anova

Kategorička nezavisna varijabla Department ((Marketing, Logistics, Sales)

Kategorička nezavisna varijabla Experience Level (Junior, Mid, Senior)

Numerička zavisna varijabla Sales

Također zanima nas postoji li interakcija izmedju dvije nezavisne varjable, odnosno varira li utjecaj odjela na plaću ovisno o iskustvu

In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [2]:
np.random.seed(42)

In [3]:
departments = np.random.choice(['Marketing', 'Logistics', 'Sales'], 50)
experience_levels = np.random.choice(['Junior', 'Mid', 'Senior'], 50)

In [4]:
salary = np.random.normal(loc=50000, scale=5000, size=50) + \
         (np.where(departments == 'Marketing', 2000, 0)) + \
         (np.where(departments == 'Sales', -3000, 0)) + \
         (np.where(experience_levels == 'Senior', 5000, 0)) + \
         (np.where(experience_levels == 'Junior', -5000, 0))

In [5]:
df = pd.DataFrame({
    'Department': departments,
    'Experience': experience_levels,
    'Salary': salary
})

In [6]:
df.head()

Unnamed: 0,Department,Experience,Salary
0,Sales,Mid,49910.613974
1,Marketing,Junior,51438.742298
2,Sales,Mid,51471.661651
3,Sales,Junior,45774.988986
4,Marketing,Mid,50964.170549


In [7]:
df_depart=df.groupby("Department")

In [8]:
df_depart['Salary'].mean()

Department
Logistics    48198.185959
Marketing    54369.758458
Sales        46454.917331
Name: Salary, dtype: float64

In [9]:
model = ols('Salary ~ C(Department) + C(Experience) + C(Department):C(Experience)', data=df).fit()

In [10]:
anova_table = sm.stats.anova_lm(model, typ=2)

In [11]:
anova_table

Unnamed: 0,sum_sq,df,F,PR(>F)
C(Department),354460800.0,2.0,7.097703,0.002255
C(Experience),587032800.0,2.0,11.754713,9.2e-05
C(Department):C(Experience),101678100.0,4.0,1.017999,0.409391
Residual,1023774000.0,41.0,,


Za odjel F-statistics iznosi 7.097703, a P_value iznosi 0.002255 = značajan utjecaj odjela na iznos plaće
postoji statistički značajna razlika u prosječnim plaćama između različitih odjela, neovisno o razini iskustva

Za iskustvo F-statistics iznosi 11.754713, a P_value iznosi 0.000092 = značajan utjecaj iskustva na iznos plaće

postoji statistički značajna razlika u prosječnim plaćama između različitih razina iskustva (Junior, Mid, Senior), neovisno o odjelu¶

Odjel vs iskustvo F-statistics iznosi 1.017999, a P_value iznosi 0.409391 = nemamo značajan utjecaj iskustva na odjel¶

Što to znači? To znači da efekt iskustva na plaću je relativno sličan u svim odjelima, i obrnuto, efekt odjela na plaću je relativno 
sličan za sve razine iskustva. Drugim riječima, ne postoji poseban "sinergijski" ili "antagonistički" efekt gdje bi se utjecaj iskustva na plaću dramatično mijenjao ovisno o odjelu (ili obrnuto).

## "Na temelju ove dvosmjerne ANOVA analize, možemo s visokom sigurnošću zaključiti da:
- Odjel značajno utječe na iznos plaće. Postoje statistički značajne razlike u prosječnim plaćama između različitih odjela.
- Razina iskustva značajno utječe na iznos plaće. Postoje statistički značajne razlike u prosječnim plaćama između Junior, Mid i Senior pozicija.
- Nema značajne interakcije između odjela i iskustva. To znači da utjecaj iskustva na plaću je sličan u svim odjelima, i obrnuto. Nema specifičnih kombinacija odjela i iskustva koje bi rezultirale neočekivano visokim ili niskim plaćama izvan onoga što bi se očekivalo na temelju individualnih efekata odjela i iskustva.
- U budućim analizama i modelima za predviđanje plaće, i 'Department' i 'Experience' su vrlo važne varijable koje treba uključiti, jer svaka od njih neovisno objašnjava značajan dio varijabilnosti u plaćama."