In [132]:
library(dplyr)
library(ggplot2)
library(doBy)

# Диспресионный анализ
## Фахртдинов Тимур

In [133]:
data <-read.csv("baseMA.csv", sep = ";")
data <- data.frame(Sex = as.factor(data$Sex), therapy = as.factor(data$therapy), Dur.in.hosp = data$Duration.in.hosp)
data <- na.omit(data)

О наборе данных:
Данные о недоношенных младенцах, у которых вовремя не закрылся артериальный проток.

В этом задании я буду анализировать время нахождения в больнице в зависимости от двух факторов: пол (1 - муж, 2 - жен) и вид лечения (1 — операция, 2 — лечение + операция, 3 — медикаментозное лечение).

### Двуфакторный дисперсионный анализ

$x_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + e_{ijk}$

$\mu$ - генеральное среднее, <br>
$\alpha_i$ -дифференциальный эффект фактора 𝐴, <br>
$\beta_j$ - дифференциальный эффект фактора 𝐵. 

Величина $(\alpha \beta)_{ij}$ называется взаимодействием факторов. Эта
величина учитывает дифференциальный эффект комбинаций $i$-го уровня
фактора 𝐴 и $j$-го уровня фактора 𝐵, если он не выражается суммой $\alpha_i + \beta_j + \mu$.

$e_{ijk}$ - ошибки, предполагаются независимыми и нормально распределенными, при ограничение на параметры:<br>
$\sum \alpha_i = 0 \;\;\; \sum \beta_j = 0$ <br>
$\sum_i (\alpha \beta)_{ij} = 0 \;\;\; \sum_j (\alpha \beta)_{ij} = 0$

Оцеками параметров указаной модели являются:

$\hat \mu = \bar x$ - общее среднее.<br>
$\hat \alpha_i = \bar x_{i \cdot} - \bar x$, где $\bar x_{i \cdot}$ - среднее по $i$-му значению фактора $A$. <br>
$\hat \beta_j = \bar x_{\cdot j} - \bar x$, где $\bar x_{\cdot j}$ - среднее по $j$-му значению фактора $B$. <br>
$\hat{(\alpha \beta)_{ij} = \bar x_{ij\cdot} - \bar x_{i\cdot} - \bar x_{\cdot j}}$, где $\bar x_{ij\cdot}$ - среднее в ячейке $ij$<br>

In [159]:
print(length(data$Dur.in.hosp[which(data$Sex==1 & data$therapy==1)]))
print(length(data$Dur.in.hosp[which(data$Sex==1 & data$therapy==2)]))
print(length(data$Dur.in.hosp[which(data$Sex==1 & data$therapy==3)]))
print(length(data$Dur.in.hosp[which(data$Sex==2 & data$therapy==1)]))
print(length(data$Dur.in.hosp[which(data$Sex==2 & data$therapy==2)]))
print(length(data$Dur.in.hosp[which(data$Sex==2 & data$therapy==3)]))

[1] 41
[1] 31
[1] 30
[1] 24
[1] 7
[1] 13


Для разных комбинаций факторов $A$, $B$ - минимальное количество повторений в группе 7, поэтому будет рассматривать $K = 7$.

In [160]:
x11 <- data$Dur.in.hosp[which(data$Sex==1 & data$therapy==1)][1:7]
x12 <- data$Dur.in.hosp[which(data$Sex==1 & data$therapy==2)][1:7]
x13 <- data$Dur.in.hosp[which(data$Sex==1 & data$therapy==3)][1:7]
x21 <- data$Dur.in.hosp[which(data$Sex==2 & data$therapy==1)][1:7]
x22 <- data$Dur.in.hosp[which(data$Sex==2 & data$therapy==2)][1:7]
x23 <- data$Dur.in.hosp[which(data$Sex==2 & data$therapy==3)][1:7]

In [161]:
h.mu <- mean(c(x11, x12, x13, x21, x22, x23))
h.alpha1 <- mean(c(x11, x12, x13))
h.alpha2 <- mean(c(x21, x22, x23)) 
h.alpha <- c(h.alpha1, h.alpha2)

h.beta1 <- mean(c(x11, x21)) 
h.beta2 <- mean(c(x12, x22)) 
h.beta3 <- mean(c(x13, x23)) 
h.beta <- c(h.beta1, h.beta2, h.beta3)

h.ab11 <- mean(x11) 
h.ab12 <- mean(x12)
h.ab13 <- mean(x13) 

h.ab21 <- mean(x21) 
h.ab22 <- mean(x22) 
h.ab23 <- mean(x23) 

h.ab <- c(h.ab11, h.ab12, h.ab13, h.ab21, h.ab22, h.ab23)
h.ab <- matrix(h.ab, nrow = 2, byrow = TRUE)

In [162]:
print(h.alpha)
print(h.beta)
print(h.ab)

[1] 75.95238 78.09524
[1] 93.71429 82.64286 54.71429
          [,1]     [,2]     [,3]
[1,] 109.71429 67.00000 51.14286
[2,]  77.71429 98.28571 58.28571


Сравниваем со значением встроенной функции и убеждаемся, что полученные значения совпадают:

In [173]:
summaryBy(Dur.in.hosp ~ Sex * therapy, data = data2, FUN = c(mean, sd, length))

'data.frame':	146 obs. of  3 variables:
 $ Sex        : Factor w/ 2 levels "1","2": 1 1 2 1 2 2 2 1 2 1 ...
 $ therapy    : Factor w/ 3 levels "1","2","3": 3 3 3 2 3 3 3 3 3 3 ...
 $ Dur.in.hosp: int  82 44 51 61 96 96 26 31 36 60 ...
 - attr(*, "na.action")= 'omit' Named int  41 64 79 126 140 144 148 152 155 156
  ..- attr(*, "names")= chr  "41" "64" "79" "126" ...


Unnamed: 0_level_0,Sex,therapy,Dur.in.hosp.mean,Dur.in.hosp.sd,Dur.in.hosp.length
Unnamed: 0_level_1,<fct>,<fct>,<dbl>,<dbl>,<dbl>
1,1,1,109.71429,23.91453,7
2,1,2,67.0,28.32549,7
3,1,3,51.14286,18.69428,7
4,2,1,77.71429,44.91738,7
5,2,2,98.28571,60.99375,7
6,2,3,58.28571,27.47553,7


In [163]:
data2 <- data.frame(therapy = c(rep(1, 7), rep(2, 7), rep(3, 7), rep(1, 7), rep(2, 7), rep(3, 7)),
           Sex = c(rep(1, 21), rep(2, 21)),
           Dur.in.hosp = c(x11, x12, x13, x21, x22, x23))
data2$therapy <- as.factor(data2$therapy)
data2$Sex <- as.factor(data2$Sex)

Следующие статистики строятся по правилам указаным на странице 62:

In [175]:
I = 2
J = 3
K = 7

Q_A <- J * K * sum((h.alpha - h.mu)^2)
Q_B <- I * K * sum((h.beta - h.mu)^2)

Q_AB <- 0
Q_R <- 0
for (i in 1:I){
    for(j in 1:J){
        Q_AB <- Q_AB + (h.ab[i, j] - h.alpha[i] - h.beta[j] + h.mu)^2
        Q_R <- Q_R + sum((data2$Dur.in.hosp[which(data2$Sex==i & data2$therapy==j)] - h.ab[i, j])^2)
    }
}
Q_AB <- Q_AB * K

In [176]:
MQ_A <- Q_A / (I - 1)
MQ_B <- Q_B / (J - 1)
MQ_AB <- Q_AB / (I - 1) * (J - 1)
MQ_R <- Q_R / (I * J * (K - 1))

F_A <- MQ_A / MQ_R
F_B <- MQ_B / MQ_R
F_AB <- MQ_AB / MQ_R

1 - pf(F_A, I - 1, I * J * (K - 1))
1 - pf(F_B, J - 1, I * J * (K - 1))
1 - pf(F_AB, (I - 1) * (J - 1), I * J * (K - 1))

Сравниваем со значением встроенной функции и убеждаемся, что полученные значения совпадают:

In [177]:
M1 <- aov(Dur.in.hosp ~ therapy * Sex, data = data2)
summary(M1)

            Df Sum Sq Mean Sq F value Pr(>F)  
therapy      2  11310    5655   4.130 0.0243 *
Sex          1     48      48   0.035 0.8522  
therapy:Sex  2   7140    3570   2.607 0.0876 .
Residuals   36  49299    1369                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Из полученных результатов заключаем, что гипотеза:

$H_0$: Все $(\alpha \beta)_{ij}$ = 0 отвергается

А  следующие гипотезы у нас нет причин отклонять:

$H_0$: Все $\alpha_i$ = 0<br>
$H_0$: Все $\beta_j$ = 0<br>