ご提示いただいた実験計画法の要約について、数式と概念を一つずつ詳しく解説します。非常に良いまとめになっていますね。この流れに沿って、各数式が「なぜその形になるのか」「何を意味しているのか」を深掘りします。

---

## 1. 1元配置完全無作為化法 (One-Way ANOVA)

これは、1つの因子（例：A, B, Cの3種類の肥料）が結果（例：収穫量）に影響を与えるかを調べる最も基本的なモデルです。

### 構造モデル

> $Y_{ij} = \mu_i + \epsilon_{ij}$
>
> $Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$
>
> ただし、$\sum_{i=1}^{a} n_i \alpha_i = 0$

* $Y_{ij}$: 第$i$水準（例：肥料A）の、$j$番目の観測値（例：Aを使った$j$番目の区画の収穫量）。
* $\mu_i$: 第$i$水準の母平均（例：肥料Aを使った場合の、真の平均収穫量）。
* $\epsilon_{ij}$: 誤差項。$N(0, \sigma^2)$ に従うと仮定します。これは、同じ肥料Aを使っても、日当たりや水はけ等の偶然の要因で生じるバラツキを表します。
* $\mu$: 全体の一般平均（$\sum n_i \mu_i / \sum n_i$）。
* $\alpha_i$: 第$i$水準の効果（$\alpha_i = \mu_i - \mu$）。水準$i$の母平均が、全体の母平均からどれだけズレているかを表します。

**【ポイント】**
制約条件 $\sum n_i \alpha_i = 0$ は、このモデルのパラメータ（$\mu$ と $\alpha_i$）を一意に定めるためにあります。これがないと、例えば「$\mu$ を1増やし、全ての $\alpha_i$ を1減らす」と同じ $Y_{ij}$ が説明できてしまい、解が無限に存在してしまいます。この制約により、$\mu$ は「（加重）一般平均」として固定されます。

### 平方和の分解と分散分析表

> $S_T = S_E + S_A$
>
> $S_T = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{..})^2$ (総平方和)
>
> $S_A = \sum_{i=1}^{a} n_i (\bar{Y}_{i.} - \bar{Y}_{..})^2$ (水準間平方和)
>
> $S_E = \sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2$ (誤差平方和)

これはANOVA（分散分析）の核心です。

1.  **$S_T$ (総平方和)**: 全てのデータ $Y_{ij}$ が、全体の平均 $\bar{Y}_{..}$ からどれだけバラついているか（＝全変動）を表します。
2.  **$S_A$ (水準間平方和)**: 各水準の平均 $\bar{Y}_{i.}$ が、全体の平均 $\bar{Y}_{..}$ からどれだけバラついているか（＝水準A（例：肥料）の違いによって**説明できる変動**）を表します。
3.  **$S_E$ (誤差平方和)**: 各データ $Y_{ij}$ が、所属する水準の平均 $\bar{Y}_{i.}$ からどれだけバラついているか（＝水準A（例：肥料）の違いでは**説明できない、偶然の変動**）を表します。

**【ポイント】**
なぜ $S_T = S_A + S_E$ が成り立つのか？
$(Y_{ij} - \bar{Y}_{..})$ という「全変動」は、$(Y_{ij} - \bar{Y}_{i.}) + (\bar{Y}_{i.} - \bar{Y}_{..})$ と分解できます。
この両辺を二乗して総和を取ると、うまいことに $(Y_{ij} - \bar{Y}_{i.})$ と $(\bar{Y}_{i.} - \bar{Y}_{..})$ の交差項（積の和）が0になります。
結果として、「全体のバラツキ」＝「水準内のバラツキ（誤差）」＋「水準間のバラツキ（効果）」という美しい分解が成立します。

**分散分析表とF検定**
* **$V_A$ (水準Aの平均平方)**: $S_A$ を自由度 $df_A = a-1$ で割ったもの。これは「水準Aの効果によるバラツキの大きさ（の推定値）」です。
* **$V_E$ (誤差の平均平方)**: $S_E$ を自由度 $df_E = n-a$ で割ったもの。これは「偶然によるバラツキの大きさ（$\sigma^2$ の推定値）」です。

**$F = V_A / V_E$ の意味**
もし帰無仮説「$\alpha_i$ は全て0（＝どの水準も差がない）」が正しければ、$V_A$ も $V_E$ も同じ $\sigma^2$ を推定するはずなので、$F$ 値は1に近くなります。
逆に対立仮説「$\alpha_i$ のどれかは0でない」が正しければ、$V_A$ は $\sigma^2$ よりも大きくなり（水準間の差が上乗せされるため）、$F$ 値は1よりずっと大きくなります。
この $F$ 値が、F分布（偶然だけでどれくらいの $F$ 値が起こりうるかを示した分布）の上位5%などに入る稀な値であれば、「これは偶然とは考えにくい、水準間に差がある」と結論付けます。

### 信頼区間

> $\bar{Y}_{i.} \pm t(n-a; 0.025) \sqrt{\hat{\sigma}^2 / n_i}$

* $\hat{\sigma}^2$ は $V_E$ のことです。なぜ $V_E$ を使うのか？
    第$i$水準だけの分散 $s_i^2$ を使っても良いのですが、ANOVAの前提（フィッシャーの3原則の局所管理と関連）として「全ての水準で誤差分散 $\sigma^2$ は等しい」と仮定しています。
    $V_E$ は、全ての水準のデータを「プール」して推定した $\sigma^2$ の推定値であり、$s_i^2$ よりも信頼性の高い（自由度の高い）推定値です。
* $t(n-a; 0.025)$: 自由度 $n-a$ のt分布の上側2.5%点。この自由度は $V_E$ の自由度と一致します。

---

## 2. 1元配置乱塊法 (Randomized Block Design)

これは、フィッシャーの3原則の「**局所管理**」を数式モデルに取り入れたものです。
例えば、肥料（A, B, C）の効果を見たいが、実験する畑が「日当たりの良い区画」「普通」「日当たりの悪い区画」と3つのブロック（$R_1, R_2, R_3$）に分かれているとします。
日当たりの影響（＝**ブロック因子**）が結果（収穫量）に影響することが分かっている場合、この影響をあらかじめモデルに組み込みます。

### 構造モデル

> $Y_{ij} = \mu + \alpha_i + \gamma_j + \epsilon_{ij}$

* $Y_{ij}$: 第$i$水準（肥料A）、第$j$ブロック（日当たり良）の観測値。
* $\alpha_i$: 第$i$水準（肥料）の効果。
* $\gamma_j$: 第$j$ブロック（日当たり）の効果。
* $\epsilon_{ij}$: 誤差。

### 平方和の分解

> $S_T = S_A + S_R + S_E$

**【ポイント】**
1元配置完全無作為化法と比較してください。
* （旧）$S_T = S_A + S_E(\text{旧})$
* （新）$S_T = S_A + S_R + S_E(\text{新})$

これは、**（旧）$S_E(\text{旧})$ $= S_R + S_E(\text{新})$** の関係があることを意味します。
完全無作為化法では「説明できない誤差」として $S_E(\text{旧})$ に押し込められていた変動のうち、「ブロック（日当たり）の違いで説明できる変動 $S_R$」を**救出**したのです。

**乱塊法のメリット**
1.  誤差平方和 $S_E$ が小さくなる（$S_E(\text{新}) < S_E(\text{旧})$）。
2.  $V_E = S_E / df_E$ も小さくなる。
3.  検定統計量 $F_A = V_A / V_E$ は、分母 $V_E$ が小さくなるため、**値が大きくなり**ます。
4.  結果として、水準A（肥料）の小さな差でも「有意」と検出しやすくなります（＝**検定力が高まる**）。

**自由度 $df_E = (a-1)(r-1)$ の導出**
* $df_T = ar - 1$ （データ総数 $n=ar$ 個）
* $df_A = a - 1$
* $df_R = r - 1$
* $df_E = df_T - df_A - df_R = (ar - 1) - (a - 1) - (r - 1) = ar - 1 - a + 1 - r + 1 = ar - a - r + 1 = (a-1)(r-1)$
これは、交互作用がないモデル（後述）の交互作用の自由度と一致します。

---

## 3. 2元配置完全無作為化法 (Two-Way ANOVA)

「肥料（A, B）」と「品種（X, Y）」のように、**2つの因子**が結果（収穫量）にどう影響するかを見ます。

### 構造モデル

> $Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk}$

* $Y_{ijk}$: 第$i$水準（肥料A）、第$j$水準（品種X）の、$k$番目の観測値。
* $\alpha_i$: 因子A（肥料）の**主効果**。
* $\beta_j$: 因子B（品種）の**主効果**。
* $(\alpha\beta)_{ij}$: 因子AとBの**交互作用効果**。
* $\epsilon_{ijk}$: 誤差。

**【ポイント】交互作用 $(\alpha\beta)_{ij}$**
これが2元配置のキモです。「Aの効果が、Bの条件によって変わる」ことを示します。
* 例1（交互作用なし）: 肥料Aは肥料Bより常に+10kg多い（品種XでもYでも）。
* 例2（交互作用あり）: 品種Xには肥料Aが効く（+20kg）が、品種Yには肥料Bが効く（-5kg）。
交互作用 $(\alpha\beta)_{ij}$ は、「（肥料Aと品種Xの）組み合わせで生じる固有の効果」であり、「肥料Aの主効果 $\alpha_i$」と「品種Xの主効果 $\beta_j$」の単純な足し算（$\alpha_i + \beta_j$）**だけでは説明できないズレ**を表します。

### 平方和の分解と分散分析表

> $S_T = S_A + S_B + S_{A \times B} + S_E$

全変動 $S_T$ が、Aの主効果 $S_A$、Bの主効果 $S_B$、交互作用 $S_{A \times B}$、そして誤差 $S_E$ の4つに分解されます。

**自由度**
* $df_A = a-1$
* $df_B = b-1$
* $df_{A \times B} = (a-1)(b-1)$: 交互作用の自由度は、主効果の自由度の積になります。
* $df_E = ab(n-1)$: 全体で $a \times b$ のセル（組み合わせ）があり、各セル内で $n$ 回の反復があります。各セル内の自由度は $n-1$ です。よって、誤差の自由度は $ab(n-1)$ となります。

**検定の順番**
分散分析表では、まず $F_{A \times B} = V_{A \times B} / V_E$ を見て、**交互作用が有意かどうかを一番先に確認**します。
* **交互作用が有意な場合**: 主効果 $A$ や $B$ を単独で議論する意味は薄れます（例：「肥料Aが効く」とは言えない。なぜなら「品種Yには効かない」から）。
* **交互作用が有意でない場合**: 交互作用項をモデルから外し（$S_E$ と $S_{A \times B}$ をプールして新しい $S_E'$ を作ることもあります）、主効果 $A$ と $B$ をそれぞれ独立に解釈します。

---

## 4. 2元配置乱塊法

これは、2元配置（因子A, B）の実験全体を、いくつかのブロック（因子R）で反復するモデルです。
例えば、「肥料（A, B）」と「品種（X, Y）」の $2 \times 2 = 4$ 通りの実験を、「畑1（ブロック1）」「畑2（ブロック2）」「畑3（ブロック3）」の3箇所で行うイメージです。
この場合、$a=2, b=2, r=3$ となります。各畑（ブロック）内では、$n=1$ 回ずつの実験となります。

### 構造モデルと平方和の分解

> $Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \gamma_k + \epsilon_{ijk}$
>
> $S_T = S_A + S_B + S_{A \times B} + S_R + S_E$

* $\gamma_k$: 第$k$ブロック（畑）の効果。
* $\epsilon_{ijk}$: 誤差。
* $Y_{ijk}$ は、肥料$i$、品種$j$、畑$k$での観測値。

**【ポイント】**
1元配置乱塊法と考え方は同じです。
「肥料と品種の効果（$S_A, S_B, S_{A \times B}$）」を見たいが、「畑（$S_R$）」による差がノイズとして乗ることが分かっているため、その変動 $S_R$ を $S_T$ からあらかじめ差し引いておきます。
これにより、誤差 $S_E$ が小さくなり、$A, B, A \times B$ の効果をより鋭敏に検出できます。

**自由度 $df_E = (a-1)(b-1)(r-1)$**
* これは、($A \times B$ 交互作用の自由度) $\times$ (ブロックの自由度) ではありません。
* $df_T = abr - 1$
* $df_E = df_T - df_A - df_B - df_{A \times B} - df_R$
* $df_E = (abr-1) - (a-1) - (b-1) - (a-1)(b-1) - (r-1)$
* これを計算すると $df_E = abr - ab - ar - br + a + b + r - 1$ ではなく...
* $df_E = (abr-1) - (a-1) - (b-1) - (ab-a-b+1) - (r-1)$
* $df_E = abr - 1 - a + 1 - b + 1 - ab + a + b - 1 - r + 1 = abr - ab - r + 1 = ab(r-1) - (r-1) = (ab-1)(r-1)$
* **失礼しました、ご提示の表の $df_E = (ab-1)(r-1)$ が正しいですね。**
* これは、 $ab$ 個の処理（AとBの組み合わせ）が $r$ 個のブロックで反復されていると見なしたときの、「処理 $\times$ ブロック」の交互作用の自由度であり、それが誤差と見なされます。

---

## 5. 直交表と交絡 (L8)

$2^7$ （2水準の因子が7個）の実験を、総当たりの $2^7=128$ 回ではなく、L8直交表を使ってたった8回で済ませる手法です。

### L8(2^7)の構造

L8直交表は、通常、**列1, 列2, 列4**を「**基本列（独立に選べる列）**」として生成されます。
* 列3 = 列1 $\times$ 列2
* 列5 = 列1 $\times$ 列4
* 列6 = 列2 $\times$ 列4
* 列7 = 列1 $\times$ 列2 $\times$ 列4

ここで「$\times$」は、「交互作用の列の作り方」を示します。
水準を (1, 2) ではなく (-1, +1) で考えると、2つの列の数値を（行ごとに）単純に掛け算すると、交互作用の列ができます。
例：列1 = (+, +, -, -), 列2 = (+, -, +, -) → 列3 = (+, -, -, +)

### 交絡 (Confounding)

> [3]に因子A，[6]に因子Bを割り付ければ，...交互作用A×Bが[5]に現れる

これは、先ほどの生成規則から導かれます。
* Aを列3に割り当て ($A \sim C_3$)
* Bを列6に割り当て ($B \sim C_6$)
* この2つの交互作用 $A \times B$ は、割り当てた列同士の「積」の列に現れます。
* $C_3 \times C_6 = (C_1 \times C_2) \times (C_2 \times C_4)$
* $C_2 \times C_2$ は「自分自身の交互作用」となり、これは主効果の列（または全ての水準が1になる列）に戻るため、積の計算上は $I$ （単位元、無視できる）となります。
* $C_3 \times C_6 = C_1 \times (C_2 \times C_2) \times C_4 = C_1 \times I \times C_4 = C_1 \times C_4 = C_5$
* したがって、**列5**には、**$A \times B$ の交互作用**が（自動的に）割り当てられます。

> ３つの２水準因子A，B，Cの主効果と交互作用A×Bについて調べる場合に，Aを[3]，Bを[6]に割り付け，Cを[5]に割り付けたら，Cの主効果と交互作用A×Bが区別できなくなります。このことを交絡と言います。

その通りです。上記の計算から、
* 列5の効果 = (Cの主効果) + (A×Bの交互作用の効果)
となってしまいます。

この実験（8回）のデータから列5の分散分析を行っても、そこで「有意差あり」と出た場合、それが「Cが効いている」からなのか、「AとBの交互作用が効いている」からなのか、**区別がつきません**。これが**交絡**です。

**なぜ交絡が起きるか？**
$2^7=128$通りの情報を、たった8回の実験に「折りたたんで」いるからです。8回の実験で独立に推定できる効果は、自由度で考えると $8-1=7$ 個（列1〜7の7列分）しかありません。
$A, B, C, D, E, F, G$ の7つの**主効果**だけを見るなら、交絡はありません。
しかし、$A, B, C$ と $A \times B$ のように、主効果と交互作用を同時に見ようとすると、その「折りたたみ」のルール（$C_3 \times C_6 = C_5$ など）によって、異なる効果が同じ列にマッピングされてしまうのです。

実験計画法では、この交絡の構造を意図的に設計し、「重要でない交互作用（例：3因子以上の交互作用）」は無視（誤差に含める）し、「知りたい主効果と2因子交互作用」だけを分離して推定できるように直交表の列を選びます。

的確なご質問ありがとうございます。特に信頼区間の導出とモデルの行列表現は、分散分析の理論的背景を理解する上で非常に重要です。

---

## 1. $n$ の定義：$n$ と $n_i$

まず、記号の定義を明確にします。

* $a$: 水準の数（例：肥料A, B, Cなら $a=3$）
* $n_i$: 第 $i$ 水準の繰り返し（データ）数（例：肥料Aを $n_1=5$ 区画で試す）
* $n$: **全体のデータ総数**。
    $n = n_1 + n_2 + \dots + n_a = \sum_{i=1}^{a} n_i$

したがって、ご提示の分散分析表の**誤差（残差）の自由度 $df_E = n-a$ は正しい**です。
これは、各水準内の自由度 $(n_i - 1)$ を全て足し合わせたものと一致します。
$df_E = \sum_{i=1}^{a} (n_i - 1) = \sum_{i=1}^{a} n_i - \sum_{i=1}^{a} 1 = n - a$

---

## 2. 信頼区間の公式の導出

> $\bar{Y}_{i.} \pm t(n-a; 0.025) \sqrt{\hat{\sigma}^2 / n_i}$

この公式がなぜ導かれるのか、ステップバイステップで解説します。
これは「母平均の信頼区間」の公式 $\text{（標本平均）} \pm t \times \text{（標準誤差）}$ を、分散分析の文脈に当てはめたものです。

1.  **推定したいもの**
    第 $i$ 水準の母平均 $\mu_i$ です。

2.  **$\mu_i$ の最も良い推定量**
    第 $i$ 水準の標本平均 $\bar{Y}_{i.}$ です。

3.  **$\bar{Y}_{i.}$ の標準誤差 (Standard Error: SE)**
    $\bar{Y}_{i.}$ は、$n_i$ 個のデータ ($Y_{i1}, \dots, Y_{in_i}$) の平均です。
    元のデータ $Y_{ij}$ の（偶然による）バラツキ（分散）を $\sigma^2$ と仮定しています（これは全ての水準で共通と仮定＝**等分散性**）。
    標本平均の分散は、元の分散をデータ数で割ったものなので、
    $V(\bar{Y}_{i.}) = \frac{V(Y_{ij})}{n_i} = \frac{\sigma^2}{n_i}$
    よって、$\bar{Y}_{i.}$ の標準誤差（標準偏差）は $\sqrt{\frac{\sigma^2}{n_i}}$ となります。

4.  **$\sigma^2$ の推定（最重要ポイント）**
    真の誤差分散 $\sigma^2$ は未知です。そこで、手元のデータから $\sigma^2$ を推定する必要があります。
    * **方法A**: 第 $i$ 水準のデータだけを使う。
        $s_i^2 = \frac{\sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2}{n_i - 1}$
    * **方法B**: ANOVAの「等分散性」の仮定を利用し、**全ての水準のデータ**を使って $\sigma^2$ を推定する。
        これが、分散分析表の**誤差の平均平方 $V_E$（＝$\hat{\sigma}^2$）**です。
        $\hat{\sigma}^2 = V_E = \frac{S_E}{df_E} = \frac{\sum_{i=1}^{a} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2}{n-a}$

    $V_E$ は、全ての水準の「水準内バラツキ」をプール（合算）して推定したものであり、自由度 $n-a$ に基づいています。一方、$s_i^2$ の自由度は $n_i - 1$ です。
    $n-a$ は $n_i - 1$ よりも（通常）ずっと大きいため、$V_E$ は **$s_i^2$ よりもはるかに信頼性の高い $\sigma^2$ の推定値**となります。
    したがって、標準誤差の推定値 $\hat{SE}$ には $V_E$ を採用します。
    $\hat{SE}(\bar{Y}_{i.}) = \sqrt{\frac{V_E}{n_i}} = \sqrt{\frac{\hat{\sigma}^2}{n_i}}$

5.  **t分布の適用**
    検定統計量 $T$ を以下のように定義します。
    $$T = \frac{(\text{推定量}) - (\text{母数})}{(\text{推定量の標準誤差})} = \frac{\bar{Y}_{i.} - \mu_i}{\sqrt{V_E / n_i}}$$
    $\sigma^2$ を推定値 $V_E$ で置き換えたため、この統計量 $T$ は正規分布ではなく、**t分布**に従います。
    その自由度は、$\sigma^2$ の推定に使った $V_E$ の自由度、すなわち **$n-a$** となります。

6.  **信頼区間の構築**
    信頼度95%の区間とは、$T$ が $t(n-a; 0.025)$（t分布の上側2.5%点、下側と合わせて5%）の範囲内に95%の確率で収まる区間のことです。
    $P(-t_{crit} \le \frac{\bar{Y}_{i.} - \mu_i}{\sqrt{V_E / n_i}} \le t_{crit}) = 0.95$
    （ただし $t_{crit} = t(n-a; 0.025)$）

    この不等式を $\mu_i$ について解くと、
    $-\bar{Y}_{i.} - t_{crit} \sqrt{V_E / n_i} \le - \mu_i \le -\bar{Y}_{i.} + t_{crit} \sqrt{V_E / n_i}$

    全体に-1を掛けて（不等号が逆転）、
    $\bar{Y}_{i.} - t_{crit} \sqrt{V_E / n_i} \le \mu_i \le \bar{Y}_{i.} + t_{crit} \sqrt{V_E / n_i}$

    これが、ご提示の信頼区間の公式となります。

---

## 3. モデルの行列・ベクトル表現

構造モデル $Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$ は、**一般線形モデル** $\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\epsilon}$ の形式で表現できます。これが回帰分析などと理論的につながる部分です。

例として、水準数 $a=3$ で、繰り返し数が $n_1=2, n_2=1, n_3=2$ の（不均一な）場合を考えます。
全データ数 $n = 2+1+2 = 5$ です。

観測値 $\boldsymbol{y}$（$n \times 1$ ベクトル）
$$\boldsymbol{y} = \begin{pmatrix} Y_{11} \\ Y_{12} \\ Y_{21} \\ Y_{31} \\ Y_{32} \end{pmatrix}$$

誤差 $\boldsymbol{\epsilon}$（$n \times 1$ ベクトル）
$$\boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_{11} \\ \epsilon_{12} \\ \epsilon_{21} \\ \epsilon_{31} \\ \epsilon_{32} \end{pmatrix}$$

パラメータ $\boldsymbol{\beta}$
パラメータは $\mu, \alpha_1, \alpha_2, \alpha_3$ の4つです。
$$\boldsymbol{\beta} = \begin{pmatrix} \mu \\ \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{pmatrix}$$

計画行列 $\boldsymbol{X}$（$n \times 4$ 行列）
各観測値 $Y_{ij}$ が、どのパラメータ $\beta_k$ と結びつくかを行列で示します。

$Y_{11} = 1 \cdot \mu + 1 \cdot \alpha_1 + 0 \cdot \alpha_2 + 0 \cdot \alpha_3 + \epsilon_{11}$
$Y_{12} = 1 \cdot \mu + 1 \cdot \alpha_1 + 0 \cdot \alpha_2 + 0 \cdot \alpha_3 + \epsilon_{12}$
$Y_{21} = 1 \cdot \mu + 0 \cdot \alpha_1 + 1 \cdot \alpha_2 + 0 \cdot \alpha_3 + \epsilon_{21}$
$Y_{31} = 1 \cdot \mu + 0 \cdot \alpha_1 + 0 \cdot \alpha_2 + 1 \cdot \alpha_3 + \epsilon_{31}$
$Y_{32} = 1 \cdot \mu + 0 \cdot \alpha_1 + 0 \cdot \alpha_2 + 1 \cdot \alpha_3 + \epsilon_{32}$

この関係を行列で表すと、
$$\boldsymbol{X} = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ 1 & 0 & 0 & 1 \\ 1 & 0 & 0 & 1 \end{pmatrix}$$

最終的に、モデルは以下のように表現できます。
$$\begin{pmatrix} Y_{11} \\ Y_{12} \\ Y_{21} \\ Y_{31} \\ Y_{32} \end{pmatrix} = \begin{pmatrix} 1 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ 1 & 0 & 0 & 1 \\ 1 & 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} \mu \\ \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{pmatrix} + \begin{pmatrix} \epsilon_{11} \\ \epsilon_{12} \\ \epsilon_{21} \\ \epsilon_{31} \\ \epsilon_{32} \end{pmatrix}$$

### ※ 補足：制約条件と「ランク落ち」
このまま $\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\beta}$ を最小二乗法で解こうとすると、問題が発生します。
$\boldsymbol{X}$ の列を見ると、(第1列) = (第2列) + (第3列) + (第4列) という**線形従属**の関係が成り立っています。
このような行列を「ランク落ち（Rank Deficient）」していると言い、パラメータ $\boldsymbol{\beta}$ を一意に決めることができません（解が無限に存在します）。

これが、ご提示の要約にあった**制約条件** $\sum n_i \alpha_i = 0$ が必要になる理由です。
$2\alpha_1 + 1\alpha_2 + 2\alpha_3 = 0$ という制約を課すことで、解を一意に定めることができます。

（実務の統計ソフトでは、$\alpha_1 = 0$ を基準にする、$\sum \alpha_i = 0$ にする、など別の制約を自動的に採用することが多いですが、$\sum n_i \alpha_i = 0$ は $\mu$ を全体の加重平均として定義できる、理論上きれいな制約条件です。）