# テスト理論（スコアリング）

## 概要

「英語力」や「トンネルの劣化度合い」など、 何らかの概念上の値を測りたいとする。

「身長」「体重」のような物理的に測定できるものとは異なり、これらの概念的なスコアは直接測ることはできない。
そこでテストの設問や調査の項目を複数用意して測っていくことになり、それらの項目の点数をどのように集約して扱いやすいスコアを算出するか？が課題となり、テスト理論の出番となる。



## テスト理論のパラダイム

**古典テスト理論** と呼ばれる考えかたと、より新しい **項目反応理論** がある。


### 古典テスト理論

古典テスト理論では、観測した得点$z$は真の得点$\mu$と測定誤差$e$によって構成されると考える。

$$
z = \mu + e
$$

誤差は過大評価も過小評価もありえて、平均が0になる確率変数$E[e]=0$と仮定する。

古典テスト理論は異なる集団への異なるテスト間での等価性が満たされないという課題がある。
例えばTOEICは毎回異なる設問で構成されているが、TOEICのスコアの価値は等しいものとなっている。これはTOEICのテストが等価性を満たすように設計されているためである。
古典テスト理論ではTOEICのスコアのようなものは作れない。


:::{card} テスト理論における用語

- **素点** （row score, そてん, **粗点** とも）：テストの問題ごとの配点の点数。
- テスト得点の **集団依存性（group dependence）** （ **標本依存性（sample dependence）** とも） ：テスト得点（素点の合計）がテストを受けた集団に依存すること。例えば同じ試験でも優秀な学生たちが解くのとそうでない学生たちが解いたのでは集団の平均点が変わる。
- テスト得点の **項目依存性（item dependence）** ：テストの平均点が個々のテスト項目の難易度に影響されること。
- **等化（equating）** ：異なるテストの結果を比較可能にする手続き。IRTを使っても等化の手続きは必要になる

古典テスト理論では集団依存性や項目依存性の問題を解決できない

:::

### 項目反応理論

**項目反応理論 （item response theory: IRT）** は受験者の能力と項目の難しさを別々に推定することで等価性を満たすスコアの推定が可能なテスト理論。

TOEIC, TOEFL, PISA, SATなど様々なテストで用いられる。

例えば以下のようなモデルを使用する。回答者$i$の項目$j$への正答確率について以下のように表すモデルを構築する

$$
P(y_{ij} = 1) = \operatorname{logit}^{-1}(a_j (\theta_i - b_j)) = \frac{1}{1+\exp(-a_j (\theta_i - b_j))}
$$

ここで

- $\theta_i$ ： **達成度 (achievement)** や **潜在特性 (trait)** と呼ばれるパラメータ（$\theta_i \sim \mathcal{Normal}(0,1)$）
- $a_j$ ： **識別力 (discrimination)** と呼ばれるパラメータ
- $b_j$ ： **困難度(difficulty)** と呼ばれるパラメータ

上記のモデルは2パラメータロジスティックモデル（2PL）というモデルで、他にも3PLなど様々なモデルが存在する。


:::{margin}

学習の達成度などを測るための項目反応理論に対して、学習状況を測るテスト理論の **認知診断モデル（cognitive diagnostic model; CDM）** というものもあるらしい

[２つのテスト理論 ―項目反応モデルと認知診断モデル―](https://jartest.jp/meeting/19th_data/rec_3_okada.pdf)
:::

## 参考

- [Chapter 8 項目反応理論 1](https://www2.kobe-u.ac.jp/~bunji/files/lecture/MVA/mva-08-item-response-theory.pdf)