# 相関係数の希薄化

相関係数の希薄化とは、データの測定の信頼性によって相関がゼロに近づく方向のバイアスをもつ現象。

信頼性は例えばテストやアンケートの設計に起因するものもあるし、連続変数を離散化したことによる情報の欠落によるものもある（→カテゴリカル変数の相関係数は希薄化を補正する考えから生まれた）


### attenuation formula

Spearman (1904) は相関係数の希薄化（attenuation）という問題を指摘した

観測される相関は真の相関に信頼性の影響が掛かったものである、という考え方をする。

:::{admonition} attenuation formula

$$
r_{x y}=\rho_{x y} \cdot \sqrt{r_{x x} \cdot r_{y y}}
$$

- $r_{x y}$：観測された相関
- $\rho_{x y}$：真の相関あるいは信頼性が完璧なもとでの相関
- $r_{x x}$：変数$X$の信頼性
- $r_{y y}$：変数$Y$の信頼性

:::

### 信頼性とは

#### 再検査法（test-retest）的な考え方

例えばテストの得点においては「偶然高い得点（低い得点）になった」というようなランダム性の要素が少なくて、仮に同じ能力の人が同様のテストを繰り返し受験したら毎回同様の能力値の評価がなされるようなテストは信頼性が高い。逆にランダム性の影響が高いテストは信頼性が低いと考えられる。

なお、この考え方はテスト理論における再検査法の考え方。

:::{card} 再検査法的な考え方

$$
r_{x x} = \operatorname{cor}(x_1, x_2)
$$

- $x_1$：1回目のテストの測定結果
- $x_2$：2回目のテストの測定結果

:::


なお Spearman (1904) も信頼性の部分は「同じ確率変数の独立に得られたサンプルの系列における相関係数の平均」という考え方をとっていたし、1940~50年代の文献でもこうした考え方が支持されていた。

:::{card} Spearman (1904)の書き方

To ascertain the amount of this attenuation, and thereby discover the true correlation, it appears *necessary to make two or more independent series of observations of both $p$ and $q$*. Then,

$$
r_{pq} = \frac{r_{p'q'}}{\sqrt{r_{p'p'} \cdot r_{q'q'}}}
$$

where  
  $r_{p'q'}$ = the mean of the correlations between each series of values obtained for $p$ with each series obtained for $q$.  
  $r_{p'p'}$ = **the average correlation between one and another of these several independently obtained series of values for $p$.**
  $r_{q'q'}$ = the same as regards $q$.  
  and $r_{pq}$ = the required real correlation between the true objective values of $p$ and $q$.

:::




#### 信頼性係数

本質的に同様の考え方ではあるが、観測値が「真のスコア」と「測定誤差」から構成されて、真のスコアの割合が高いほど信頼性が高いという考えから次のように定式化することもできる

:::{card} 古典的テスト理論における信頼性係数

$$
r_{x x}=\frac{\operatorname{Var}(T)}{\operatorname{Var}(X)}=1-\frac{\operatorname{Var}(\epsilon)}{\operatorname{Var}(X)}
$$

- $T$：真のスコア
- $\epsilon$：測定誤差
- $X=T+\epsilon$：観測値

:::






### dis-attenuation formula

もし希薄化の影響がわかるなら、観測された相関係数を補正できる。

次の式は the double correction などと呼ばれる。


:::{admonition} Double Correction

$$
\rho_{x y} = \frac{r_{x y}}{\sqrt{r_{x x} \cdot r_{y y}}}
$$

:::



なぜDoubleがつくのかというと、Single Correctionと呼ばれるタイプの式があるため。

:::{admonition} Single Correction

$$
\rho_{x y} = \frac{r_{x y}}{\sqrt{r_{x x}}}
$$

あるいは

$$
\rho_{x y} = \frac{r_{x y}}{\sqrt{r_{y y}}}
$$

:::



## Polychoricとのつながり

## 参考文献

- [Spearman, C. (1904). The proof and measurement of association between two things. Am J Psychol, 15, 72-101.](http://digamoo.free.fr/spearman1904a.pdf)
- [Bedrick, E. J. (1995). A note on the attenuation of correlation. British Journal of Mathematical and Statistical Psychology, 48(2), 271-280.](https://bpspsychub.onlinelibrary.wiley.com/doi/abs/10.1111/j.2044-8317.1995.tb01064.x)
- [Trafimow, D. (2016). The attenuation of correlation coefficients: A statistical literacy issue. Teaching Statistics, 38(1), 25-28.](https://www.medicine.mcgill.ca/epidemiology/hanley/bios601/Surveys/AttenuationOfCorrelations-2016-Teaching_Statistics.pdf?utm_source=chatgpt.com)
    - テスト理論的な観点から説明
- [Muchinsky, P. M. (1996). The correction for attenuation. Educational and psychological measurement, 56(1), 63-75.](https://psycnet.apa.org/record/1996-00223-004)
    - 歴史的な経緯も含め説明