# カイ2乗検定の自由度について

semopyとlavaanで一致しなかったりするがどういうことなのか？

## カイ2乗検定

最尤法で母数を推定した場合、自由度$df = \frac{1}{2} p (p + 1) - q$の$\chi^2$分布に近似的に従う統計量を使って検定を行う（豊田（2012）『因子分析入門』）

（$p$は観測変数の数、$q$は自由母数の数）

## semopyの推定方法

Pythonのsemopyパッケージでの自由度の推定方法も豊田同様

```python
def calc_dof(model):
    p = len(model.vars['observed'])
    return p * (p + 1) // 2 - len(model.param_vals)
```

https://gitlab.com/georgy.m/semopy/-/blob/fa9f3e0bd2bdacac377c8ee339255b27f4ca22f8/semopy/stats.py#L187

## lavaanの推定方法

[ソースコード](https://github.com/yrosseel/lavaan/blob/6f047c800206d23f246d484b9522295257614222/R/lav_partable_utils.R#L242-L256)を見ると

```R
# degrees of freedom
df <- ndat - npar
```

`npar`は（自由母数の数 ["total number of free parameters"](https://github.com/yrosseel/lavaan/blob/6f047c800206d23f246d484b9522295257614222/R/lav_partable_utils.R#L234-L235)）

`ndat`は（ブロックごとの標本母数の数 ["number of sample statistics per block"](https://github.com/yrosseel/lavaan/blob/6f047c800206d23f246d484b9522295257614222/R/lav_partable_utils.R#L109-L110)）


つまり

$$
標本母数 - 自由母数
$$

とのこと。標本母数のコードは複雑すぎてよくわからず…。

### 独立モデルの定義

lavaanでもUser ModelのDoFはsemopyと一致しているので、独立モデルの定義の問題かもしれない。

独立モデル `lav_partable_independence()`は

https://github.com/yrosseel/lavaan/blob/a271f07a212fcf2902352833a37bde2202eb6b00/R/lav_partable_unrestricted.R#L34

で定義されているが、結構複雑でよくわからず…



lavaanのメーリングリストの[Null/baseline model](https://groups.google.com/g/lavaan/c/iX2usbOxLlg)というスレッドをみると

> For continuous data, the default null model in lavaan (and all other SEM software I am aware of) is the "independence" model, which constraints all covariances to zero, and only freely estimates means and variances.






## 一般の定義

[(PDF) Calculating Degrees of Freedom for a Structural Equation Model](https://www.researchgate.net/publication/233149968_Calculating_Degrees_of_Freedom_for_a_Structural_Equation_Model)