## 因子分析

**因子分析（factor analysis）**とは、  
変数の間の相関関係から共通因子を求めることで、多くの変数を共通因子にまとめて説明することを目的とする分析手法。

**※主成分分析との違い：**
参考：https://bellcurve.jp/statistics/blog/14209.html

主成分分析は多数の観測変数から少数の主成分という合成変数を作り出す手法で、観測変数と主成分の因果関係をパス図に描くと次のようになります。主成分分析では観測変数が原因で主成分は結果です。

<img  src="主成分分析のパス図.png"/>

一方、因子分析は観測変数に影響を与えている共通因子を抽出する方法で、観測変数と因子の因果関係をパス図に描くと次のようになります。因子分析では（共通）因子が原因で観測変数が結果と主成分分析とは因果関係が逆になります。なお、この図にある独自因子とは、個々の観測変数固有の因子です。

<img  src="因子分析のパス図.png"/>

### 用語定義：
1. 共通因子・独立因子：観測変数に共通して影響している因子を「共通因子」と呼び、各観測変数に独立に影響する因子を「独立因子」と呼ぶ。
2. 共通性・独立性：観測変数の変動のうち、ある共通因子で記述できる割合を「共通性」と呼ぶ。それ以外を「独立性」と呼ぶ。
3. 因子負荷量：
4. 因子得点$f_{ij}$：各$i$ごとの共通因子の値

### 数学的な知識：

一般に$p$次元で記述された$n$個のサンプルデータ$\boldsymbol{x}_i=[x_{i1},..., x_{ip}]^T(i=1,...,n)$がある。これらが$k$個の共通因子で記述できるとする。  
この共通因子を表す列ベクトルを$\boldsymbol{f}=[f_{1},..., f_{k}]^T$、因子負荷量を行列$A_{p\times k}$、独立因子を列ベクトル$\boldsymbol{u}=[u_{i1},..., u_{ip}]^T$とすると、因子分析のモデルは以下：

\begin{equation}
    \boldsymbol{x}_i = A \boldsymbol{f} + \boldsymbol{u}_i
\end{equation}

例えば、$p=4,\ k=2$の場合は以下のようになる。変数$f_{ik}$を共通因子$f_k$の個体$i$に対する因子得点と呼び、共通因子の係数$a_{ik}$を因子負荷量と呼ぶ：

\begin{eqnarray}
    x_{i1} &=& a_{11}f_{i1} + a_{12}f_{i2} + u_{i1} \\
    x_{i2} &=& a_{21}f_{i1} + a_{22}f_{i2} + u_{i2} \\
    x_{i3} &=& a_{31}f_{i1} + a_{32}f_{i2} + u_{i3} \\
    x_{i4} &=& a_{41}f_{i1} + a_{42}f_{i2} + u_{i4} \\
\end{eqnarray}

因子分析では、観測変数$\boldsymbol{x}$だけが定数であり、そのほかの量は確率変数である。そこで因子数$k$を決定して、観測変数から$A$と$\boldsymbol{f}$を推定する。

このとき、観測変数$\boldsymbol{x}$の母相関係数行列$R$は以下のように記述できる：

\begin{equation}
    R = 
    \left[
        \begin{array}{cccc}
          1 & r_{12} & \ldots & r_{1p} \\
          r_{21} & 1 & \ldots & r_{2p} \\
          \vdots & \vdots & \ddots & \vdots \\
          r_{p1} & r_{p2} & \ldots & 1
        \end{array}
    \right]
    =
    A \Phi A^T + \Psi
\end{equation}
\begin{equation}
    \Phi =
    E[\boldsymbol{f}\boldsymbol{f}^T],\ \ \ \ 
    \Psi =
    E[\boldsymbol{u}_i\boldsymbol{u}_i^T]
    = 
    \left[
        \begin{array}{ccc}
          \sigma_1^2 &  & \\
           & \ddots &  \\
           &   & \sigma_n^2
        \end{array}
    \right]
\end{equation}

もし共通因子$f_k$同士が無相関であると仮定できれば、$\Phi$は単位行列になる。また独立因子は互いに独立であり、分散は$\sigma_i^2$で表されるとした。

### 解析の手続き
1. 共通因子数を決定する。
2. 因子負荷量を推定する
3. 因子を回転させる。
4. 因子得点を推定する。

### 因子数の選択基準
因子数の選択基準は複数ある。最近は平均分析法を用いケースが増えている。
1. **Scree plot法**：  固有値の大きさを折れ線や棒グラフ等でプロットし、値が急降下し、その後なだらかになる場合に急降下する前までを採用
2. **Kaiser基準**：  相関係数行列を用いる場合に、固有値が1以上の主成分を採用（Guttman基準ともいう）
3. **累積寄与率を用いる方法**：分散共分散行列を用いる場合に、累積寄与率が70～80%になる前後まで採用
4. **カイ二乗値を用いる方法**
5. **MAP(Minimum Average Partial)法**：最小偏相関平均法を用いる
6. **平均分析法**：
    1. **乱数によるシミュレーション法**：用いるデータと同じサイズの乱数データセットを複数セット作成し、その固有値の平均と比較する方法
    2. **リサンプリング法**：データセットからサンプリングしたデータセットを複数生成し、その固有値の平均と基準として、それより大きい固有値まで用いる方法

### 因子の回転
因子負荷量行列は一意には決まらない。
> ・$f$を$g$に変換する正則行列$B$を考える（$g=Bf$）  
> ・$C=AB^{-1}$となる行列$C$を考える  
> ・$Af=AB^{-1}Bf \rightarrow Af=Cg$  
> ・$A \rightarrow C,\ f \rightarrow g$のように置換しても因子分析モデルは成立

行列$B$の選択次第で、解の組み合わせは無数に存在する。そこで結果をより解釈しやすいように軸を回転させる。回転種類は主に以下：

1. 直交回転（直交軸による回転）代表例：プロマックス回転
2. 斜交回転（斜交軸による回転）代表例：バリマックス回転


### 因子得点の推定
標本から推定された因子負荷行列・相関係数行列・因子得点を$\hat{A},\hat{R},\hat{f}$で表す。

1. 回帰法：平均2乗誤差$MSE(f,\hat{f})\equiv E\left[(\hat{f}-f)(\hat{f}-f)^T\right]$の最小化を行う。推定量は$\hat{f}_i=\hat{A}^T\hat{R}^{-1}\boldsymbol{x}_i$
2. Bartlett法：尤度関数の最大化（独立因子の最小化）を行う。推定量は$\hat{f}_i=\left(\hat{A}^T\hat{R}^{-1}\hat{A}\right)^{-1}\hat{A}^T\hat{R}^{-1}\boldsymbol{x}_i$


### 解析サンプル