### Hotelling T2法（多次元バージョン）& マハラノビス=タグチ法
参考文献:<br>
> 井出剛. 2015. 入門機械学習による異常検知. コロナ社. pp.37-58.

In [3]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
from typing import Union, Literal

-----
### Hotelling T2法（多次元）

#### 多次元データにおける、ホテリングT2法の特徴
1次元の場合に加え、以下の特徴が追記される。
1. 多次元データの相関構造を考慮した異常検知が可能<br>
&nbsp;

ただし、以下点については言及することができない。
1. 異常度に対する、各変数の寄与度合い

#### ホテリングT2法（多次元）の手順 <br>
#### 1. 分布パラメーターの推定
データは多次元正規分布に従うと仮定する。
$$
N(\mathbfit{x}| \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{|\boldsymbol{\Sigma}|^{-1/2}}{(2 \pi)^{M/2}} \exp \biggl\{ - \frac{1}{2} (\mathbfit{x} -  \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbfit{x} -  \boldsymbol{\mu}) \biggr\}
$$

上記において、$M$ は変数 $\mathbfit{x} = (x_1, x_2, \dots, x_M)$ の次元数であり、$\boldsymbol{\mu}$ および $\boldsymbol{\Sigma}$ は以下に定義される平均ベクトル、および分散共分散行列である。<br>

$$
\boldsymbol{\mu} = (\mu_1, \mu_2, \cdots, \mu_M)
$$

$$
\boldsymbol{\Sigma} = 
\begin{pmatrix}
   \sigma_{11} &  \sigma_{12} & \dots & \sigma_{1M}\\
   \sigma_{21} & \sigma_{22} & \dots  & \sigma_{2M} \\
   \vdots & \vdots & \ddots & \vdots \\
   \sigma_{M1} & \sigma_{M2} & \dots & \sigma_{MM}
\end{pmatrix}
$$

$$
\begin{equation}
  \sigma_{ij} =
  \begin{cases}
    \rm Var & \text{if $i=j$,} \\
    \rm Cov & \text{if $i \ne j$,}
  \end{cases}
\end{equation}
$$

ここで Var とは分散、Cov とは共分散に対応する。<br>
一次元の時と同様、母集団における $\boldsymbol{\mu}$ および $\boldsymbol{\Sigma}$ は未知である。
手元に存在するデータ集合を $D = \{ \mathbfit{x}^{(1)}, \mathbfit{x}^{(2)}, \cdots, \mathbfit{x}^{(N)} \}$ とすると、最尤推定量は以下のように導出することができる。<br>

$$
\hat{\boldsymbol{\mu}} = \frac{1}{N} \sum_{n=1}^N \boldsymbol{\mu}^{(n)}
$$

$$
\hat{\boldsymbol{\Sigma}} = \frac{1}{N} \sum_{n=1}^N (\mathbfit{x}^{(n)} - \hat{\boldsymbol{\mu}})(\mathbfit{x}^{(n)} - \hat{\boldsymbol{\mu}})^\top
$$

#### 2. 異常度の定義
新たなデータx'が観測された場合、以下に定義される異常度として算出される。<br>
$$a(\mathbfit{x'}) \equiv (\mathbfit{x'} - \hat{\boldsymbol{\mu}})^\top \hat{\boldsymbol{\Sigma}}^{-1} (\mathbfit{x'} - \hat{\boldsymbol{\mu}})$$
上記異常度は一般に、マハラノビス距離と呼ばれる距離指標に対応する。

#### 3. 閾値の設定
異常度は、自由度 (M, N-M) の $F$ 分布、もしくは自由度M、スケール因子1の $\chi^2$ 分布に従うことが示される。<br>
$$ \frac{N-M}{(N+1)M} a(\mathbfit{x'}) \sim F(M, N-M)$$
$$ a(\mathbfit{x'}) \sim \chi^2(M, 1) \quad (N \gg M)$$
閾値 $a_{th}$ を設定し、使用する分布の閾値を超える場合は異常とみなす。

------
### マハラノビス=タグチ法

適用対象のデータを呼び出す

In [11]:
#Davis
current_path = os.getcwd()
df_davis = pd.read_csv(os.path.join(os.path.dirname(current_path), "dataset", "Davis.csv"))
df_davis

Unnamed: 0,weight,height
0,77,182
1,58,161
2,53,161
3,68,177
4,59,157
...,...,...
195,74,175
196,83,180
197,81,175
198,90,181
