## Anomaly Detection 异常检测系统

Density Estimation 密度估计

本章试图建立一个异常检测系统，实现一个模型估计每个样本异常概率$p(x^{(i)})$，若存在$p(x^{(i)})\leq \epsilon$则将该样本标记为异常；

应用场景：网站欺诈检测，加工良品检测等

## Gaussian Distribution/Normal Distribution 高斯分布/正态分布

对于$x\in \mathbb{R}$，如果$x$服从均值$\mu$，方差$\sigma^2$的高斯分布则记为：
$$x\sim N(\mu,\sigma^2)$$
则：
$$p(x)=p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$
其中：
$$\mu=\sum_{i=1}^mx^{(i)}$$
$$\sigma^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)^2$$

## Anamoly Detection 异常检测系统算法描述

1.选择参与检测的特征$x_{（i）}$;

2.计算每个参数对应的$\mu_1,\mu_2,\cdots,\mu_n,\sigma_1,\sigma_2,\cdots,\sigma_n$:
$$\mu_j=\frac{1}{m}\sum_{i=1}^mx_{j}^{(i)}$$
$$\sigma_j^2=\frac{1}{m}\sum_{i=1}^{m}(x_j^{(i)}-\mu_j)^2$$

3.对于需要检测的新样本计算：
$$p(x)=p(x_1;\mu_1,\sigma_1^2)\times\cdots\times p(x_n;\mu_n,\sigma_n^2)=\prod_{j=1}^{n}p(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2})$$
假设对于设定好的$\epsilon$，若有：
$p(x)<\epsilon$，则将样本标记为异常。

算法评估通常使用F1-Score来评估（正太分布中存在数据倾斜）

#### Anomaly Detection 与 Supervised  Algorithm的使用场景分类

1.异常检测系统适用于大量数据正常和一小部分数据不正常，即通常使用于样本倾斜的场景；

2.监督学习算法需要相当数量的正常数据和不正常数据来识别两者之间的差别；

3.异常检测可以检测出多种不正常，而不仅仅是与正常相反的不正常，即算法很难只从正常样本中学得异常样本的结构；

#### 异常检测的使用细节

1.对于不满足高斯分布的特征，可尝试进行变换使特征近似于服从高斯分布：
$log(x),log(x+c),\sqrt{x},x^{\frac{1}{c}}$

2.若异常检测出现异常的概率过大，将需要分析参与检测的特征，取出可以特征或增加有效特征；

## Multivariate Gaussian Distribution  多变量正态分布

对于样本$x\in \mathbb{R}^n$，相应的参数为$\mu \in \mathbb{R}^n,\Sigma \in \mathbb{R}^{n\times n}$，有：
$$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$
其中$|\Sigma|$为协方差矩阵$\Sigma$的行列式。

## Aomaly Detection with the multivariate Gaussian 多变量正态分布异常检测
针对训练样本$x^{(1)},x^{(2)},\cdots,x^{(n)}$，有：

1.计算参数：
$$\mu=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}$$
$$\Sigma=\frac{1}{m}\sum_{i=1}^m(x^{i}-\mu)(x^{(i)}-\mu)^T$$

2.对于新样本$x$，计算：
$$p(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$

3.若有$p(x)<\epsilon$，则将样本标记为异常.

## 普通异常检测与多变量异常检测使用场景分析

#### 普通异常检测系统  

$$p(x)=p(x_1;\mu_1,\sigma_1^2)\times\cdots\times p(x_n;\mu_n,\sigma_n^2)$$

1.当样本特征中存在反常的组合值需手动创建新特征来捕捉异常；

2.更节省计算资源;

3.当面临训练样本数量$m$很小时依然有效;

#### 多变量异常检测系统
$$p(x)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$

1.可以自动的捕捉特征之间的相关性；

2.计算开销更为昂贵；

3.必须使得训练样本数量$m>n$，也即$\Sigma$必须是可逆的；
