# 第三章 离群值处理

根据现行国家标准**<i>GBT 4883-2008 数据的统计处理和解释正态样本离群值的判断和处理</i>**，**离群值**是指样本中的一个或几个观测值，它们离开其他观测值较远，暗示他们可能来自不同的总体。**离群值**包括**统计离群值**和**歧离值**，其中**统计离群值**是指在剔除水平下统计检验为显著的离群值；**歧离值**是指在检出水平（通常取$\alpha=0.05$）下显著，但在剔除水平（通常取$\alpha^*=0.01$）下不显著的离群值。有关离群值、统计离群值、歧离值、检出水平、剔除水平的详细解释，请[点击这里](https://wenku.baidu.com/view/f701e484c8d376eeaeaa31a8.html)阅读标准文件。

离群值处理部分位于`analyticlab.outlier`函数模块内，可以实现**已知标准差**、**未知标准差**情形下，限定检出离群值个数**不超过1**和**大于1**时的离群值处理。

#### 本章涉及的模块：
* outlier函数模块 - 离群值处理

## 1.导入outlier模块

通过如下指令实现analyticlab.outlier模块的导入：

In [1]:
from analyticlab import outlier

## 2.函数列表

**outlier模块支持<i>Nair检验</i>、<i>Grubbs检验</i>、<i>Dixon检验</i>、<i>偏度-峰度检验</i>4种检验法，相应函数如下**：

* 已知标准差$\sigma$情形离群值的判断：
    * `def Nair(item, sigma, detLevel=0.05, delLevel=0.01, side='double', process=False, needValue=False)` - Nair检验法
* 未知标准差$\sigma$情形离群值的判断：
    * 限定检出离群值个数不超过1时：
        * `def Grubbs(item, detLevel=0.05, delLevel=0.01, side='double', process=False, needValue=False)` - Grubbs检验法
        * `def Dixon(item, detLevel=0.05, delLevel=0.01, side='double', process=False, needValue=False)` - Dixon检验法
    * 限定检出离群值个数大于1时：
        * `def Dixon(item, detLevel=0.05, delLevel=0.01, side='double', process=False, needValue=False)` - Dixon检验法
        * `def SkewKuri(item, detLevel=0.05, delLevel=0.01, side='double', process=False, needValue=False)` - 偏度-峰度检验法

## 3.最简单的调用

参数`item`为待检验样本的NumItem数组。对于未知标准差的离群值检验，可以只给出参数`item`；对于已知标准差的离群值检验，可以只给出参数`item`和`simga`（sigma即为标准差$\sigma$）：

In [2]:
from analyticlab import NumItem

In [3]:
sample = NumItem('13.52 13.56 13.55 13.54 13.12 13.54')
outlier.Grubbs(sample)  #Grubbs检验

({'statOutliers': [13.12], 'stragglers': []},
 [13.52, 13.56, 13.55, 13.54, 13.54])

In [4]:
sample = NumItem("3.13 3.49 4.01 4.48 4.61 4.76 4.98 5.25 5.32 5.39 5.42 5.57 5.59 5.59 5.63 5.63 5.65 5.66 5.67 5.69 5.71 6.00 6.03 6.12 6.76")
outlier.Nair(sample, 0.65)  #Nair检验示例

({'statOutliers': [], 'stragglers': [3.13]},
 [3.49, 4.01, 4.48, 4.61, 4.76, 4.98, 5.25, 5.32, 5.39, 5.42, 5.57, 5.59, 5.59, 5.63, 5.63, 5.65, 5.66, 5.67, 5.69, 5.71, 6.00, 6.03, 6.12, 6.76])

离群值检验函数的返回值为**离群值**和**正常值**组成的元组，其中**离群值**为由**统计离群值（statOutliers）**和**歧离值（stragglers）**组成的字典。**统计离群值**、**歧离值**、**正常值**均以`list`给出。

## 4.对哪侧进行检验

离群值检验分为**双侧情形**、**上侧情形**和**下侧情形**，通过参数`side`决定是哪侧检验。默认`side='double'`，即默认为双侧情形。当需要进行检验的是下侧情形时，可以设置参数side：

In [5]:
sample = NumItem("3.13 3.49 4.01 4.48 4.61 4.76 4.98 5.25 5.32 5.39 5.42 5.57 5.59 5.59 5.63 5.63 5.65 5.66 5.67 5.69 5.71 6.00 6.03 6.12 6.76")
outlier.Nair(sample, 0.65, side='down')  #Nair下侧检验

({'statOutliers': [3.13], 'stragglers': [3.49]},
 [4.01, 4.48, 4.61, 4.76, 4.98, 5.25, 5.32, 5.39, 5.42, 5.57, 5.59, 5.59, 5.63, 5.63, 5.65, 5.66, 5.67, 5.69, 5.71, 6.00, 6.03, 6.12, 6.76])

## 5.生成并展示计算过程

通过附加参数`process=True`，并调用生成LaTeX公式集的`show()`方法，可以展示出离群值处理的分析过程：

In [6]:
sample = NumItem('13.52 13.56 13.55 13.54 13.12 13.54')
outlier.Grubbs(sample, process=True).show()

<IPython.core.display.Latex object>

当既需要处理结果又需要相应的分析过程时，可以在`process=True`的基础上，附加参数`needValue=True`。

## \*6.更改检出水平和剔除水平

根据现行国家标准<i>**GBT 4883-2008**</i>，除非根据本标准达成协议的各方另有约定外，$\alpha$值（检出水平）应为0.05，$\alpha^*$值（剔除水平）应为0.01。如果确有需要更改检出水平和剔除水平，可以设置参数`detLevel`（检出水平）和`delLevel`（剔除水平）。默认`detLevel=0.05`，`delLevel=0.01`。