# 第二章 数理统计

**数理统计部分**可以对NumItem数组中的数据进行简单的数理统计功能，每个NumItem数组会被视为一个样本。对于单个样本（即单个NumItem），可以通过`NumItem`类自身实现偏差计算、误差计算、置信区间、单个样本的显著性检验。对于两个样本（即两个NumItem），可以通过`analyticlab.twoitems`模块实现方差、协方差、两个样本的显著性检验。在Jupyter Notebook环境下，所有数理统计功能均支持生成并展示计算过程，通过在调用类方法或函数时，附加参数`process=True`来实现。

#### 本章涉及的类与模块：
* (部分了解)NumItem类 - 数组
* 库函数 - 两个样本的数理统计
* (初步了解)LaTeX类 - 公式集

## 1.NumItem类：单个样本的数理统计

### 1.1 类方法列表

#### NumItem类用于数理统计的类方法如下：
* 基本统计：
    * `def isum(process=False, needValue=False)` - 求和
    * `def mean(process=False, needValue=False, dec=False)` - 样本均值
    * `def mid(process=False, needValue=False)` - 中位数
* 偏差计算：
    * `def devi(process=False, needValue=False)` - 偏差
    * `def staDevi(process=False, processWithMean=True, needValue=False, dec=False, remainOneMoreDigit=False)` - 样本标准偏差
    * `def relStaDevi(process=False, needValue=False)` - 相对标准偏差/变异系数
    * `def relDevi(process=False, needValue=False)` - 相对偏差
    * `def avgDevi(process=False, needValue=False)` - 平均偏差
    * `def relAvgDevi(process=False, needValue=False)` - 相对平均偏差
* 误差计算：
    * `def absErr(process=False, needValue=False, description='')` - 绝对误差
    * `def relErr(process=False, needValue=False, description='')` - 相对误差
* 区间估计与假设检验：
    * `def samConfIntv(confLevel=0.95, side='double', process=False, needValue=False)` - 置信区间
    * `def tTest(confLevel=0.95, side='double', process=False, needValue=False)` - t检验（单个样本的显著性检验）

### 1.2 最简单的调用

在1.1所述的类方法中，所有参数均为可选参数。在调用这些类方法时，最简单的方法是直接调用而不传入任何参数，统计结果为单独一个数（如均值、标准偏差）时，会返回一个Num数值；统计结果为一个数组（如偏差、相对误差）时，会返回一个NumItem数组：

In [1]:
from analyticlab import NumItem
Al = NumItem('10.69 10.26 10.71 10.72')
print('Al.mean() =', Al.mean())
print('Al.staDevi() =', Al.mean())
print('Al.relStaDevi() =', Al.mean())
print('Al.devi() =', Al.devi())
print('Al.relDevi() =', Al.relDevi())

Al.mean() = 10.60
Al.staDevi() = 10.60
Al.relStaDevi() = 10.60
Al.devi() = [0.09, -0.34, 0.12, 0.12]
Al.relDevi() = [0.9%, -3%, 1.1%, 1.2%]


### 1.3 特别说明

#### 1.3.1 样本标准偏差可以多保留一位有效数字

staDevi方法中的remainOneMoreDigit可以设置标准偏差结果**是否多保留一位有效数字**，通过设置参数remainOneMoreDigit=True，可以实现输出数值多保留一位有效数字。

#### 1.3.2 误差计算和t检验需要给出真值$\mu$

在第一章提到了NumItem类的构造方法：

`NumItem(nums, mu=None, isRelative=False, sym='x', unit=None, muSym=r'\mu')`

其中参数mu表示真值，通常情况下不需要给出真值，但需要进行与真值有关的统计，即误差计算和t检验时，必须给出真值。此时应该在创建NumItem时给出<i>**字符串形式**</i>的参数mu：

In [2]:
Al = NumItem('10.69 10.26 10.71 10.72', mu='10.70')

或者通过`setMu(mu)`方法给出真值$\mu$，此时仍应以字符串形式给出：

In [3]:
Al.setMu('10.70')

#### 1.3.3 区间估计与假设检验

##### 可选参数confLevel与side说明：
* `confLevel`为置信水平，默认取`confLevel=0.95`，如果确实需要更改置信水平，建议选0.6826、0.90、0.95、0.98、0.99中的一个，也可以选其它值，但由于其他值不再analyticlab内置的t表内，需要调用scipy库计算t值，因此程序速度会变慢。
* `side`为哪侧检验，其取值如下：
    * 在`samConfIntv`方法中，`'double'`表示双侧，`'left'`表示左侧，`'right'`表示右侧，默认`side='double'`。
    * 在`tTest`方法中，`'double`'表示双侧，`'down'`表示下限，`'up'`表示上限，默认`side='double'`。

##### 返回值说明：
* `samConfIntv`方法返回的是由置信上界和置信下界组成的元组，如`(7.46, 7.37)`，对于单侧置信区间，其另一侧边界用无穷大表示，如`(7.28, '+∞')`。
* `tTest`检验测定值与真值$\mu$有无明显差别，有明显差别时返回True，无明显差别时返回False。

In [4]:
Al = NumItem('10.69 10.26 10.71 10.72', mu='10.70')
print('Al.samConfIntv() =', Al.samConfIntv())
print('Al.samConfIntv(confLevel=0.99) =', Al.samConfIntv(confLevel=0.99))
print("Al.samConfIntv(side='left') =", Al.samConfIntv(side='left'))
print('Al.tTest() =', Al.tTest())
print("Al.tTest(side='down') =", Al.tTest(side='down'))

Al.samConfIntv() = (10.24, 10.95)
Al.samConfIntv(confLevel=0.99) = (9.94, 11.25)
Al.samConfIntv(side='left') = (10.33, '+∞')
Al.tTest() = False
Al.tTest(side='down') = False


### 1.4 生成并展示计算过程

在1.1所述的类方法中，均有2个参数`process`和`needValue`，**首先说明参数`process`**：

参数process表明是否要生成计算过程，默认`process=False`，此时将返回统计结果。当设置`process=True`时，将会返回一个数据类型为LaTeX的公式集（关于公式集的详细介绍会在第六章给出），该公式集包含相应统计的计算过程。在Jupyter Notebook环境下，公式集会自动展示出来。当公式集不能自动展示时，也可调用`show()`方法展示。下面以`staDevi`方法为例：

In [5]:
Al.staDevi()  #直接调用时，返回的是计算结果

0.22

In [6]:
Al.staDevi(process=True)  #设定process=True时，返回一个LaTeX对象，并展示其中的计算过程

<analyticlab.latexoutput.LaTeX at 0x7f23db493358>

In [7]:
Al.staDevi(process=True).show()  #也可调用公式集的show()方法展示

<IPython.core.display.Latex object>

可以注意到staDevi方法还有一个特别的参数`processWithMean`，该参数表明当需要生成计算过程时，是否要包含均值的计算过程在内。默认`processWithMean=True`，此时会在样本标准偏差的计算过程中包含均值的计算过程，如上面的例子所示。当设置`processWithMean=False`时，会发生如下变化：

In [8]:
Al.staDevi(process=True, processWithMean=False)

<analyticlab.latexoutput.LaTeX at 0x7f23db484dd8>

<i>注意：当process=False时，不需要设置processWithMean参数，此时设置该参数不会有任何效果。</i>

**然后说明参数`needValue`**：

通过上面的例子可以看出，当`process=True`时，将会返回计算过程的LaTeX公式集，而不是统计结果。如果想返回公式集的同时返回统计结果，可以设置`needValue=True`，此时返回值将会是一个元组，元组中第1个值为统计结果，第2个值为LaTeX公式集。下面仍以`staDevi`方法为例：

In [9]:
s, lx = Al.staDevi(process=True, needValue=True)  #既得到了方差s，又得到了相应的计算过程lx

In [10]:
s

0.22

In [11]:
lx  #通过返回的公式集展示计算过程

<analyticlab.latexoutput.LaTeX at 0x7f24003d9860>

<i>注意：当process=False时，不需要设置needValue参数，此时设置该参数不会有任何效果。</i>

#### 1.4.1 设置数组的符号和单位

不妨在看下NumItem类的构造方法：

`NumItem(nums, mu=None, isRelative=False, sym='x', unit=None, muSym=r'\mu')`

构造方法中还有2个之前没有具体说明的可选参数`sym`和`unit`，这2个参数会影响生成的计算过程。与1.4中的例子比较会发现，`sym`的默认值为`'x'`，所以计算过程中符号用$x$表示；`unit`的默认值为None，所以计算过程中没有给出单位。给出参数`sym`或`unit`（注意要给出LaTeX格式的符号或单位），可以看到计算过程中的符号或单位发生如下变化：

In [12]:
t = NumItem('5.57 5.71 5.39 5.51', sym='t')
t.staDevi(process=True)  #符号发生了变化

<analyticlab.latexoutput.LaTeX at 0x7f24003d97f0>

In [13]:
t = NumItem('5.57 5.71 5.39 5.51', sym='t', unit='s')
t.staDevi(process=True)  #符号和单位都发生了变化

<analyticlab.latexoutput.LaTeX at 0x7f24003d9be0>

也可以通过`setSym(sym)`和`setUnit(unit)`设置NumItem数组的符号和单位。要想获知数组的符号和单位，可以通过`sym()`或`unit()`方法获取：

In [14]:
t.setSym('t_{1}')  #设置符号
t.sym()  #获取符号

'{t_{1}}'

In [15]:
t.staDevi(process=True)  #更新符号后再次展示计算过程

<analyticlab.latexoutput.LaTeX at 0x7f24003d94e0>

#### 1.4.2 设置真值的符号

在进行误差相关的计算，并展示计算过程时，默认情况下，真值的符号是以$\mu$展示出来的，这是因为在NumItem类的构造方法中，参数`muSym`的默认值为r'\mu'。如果要改变真值的符号，可以在创建NumItem数组时，给出参数`muSym`（注意要给出LaTeX格式的真值符号）：

In [16]:
m = NumItem('13.26 13.21 13.17 13.22', sym='m', unit='kg', mu='13.23', muSym='m_真')
m.absErr(process=True)

<analyticlab.latexoutput.LaTeX at 0x7f24003d9d68>

也可以通过`setMuSym(muSym)`设置真值的符号。要想获知真值符号，可以通过`muSym()`方法获取。

### \*1.5 输出纯数字，而不是Num数值

在`mean`和`staDevi`方法中，还有一个参数dec，该参数表明是否以纯数字形式返回统计结果。当设置`dec=True`时，参数process、processWithMean、needValue、remainOneMoreDigit都会失去意义，即返回值在`dec=True`时只能是统计结果的纯数字形式：

In [17]:
t.staDevi(dec=True)

0.13304134695650086

## 2.使用库函数进行两个样本的数理统计

### 2.1 函数列表

#### analyticlab支持的两个样本数理统计的函数如下：
* `def cov(X, Y, process=False, processWithMean=True, needValue=False, dec=False, remainOneMoreDigit=False)` - 协方差
* `def corrCoef(X, Y, process=False, needValue=False, remainOneMoreDigit=False)` - 相关系数
* `def sigDifference(X, Y, confLevel=0.95, process=False, needValue=False)` - 两个样本的显著性检验

### 2.2 最简单的调用

在调用这些函数时，最简单的方法是只传入X和Y两个样本的NumItem数组，对于`cov`和`corrCoef`函数，返回值为Num数值；对于`sigDifference`函数，两个样本有显著差异（$F>F_{\text{表}}$或$t>t_{\text{表}}$）时返回True，无显著差异时返回False：

In [18]:
from analyticlab import corrCoef
d1 = NumItem('4.88 6.03 7.11 7.94 9.01')
d2 = NumItem('1.02 2.01 3.05 3.96 4.94')

### 2.3 生成并展示计算过程

与NumItem类似，两个样本的数理统计函数也可生成并展示计算过程，如下所示：

In [19]:
from analyticlab import sigDifference
#注意要设置m1和m2的符号，否则两个样本的符号都将是默认值'{x}'，这时两个样本在计算过程中都会显示成x，无法区分
m1 = NumItem('10.69 10.67 10.74 10.72', sym='m_{1}', unit='g')
m2 = NumItem('10.76 10.68 10.73 10.74', sym='m_{2}', unit='g')
#两个样本的显著性差异
sigDifference(m1, m2, process=True)

<analyticlab.latexoutput.LaTeX at 0x7f23db39eef0>

### 2.4 可选参数说明
`process`、`processWithMean`、`needValue`、`remainOneMoreDigit`、`confLevel`、`dec`参数的用法与NumItem的类方法相同，此处不再赘述。