# 第五章 背景

本章简要介绍数据统计分析的主要概念。它定义了离散和连续的概率分布，然后概述了各种类型的研究设计。

## 总体，样本与统计推断
在对数据的统计分析中，我们通常使用一些被挑选出来的样本，基于这些样本上的一些计算结果，来猜测该样本背后所代表的那个总体的某些统计指标。所以样本最为重要的衡量标准就是它能够有效代表总体。

- **总体**：包含数据集中的所有元素
- **样本**：由总体中的一个或者多个观测值构成

一个总体是可能产生很多个不同的样本的。

比如当需要估计出全欧洲男性的平均身高时，显然不可能测量每一个人的身高，最具有可行性的方法就是挑选欧洲不同国家10000个成年男性作为样本来测量身高。在这一问题中，全欧洲成年男性就是**总体**，而随机挑选的1万个成年男性就是**样本**。我们使用样本的平均值去估计总体的平均值，这里的平均值对于总体而言我们称其为**待估参数**，而样本计算出来的平均值我们称之为**统计量**。这么区分的原因在于，总体的平均值是确定的，不发生变化的，只不过我们不知道而已。但是样本的平均值取决于具体的抽样结果，每一次不同的抽样结果，得到的平均数都会有所差异，所以样本上的平均值是一个随机变量，不过是一类特殊的随机变量，这一类随机变量是由于抽样的偏差影响统计结果所形成的，所以我们就给它一个专有名词，叫做**统计量**。

- **待估参数**：总体的某一项特征，确定但未知
- **统计量**：某一样本上的计算结果，不确定但已知，是一类特殊的随机变量
- **抽样分布**：统计量所服从的概率分布
- **统计推断**：基于样本所计算出的统计量对总体的待估参数进行有根据的估计

统计推断需要进一步讲解一个案例。以测量身高为例，比如样本的统计量为1.78米，那么就可以根据抽样分布的特性，给出对待估参数的估计结果，即全欧洲平均身高有95%的把握处于1.76米到1.80米之间。这就是一个统计推断过程，这里涉及到如何产生有代表性的样本，如何计算出样本上的某一个统计量，如何估计出该统计量的抽样分布，如何基于抽样分布对待估参数给出特定显著性水平下的估计结果。

## 概率分布
概率分布是描述总体和样本中数值分布的数学工具。可以分为两大类，即：

- **离散分布**：随机变量的取值只可能是孤立的几个数值点
- **连续分布**：随机变量的取值可能是在一个范围内的全部实数值

### 期望值和方差
期望值$E[X]$在概念上等同于均值，它在连续型随机变量上的计算公式为：
$$
    E[X] = \int_{\infty}^{\infty}xf(x)dx
$$
即某一取值与该取值出现概率相乘之后进行积分运算。而在离散型随机变量上的计算公式为：
$$
    E[x] = \sum_i^N x_i P_i
$$
即某一取值与该取值出现概率相乘之后进行加总运算。

方差刻画了随机变量或者数据的波动性，计算公式也比较简单，即
$$
    Var(X) = E[(X-E[X])^2]=E[X^2]-(E[X])^2
$$
即平方值的期望减去期望的平方值。

## 自由度
自由度（degree of freedom，DOF）的概念在力学领域中似乎是非常清楚的，但是在统计学应用中较难掌握。

在力学中，在一个平面上运动的粒子有“2个自由度”：在每一个时间点，可以使用两个参数($x,y$坐标)来定义粒子的位置。如果粒子在空间中移动，那么它就有了三个自由度，即$x,y,z$坐标。

推而广之，在统计学中，具有n个数值的一组数据有n个自由度。如果计算出这一组数据的均值，然后该组数据中的每一个元素都减去均值，得到的这一组数据就只有n-1个自由度啦。这是因为在已知均值的情况下，根据n-1个数值，就一定可以计算出剩余的一个数值，这样就有一个数值不自由啦，统计学上称之为丢失了一个自由度。

当我们要对数据进行分组对比时，情况就稍微复杂一点。例如，将一组病人分位三个小组，并计算出了各小组的平均值，那么就会丢失三个自由度。

自由度是衡量统计量抽样分布的重要指标，不同的自由度下估计出来的统计量所服从的抽样分布有较大的差异。一般来说，同一样本数下，自由度越低，统计量的波动性就越小。这一结论是很容易理解的，因为样本被限定，不能自由波动，计算出的结果也就相对固定了。

## 研究设计
研究设计又被称为统计试验设计。研究设计是指在开始抽样之前，就必须预先设定好整个统计分析的过程。这一预先设计是非常重要的，它可以保证统计人员不会被偶然的数据现象所吸引而得出错误的结论。进行统计试验设计，就可以提前根据数学理论进行预估，而不是关注于各种偶然事件。

2000年之后美国法律规定研究人员在开始收集数据之前必须记录并提交他们的试验方法和结果指标。在这一强制规定执行之前，在评估药物或者膳食补充剂对于治疗心血管疾病的研究中，57%的研究显示出阳性的结果，即有效的比例为57%，但是在执行这一强制规定之后，有效的比例就大幅下降至8%了。这一案例强有力地说明了统计试验设计对于得出可靠的统计分析结果是非常重要的，可以避免很多假阳性的问题。

### 术语
- 主要特征：指对结果会产生重要影响，同时在本次试验中进行了控制或者观测的因素
- 噪音特征：指对结果的影响较小，难以观测与控制，数量又特别多的因素

比如，影响一个人年收入的主要特征包括，年龄，学历，城市，性别，职业等，而噪音特征包括身高，爱好，口味，服装等等次要因素。

在统计学中，我们通常会把目标和特征之间的函数关系记为如下形式：
$$
    Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_{12}X_1X_2 + \epsilon
$$
在上述数学模型中，$Y$是目标量或者因变量，$X_1,X_2,X_1X_2$是特征或者自变量，$\beta_1, \beta_2, \beta_{12}$是系数，$\epsilon$是模型拟合的残差，也就是目标量中不能够被该数学模型所解释的剩余部分。如果该模型比较正确地刻画了变量之间的关系，那么残差就应该对称分布于0值附近，呈现出正态分布的形式。

在上述数学模型中，像$\beta_1 X_1$这种只有一个特征的项，被称为主效应项，而如$\beta_{12}X_1X_2$这种多个特征汇合在一起的项，被称为交互项。从名字上也比较容易理解，所谓的主效应项，就是该特征能够独立地对目标量所产生的影响，而交互项，就是多个特征一起对目标量所产生的影响。

这种结构的模型通常被称为线性模型。尽管它里面含有乘积项，但是对于三个系数而言，都是一阶的，我们所需要求解的也是三个系数，所以，它被称为线性模型。

### 概述
研究设计的第一步是明确说明研究的目标。我们可能会有如下四种目标：
1. 比较两个组或者多个组，或一个组与某一个固定值对比，即**假设检验**
2. 筛选所观察到的反应以确定重要的因素或效应，即**变量选择**
3. 最大化或最小化响应（变异性，离目标的距离，稳健性等），即**最优化**
4. 建立一个回归模型来量化响应变量对输入过程的依赖性，即**统计建模**

一旦确定了想做什么，我们就必须决定如何做这件事。可以通过受控试验或观测获得必要的数据。在受控试验中，我们通常只改变单个参数，并研究该参数对输出的影响。

### 研究类型
1. 观察性或实验性
在观察性研究中，研究者只收集信息，但不与研究人群互动。相反，在实验研究中，研究人员有意地影响事件，并调查这些干预措施的效果。

2. 前瞻性或者回顾性
在前瞻性研究中，数据是从研究开始收集的。相反，回顾性研究是从以前的事件中获得的数据。

3. 纵向或横截面
在纵向调查中，研究者在一段时间内收集信息，数据沿着时间排布；在横截面调查中，数据是同一时间点上对很多样本的观测结果

4. 病例对照和队列研究
在病例对照研究中，首先对患者进行治疗，然后根据一定的标准选择他们纳入研究。相反，在一项队列研究中，首先选择感兴趣的受试者，然后对这些受试者进行一段时间的研究。

5. 随机对照试验
将受试者分为实验组和对照组。在一个试验中，可能会考虑多个影响因素，实验组与对照组通常只在某一个因素上存在差异，在遵守这一原则的基础上，尽可能做到随机分配。

6. 交叉研究
随机化的另一种方法是交叉设计的研究。交叉研究是一种纵向研究，受试者接受一系列不同的处理。每一个个体都接受每一个处理。为了避免因果的影响，处理分配的顺序应该是随机的。

比如在一项调查中，测试站姿和坐姿对受试者集中精神的影响，每一个受试者分别在站姿和坐姿下执行任务。坐姿和站姿的顺序是随机的，以消除任何序列效应。

### 实验设计
最高原则就是：按照某一指标分组后，其他方面充分随机化。

上文我们提到，我们有一些因素是不能够完全控制的，这些因素又会影响实验结果。比如在某一个实验中，实验人员的操作水平是影响结果的重要因素，实验的操作时间也会影响实验结果，那么我们就可以固定只使用一个实验人员，然后对每一组试验随机挑选一个时间进行操作。这代表了两种消除不可控因素影响的方法，第一是固定不可控因素；第二是通过大量随机来平均化不可控因素的影响。

#### 1. 样本选择
当选择个体的时候，你应该注意下面3点。
（1）样本应该能够代替研究的群体。
（2）在比较性研究中，组之间必须在已知的变异来源方面相似。比如你想对比不同学历对于收入的影响，那么学历是要比较的因素，根据学历进行分组，但是例如年龄，性别这种因素在组之间要尽量相似，不能够出现大学学历组的都是40岁以上的，而研究所学历组中都是30岁左右的。
（3）确保您选择的样本能够充分覆盖了您所需的所有参数！比如，你想对比不同学历对于收入的影响时，你选择的样本应该覆盖20多岁，30多岁一直到60多岁的各个年龄段，否则不具有完全的代表性。

#### 2. 样本量
当样本量过小时，随机性太大，无法判断观测到的现象是否具有普适性。而样本量过大又会带来成本过高，而经费不足。所以如何确定合适的样本量呢？在确定样本大小时，你必须知道：
- 在一项调查中，待估参数的变异度是多大？
- 与待估参数的标准偏差相对应，期望效应的大小是多少呢？

考虑这两个问题，就是进行功效分析。这在行为研究中尤其重要，如果没有经过仔细的样本量计算，研究计划就不具有实际可行性。

#### 大规模随机双盲对照试验
在确定了样本的选择方法以及样本量之后，就要开始收集试验数据啦。在进行试验，收集数据的过程中，要注意的原则就是大规模随机双盲对照，大规模指的是样本量尽可能多，随机是指每一样本进入实验组还是对照组要尽可能做到随机，双盲是指操作试验的人和参与试验的人都并不清楚哪边是对照组，哪边是实验组，所谓的对照就是实验组和对照组之间的对照。

# 第六章 单变量的分布
## 分布的特征描述
### 分布中心
1.均值

In [2]:
import numpy as np
from scipy import stats

x = np.arange(10)
np.mean(x)

4.5

2.中位数

In [3]:
np.median(x)

4.5

3.众数

In [8]:
stats.mode([0, 1, 2, 3, 5, 7, 8, 9, 0, 3, 1, 0, 0])

ModeResult(mode=array([0]), count=array([4]))

4.几何均值

In [10]:
x = np.arange(1, 101)
stats.gmean(x)

37.992689344834304

### 分布变异度
1. 极差：最大值和最小值之间的差
2. 分位数：等同于排序之后的序数
3. 标准差和方差：就不需要多说明了
4. 标准误：即统计量的标准差。比如使用样本去统计总体的均值，由于抽样的差异，每一次计算出的样本均值都是不一样的，这些样本均值构成的一组数据的标准差即为样本均值的标准误。对于正态分布总体而言，样本均值的标准误就是样本的标准差$s$除以$\sqrt{n}$,即
$$
    SEM = \frac{s}{\sqrt{n}}
$$
如果用100个样本点的话，均值的标准误就是样本标准差的十分之一。
5. 置信区间：即待估参数的真实值最可信的取值范围。比如从某一总体中抽取了100组不同的样本，计算出100个样本均值，这些样本均值的均值为0.83，标准差为0.02，假设样本均值服从正态分布，那么总体均值的95.4%置信区间为(0.81,0.85)，即两个标准差的距离。


### 分布形状
1. 位置：刻画一个分布处于哪一个区域，一般包括均值，中位数，众数等刻画指标
2. 尺度：尺度参数描述了概率分布的宽度，如果尺度参数比较大，分布就比较宽，反之就比较集中。一般包括方差，标准差，极差
3. 形状：刻画分布曲线的形状，一般有两个指标，峰度，刻画了一个分布在中心位置的集中程度，偏度，刻画了一个分布向某个方向偏移的程度。

### 重要的概率函数

1. 概率密度（质量）函数PDF：这个是常用的，不需要解释
2. 累计分布函数CDF：随机采样获得小于某一给定值的概率
3. 生存函数SF：随机采样获得大于等于某一给定值的概率
4. 分位数函数PPF：CDF的反函数，即根据分位给出相应的分位数
5. 逆生存函数，SF的反函数，即根据生存率给出数值。

## 离散分布
### 伯努利分布
### 泊松分布
确保能够正确的理解这两种分布！！
## 正态分布
正态分布的各种属性，大家都很熟悉，就先跳过。
## 来自于正态分布的连续型分布
### t分布
t分布用于解决对总体均值的估计。当总体均值未知的时候，总体方差也一定是未知的，这是因为计算方差需要使用均值。

已知总体服从于正态分布，随机抽样得到的样本均值服从于何种分布呢？这需要分两种情况来看，如果一个样本中包含的样本点数量特别多，则样本均值也服从于正态分布，这是根据中心极限定理可以推导出来的，即大量的独立同分布随机变量的平均值趋向于正态分布；但如果样本点数量很少呢，比如只有几个样本点，在这种情况下，统计学家证明了样本均值服从于一个和正态分布很接近，但是要比正态分布尾巴更长一些的分布--t分布。t分布相比于正态分布，多了一个参数，即自由度，如果样本中包含n个样本点，那么这组样本计算出来的均值就服从于自由度为n-1的t分布(计算均值会丢失一个自由度)。当自由度很大时，一般超过25时，就认为t分布和正态分布已经没有区别了。

已知小样本条件下样本均值的抽样分布服从于t分布。因为一般书籍中只给出了标准t分布的累计分布函数表，所以要将这一抽样分布转换为标准t分布（即减（总体）均值除方差），即：
$$
    \frac{\bar{x}-\mu}{s/\sqrt{n}} = \frac{\bar{x}-\mu}{SEM} \sim t(n-1)
$$
当然这里的总体均值$\mu$是未知的，也是我们希望求解的，所以转换上述公式可以给出$\mu$的95%置信区间（两个标准差）即：
$$
    \mu \in [\bar{x}-\frac{st_{n-1,0.975}}{\sqrt{n}}, \bar{x}-\frac{st_{n-1,0.025}}{\sqrt{n}}]
$$
下面是一个代码的案例，假设从一个正态总体中抽取了包含10个样本点的样本，取值为$(1.21, 1.32, 1.31, 1.27, 1.40, 1.21, 1.32, 1.35, 1.28, 1.30)$
请问总体均值的95%置信区间为多少？

In [13]:
# 样本数据
sample = (1.21,1.32,1.31,1.27,1.40,1.21,1.32,1.35,1.28,1.30)
# 样本均值
sample_mean = np.mean(sample)
# 样本标准差
sample_std = np.std(sample)
# 样本量
sample_n = len(sample)
# 自由度
df = sample_n - 1
# t分布的0.025分位数
q_0025 = stats.t(df).ppf(0.025)
# t分布的0.975分位数
q_0975 = stats.t(df).ppf(0.975)
# 95%置信区间的上界和下界
confidence_down = sample_mean - (sample_std * q_0975)/np.sqrt(sample_n)
confidence_up = sample_mean - (sample_std * q_0025)/np.sqrt(sample_n)
print('总体均值的95%%置信区间为[%.3f, %.3f]' % (confidence_down, confidence_up))

总体均值的95%置信区间为[1.257, 1.337]


这一个结果就说明了总体的均值处于[1.257, 1.337]中的概率约为95%，超出这一范围的概率只有5%。

### 卡方分布
**定义**：如果一个随机变量服从于标准正态分布，那么n个这样独立的随机变量的平方和就会服从于卡方分布，即
$$
    \sum_{i=1}^N X_i^2 \sim \mathcal{X}_N^2, \forall X_i\sim \mathcal{N}(0,1)
$$

举一个例子，一个药品制造商接到一个药品订单，需要发货的药片的标准差为$\sigma=0.05$。从下一批次的药片开始，$n=13$的随机样本的重量分别为$(3.04, 2.94, 3.01, 3.00, 2.94, 2.91, 3.02, 3.04, 3.09, 2.95, 2.99, 3.10, 3.02)$。请问，这一批次药片的标准差是否超过的准许值呢？

在这一问题中，原假设自然是药片的标准差符合要求，是从标准差为0.05的正态总体中抽取的。
备择假设就是药片的标准差超过了0.05。

在原假设成立的条件下，我们抽取的样本就是服从于正态分布的，均值未知，标准差已知。既然总体均值未知，就使用样本均值来代替总体均值，不过这造成了丢失一个自由度。我们将这些样本减均值除标准差，就会得到一组服从于标准正态分布的样本，当然也是一组随机变量。这一组随机变量的平方和就服从于自由度为n-1的卡方分布。
$$
    \mathcal{x}^2=\sum_{i=1}^{13}[\frac{x_i-\bar{x}}{\sigma}]^2 \sim \mathcal{X}_{12}^2 
$$

In [16]:
sample = (3.04,2.94,3.01,3.00,2.94,2.91,3.02,3.04,3.09,2.95,2.99,3.10,3.02)
sample_mean = np.mean(sample)
# 计算出卡方统计量
x2 = np.sum(((np.array(sample) - sample_mean) / 0.05)**2)
print('卡方统计量观测值为：%.4f' % x2)
# 该卡方统计量的观测值在卡方分布中的分位
prob = stats.chi2(12).cdf(x2)
print('当前的卡方统计量观测值在自由度为12的卡方分布中的分位为：%.3f' % prob)

卡方统计量观测值为：15.9631
当前的卡方统计量观测值在自由度为12的卡方分布中的分位为：0.807


也就是说，如果原假设成立，随机抽取13个样本，计算出相应的卡方统计量之后，超过当前观测值的概率依然有1-0.807=0.193。这说明不能够推翻原假设，即可以认为总体是服从于标准差为0.05的正态分布。

如果修改一下该问题，发货的药片要求均值为3.0，标准差为0.05，那么如何检验这批药片是否合格呢？回答这一问题的要分两步，第一步是通过t分布去检验样本的均值是否支持总体均值为3.0，第二步通过卡方分布检验总体标准差是否为0.05。代码如下

In [17]:
# 如果总体均值为3.0这一假设成立，那么样本均值就服从以3.0为中心，以$0.05/\sqrt{13}$为标准差的t分布。
sample_mean = np.mean(sample)
sample_mean_standard = (sample_mean - 3.0) / (0.05/np.sqrt(13))
print('该样本的t统计量观测值为：%.3f' % sample_mean_standard)
prob = stats.t(13).cdf(sample_mean_standard)
print('该样本的t统计量观测值在t分布中的分位为：%.3f' % prob)

该样本的t统计量观测值为：0.277
该样本的t统计量观测值在t分布中的分位为：0.607


从统计量观测值在t分布的分位来看，显然不足以推翻原假设。药片的总体均值确实为3.0。值得注意的是，这里由于使用的是总体的均值和标准差，而不是样本的均值和标准差，所以不会丢失自由度，依然为13。对标准差的检验如下

In [19]:
# 计算出卡方统计量
x2 = np.sum(((np.array(sample) - 3.0) / 0.05)**2)
print('卡方统计量观测值为：%.4f' % x2)
# 该卡方统计量的观测值在卡方分布中的分位
prob = stats.chi2(13).cdf(x2)
print('当前的卡方统计量观测值在自由度为13的卡方分布中的分位为：%.3f' % prob)

卡方统计量观测值为：16.0400
当前的卡方统计量观测值在自由度为13的卡方分布中的分位为：0.753


显然，也是可以通过卡方检验的。
### F分布
该分布以Ronald Fisher先生的名字命名，他发明了F分布来决定方差分析中的统计量。

如果想要检查两个组别是否具有相同的方差，我们就必须计算两组标准差平方的比值：
$$
    F = \frac{S_x^2}{S_y^2}
$$
其中$S_x$就是第一组样本的样本标准差，$S_y$就是第二组样本的样本标准差。这两个样本所对应的总体都是正态分布，在这一条件下，$F$这一统计量就会服从于F分布。由于样本标准差通常和样本量有关系，所以计算出来的F统计量要标注出第一组样本和第二组样本的样本量分别为多少？即两个自由度，不过由于计算样本标准差时需要使用到样本均值，会丢失一个自由度，所以如果第一组样本有n个样本点，第二组样本有m个样本点，那么所构造出来的F统计量自由度即为$(n-1, m-1)$。

案例：假设有两种测量角度的方法，对同一个夹角进行反复测量，方法一得到的多次测量结果为：$(20.7,20.3,20.3,20.3,20.7,19.9,19.9,19.9,20.3,20.3,19.7,20.3)$，方法二得到的多次测量结果为：$(19.7,19.4,20.1,18.6,18.8,20.2,18.7,19.0)$
那么请问这两种测量方法的波动程度相同吗？

In [21]:
sample_1 = (20.7,20.3,20.3,20.3,20.7,19.9,19.9,19.9,20.3,20.3,19.7,20.3)
sample_2 = (19.7,19.4,20.1,18.6,18.8,20.2,18.7,19.0)
sample_1_n = len(sample_1)
sample_2_n = len(sample_2)
sample_1_std = np.std(sample_1)
sample_2_std = np.std(sample_2)
# F统计量的观测值
F_statis = sample_1_std**2 / sample_2_std**2
print('F统计量的观测值为：%.3f' % F_statis)
# F统计量观测值在F分布中的分位为
F_prob = stats.f(sample_1_n-1, sample_2_n-1).cdf(F_statis)
print('F统计量观测值在F分布中的分位为：%.3f' % F_prob)

F统计量的观测值为：0.256
F统计量观测值在F分布中的分位为：0.022


因为处于0.022分位，所以可以以95%的统计显著性来说，两个测量方法的方差并不相同。