# 第五章 背景

本章简要介绍数据统计分析的主要概念。它定义了离散和连续的概率分布，然后概述了各种类型的研究设计。

## 总体，样本与统计推断
在对数据的统计分析中，我们通常使用一些被挑选出来的样本，基于这些样本上的一些计算结果，来猜测该样本背后所代表的那个总体的某些统计指标。所以样本最为重要的衡量标准就是它能够有效代表总体。

- **总体**：包含数据集中的所有元素
- **样本**：由总体中的一个或者多个观测值构成

一个总体是可能产生很多个不同的样本的。

比如当需要估计出全欧洲男性的平均身高时，显然不可能测量每一个人的身高，最具有可行性的方法就是挑选欧洲不同国家10000个成年男性作为样本来测量身高。在这一问题中，全欧洲成年男性就是**总体**，而随机挑选的1万个成年男性就是**样本**。我们使用样本的平均值去估计总体的平均值，这里的平均值对于总体而言我们称其为**待估参数**，而样本计算出来的平均值我们称之为**统计量**。这么区分的原因在于，总体的平均值是确定的，不发生变化的，只不过我们不知道而已。但是样本的平均值取决于具体的抽样结果，每一次不同的抽样结果，得到的平均数都会有所差异，所以样本上的平均值是一个随机变量，不过是一类特殊的随机变量，这一类随机变量是由于抽样的偏差影响统计结果所形成的，所以我们就给它一个专有名词，叫做**统计量**。

- **待估参数**：总体的某一项特征，确定但未知
- **统计量**：某一样本上的计算结果，不确定但已知，是一类特殊的随机变量
- **抽样分布**：统计量所服从的概率分布
- **统计推断**：基于样本所计算出的统计量对总体的待估参数进行有根据的估计

统计推断需要进一步讲解一个案例。以测量身高为例，比如样本的统计量为1.78米，那么就可以根据抽样分布的特性，给出对待估参数的估计结果，即全欧洲平均身高有95%的把握处于1.76米到1.80米之间。这就是一个统计推断过程，这里涉及到如何产生有代表性的样本，如何计算出样本上的某一个统计量，如何估计出该统计量的抽样分布，如何基于抽样分布对待估参数给出特定显著性水平下的估计结果。

## 概率分布
概率分布是描述总体和样本中数值分布的数学工具。可以分为两大类，即：

- **离散分布**：随机变量的取值只可能是孤立的几个数值点
- **连续分布**：随机变量的取值可能是在一个范围内的全部实数值

### 期望值和方差
期望值$E[X]$在概念上等同于均值，它在连续型随机变量上的计算公式为：
$$
    E[X] = \int_{\infty}^{\infty}xf(x)dx
$$
即某一取值与该取值出现概率相乘之后进行积分运算。而在离散型随机变量上的计算公式为：
$$
    E[x] = \sum_i^N x_i P_i
$$
即某一取值与该取值出现概率相乘之后进行加总运算。

方差刻画了随机变量或者数据的波动性，计算公式也比较简单，即
$$
    Var(X) = E[(X-E[X])^2]=E[X^2]-(E[X])^2
$$
即平方值的期望减去期望的平方值。

## 自由度
自由度（degree of freedom，DOF）的概念在力学领域中似乎是非常清楚的，但是在统计学应用中较难掌握。

在力学中，在一个平面上运动的粒子有“2个自由度”：在每一个时间点，可以使用两个参数($x,y$坐标)来定义粒子的位置。如果粒子在空间中移动，那么它就有了三个自由度，即$x,y,z$坐标。

推而广之，在统计学中，具有n个数值的一组数据有n个自由度。如果计算出这一组数据的均值，然后该组数据中的每一个元素都减去均值，得到的这一组数据就只有n-1个自由度啦。这是因为在已知均值的情况下，根据n-1个数值，就一定可以计算出剩余的一个数值，这样就有一个数值不自由啦，统计学上称之为丢失了一个自由度。

当我们要对数据进行分组对比时，情况就稍微复杂一点。例如，将一组病人分位三个小组，并计算出了各小组的平均值，那么就会丢失三个自由度。

自由度是衡量统计量抽样分布的重要指标，不同的自由度下估计出来的统计量所服从的抽样分布有较大的差异。一般来说，同一样本数下，自由度越低，统计量的波动性就越小。这一结论是很容易理解的，因为样本被限定，不能自由波动，计算出的结果也就相对固定了。

## 研究设计
研究设计又被称为统计试验设计。研究设计是指在开始抽样之前，就必须预先设定好整个统计分析的过程。这一预先设计是非常重要的，它可以保证统计人员不会被偶然的数据现象所吸引而得出错误的结论。进行统计试验设计，就可以提前根据数学理论进行预估，而不是关注于各种偶然事件。

2000年之后美国法律规定研究人员在开始收集数据之前必须记录并提交他们的试验方法和结果指标。在这一强制规定执行之前，在评估药物或者膳食补充剂对于治疗心血管疾病的研究中，57%的研究显示出阳性的结果，即有效的比例为57%，但是在执行这一强制规定之后，有效的比例就大幅下降至8%了。这一案例强有力地说明了统计试验设计对于得出可靠的统计分析结果是非常重要的，可以避免很多假阳性的问题。

### 术语
- 主要特征：指对结果会产生重要影响，同时在本次试验中进行了控制或者观测的因素
- 噪音特征：指对结果的影响较小，难以观测与控制，数量又特别多的因素

比如，影响一个人年收入的主要特征包括，年龄，学历，城市，性别，职业等，而噪音特征包括身高，爱好，口味，服装等等次要因素。

在统计学中，我们通常会把目标和特征之间的函数关系记为如下形式：
$$
    Y=\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_{12}X_1X_2 + \epsilon
$$
在上述数学模型中，$Y$是目标量或者因变量，$X_1,X_2,X_1X_2$是特征或者自变量，$\beta_1, \beta_2, \beta_{12}$是系数，$\epsilon$是模型拟合的残差，也就是目标量中不能够被该数学模型所解释的剩余部分。如果该模型比较正确地刻画了变量之间的关系，那么残差就应该对称分布于0值附近，呈现出正态分布的形式。

在上述数学模型中，像$\beta_1 X_1$这种只有一个特征的项，被称为主效应项，而如$\beta_{12}X_1X_2$这种多个特征汇合在一起的项，被称为交互项。从名字上也比较容易理解，所谓的主效应项，就是该特征能够独立地对目标量所产生的影响，而交互项，就是多个特征一起对目标量所产生的影响。

这种结构的模型通常被称为线性模型。尽管它里面含有乘积项，但是对于三个系数而言，都是一阶的，我们所需要求解的也是三个系数，所以，它被称为线性模型。

### 概述
研究设计的第一步是明确说明研究的目标。我们可能会有如下四种目标：
1. 比较两个组或者多个组，或一个组与某一个固定值对比，即**假设检验**
2. 筛选所观察到的反应以确定重要的因素或效应，即**变量选择**
3. 最大化或最小化响应（变异性，离目标的距离，稳健性等），即**最优化**
4. 建立一个回归模型来量化响应变量对输入过程的依赖性，即**统计建模**

一旦确定了想做什么，我们就必须决定如何做这件事。可以通过受控试验或观测获得必要的数据。在受控试验中，我们通常只改变单个参数，并研究该参数对输出的影响。

### 研究类型
1. 观察性或实验性
在观察性研究中，研究者只收集信息，但不与研究人群互动。相反，在实验研究中，研究人员有意地影响事件，并调查这些干预措施的效果。

2. 前瞻性或者回顾性
在前瞻性研究中，数据是从研究开始收集的。相反，回顾性研究是从以前的事件中获得的数据。

3. 纵向或横截面
在纵向调查中，研究者在一段时间内收集信息，数据沿着时间排布；在横截面调查中，数据是同一时间点上对很多样本的观测结果

4. 病例对照和队列研究
在病例对照研究中，首先对患者进行治疗，然后根据一定的标准选择他们纳入研究。相反，在一项队列研究中，首先选择感兴趣的受试者，然后对这些受试者进行一段时间的研究。

5. 随机对照试验
将受试者分为实验组和对照组。在一个试验中，可能会考虑多个影响因素，实验组与对照组通常只在某一个因素上存在差异，在遵守这一原则的基础上，尽可能做到随机分配。

6. 交叉研究
随机化的另一种方法是交叉设计的研究。交叉研究是一种纵向研究，受试者接受一系列不同的处理。每一个个体都接受每一个处理。为了避免因果的影响，处理分配的顺序应该是随机的。

比如在一项调查中，测试站姿和坐姿对受试者集中精神的影响，每一个受试者分别在站姿和坐姿下执行任务。坐姿和站姿的顺序是随机的，以消除任何序列效应。

### 实验设计
最高原则就是：按照某一指标分组后，其他方面充分随机化。

上文我们提到，我们有一些因素是不能够完全控制的，这些因素又会影响实验结果。比如在某一个实验中，实验人员的操作水平是影响结果的重要因素，实验的操作时间也会影响实验结果，那么我们就可以固定只使用一个实验人员，然后对每一组试验随机挑选一个时间进行操作。这代表了两种消除不可控因素影响的方法，第一是固定不可控因素；第二是通过大量随机来平均化不可控因素的影响。

#### 1. 样本选择
当选择个体的时候，你应该注意下面3点。
（1）样本应该能够代替研究的群体。
（2）在比较性研究中，组之间必须在已知的变异来源方面相似。比如你想对比不同学历对于收入的影响，那么学历是要比较的因素，根据学历进行分组，但是例如年龄，性别这种因素在组之间要尽量相似，不能够出现大学学历组的都是40岁以上的，而研究所学历组中都是30岁左右的。
（3）确保您选择的样本能够充分覆盖了您所需的所有参数！比如，你想对比不同学历对于收入的影响时，你选择的样本应该覆盖20多岁，30多岁一直到60多岁的各个年龄段，否则不具有完全的代表性。

#### 2. 样本量
当样本量过小时，随机性太大，无法判断观测到的现象是否具有普适性。而样本量过大又会带来成本过高，而经费不足。所以如何确定合适的样本量呢？在确定样本大小时，你必须知道：
- 在一项调查中，待估参数的变异度是多大？
- 与待估参数的标准偏差相对应，期望效应的大小是多少呢？

考虑这两个问题，就是进行功效分析。这在行为研究中尤其重要，如果没有经过仔细的样本量计算，研究计划就不具有实际可行性。

#### 大规模随机双盲对照试验
在确定了样本的选择方法以及样本量之后，就要开始收集试验数据啦。在进行试验，收集数据的过程中，要注意的原则就是大规模随机双盲对照，大规模指的是样本量尽可能多，随机是指每一样本进入实验组还是对照组要尽可能做到随机，双盲是指操作试验的人和参与试验的人都并不清楚哪边是对照组，哪边是实验组，所谓的对照就是实验组和对照组之间的duizhao