# 集中趋势的度量

## 集中趋势

> 指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在

### 分类数据：众数

> 一组数据中出现次数最多的变量值；众数主要用于反映分类数据的集中趋势，也适用于顺序数据和数值型数据；在数据量较大的情况下，众数才有意义

> 众数是一个位置代表值，它不受数据中极端值的影响，是具有明显集中趋势点的数值，是一组数据分布的最高峰点所对应的数值，众数可能不存在，也可能存在多个

### 顺序数据：中位数

> 一组数据排序后处于中间位置上的变量值；中位数主要用于测度顺序数据的集中趋势，也适用于数值型数据，但不适用于分类数据；它是一个位置代表值，不受数据中极端值的影响

> 当数据个数为偶数时，计算得出的中位数不在原始数据中

### 顺序数据：四分位数

> 也称为四分位点，是一组数据排序后处于 25% 和 75% 位置上的值；四分位数是通过`3`个点将全部数据等分为`4`部分，其中每部分包含`25%`的数据；中间的四分位数就是中位数

> 计算得出的四分位数也不一定在原始数据中

### 数值型数据：平均数

> 也称为均值，是一组数据相加后除以数据的个数得到的结果，是集中趋势的最主要测度值，平均数主要适用于数值型数据，不适用于分类数据和顺序数据；容易受到极端值的影响

#### 简单平均数

> 根据未经分组数据计算的平均数

$$ \overline{x}=\frac{X_1+X_2+...+X_n}{n} = \frac{\sum^n_{i=1}X_i}{n} $$ 

#### 加权平均数

> 根据分组数据计算的平均数。

> 假设原始数据被分成$k$组，各组的`组中值`分别用$M_1, M_2, ... M_k$表示，各组变量值出现的频数分别用$f_1,f_2, ... f_k$表示，则样本的加权平均数的计算公式为：

$$ \overline{x} = \frac{M_1f_1 + M_2f_2 + ... + M_kf_k}{f_1+f_2+...+f_k} = \frac{\sum^k_{i=1}M_if_i}{n}$$

### 众数、中位数和平均数的比较

> 从分布的角度看，总数始终是一组数据分布的最高峰，中位数是处于一组数据中间位置上的值，而平均数则是全部数据的算术平均。

>对于具有单峰分布的大多数数据而言，众数、中位数、平均数之间具有以下关系：
> + 如果数据的分布是对称的，众数 = 中位数 = 平均数
> + 如果数据是左偏分布，说明数据存在极小值，必然拉动平均值向极小值一方靠，平均值 < 中位数 < 众数
> + 如果数据是右偏分布，说明数据存在极大值，必然拉动平均值向极大值一方靠，众数 < 中位数 < 平均值

![image.png](attachment:image.png)

> 众数是一组数据分布的峰值，不受极端值的影响；其缺点是具有不唯一性，一组数据可能右多个众数，也可能没有众数；众数只有在数据较多时才有意义，当数据量较少时，不宜使用众数；众数主要适用作为分类数据的集中趋势测度值

> 中位数是一组数据中间位置上的代表值，不受数据极端值的影响；当一组数据的分布偏斜程度较大时，使用中位数也许是一个好的选择；中位数主要适合作为顺序数据的集中趋势测度值

> 平均数是针对数值型数据的计算的，而且利用了全部数据信息，它是实际应用中最广泛的集中趋势测度值。当数据是对称分布或接近对称分布时，`3`个代表值相等或接近相等，这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是易受数据极端值影响，对于偏态分布的数据，平均数的代表性较差。因此，当数据为偏态分布，特别是偏斜程度较大时，可以考虑选择中位数或众数

# 离散程度的度量

> 数据的离散程度是数据分布的另一个特征，它反应的是各变量值远离其中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性越差；离散程度越小，其代表性越好。

> 不同类型的数据有不同的离散程度测度值

## 分类数据：异众比率

> 指非众数组的频数占总频数的比例
$$ V_r = \frac{\sum{f_i} - f_m}{\sum{f_i}} = 1 - \frac{f_m}{\sum{f_i}} $$
> 式中：$ \sum{f_i} $ 为变量值的总频数，$ f_m $ 为众数组的频数

> 异众比率主要用于衡量众数对一组数据的代表程度，主要适用于测度分类数据的离散程度，也适用于顺序数据和数值型数据

> 异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好

## 顺序数据：四分位差

> 也称为内距或四分间距，是上四分位数与下四分位数之差，用$Q_d$表示，其计算公式为：
$$ Q_d = Q_U - Q_L $$

> 四分位差反映了中间`50%`数据的离散程度，其数据越小，说明中间的数据越集中；其数据越大，说明中间的数据越分散；四分位差不受极值影响。主要适用于测度顺序数据的离散程度，也适用于数值型数据，不适用于分类数据

## 数值型数据：极差

> 也称全距，一组数据的最大值与最小值之差，其计算公式为：
$$ R = max(x_i) - min(x_i) $$
> 式中，$ max(x_i) $ 和 $ min(x_i) $ 分别表示一组数据的最大值和最小值

> 极差是描述数据离散程度的最简单的测度，计算简单，易于理解，但容易受极端值的影响；由于极差只是利用了一组数据两端的信息，不能反映出中间数据的分散状况，不能准确的描述数据的分散程度

## 数值型数据：平均差

> 也称平均绝对离差，是各变量值与其平均数离差绝对值的平均数  

> 未分组数据计算平均差的公式为：
$$ M_d = \frac{\sum^n_{i=1}|x_i-\overline{x}|}{n} $$

> 分组数据计算平均差的公式为：
$$ M_d = \frac{\sum^k_{i=1}|M_i-\overline{x}|f_i}{n} $$

> 平均差以平均数为中心，反映了每个数据与平均数的平均差异程度，能全面准确地反映一组数据的离散状况；平均差越大，说明数据的离散程度越大；反之，则说明数据的离散程度越小

## 数值型数据：方差 & 标准差

> 各变量值与其平均数离差平方的平均数，方差的平方根称为标准差

> 方差的计算公式：
> + 未分组数据
$$ s^2 = \frac{\sum^n_{i=1}(x_i - \overline{x})^2}{n-1} $$
> + 分组数据
$$ s^2 = \frac{\sum^k_{i=1}(M_i - \overline{x})^2f_i}{n-1} $$

## 相对位置的度量：标准分数

> 变量值与其平均数的离差除以标准差后的值，也称标准化值或`z`分数，设标准分数为`z`，则有：
$$ Z_i = \frac{x_i - \overline{x}}{s} $$
> 式中，$ \overline{x} $ 是平均数，$ s $ 是标准差

> 标准分数给出了一组数据中各数值的相对位置，标准分数具有平均数为`0`，标准差为`1`的特性

## 经验法则

> 当一组数据对称分布时，经验法则表明：
> + 约有`68%`的数据在平均数 $\pm1$ 个标准差的范围之内
> + 约有`95%`的数据在平均数 $\pm2$ 个标准差的范围之内
> + 约有`99%`的数据在平均数 $\pm3$ 个标准差的范围之内

> 在正负三个标准差之外的数据，在统计上称为`离群点`

## 切比雪夫不等式

> 对任何分布形状的数据都适用，它提供的是"下界"，也就是"所占比例至少是多少" 
> 对于任意分布形状的数据，根据切比雪夫不等式，至少有$ (1 - 1/K^2) $ 的数据洛在 $\pm k$ 个标准差之内（其中`k`是大于1的任意值，但不一定是整数），对于`k`=2、3、4，该不等式的含义是：
> + 至少有`75%`的数据在平均数$\pm2$个标准差的范围之内
> + 至少有`89%`的数据在平均数$\pm3$个标准差的范围之内
> + 至少有`94%`的数据在平均数$\pm4$个标准差的范围之内

## 相对离散程度：离散系数

> 也称为变异系数，是一组数据的标准差与其相应的平均数之比，其计算公式为：
$$ v_s = \frac{s}{\overline{x}} $$

> 离散系数是测度数据离散程度的相对统计量，主要用于比较不同样本数据的离散程度。离散系数越大，说明数据的离散程度也大；离散系数越小，说明数据的离散程度也小

# 偏度与峰度度量

## 偏态

> 对数据分布对称性的测度，测度偏态的统计量是`偏态系数`，记作`SK`

> 如果一组数据的分布是对称的，则偏态系数等于`0`；如果偏态系数明显不等于`0`，表明分布是非对称的；若偏态系数大于`1`或小于`-1`，称为`高度偏态分布`；若偏态系数在`0.5 ~ 1`或`-1 ~ -0.5`之间，称为`中等偏态分布`；偏态系统越接近`0`，偏斜程度就越低

> 分布对称时，SK=0；当SK为正值时，表示正离差值较大，可判断为正偏或右偏；当SK为负值时，表示负离差值较大，可判断为负偏或左偏；SK的数值越大，表示偏斜的程度越大

## 峰态

> 对数据分布平峰或尖峰程度的测度，测度峰态的统计量是峰态系数，记作`K`

> 如果一组数据服从标准正态分布，则峰态系数等于`0`；如果峰态系数明显不等于`0`，表明分布比正态分布更平或更尖，通常称为平峰分布或尖峰分布

> 当`K>0`时为尖峰分布，数据的分布更集中；当`K<0`时为扁平分布，数据的分布越分散
![image.png](attachment:image.png)

# 总结

![image.png](attachment:image.png)