# 基本概念

## 定量资料的统计描述
- [定量资料的频数图和频数表](#频数表和频数图)
- 集中趋势的描述
    - [均数](#算数均数-arithmetic-mean)
    - [几何均数](#几何均数-geometric-mean)
    - [中位数](#中位数-median)
    - [百分位数](#百分位数-percentile)
- 离散趋势
    - [方差](#方差-variance)
    - [标准差](#标准差-standard-deviation)
    - [全距](#全距-range,-R)
    - [四分位数范围](#四分位数范围-inter-quartile-range,-IQR)
    - [变异系数](#变异系数-coefficient of-variation,-CV)
    
## 分类资料的统计描述
- 

# 定量资料

## 频数表和频数图

### 编制方法
1. 求全距
2. 确定组段数和组距
3. 确定各个组段的上下限
4. 统计各组段的频数和频率
5. 制表或绘图。在各组组距不等时，通常用频数图。

### 用途
1. 揭示资料分布类型
2. 显示频数分布的集中趋势和离散趋势
3. 有助于发现某些特大或特小的可疑值
4. 便于作进一步的统计分析

---

## 集中趋势 Central Tendency

### 算数均数 arithmetic mean
1. 总体均数
2. 样本均数

#### 原始数据的计算
$$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $$

#### 频数表的计算
$$ \bar{X} = \frac{\sum_i f_i X_i}{\sum_i f_i} $$

### 几何均数 geometric mean

适用于对数对称分布。

#### 原始数据的计算
$$ G = (\prod_{i=1}^n X_i)^{\frac{1}{n}} $$
或者
$$ G = \log^{-1} (\frac{\sum_i \log X_i}{n}) $$

#### 频数表的计算
$$ G = \log^{-1} (\frac{\sum_i f_i \log X_i}{\sum_i f_i}) $$

### 中位数 median
$$ M = 
    \begin{cases}
        X_{\frac{n+1}{2}} , & \quad n 为奇数时\\
        \frac{1}{2} (X_{\frac{n}{2}} + X_{\frac{n}{2}+1}), & \quad n 为偶数时
    \end{cases}
$$


- 适用于任何分布的定量资料，还可用于开口资料（i.e. 物确切最大值和/或无确切最小值的资料）。
- 当资料成(对数)对称分布时，理论上中位数与(几何)均数相等

### 百分位数 percentile
总体百分位数$\theta_x$的意义是指研究问题所对应的全体研究对象中，有x%的观察值小于等于$\theta_x$，同样有(100-x)%的观察值大于等于$\theta_x$。

样本资料的百分位数是描述一组数据某百分位的位置指标，用$P_x$表示。

$$ P_x = \begin{cases}
    \frac{1}{2}(X_{[nx\%]} + X_{[nx\%]+1}), & \quad nx\%为整数\\
    X_{[nx\%]+1}, & \quad nx\%为非整数
\end{cases}$$

---


## 离散趋势 Dispersion Tendency

### 方差 variance
描述了全体研究对杨取值的平均离散程度。

$$ S^2 = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{n-1} $$

### 标准差 standard deviation
由于样本均数适用于对称分布的资料，因而样本标准差一般适用于近似对称分布的样本资料。

$$ S = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2} = \sqrt{\frac{1}{n-1}(\sum_{i=1}^n X_i^2 - \frac{1}{n}(\sum_{i=1}^n X_i)^2 )} $$

### 全距 range, R
亦称极差。

$$ R = X_{max} - X_{min} $$

### 四分位数范围 inter-quartile range, IQR
i.e. ($P_{25}$,$P_{75}$)，刻画了中位数两侧的50%资料的离散程度。
稳定性交全距更优，对于非对称分布的资料而言，这也是一个较好的统计描述指标。

### 变异系数 coefficient of variation, CV
若几组资料的量纲不同，或均数相差悬殊，比较各组间的变异度宜用变异系数。

$$ CV = \frac{S}{\bar{X}} \times 100\% $$

---

# 分类资料

## 分类资料频数表
类似。

## 常用统计量
常称为相对数统计量，简称相对数。
### 比 ratio
又称相对比。

$$ ratio = \frac{A}{B} $$

### 比例 proportion
又称百分比

### 率 rate
具有时期概念的指标，在某一时段内某现象发生的频率或强度。

$$ rate = \frac{\mathrm{该时期内发生某事的观察单位数}}{\mathrm{某时期开始时暴露的观察单位数}} $$

$$ incidence\; rate = \frac{\mathrm{发生某事件的观察单位数}}{\sum (观擦单位 \times 观察时间)} $$

$$ 累计发生率 = 1 - \exp(- 发生率 \times 该时期的时间长度) $$

## 相对数应用的注意事项

- 计算相对数时分母不宜过小
- 分析时要根据研究设计和研究问题选择相对数指标
- 不随意对多个样本进行合并计算
- 比较相对数时应注意可比性

## 率的标准化

### 基本思想
选择一个具有代表性的人群作为参照人群，按参照人群的年龄构成信息进行标化，消除两地年龄构成不同的不可比现象。

### 直接标化方法
$$ P' = \frac{1}{N} \sum_{i=1}^m N_i p_i = \sum_{i=1}^m \frac{N_i}{N} p_i$$

### 间接标化方法

---

# 统计表与统计图

## 统计表

### 编制
- 结构：标题、标目、线条和数字等
- 原则：重点突出，主谓分明，层次清楚
- 要求：
    - 标题：概括主要内容
    - 标目：纵标目与横标目，简明清楚
    - 线条：近量少
    - 数字：阿拉伯数字
    - 备注

### 种类
- 简单表
- 复合表

## 统计图

### 条图 bar graph

### 饼图 pie graph

### 线图 line graph

### 半对数线图

### 直方图 histogram

### 散点图 scatter graph