# 深入浅出统计学（Head First Statistics）笔记

> 包含内容：
> * 可视化
> * 概率
> * 分布
> * 统计
> * 置信区间
> * 回归

## 信息的图形化

> 将枯燥的数据转化为直观的图形进行观察

### 饼图
饼图能够很清楚看到各部分之间的比例关系，以及占整体的大小。
![](./pie.png)

### 条形图

垂直条形图，横轴表示类，纵轴表示频数或百分数。

![](条形图.png)

水平条形图，更直观观察每个类的数据
![](条形图2.png)

堆积条形图：直观比较频数
![](堆积条形图.png)

分段条形图：直观看出占整体的比例，以及频数
![](分段条形图.png)

### 直方图

直方图外观与条形图相近，但直方图中长方形的面积与频数成比例，长方形之间没有间隔，区间宽度一样。
![](直方图.png)

![](直方图2.png)
在区间不一致情况下，需要对长方形的高度进行变换，长方形的高度为频数密度= 频数 / 组距

### 累积频数图

表示到达某个特定情况或数值的总频数
![](累积频数图.png)

### 箱线图
使用箱线图可以看到四分位数，中位数，四分位距，上下界，异常值等
![](箱线图.png)

## 统计

### 常用统计量

- 均值 
- 中位数
- 众数


### 数据的分散性

- 极差（全距）： 上界 \- 下界
- 四分位数：Q1 下四分位数，Q2 中间四分位数（中位数）， Q3 上四分位数

![](四分位数.png)
- 四分位距（IQR)：上四分位数 \- 下四分位数

同样有：
- 十分位距
- 百分位距：位于数据范围K%处的数值


### 数据的变异性

- 方差 ： 度量数据分散性的一种方法，数值与均值的距离的平方数的平均值 $\sigma^2 = \frac{\sum(x - \mu)^2}{n}$
- 标准差：方差的开方 $\sigma$


**方差计算方式**

- $\sigma^2 = \frac{\sum(x - \mu)^2}{n}$


- $\sigma^2 = \frac{\sum x^2}{n} - \mu^2$

- 标准分：使用标准分可以对**不同数据集**的数据进行比较，这些数据集的均值和标准差不一样。 $z = \frac{x - \mu}{\sigma}$

有时也会说  标准分 = 距离均值的标准差个数

## 概率

- 事件：表示有概率发生的任何事情。
- 概率的度量尺度为 0-1，0代表不可能发生，1代表一定发生

- 事件 A 发生的概率： $P(A) = \frac{n(A)}{n(S)}$ , S为概率空间或样本空间，表示所有可能结果

- 对立事件 ： $P(A') = 1 - P(A)$ 

- 互斥事件：两事件不可能同时发生 ,$P(A \cap B) = 0$

- 相交事件：两事件可能同时发生

- 穷举事件：$P(A \cup B) = 1$

- 相关事件：如果几个事件互有影响，则为相关事件

- 独立事件：如果几个事件互不影响，则为独立事件 $P(A | B) = P(A)$ , $P(A \cap B) = P(A) * P(B)$

- $P(A \cup B) = P(A) + P(B) - P(A \cap B)$


### 条件概率


- $P(A | B) = \frac{P(A \cap B)}{P(B)}$  事件 B 发生的前提下 A 发生的概率，等于 A,B 同时发生的概率除以 B 发生的概率 ” | “表示已知条件


- 全概率公式：$P(B) = P(B \cap A) + P(B \cap A') = P(A)P(B|A) + P(A')P(B|A')$  , 全概率公式是贝叶斯定理的分母


- $P(A \cap B) = P(B \cap A)$

- 贝叶斯定理 ：如果有n个互斥且穷举的事件，$A_1$ 至 $A_n$,而B是另一个事件，则：$P(A | B) = \frac{P(A) P(B | A)}{P(B)} = \frac{P(A) P(B | A)}{P(A) P(B | A) + P(A') P(B | A')}$

#### 使用概率树表示条件概率
![](概率树.png)

## 离散概率分布的应用

- 离散概率的期望 $E(X) = \sum x P(X=x)$
- 离散概率的方差 $Var(X) = E(X-\mu)^2$ ，也就是求$(X - \mu)^2$的期望，即 $Var(X) = \sum(x - \mu)^2 P(X=x)$


- **线性变换的通用公式：**

- $E(aX + b) = aE(X) + B$
- $Var(aX + b) = a^2 Var(X)$

- **具有相同概率分布的同一事件的多次发生,X的独立观测值，与X不同，但具有相同的概率分布，结果不一样**
- $E(X_1 + X_2 + …… + X_3) = nE(X)$
- $Var(X_1 + X_2 + …… + X_3) = nVar(X)$

- **多个独立随机变量的期望方差
- $E(X + Y) = E(X) + E(Y)$
- $E(X - Y) = E(X) - E(Y)$


- $Var(X + Y) = Var(X) + Var(Y)$
- $Var(X - Y) = Var(X) + Var(Y)$ 独立随机变量做减法运算，方差依然增大


- ** 线性变换也可以做相似运算**


- $E(aX + bY) = aE(X) - bE(Y)$
- $Var(aX + bY) = a^2 Var(X) + b^2 Var(Y)$

## 排列组合

- 直排列方式数目 $n!$
- 圆形排位 $(n - 1)!$


- **排列**

假设 n 个对象排位，第一类对象 K 个，第二类对象 j 个，第三类对象 m 个 ，则排位方式有 $\frac{n!}{k! j! m!}$


从 n 个对象中取出 r 个，这 r 个对象的排列数目：$P_n^r = \frac{n!}{(n-r)!}$


- **组合**

从 n 个对象中选出 r 个的数目 $C_n^r = \frac{n!}{r!(n-r)!}$

## 基本概率分布

### 几何分布 <font color="#dd0000">**X~Geo(p)**</font><br /> 


![](几何分布.png)

$P(X = r) = p q^{r -1}$ p为发生概率，q=1-p为不发生概率，r为在第几次发生

$P(X > r) = q^r$ 

$P(X \leq r) = 1- q^r$


#### 什么是几何分布

- 事件重复发生，且相互独立，概率不变化

- 几何分布在第一次发生时概率最大，所以其众数为1


#### 什么时候用几何分布

- 1、进行一系列的独立实验
- 2、单次实验的概率一致
- 3、目的是求第一次取得成功需要多少次实验


#### 几何分布的期望

由 $E(X) = \sum xP(X=x)$  ---> X ~ Geo(p) 的期望为  $E(X) = \frac{1}{p}$ 

#### 几何分布的方差

由 $Var(X) = E(X^2) - E^2(X)$  ---->  X~Geo(p) 的方差为 $Var(X)=\frac{q}{p^2}$

### 二项分布  <font color="#dd0000">**X~B(n,p)**</font>


![](二项分布.png)

#### 什么是二项分布  
- 单次事件属于几何分布，但问题是 n 次事件，其中发生 r 次的概率

- 二项分布的众数（概率最高的数值）, n为偶数，p=0.5时，众数为np; n 为奇数，p=0.5时，有两个众数，np左右的两个

- $P(X = r) = C_n ^r * P^r * (1-p)^{n-r}$


#### 二项分布的期望和方差
- $E(X) = np$

- $Var(X) = np(1-p)$


### 泊松分布  <font color="#dd0000">**X~Po($\lambda$)**</font>

![](泊松分布.png)

#### 什么是泊松分布 
- 单独事件在给定区间内随机、独立地发生
- 已知该区间内的事件平均发生次数$\lambda$，且为有限制。


$P(X = r) = \frac{e^{-\lambda} \lambda^r}{r!}$

#### 泊松分布的期望和方差

- $E(X) = \lambda$

- $Var(X) = \lambda$


#### 组合泊松变量

- X,Y 都符合泊松分布，则 X+Y 也符合泊松分布
- X+Y ~ Po($\lambda_x + \lambda_y$)

### 泊松分布与二项分布之间的转换

- 当 n 很大 且 p 很小时，可以使用 X~Po(np) 近似代替  X~B(n,p)

- $ n \geq 50 且 p \leq 0.1 $ 为典型的近似情况

### 正态分布  <font color="#dd0000">**X~N($\mu , \sigma^2$)**</font>

![](正态分布.png)
![](正态分布2.png)

> 前面的概率分布为离散型的概率分布，而正态分布(或者叫高斯分布)为连续性概率分布，处理连续数据时，所计算的是一个数值范围的概率。
> 从其概率分布图可以看到，众数，均值位于中央，具有最大的概率密度。

#### 概率密度函数 和 概率密度


- 概率密度函数： 概率密度线条下方的面积为概率，总面积为1


- 概率密度：  指出各个范围内的概率大小，通过概率密度函数进行描述


#### 正态分布的期望和方差


- $E(X) = \mu$

- $Var(X) = \sigma^2$


#### 求正态分布的概率

- 1、确定分布和范围
X~N($\mu , \sigma^2$)

- 2、标准化
$Z = \frac{X - \mu}{\sigma}$ (保留两位小数)

- 3、查找概率
![](正态分布3.png)
得到的是P(Z < z) 的概率

#### 正态分布的应用

