## 概率基础

### 数据的集中趋势

我们经常会使用以下几个指标来描述一组数据的集中趋势：

1. 均值 - 均值代表某个数据集的整体水平，我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值的缺点是容易受极值的影响，虽然可以使用加权平均值来消除极值的影响，但是可能事先并不清楚数据的权重；对于正数可以用几何平均值来替代算术平均值。
    - 算术平均值：$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$，例如计算最近30天日均DAU、日均新增访客等，都可以使用算术平均值。
    - 几何平均值：$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$，例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等，就可以使用几何平均值。
2. 中位数 - 将数据按照升序或降序排列后位于中间的数，它描述了数据的中等水平。
3. 众数 - 数据集合中出现频次最多的数据，它代表了数据的一般水平。数据的趋势越集中，众数的代表性就越好。众数不受极值的影响，但是无法保证唯一性和存在性。

例子：有A和B两组数据

In [1]:
'''
A组：5, 6, 6, 6, 6, 8, 10
B组：3, 5, 5, 6, 6, 9, 12
'''

'\nA组：5, 6, 6, 6, 6, 8, 10\nB组：3, 5, 5, 6, 6, 9, 12\n'

A组的均值：6.74，中位数：6，众数：6。

B组的均值：6.57，中位数：6，众数：5, 6。

> **说明**：在Excel中，可以使用AVERAGE、MEDIAN、MODE函数分别计算均值、中位数和众数。求中位数也可以使用QUARTILE.EXC或QUARTILE.INC函数，将第二个参数设置为2即可。

对A组的数据进行一些调整。

In [3]:
'''
A组：5, 6, 6, 6, 6, 8, 10, 200
B组：3, 5, 5, 6, 6, 9, 12
'''

'\nA组：5, 6, 6, 6, 6, 8, 10, 200\nB组：3, 5, 5, 6, 6, 9, 12\n'

A组的均值会大幅度提升，但中位数和众数却没有变化。

> **思考**：怎样判断上面的200到底是不是一个异常值？

|        | 优点                             | 缺点                                 |
| ------ | -------------------------------- | ------------------------------------ |
| 均值   | 充分利用了所有数据，适应性强     | 容易收到极端值（异常值）的影响       |
| 中位数 | 能够避免被极端值（异常值）的影响 | 不敏感                               |
| 众数   | 能够很好的反映数据的集中趋势     | 有可能不存在（数据没有明显集中趋势） |

> **练习1**：在“概率基础练习.xlsx”文件的表单“练习1”中，有一组用户订单支付金额的数据，计算订单的均值、中位数、众数。
>
> **练习2：**在“概率基础练习.xlsx”文件的表单“练习2”中，有一组商品销售量的数据，现计划设定一个阈值，对阈值以下的商品对应的分销商进行优化，应该选择什么作为阈值比较合适？

### 数据的离散趋势

如果说数据的集中趋势，说明了数据最主要的特征是什么；那么数据的离散趋势，则体现了这个特征的稳定性。例如 A 地区冬季平均气温`0`摄氏度，最低气温`-10`摄氏度；B 地区冬季平均气温`-2`摄氏度，最低气温`-4`摄氏度；如果你是一个特别怕冷的人，在选择 A 和 B 两个区域作为工作和生活的城市时，你会做出怎样的选择？

1. 极值：就是最大值（maximum）、最小值（minimum），代表着数据集的上限和下限。

    > **说明**：在Excel中，计算极值的函数是MAX和MIN。

2. 极差：又称“全距”，是一组数据中的最大观测值和最小观测值之差，记作$R$。一般情况下，极差越大，离散程度越大，数据受极值的影响越严重。

3. 四分位距离：$ IQR = Q_3 - Q_1 $。

4. 方差：将每个值与均值的偏差进行平方，然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大，就意味着数据越不稳定、波动越剧烈，因此代表着数据整体比较分散，呈现出离散的趋势；而方差越小，意味着数据越稳定、波动越平滑，因此代表着数据整体比较集中。
    - 总体方差：$$ \sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N} $$。
    - 样本方差：$$ S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1} $$。

    > **说明**：在Excel中，计算总体方差和样本方差的函数分别是VAR.P和VAR.S。

5. 标准差：将方差进行平方根运算后的结果，与方差一样都是表示数据与期望值的偏离程度。
    - 总体标准差：$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}} $$。
    - 样本标准差：$$ S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}} $$。

    > **说明**：在Excel中，计算标准差的函数分别是STDEV.P和STDEV.S。

> **练习3**：复制“概率基础练习.xlsx”文件的表单“练习1”，将复制的表单命名为“练习3”，计算订单支付金额的最大值、最小值、极差、方差和标准差。

### 数据的频数分析

频数分析是指用一定的方式将数据分组，然后统计每个分组中样本的数量，再辅以图表（如直方图）就可以更直观的展示数据分布趋势的一种方法。

频数分析的意义：

1. 大问题变小问题，迅速聚焦到需要关注的群体。
2. 找到合理的分类机制，有利于长期的数据分析（维度拆解）。

例如：一个班有40个学生，考试成绩如下所示：

In [4]:
'''
73, 87, 88, 65, 73, 76, 80, 95, 83, 69, 55, 67, 70, 94, 86, 81, 
87, 95, 84, 92, 92, 76, 69, 97, 72, 90, 72, 85, 80, 83, 97, 95, 
62, 92, 67, 73, 91, 95, 86, 77
'''

'\n73, 87, 88, 65, 73, 76, 80, 95, 83, 69, 55, 67, 70, 94, 86, 81, \n87, 95, 84, 92, 92, 76, 69, 97, 72, 90, 72, 85, 80, 83, 97, 95, \n62, 92, 67, 73, 91, 95, 86, 77\n'

用上面学过的知识，先解读学生考试成绩的数据。

均值：81.275，中位数：83，众数：95。

最高分：97，最低分：55，极差：42，方差：118.15，标准差：10.87。

但是，仅仅依靠上面的数据是很难对一个数据集做出全面的解读，我们可以把学生按照考试成绩进行分组，如下所示，大家可以自行尝试在Excel或用Python来完成这个操作。

| 分数段   | 学生人数 |
| -------- | -------- |
| <60      | 1        |
| [60, 65) | 1        |
| [65, 69) | 5        |
| [70, 75) | 6        |
| [75, 80) | 3        |
| [80, 85) | 6        |
| [85, 90) | 6        |
| [90, 95) | 6        |
| >=95     | 6        |

> **练习4**：在“概率基础练习.xlsx”文件的表单“练习4”中，有某App首页版本迭代上线后的A/B测试数据，数据代表了参与测试的用户7日的活跃天数，请分析A组和B组的数据并判定哪组表现更优。
>
> **练习5**：在“概率基础练习.xlsx”文件的表单“练习5”中，有某App某个功能迭代上线后的A/B测试数据，数据代表了参与测试的用户30日的产品使用时长，请分析A组和B组的数据并判定哪组表现更优。

### 数据的概率分布

#### 基本概念

1. 随机试验：在相同条件下对某种随机现象进行观测的试验。随机试验满足三个特点：
    - 可以在相同条件下重复的进行。
    - 每次试验的结果不止一个，事先可以明确指出全部可能的结果。
    - 重复试验的结果以随机的方式出现（事先不确定会出现哪个结果）。

2. 随机变量：如果$X$指定给概率空间$S$中每一个事件$e$有一个实数$X(e)$，同时针对每一个实数$r$都有一个事件集合$A_r$与其相对应，其中$A_r=\{e: X(e) \le r\}$，那么$X$被称作随机变量。从这个定义看出，$X$的本质是一个实值函数，以给定事件为自变量的实值函数，因为函数在给定自变量时会产生因变量，所以将$X$称为随机变量。

    - 离散型随机变量：数据可以一一列出。
    - 连续型随机变量：数据不可以一一列出。

    如果离散型随机变量的取值非常庞大时，可以近似看做连续型随机变量。

3. 概率质量函数/概率密度函数：概率质量函数是描述离散型随机变量为特定取值的概率的函数，通常缩写为**PMF**。概率密度函数是描述连续型随机变量在某个确定的取值点可能性的函数，通常缩写为**PDF**。二者的区别在于，概率密度函数本身不是概率，只有对概率密度函数在某区间内进行积分后才是概率。

#### 离散型分布

1. 伯努利分布（*Bernoulli distribution*）：又名**两点分布**或者**0-1分布**，是一个离散型概率分布。若伯努利试验成功，则随机变量取值为1。若伯努利试验失败，则随机变量取值为0。记其成功概率为$p (0 \le p \le 1)$，失败概率为$q=1-p$，则概率质量函数为：

    $$ {\displaystyle f_{X}(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.} $$

2. 二项分布（*Binomial distribution*）：$n$个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为$p$。一般地，如果随机变量$X$服从参数为$n$和$p$的二项分布，记为$X\sim B(n,p)$。$n$次试验中正好得到$k$次成功的概率由概率质量函数给出，$\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}$，对于$k= 0, 1, 2, ..., n$，其中${n \choose k}={\frac {n!}{k!(n-k)!}}$。

3. 泊松分布（*Poisson distribution*）：适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为：$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$，泊松分布的参数$\lambda$是单位时间（或单位面积）内随机事件的平均发生率。

    > **说明**：泊松分布是在没有计算机的年代，由于二项分布的运算量太大运算比较困难，为了减少运算量，数学家为二项分布提供的一种近似。

#### 分布函数和密度函数

对于连续型随机变量，我们不可能去罗列每一个值出现的概率，因此要引入分布函数的概念。
$$
F(x) = P\{X \le x\}
$$
如果将$ X $看成是数轴上的随机坐标，上面的分布函数表示了$ x $落在区间$ (-\infty, x) $中的概率。分布函数有以下性质：

1. $ F(x) $是一个单调不减的函数；
2. $ 0 \le F(x) \le 1$，且$ F(-\infty) = \lim_{x \to -\infty} F(x) = 0 $， $F(\infty) = \lim_{x \to \infty} F(x) = 1$；
3. $ F(x) $是右连续的。

概率密度函数就是给分布函数求导的结果，简单的说就是：
$$
F(x) = \int_{- \infty}^{x} f(t)dt
$$

#### 连续型分布

1. 均匀分布（*Uniform distribution*）：如果连续型随机变量$X$具有概率密度函数$f(x)=\begin{cases}{\frac{1}{b-a}} \quad &{a \leq x \leq b} \\ {0} \quad &{\mbox{other}}\end{cases}$，则称$X$服从$[a,b]$上的均匀分布，记作$X\sim U[a,b]$。

2. 指数分布（*Exponential distribution*）：如果连续型随机变量$X$具有概率密度函数$f(x)=\begin{cases} \lambda e^{- \lambda x} \quad &{x \ge 0} \\ {0} \quad &{x \lt 0} \end{cases}$，则称$X$服从参数为$\lambda$的指数分布，记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性（无后效性），这表示如果一个随机变量呈指数分布，它的条件概率遵循：$P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \forall s,t \ge 0$。

3. 正态分布（*Normal distribution*）：又名**高斯分布**（*Gaussian distribution*），是一个非常常见的连续概率分布，经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布，记为$X \sim N(\mu,\sigma^2)$，其概率密度函数为：$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。

    <img src="https://gitee.com/jackfrued/mypic/raw/master/20210716155507.png" width="80%">

    “3$\sigma$法则”：

    <img src="https://gitee.com/jackfrued/mypic/raw/master/20210716155542.png" width="75%">

    正态分布有一个非常重要的性质，**大量统计独立的随机变量的平均值的分布趋于正态分布**，这就是**中心极限定理**。中心极限定理的重要意义在于，我们可以用正态分布作为其他概率分布的近似。

    一个例子：假设某校入学新生的智力测验平均分数与标准差分别为 100 与 12。那么随机抽取 50 个学生，他们智力测验平均分数大于 105 的概率是多少？小于 90 的概率是多少？

    本例没有正态分布的假设，还好中心极限定理提供一个可行解，那就是当随机样本数量超过30，样本平均数 近似于一个正态变量，标准正态变量$ Z = \frac {\bar{X} - \mu} {\sigma / \sqrt{n}} $。

    平均分数大于 105 的概率为：$ P(Z \gt \frac{105 - 100}{12 / \sqrt{50}}) = P(Z \gt 5/1.7) = P(Z \gt 2.94) = 0.0016$。

    平均分数小于 90 的概率为：$ P(Z \lt \frac{90-100}{12/\sqrt{50}}) = P(Z < -5.88) = 0.0000 $。

    > **说明**：上面标准正态分布的概率值可以查表得到。

4. 伽马分布（*Gamma distribution*）：假设$X_1, X_2, ... X_n$为连续发生事件的等候时间，且这$n$次等候时间为独立的，那么这$n$次等候时间之和$Y$（$Y=X_1+X_2+...+X_n$）服从伽玛分布，即$Y \sim \Gamma(\alpha,\beta)$，其中$\alpha=n, \beta=\lambda$，这里的$\lambda$是连续发生事件的平均发生频率。

5. 卡方分布（*Chi-square distribution*）：若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布（数学期望为0，方差为1）的随机变量，则随机变量$Z$的平方和$X=\sum_{i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布，记为$X \sim \chi^2(k)$。

### 其他内容

#### 条件概率和贝叶斯定理

**条件概率**是指事件A在事件B发生的条件下发生的概率，通常记为$P(A|B)$。设A与B为样本空间$\Omega$中的两个事件，其中$P(B) \gt 0$。那么在事件B发生的条件下，事件A发生的条件概率为：$P(A|B)=\frac{P(A \cap B)}{P(B)}$，其中$P(A \cap B)$是联合概率，即A和B两个事件共同发生的概率。

事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，**贝叶斯定理**就是对这种关系的陈述，即：$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$，其中：

- $P(A|B)$是已知B发生后，A的条件概率，也称为A的后验概率。
- $P(A)$是A的先验概率（也称为边缘概率），是不考虑B时A发生的概率。
- $P(B|A)$是已知A发生后，B的条件概率，称为B的似然性。
- $P(B)$是B的先验概率。

按照上面的描述，贝叶斯定理可以表述为：`后验概率 = (似然性 * 先验概率) / 标准化常量`​，简单的说就是后验概率与先验概率和相似度的乘积成正比。

#### 大数定理

样本数量越多，则其算术平均值就有越高的概率接近期望值。

1. 弱大数定律（辛钦定理）：样本均值依概率收敛于期望值，即对于任意正数$\epsilon$，有：$\lim_{n \to \infty}P(|\bar{X_n}-\mu|>\epsilon)=0$。
2. 强大数定律：样本均值以概率1收敛于期望值，即：$P(\lim_{n \to \infty}\bar{X_n}=\mu)=1$。

#### 假设检验

假设检验就是通过抽取样本数据，并且通过**小概率反证法**去验证整体情况的方法。假设检验的核心思想是小概率反证法（首先假设想推翻的命题是成立的，然后试图找出矛盾，找出不合理的地方来证明命题为假命题），即在**零假设**（null hypothesis）的前提下，估算某事件发生的可能性，如果该事件是小概率事件，在一次研究中本来是不可能发生的，但现在却发生了，这时候就可以推翻零假设，接受**备择假设**（alternative hypothesis）。如果该事件不是小概率事件，我们就找不到理由来拒绝之前的假设，实际中可引申为接受所做的无效假设。

假设检验会存在两种错误情况，一种称为“拒真”，一种称为“取伪”。如果原假设是对的，但你拒绝了原假设，这种错误就叫作“拒真”，这个错误的概率也叫作显著性水平$\alpha$，或称为容忍度；如果原假设是错的，但你承认了原假设，这种错误就叫作“取伪”，这个错误的概率我们记为$\beta$。

### 总结

描述性统计通常用于研究表象，将现象用数据的方式描述出来（用整体的数据来描述整体的特征）；推理性统计通常用于推测本质（通过样本数据特征去推理总体数据特征），也就是你看到的表象的东西有多大概率符合你对隐藏在表象后的本质的猜测。

##  相关和回归

我们知道，可以通过对指标的维度拆来解寻找指标变化的原因。当我们找到问题的原因时，自然会进一步思考一个问题：指标变化的原因这么多，其中的关键因素又是哪个呢？例如，我们在工作场景中时不时会讨论这些问题：

1. 电商类产品想知道哪个品类销售对整体销售贡献更大；
2. 渠道运营想知道哪个渠道的用户对整体活跃作用更大；
3. 负责留存的想知道哪个客群对整体的留存关系更大；
4. 产品想知道到底哪些维度（城市、年龄、接入设备等）会影响整体活跃。

还有很多类似的场景，在这种情况下我们不仅要要找到数据变化的原因，还需要明确出不同原因的重要性。因为实际工作中可用资源有限，只能集中优势资源解决核心问题。

### 相关分析基本概念

相关性分析，指对两个或多个指标进行分析，评估它们两两之间联系或相互影响的程度。相关性分析不仅可以分析出多个指标间是否存在相关关系，还能给出相关程度的量化值。在进行相关性分析时，我们会使用“相关系数”定量给出几个指标间联系和影响的程度，通常用 $ \rho $ 来表示，计算公式为：

$$
\rho = \frac {cov(X, Y)} {\sqrt{var(X) \cdot var(Y)}}
$$
需要注意的是，$ \rho $  只能用来度量线性关系，它的取值在 $ [-1, 1] $ 之间。数据中的离群值会对 $ \rho $ 产生影响，在计算时必须先剔除，实际使用相关关系时，还需要**关注相关关系的稳定性**。

我们用 $ \rho $ 值判断指标的相关性时遵循以下两个步骤。

1. 判断指标间是正相关、负相关，还是不相关。
    - 当 $ \rho \gt 0 $，认为指标间是正相关，也就是两者的趋势一致。如果指标 A 与指标 B 的 $ \rho \gt 0 $，那么指标 A 上涨，指标 B 也会上涨；反之亦然。
    - 当 $ \rho \lt 0 $，认为指标间是负相关，也就是两者的趋势相反。如果指标 A 与指标 B 的 $ \rho \lt 0 $，那么指标 A 上涨，指标 B 会下降；反之亦然。
    - 当 $ \rho = 0 $，认为指标间是不相关的，但并不代表两个指标是统计独立的。
2. 判断指标间的相关程度。
    - 当 $ \rho $ 的值在 $ [0.5,1] $ 之间，认为指标间是强相关，指标间的业务联系非常紧密。
    - 当 $ \rho $ 的值在 $ [0.1,0.5) $ 之间，认为指标间是弱相关，指标间的业务联系不太紧密。
    - 当 $ \rho $ 的值在 $ [0,0.1) $ 之间，认为指标间是无相关，指标间的业务联系无任何联系，也就是说当我们去运营指标 A 时，指标 B 不会产生相应的变化。

### 相关分析应用场景

事实上，相关性分析的应用场景非常多，基本上当问到“这两个东西有什么关系”、“哪个指标的作用（贡献或价值）更大”、“我们应该重点解决哪个问题”这类问题时，都可以用相关性分析给出比较准确的回答，非常便于产品运营找到解决问题的核心抓手。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210713095938.png" width="80%">

在使用相关分析时，应注意以下几个方面：

1. 业务意义：当我们想知道A指标的情况时，可以监控B指标。
2. 注意事项：千万不要将相关关系判断为因果关系，相关关系是伴随关系而不是因果关系。
3. 强相关关系才是有业务价值的，建议寻找相关系数在 0.6 以上甚至 0.8 以上的指标。
4. 相关关系的本质是 Y 的变化有多少能被 X 解释，跟 X 和 Y 之间的斜率大小无关。

### Excel计算相关系数

1. 方法一：使用 CORREL 函数。
2. 方法二：使用“数据分析”模块的“相关系数”功能。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210713164021.png" width="75%">

### 相关分析案例

#### 分析哪个客群的留存对整体留存贡献更大

留存的运营中我们最常看的就是新客的留存和活跃客群的留存，用来评估哪个客群的留存与整体的留存联系更紧密，以便制定后续运营的策略。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210928214403.png" style="zoom:65%;">

利用Excel进行相关分析的结果如下所示。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210928214522.png" style="zoom:65%;">

可以看出，活跃访客的留存率与整体留存率的相关是强相关；而新增访客的留存率与整体留存率的相关是弱相关，所以如果要提升整体留存率，我们的产品运营资源应当更多地投放给活跃用户，以提升整体的留存率；而新增访客，虽然不会拿到很多运营资源，但是我们也要去深入分析为什么新增访客的留存的贡献比较小，适时做一些提升这部分客群与整体留存的策略。

#### 案例2：找出对购买转化率贡献最高的渠道

基本上电商运营会同时部署多个渠道，包括线上电商平台以及线下的门店。由于现有某产品从各个渠道获客的用户在产品上的购买转化率，需要评估哪些渠道的用户对整体购买转化率贡献最大，后续将重点营销此渠道。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210928214725.png" style="zoom:65%;">

#### 案例3：分析哪些因素对 DAU 的影响更大

我们分析 DAU 时常会将它拆解为各种维度来分析，这里我们分析与 DAU 联系最紧密的维度到底是哪些，以帮助我们制定针对性的运营策略，如下图所示。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210928215043.png" style="zoom:65%;">

对于这样的报表，我们需要找出到底是哪几个城市、哪个操作系统，以及哪个年龄段的用户对于 DAU 的影响最大。如果能找出来这个关系，那么后续要提升 DAU，就有非常清晰的方向。


### 线性回归

如果只有一个自变量 X，而且因变量 Y 和自变量 X 之间的数量变化关系呈现近似的线性关系，就可以建立一元线性回归方程，通过自变量 X 的值来预测因变量 Y 的值，这就是所谓的**一元线性回归预测**，回归方程如下所示：
$$
Y = aX + b
$$
我们可以通过历史数据（已知的 $ X $ 和 $ Y $ ），确定参数 $ a $ 和 $ b $ 的值，还原出回归方程，从而实现预测。很显然，$ a $和 $ b $ 的取值可以有很多种选择，那么什么才是最好的 $ a $ 和 $ b$ 呢？如果把真实值记为 $ y $，把预测值记为 $ \hat{y} $，那么让 $ SSR $ 值最小的 $ a $ 和 $ b $ 就是最好的 $ a $ 和 $ b $ ，称之为**最小二乘解**，其中$ SSR $ 值计算公式如下所示：
$$
SSR = \sum_{i=1}^{n}(y_i - \hat{y_i})^2
$$
损失函数是凹函数，找到使函数最小的`a`和`b`的值，可以通过向凹函数的拐点进行逼近的方式来找到更好的`a`和`b`的值，具体的公式如下所示：

$$
a^\prime = a + (-1) \times \frac {\partial loss(a, b)} {\partial a} \times \Delta \\
b^\prime = b + (-1) \times \frac {\partial loss(a, b)} {\partial b} \times \Delta
$$
对于上面的求 $ SSR $ 的函数来说，可以用下面的公式计算偏导数：
$$
f(a, b) = \frac {1} {N} \sum_{i=1}^{N}(y_i - (ax_i + b))^2  \\
\frac {\partial {f(a, b)}} {\partial {a}} = \frac {2} {N} \sum_{i=1}^{N}(-x_iy_i + x_i^2a + x_ib) \\
\frac {\partial {f(a, b)}} {\partial {b}} = \frac {2} {N} \sum_{i=1}^{N}(-y_i + x_ia + b)
$$
上面的方法称为**梯度下降法**。

在Excel中，可以使用“数据分析”模块的“”来实现线性回归。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714073655.png" width="75%">

对于回归分析，最为重要的是评价回归的结果是否理想，这关系到能否通过回归方程去预测将来，我们先看看决定系数（Multiple R-Squared，通常称之为$ R^2 $）。在统计学习中，决定系数用于度量因变量的变化中可由自变量解释部分所占的比例，也就是你的回归模型的解释力是否良好，$ R^2 $ 的值越接近`1`越好。
$$
SS_{tot} = \sum_{i}(y_{i} - \bar {y})^2 \\
SS_{res} = \sum_{i}(y_{i} - \hat {y_i})^2 \\
R^2 = 1 - \frac {SS_{res}} {SS_{tot}}
$$

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714074159.png" width="60%">

接下来我们还要对回归方程的显著性进行检验，主要包括 t 检验（回归系数的检验）和F检验（回归方程的检验）。对于F检验（F-statistic）的结果，主要关注其 p-value ，如果 p-value 小于0.05，那么说明拟合效果是不错的。



## 方差分析和参数估计

### 方差分析

#### 基本概念

在产品运营中，我们会遇到各种需要评估运营效果的场景，包括促活的活动是否起到作用、A/B 测试的策略有无成效等等。具体例如，产品升级前的平均 DAU 是 155 万，产品升级后的平均 DAU 是 157 万，那么如何判断 DAU 提升的 2 万是正常的波动，还是升级带来的效果呢？对比同一组数据在实施某些策略前后的数据变化，判断数据波动是不是某一因素导致的，这种方法我们称之为方差分析。方差分析通常缩写为 ANOVA（Analysis of Variance），也叫“F 检验”，用于两个及两个以上分组样本的差异性检验。简单的说，**分析差异的显著性是否明显的方法就是方差分析**。

举一个例子，如果我们需要分析优惠券的金额对用户的购买转化率是否能起到有效作用，我们可以将数据分成以下三个组：

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210713085210.png" width="60%">

用户购买行为是随机的，购买率很高的不会很多，购买率极低的也不会很多，绝大部分用户的购买率都集中在某个值附近，这个值我们叫作整体购买率的平均值。如果每个客群分组自身的购买率均值与这个整体购买率平均值不一致，就会出现以下两种情况。

1. 第一种情况

    蓝色分组的购买率平均值（蓝色线）比整体平均值（黑色线）要高，有可能是最右边那个很高的购买率把分组的均值抬升的，同时蓝色分组的数据分布很散（方差大），此时不能有十足把握说明该组用户的购买转化率很高。

    <img src="https://gitee.com/jackfrued/mypic/raw/master/20210713085506.png" width="50%">

2. 第二种情况

    绿色分组的购买率平均值（绿色线）比整体平均值（黑色线）要高，但是绿色分组的数据非常集中，都集中在分组的平均值（绿色线）附近，此时我们可以认为该组的转化率平均值与整体有明显区别。

    <img src="https://gitee.com/jackfrued/mypic/raw/master/20210713085608.png" width="50%">

为了更好表述上面的问题，我们可以引入“组内方差”的概念，即描述每个分组内部数据分布的离散情况。如下图所示，对于上面蓝色和绿色分组的“组内方差”，显然蓝色的组内方差更大，绿色的组内方差更小。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210713085808.png" width="75%">

综上所述，如果上面三个分组的用户购买率平均值不在中线（整体购买率）左右，而是有明显的偏高或偏低，并且该组内的每个转化率都紧紧围绕在该组购买率平均值的附近（即组内方差很小）。那么我们就可以断定：该组的购买率与整体不一致，是该组对应优惠金额的影响造成的。

#### 定量分析

如果要进行定量分析，可以使用 F 检验值和 F crit 临界值这两个指标。F 检验值用来精确表达这几组差异大小的，F crit临界值是一个判断基线：

- 当 F > F crit，这几组之间的差异超过判断基准了，认为不同优惠金额的分组间的购买率是不一样的，优惠金额这个因素会对购买率产生影响，也就是说通过运营优惠金额这个抓手，是可以提升用户购买转化率的；
- 当 F < F crit，则认为不同优惠金额的分组间的购买率是一样的，优惠金额这个因素不会对购买率产生影响，也就是说需要继续寻找其他与购买转化率有关的抓手。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210713090505.png">

> **说明**：图中 SS 代表方差、df 代表指标自由度、MS 是均方差、P-value 是差异的显著性水平。

上图是用 Excel 得出的 A、B、C 三组的方差分析结果，如图所示 F  < F crit，所以从定量分析角度，可以判定优惠金额不会对购买率产生影响。

#### 实施方法

实施方差分析可以分为以下三步走：

1. 判断样本是否满足“方差分析”的前提条件

    - 每个分组中的每个值都必须来自同一个总体样本；
    - 方差分析只能分析满足正态分布的指标，事实上，在产品运营中大部分指标都是正态分布，例如：
        - 几乎所有的转化率都满足正态分布：购买率、点击率、转化率、活跃率、留存率、复购率等。
        - 几乎所有的业务量都满足正态分布：客单价、每日新增用户数、渠道引流的流量等。
        - 几乎所有的用户画像指标都满足正态分布：年龄、城市、登录次数、使用时长等。
    - 分析的样本必须是随机抽样

2. 计算 F 检验值和 F crit 临界值

3. 如果有差异，需要评估差异大小

    我们用一个新的指标来表示：$ R^2=SSA / SST $，其中 $ R^2 $ 表示差异大小，$ SSA $ 是组间误差平方和，$ SST $ 是总误差平方和。

    - 当 $ R^2 \gt 0.5 $，认为各个分组间的差异非常显著；
    - 当 $ R^2 $ 在 $ [0.1, 0.5] $ 之间时，认为各个分组间的差异一般显著；
    - 当 $ R^2 \lt 0.1 $ 时，认为各个分组间的差异微弱显著。

> **练习**：打开“方差分析练习.xlsx”文件，完成练习1。

#### 多因素方差分析

上面的案例是针对一种策略来分析效果。我们把这种形式的方差分析叫作单因素方差分析，实际工作中，我们可能需要研究多种策略（例如运营中的渠道、活动、客群等）对结果的影响，我们称之为多因素方差分析。例如我们会在多个运营渠道上安排多种运营活动，评价各个渠道的转化率。此时，影响转化率的因素有渠道和活动两个因素，我们可以使用“无重复双因素方差分析”来检查数据。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714125251.png" width="75%">

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714130853.png" width="75%">

#### 应用场景

工作中遇到以下两类场景就可以使用方差分析：

1. 同一个客群在实施某个策略前后的指标对比。
2. 两个或多个客群对比同一指标，评估同一指标在不同客群上的差异。

<img src="https://gitee.com/jackfrued/mypic/raw/master/20210714131318.png" width="85%">

### 参数估计

在产品运营的工作中，数据分析常会遭遇诸多非常让人困扰的情况，例如：产品运营面对的数据量动辄百万级、千万级，带来的就是分析速度急剧下降，跑个数等一两天时间已经是很理想情况；另外，在很多场景下，我们都只能拿到部分数据（样本），而无法获取全量数据（总体）。在这种情况下我们就必须通过分析非常小量样本的特征，再用这些特征去评估海量总体数据的特征，可以称之为**样本检验**。

**推断型统计的核心就是用样本推测总体**。在实际生产环境中，可能无法获得所有的数据，或者即便获取了所有的数据，但是没有足够的资源来分析所有的数据，在这种情况下，我们都需要用非常小量的样本特征去评估总体数据的特征，这其中的一项工作就是参数估计。

参数估计应用的场景非常的多，例如：

1. 在产品侧，我们可以用参数估计的方式评估A/B测试的效果。
2. 在运营侧，我们可以用参数估计的方式优化活动配置和推荐策略。
3. 在市场侧，我们可以用参数估计的方式制定广告投放策略。

#### 实施步骤

1. 确定分析的置信水平

2. 确定估计的参数类型

3. 计算参数估计的区间

    - 数值型指标：$ A = z \times 样本标准差 / \sqrt{样本数量} $，其中 $ z $ 的值可以通过查表得到，如果置信水平选择95%，那么 $ z $ 的值就是1.96。大部分运营指标都是数值型指标，例如DAU、ARPU、转化率等。
    - 占比型指标：$ A = z \times \sqrt{占比 \times (1 - 占比) / 样本数量} $，$ z $ 值同上。占比型指标如性别占比、渠道占比、品类占比等。

    最终得到的估计区间就是：$ [样本均值 - A, 样本均值 + A] $。



### 聚类和降维

## 数据分析方法论