In [1]:
# 数理统计

数理统计基本知识

* 概率论：随机变量，分布已知，如满足二项分布、高斯分布等
* 数理统计：随机变量，分布未知，通过观察值，对分布推断 重复试验的样本数据，但是不知道其整体满足的分布情况 用观测数据取推断其分布
* 一个总体对应于一个随机变量$X$，$X_1,\dots,X_n$随机样本，与$X$独立同分布(分布函数$F$)，$x_1,\dots,x_n$样本值(观察值)，注意通常情况$y_1,\dots,y_n ≠ x_1,\dots,x_n$
* 理解：总体 $\to$ 样本 $\to$ 样本观察值 $\to$ 理论分布
* 统计量：例如样本平均值$\bar{X} = \frac{1}{n}\sum_{i=1}^nX_i$

最大似然估计

* 总体$X$的分布函数已知，但是一个或多个参数未知，我们借助样本来估计总体未知参数值

* 最大似然主要思想：对于$P(A \mid θ)$，在$θ$的可能取值范围内尽量选取使得$P(A \mid θ)$最大的$\widehat{θ}$

In [2]:
# 说明：使得取得的这组观察值最大可能的θ值，也就是说在这个最大的θ下的这组观测值被取到了
# 很多情况，我们只有数据，或者通过做试验来获取数据，我们要通过研究这些数据，看其分别满足什么样的分布，以此来求得分布的参数
# 引入随机变量，我们就能够研究数据满足某些条件的函数关系，有了函数，再进一步预测其它数据的结果也就可行了
# 因为观测数据是来自总体样本，通过观测数据获得的理论分布，同样适用于总体分布
# 均值：用来衡量数据的集中程度，我们把它叫做偏差，有算数平均数、几何平均数、加权平均数等
# 参考：https://baike.baidu.com/item/平均数?fromtitle=均值&fromid=5922988
# 一般有极差：最大值与最小值之差 残差：真实值与估计值 方差：真实值与均值差的平方和的均值 标准差：方差的平方根
# 使用何种方法去估计，感觉上有其合理性

最大似然估计(离散)

* 总体$X$，$X_1,\dots,X_n$来自$X$样本，独立同分布，相应的观测值为$x_1,\dots,x_N$，参数取值未知。利用已知观测值$x_1,\dots,x_n$(常数)对$θ$进行点估计

* 离散情况：实际中假定一$θ$，利用离散联合分布率定义，$X_1,\dots,X_n$取到观察值为$x_1,\dots,x_n$的概率为$L(θ)=\prod_{i=1}^np(x_i;θ)$。这一概率随着$θ$变化，称为样本似然函数

* 由于已知确认取到观测值，可认为取到这一样本的概率$L(θ)$比较大。显然，肯定不会去找让那些不能使样本$x_1,\dots,x_N$出现的$θ$作为估计值，如果$\Theta$里面有个能让$L(θ)$取到最大的$\widehat{θ}$，自然认为$\widehat{θ}$就是$θ$的估计值

In [None]:
# 说明：
# 似然函数是取得所有观测值的概率，自然是一个常数，取到每个样本点的概率积
# 要求满足取到这组观测值的最大的θ
# 似然函数在离散数据时是联合分布率，在连续时联合概率密度并不是概率密度

In [3]:
# 独立同分布的意思：因采集样本都是来自X，固然满足同分布，而独立，表示各个随机变量之间没有关联，互不影响
# 再比如一个班级的男女身高满足正太分布，自然是某个身高下的有多个同学，随机采集一部分样本，构成这个观测值得样本值自然也同样满足正太分布
# 通过这个观测值取求得整体的参数值，这就是似然估计的方法
# 如果说可以取多组观测值求得相应的θ，自然存在一个最大的θ，也自然这个最大的θ才是最合适的

最大似然估计(连续)

* 连续情况下联合概率密度为$\prod_{i=1}^nf(x_i;θ)$，由于连续变量在某一点概率为0，考虑随机变量$X$，$X_1,\dots,X_N$落在点$(x_1,x_2,\dots,x_n)$周围一个很小区域内(一维下就是求面积)的概率近似为$\prod_{i=1}^nf(x_i;θ)dx_i$，因此类似我们选取$θ$让$\prod_{i=1}^nf(x_i;θ)dx_i$($dx_i$是宽度)最大，但是由于$θ$和$dx_i$没关系，因此只需要$θ$让似然函数$\prod_{i=1}^nf(x_i;θ) = L(θ)$最大即可

* 注意：由于$(x_1,x_2,\dots,x_n)$已知，$L(θ)$只和$θ$有关，是个标准的函数，既不是概率，也不是条件概率密度

In [None]:
# 连续数据的联合概率密度，其实就是离散数据的一种近似
# 注意连续数据的似然函数不是概率，也不是条件概率密度，是一个标准的函数
# ∏ni=1f(xi;θ)=L(θ)

In [4]:
# 连续的点更是一个个小的区间

最大似然估计举例

* 设$X \sim \mathcal{N}(μ,\sigma^2)$，但$μ,\sigma^2$未知。$x_1,\dots,x_n$来自$X$的一个样本值，求$μ,\sigma^2$最大似然估计

* 已知$f(x;μ,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp\left[-\frac{1}{2\sigma^2}(x-μ)^2\right]$，似然函数

$$L(μ,\sigma^2) = \prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\left[-\frac{1}{2\sigma^2}(x_i-μ)^2\right]$$

* 联立求解$\frac{\partial lnL}{\partial μ}$ = 0，和$\frac{\partial lnL}{\partial \sigma^2}$ = 0，可得

$$\widehat{μ} = \frac{1}{n}\sum_{i=1}^nx_i = \bar{x}$$

$$\widehat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$

推导：

1、对似然函数两边取对数，得：

$$\begin{align*}
\ln L(μ,\sigma^2) &= \ln \prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp\left[-\frac{1}{2\sigma^2}(x_i-μ)^2\right] \\
&= \sum_{i=1}^n\ln \frac{1}{\sqrt{2\pi}\sigma}exp\left[-\frac{1}{2\sigma^2}(x_i-μ)^2\right] \\
&= \frac{1}{\sqrt{2\pi}}\sum_{i=1}^n\left[\ln e^{-\frac{1}{2\sigma^2}(x_i-μ)^2} - \ln \sigma\right] \\
&= -\frac{1}{\sqrt{2\pi}}\left[\sum_{i=1}^n\frac{(x_i-μ)^2}{2\sigma^2} + n\ln \sigma\right] \\
\end{align*}$$

2、对$μ$和$\sigma^2$分别求偏导，有：

$$\begin{align*}
\frac{\partial lnL}{\partial μ} &= -\frac{1}{\sqrt{2\pi}}\sum_{i=1}^n\frac{2(x_i-μ)(-1)}{2\sigma^2} \\
&= \frac{1}{\sqrt{2\pi}}\sum_{i=1}^n\frac{x_i-μ}{\sigma^2} \\
&= 0
\end{align*}$$

$$\Downarrow$$

$$\sum_{i=1}^nx_i-μ = 0 \Rightarrow \widehat{μ} = \frac{1}{n}\sum_{i=1}^nx_i = \bar{x}$$

$$和$$

$$\begin{align*}
\frac{\partial lnL}{\partial \sigma^2} &= -\frac{1}{\sqrt{2\pi}}\sum_{i=1}^n\frac{(x_i-μ)^2}{-2(\sigma^2)^2} - \frac{n}{2\sigma^2} \\
&= 0
\end{align*}$$

$$\Downarrow$$

$$\frac{\sum_{i=1}^n(x_i-μ)^2}{2(\sigma^2)^2} = \frac{n}{2\sigma^2} \Rightarrow \widehat{\sigma^2} = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$

最大似然估计 

* 多元高斯似然函数

$$\ln p(\mathbf{X \mid μ,Σ}) = -\frac{ND}{2}\ln(2\pi) - \frac{N}{2}\ln|\mathbf{Σ}| - \frac{1}{2}\sum_{n=1}^N(\mathbf{(x_n-μ)^\mathsf{T}\mathbf{Σ}^{-1}(\mathbf{x_n-μ}})$$

* 仿照一元的例子，可得

$$\mathbf{μ}_{ML} = \frac{1}{N}\sum_{n=1}^N\mathbf{x_n}$$
$$\mathbf{Σ}_{ML} = \frac{1}{N}\sum_{n=1}^N(\mathbf{x_n-μ_{ML}})(\mathbf{x_n-μ_{ML}})^\mathsf{T}$$

In [5]:
# 比例一个班级的男女生身高都服从各自的高斯分布，就是一个二元高斯分布

0-1分布

离散

* (0-1)分布
    * $p(x=1 \mid μ) = μ$
    * $p(x=0 \mid μ) = 1-μ$
    * Bern$(x \mid μ) = μ^x(1-μ)^{1-x}$
    * $E(x) = μ$
    * $var[x] = μ(1-μ)$
    
    推导：
    
    $$E(x) = \sum_{k=0,1}x_kμ_k = 1 \times μ + 0 \times (1-μ) = μ$$
    
    $$D(x) = \sum_{k=0,1}[x_k-E(x)]^2μ_k = (1-μ)^2 \times μ + (0-μ)^2 \times (1-μ) = μ(1-μ)$$


* 观测数据集$\mathcal{D} = \{x_1,\dots,x_N\}$，每次独立从$p(x \mid μ)$中抽取

* 似然函数

$$p(\mathcal{D} \mid μ) = \prod_{n=1}^Np(x_n \mid μ) = \prod_{n=1}^Nμ^{x_n}(1-μ)^{1-x_n}$$

In [6]:
# 显然，0-1分布就两类，一对数据样本中，要么属于0，要么属于1，属于离散型，多次重复0-1试验，也就是符合0-1分布，可用于二分类问题
# 而正太分布是连续型的，观察数据是落在一区间内的样本，多元高斯分布适用于多分类问题

最大似然

* 对数似然函数

$$\ln p(\mathcal{D} \mid μ) = \sum_{n=1}^N \ln p(x_n \mid μ) = \sum_{n=1}^N\bigr\{x_n \ln μ + (1-x_n) \ln (1-μ)\bigr\}$$

* 求导，可得

$$μ_{ML} = \frac{1}{N}\sum_{n=1}^Nx_n = \frac{m}{N}$$

In [7]:
# 对于多重0-1分布，我们通过最大似然的方法，得到样本的概率，类似与频率的解释

In [8]:
# 线性回归与逻辑回归

再看线性回归

* 使用$N$个数据点作为训练集，我们希望得到这个一个模型：给定一个新的输入$\widehat{x}$，预测它对应的输出$\widehat{y}$

* 模型

$$y^{(i)} = \mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)} + \epsilon^{(i)}$$

* 假设$\epsilon^{(i)}$是i.i.d高斯，$\epsilon^{(i)} \sim \mathcal{N}(0,\sigma^2)$，则有$\epsilon^{(i)} \sim \mathcal{N}(\mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)},\sigma^2)$，即

$$f(y^{(i)} \mid \mathbf{x}^{(i)},\mathbf{θ}) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\tfrac{(y^{(i)} - \mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)})^2}{2\sigma^2}}$$

* 似然函数

$$L(θ) = \prod_{i=1}^Nf(y^{(i)} \mid \mathbf{x}^{(i)},\mathbf{θ}) = \prod_{i=1}^N\frac{1}{\sigma\sqrt{2\pi}}e^{-\tfrac{(y^{(i)} - \mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)})^2}{2\sigma^2}}$$

* 对数似然函数

$$\begin{align*}
l(θ) &= \ln L(θ) = \sum_{i=1}^N \ln \frac{1}{\sigma\sqrt{2\pi}}e^{-\tfrac{(y^{(i)} - \mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)})^2}{2\sigma^2}} \\
&= N \ln \frac{1}{\sigma\sqrt{2\pi}} - \frac{1}{2\sigma^2}\sum_{i=1}^N\left(y^{(i)} - \mathbf{θ^\mathsf{T}}\mathbf{x}^{(i)}\right)^2
\end{align*}$$

* 与之前定义的损失函数一样，最小二乘等价于最大似然估计

In [None]:
# 说明：
# 误差项ϵ服从标准高斯，则真实数据也符合高斯分布
# 最大化似然函数，相当于最小化损失函数

In [9]:
# 说明：最大化l(θ)，自然是最小化∑i=1N(y^(i)−θ^𝖳x^(i))
# 等价于最小均方误差，是样本实际值与预测值之间的误差

逻辑回归

分类问题

* $y = \mathbf{w}^T\mathbf{x} + b$

* 非线性映射1

$$z = 
\begin{cases}
    0 & y < 0 \\
    0.5 & y = 0 \\
    1 & y>0
\end{cases}$$

* 非线性映射2

$$z = \frac{1}{1+e^{-y}}$$

* 假定$h(\mathbf{x}) = g(\mathbf{θ}^T\mathbf{x}) = \frac{1}{1+e^{-\mathbf{θ}^T\mathbf{x}}}$

* 假定

$$P(y=1 \mid \mathbf{x,θ}) = h(\mathbf{x})$$
$$P(y=0 \mid \mathbf{x,θ}) = 1 - h(\mathbf{x})$$

* 于是有：

$$P(y \mid \mathbf{x,θ}) = (h(\mathbf{x}))^y(1 - h(\mathbf{x}))^{1-y}$$

* 似然函数：

$$L(θ) = \prod_{i=1}^N\bigr(h\bigr(\mathbf{x^{(i)}}\bigr)\bigr)^{y^{(i)}}\bigr(1 - h\bigr(\mathbf{x^{(i)}}\bigr)\bigr)^{1-y^{(i)}}$$

* 对数似然函数

$$\begin{align*}
l(θ) &= \log L(θ) \\
&= \sum_{i=1}^Ny^{(i)} \log h\bigr(\mathbf{x^{(i)}}\bigr) + \bigr(1 - y^{(i)}\bigr) \log \bigr(1 - h\bigr(\mathbf{x^{(i)}}\bigr)\bigr)
\end{align*}$$

* 等价：凸函数和交叉熵

In [10]:
# 说明最大化l(θ)，自然是最小化∑i=1N-y(i)logh(x(i))-(1−y(i))log((1−h(x(i))就是逻辑回归的损失函数
# 存在全局最优解

证明：逻辑回归的损失函数是凸函数，思路证明其二阶导Hessian半正定

再利用凸函数的性质，多个凸函数的累加和仍然是凸函数，所以只要证明$- \log h(\mathbf{x})$和$- \log \bigr(1 - h(\mathbf{x})\bigr)$是凸函数即可

已知$h(\mathbf{x}) = \frac{1}{1+e^{-\mathbf{θ^Tx}}}$

已知$hθ(x)(1−hθ(x))$是一常数

先证明$- \log h(\mathbf{x})$是凸函数，由对数性质，转换为 $\log(1 + e^{-θ^Tx})$

对$θ$求导，得：

$$\begin{align*}
    \nabla_θ\left[\log(1 + e^{-θ^Tx})\right] &= \bigr(\frac{-e^{-θ^Tx}}{1 + e^{-θ^Tx}}\bigr)x \\
    &= \bigr(\frac{1}{1 + e^{-θ^Tx}} -1 \bigr)x \\
    &= \bigr(h(x) -1\bigr)x
  \end{align*}$$
  
再对$θ$求一次导，得

$$\nabla_θ^2 = h_θ(\mathbf{x})[1-h_θ(\mathbf{x})]\mathbf{xx^T}$$

利用Hessian矩阵的定义，在矩阵两边分别乘以$\mathbf{z^T}$和$\mathbf{z}$，得

$$\mathbf{z^T}\left[h_θ(\mathbf{x})(1-h_θ(\mathbf{x}))\mathbf{xx^T}\right]\mathbf{z} = h_θ(\mathbf{x})(1-h_θ(\mathbf{x}))(\mathbf{x^Tz})^2 \ge 0$$

继而，得正$- \log h(\mathbf{x})$是凸函数，采用同样思路证明$- \log \bigr(1 - h(\mathbf{x})\bigr)$是凸函数

最终证明逻辑回归的损失函数是凸函数

In [11]:
# 贝叶斯的观点
# 由于先验的信息，后验的分布也会发生变化，不再是原来那个分布了
# 最大似然的点估计到后验分布

再看贝叶斯公式

* 贝叶斯

$$p(θ \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid θ)p(θ)}{p(\mathcal{D})}$$

* 上式中

    * $p(\mathcal{D} \mid θ)$ 似然函数
    * $p(θ)$ 先验分布
    * $p(θ \mid \mathcal{D})$ 后验分布
    * 后验$\propto$似然$\times$先验
    
* 共轭先验

In [None]:
# 先验概率在似然函数的作用下发生了变化，也就是我取到这组观测数据，存在这么一个θ使得后验概率最大

In [12]:
# 说明：从直观上去理解，要求得后验概率，必然是在已知参数的情况下，也就是已知先验，并可知这个参数是使得取出样本最答可能的参数
# 共轭：一对相匹配的量成对出现
# 共轭分布：在贝叶斯统计中，如果先验分布和后验分布属于同类，则称先验分布和后验分布是共轭分布
# 共轭先验：先验分布在似然函数的作用下，使得先验分布和后验分布独立同分布，我们说先验分布是似然函数是共轭先验
# 一般有的共轭先验分布有：Bernoulli 分布的共轭分布是Beta，Multinomial 的共轭是 Dirichlet
# 共轭先验的作用：能够简化模型计算量，同时能够观察出先验分布在似然函数的作用下得到后验分布的
# 参考：https://zh.wikipedia.org/wiki/共轭先验

二项分布

* 二项分布

$$Bin(m\mid N,μ) =
\begin{pmatrix}
    N \\
    m
\end{pmatrix}μ^m(1-μ)^{N-m}$$

* 均值：$\mathbb{E}[m] = Nμ$
* 方差：$var[m] = Nμ(1-μ)$

Beta分布

* 先验分布选择为Beta分布，概率密度

$$\begin{align*}
Beta(μ|α,β) &= \frac{μ^{α-1}(1-μ)^{β-1}}{\int_0^1μ^{α-1}(1-μ)^{β-1}du} = \frac{\Gamma{(α+β)}}{\Gamma{(α)}\Gamma{(β)}}μ^{α-1}(1-μ)^{β-1} \\
&= \frac{1}{B(α,β)}μ^{α-1}(1-μ)^{β-1}
\end{align*}$$

* 均值：$\mathbb{E}[μ] = \frac{α}{α+β}$
* 方差：$var[μ] = \frac{αβ}{(α+β)^2(α+β+1)}$

* 后验分布，$N$次试验，$m$次正面朝上，$l$次反面朝上，$N = m + l$

$$p(μ|m,l,α,β) \propto Likelihood \times Beta(μ|α,β)$$

$$p(μ|m,l,α,β) \propto μ^{m + α -1}(1-μ)^{l + β -1}$$

$$\begin{align*}
p(μ|m,l,α,β) &= \frac{\Gamma(m + α + l + β)}{\Gamma(m + α)\Gamma(l + β)}μ^{m + α -1}(1-μ)^{l + β -1} \\
&= Beta(μ|m + α, l + β)
\end{align*}$$

* 均值：$\mathbb{E}[μ|m,l,α,β] = \frac{m + α}{m + α + l + β}$

In [None]:
# 说明：B(α,β)是beta函数
# beta函数与gamma函数之间的关系：B(α,β)=Γ(α)Γ(β)/Γ(α+β)
# Beta(μ|α,β)：beta分布
# 似然函数是二项分布μm(1−μ)N−m
# beta分布描述的概率的概率分布，能够反应非等可能事件的概率情况，一般生活中很多事件可能是非等可能的
# beta分布中的α和β参数描述了这种等可能性，如果两值相等，值的大小反应了哪个发生的可能性更大
# 描述的是前后两事件之间的关系

In [13]:
# 说明：beta分布从某种程度上说明了某件事件发生的概率的描述，比如说我们抛硬币，
# 如果说硬币是均匀的，也就是对应了等可能事件，概率是相同的，而大部分情况，每个
# 事件发生的概率是不相同的，固然beta分布可以描述这种事件发生的可能性，也就是
# 概率，而二项分布中，每个每次试验产生的样本点的概率就是用beta分布来表示，再对
# 概率的所有情况进行一个积分，概率范围从[0,1]，也就是有了要求满足某种情况的概率，
# 比如说我们要求x=1正面朝上的概率
# 再比如，我们的硬币是均匀的，也就是α=β=1，就有了均值概率

In [14]:
# 说明：beta分布可以看做是衡量概率的概率分布，也就是其可能性
# beta分布和二项分布是共轭先验，其后验分布也服从beta分布
# 在知道先验信息的情况，这边的先验信息是指beta分布，其后验分布也能够通过贝叶斯公式计算出
# 为什么要使用这个beta分布？
# 比如说生活中如果根据频率派的观点来计算一个人击球的击中率为击中次数/总次数，而有种情况是其
# 只打了一次，并且击中，按照频率统计，击中率即为100%，显然这个不合理的，当然可以说多打几次，
# 以频率观点统计其击中率也是可行的。然而根据贝叶斯观点，我们之前击球产生的信息，都能够对后
# 面击中的概率评估提供先验信息，而这个beta分布就是假设是我们先验的信息，拿这边的击球率来说，
# 一般根据往常经验，这个值应该在0.27~0.35之间，根据前一轮的情况，统计这一轮的击球率，显得
# 更加合理，从击球的结果，也可以看出贝叶斯的计算出的击球率与频率计算出的击球率还是有些误差的
# 参考：https://www.zhihu.com/question/30269898
# https://en.wikipedia.org/wiki/Beta_distribution
# 简述：知道前一轮的集中率，可以用来统计这一轮的击球率
# beta分布的α和β参数是使得模型满足先验信息的，要知道概率的分布区间
# 参数α和β也体现了一种均匀性，比如说硬币的均匀性，α=β=1表示硬币均匀的𝔼[μ]=1/2
# 如果是α=100，β=200，𝔼[μ]=100/300=1/3

In [15]:
# gamma函数：可以看做阶乘在实数域上扩展，如2.5!
# gamma函数的性质：
# https://baike.baidu.com/item/伽玛函数/3540177?fr=aladdin

贝叶斯估计举例

* 抛100次硬币，都正面朝上，抛101次正面的概率？

* 最大似然？

* 引入先验分布，Beta分布

* 预测

$$\begin{align*}
p(x=1|\mathcal{D}) &= \int_0^1p(x=1|μ)p(μ|\mathcal{D})du \\
&= \int_0^1μp(μ|\mathcal{D})du = \mathbb{E}[μ|\mathcal{D}] \\
&= \frac{m + α}{m + α + l + β} = \frac{100 + α}{100 + α + β}
\end{align*}$$

* $α = β = 1$
* $α = β = 100$

In [None]:
# 说明：
# 用最大似然，求得100次正面的概率为μ=1，而似然公式μ^x(1-μ)^(1-x)，而101次为正面的概率为1^1(1-1)^(1-1)=1，这就存在问题了，对于这种情况我们使用
# beta分布后验概率来计算其概率
# 其解释为在知道了前100次都为正面的情况下，能够为101次计算正面概率提供信息
# 当α=β=1时，我们可认为硬币是均匀的，则有概率100+1/100+1+1=101/102接近于1，而α=β=100时，100+100/100+200=2/3很明显概率小了很多
# beta分布是一个概率的概率分布，自然是连续值，所以求期望使用积分求解

In [16]:
# 0-1分布中，使用最大似然求出的μ就是为1的概率，等于正面的概率数/总数，那抛100次正面朝上的概率为1
# 而第101，若正面朝上其概率根据公式得出其概率还是为1，但其实101次的μ是已经发生了变化，因为知道其
# 100次情况，自然101是不一样的 这种情况就是最大似然的过拟合
# 上述公式说明：为什么要使用边缘概率密度，因需要统计落在[0,1]区间内的概率情况，根据边缘概率公式，
# 涉及到联合概率，而联合概率可以根据条件概率密度公式求得，自然就有了上述公式推导
# 解释：
# p(x=1|D)：是条件概率密度，预测样本集中x=1的概率 是后验概率
# p(x=1|μ)：x=1的概率为μ 是先验概率
# p(μ|D)：是似然函数 通过前面已知的数据可以计算出模型参数
# p(x=1|μ)p(μ|D)：联合概率密度，其实是前面已知数据的概率提供的信息
# 连续值的期望是积分形式，而∫10μp(μ|D)du恰好就是给定D对μ求期望，而μ的概率为[0-1]所以对μ积分也是0,1
# 机器学习中大部分情况还是使用的最大似然估计，当最大似然存在问题时，可以使用贝叶斯的最大后验估计MAP

![Beta%20distribution.png](attachment:Beta%20distribution.png)

In [17]:
# 信息论概述

量化信息

* 非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量

* 较不可能发生的事件具有更高的信息量。

* 独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的(有点类似先验$\to$后验)

* 信息量，应该是投掷一次硬币正面朝上的信息量的两倍。

离散

* 自信息

$$h(x) = -logp(x)$$

* 熵

$$H(x) = -\sum_{x}p(x)log_2p(x)$$

* 0-1分布

$$H(x) = -μlog_2μ - (1-μ)log_2(1-μ ) $$

In [18]:
# 解释：
# 自信息：信息本体，衡量某事件发生时所包含的信息量的多寡
# 熵：对信息的量化度量 决策树中用到信息增益
# 0-1分布：交叉熵

连续

* 微分熵(一元)

$$-\lim_{\Delta \to 0}\left\{\sum_{i}p(x_i)\Delta \ln(p(x_i))\right\} = - \int p(x)\ln p(x)dx$$

* 微分熵(多元)

$$H[\mathbf{x}] = -\int p(\mathbf{x}) \ln p(\mathbf{x})d\mathbf{x}$$

KL散度(相对熵)

* 衡量两个分布的差异

$$\begin{align*}
KL(p\|q) &=  -\int p(\mathbf{x}) \ln q(\mathbf{x})d\mathbf{x} - \left(-\int p(\mathbf{x}) \ln p(\mathbf{x})d\mathbf{x}\right) \\
&= -\int p(\mathbf{x}) \ln \left(\frac{q(\mathbf{x})}{p(\mathbf{x})}\right)d\mathbf{x}
\end{align*}$$

* 非对称性

$$KL(p\|q) ≠ KL(q\|p)$$

* 非负性

$$KL(p\|q) \ge 0$$

* EM算法

In [19]:
# 说明：当p=q时，KL(p∥q)=0