关于误差的概念

▶ 模型误差 →假设模型形式和现实的差别；  
▶ 估计误差 →得到模型过程中造成的误差；  
▶ 优化误差 →求解过程中的误差；  
▶ 评估误差 →评估本身也存在误差  

In [8]:
import numpy as np
[ (i,np.power(2,i)) for i in range(0,20)]

[(0, 1),
 (1, 2),
 (2, 4),
 (3, 8),
 (4, 16),
 (5, 32),
 (6, 64),
 (7, 128),
 (8, 256),
 (9, 512),
 (10, 1024),
 (11, 2048),
 (12, 4096),
 (13, 8192),
 (14, 16384),
 (15, 32768),
 (16, 65536),
 (17, 131072),
 (18, 262144),
 (19, 524288)]

In [6]:
2^8

10

# Tobit模型

在回归分析时，连续型的变量有时候因为截断（Truncated）或者截堵（Censored）而只能取一定范围的值，会导致估计量不一致。如果观测值被系统从样本中剔除，称为截断，如果部分观测值被限制在某个点上，被称为截堵。  
例如：  
在研究家庭负债额的决定因素时，有较多的被解释变量（负责额）为0，有些家庭因无负债也无借款给别人，故负债为0，也有的家庭借款给其他人（负债额为负）时，没有在数据上反映出来。当只选择负债大于0的样本时，为截断变量，如果负债为负的样本被保存但此时负债额为0，则为截堵变量。  
以上情况被称为**受限因变量**。模型为**截断回归模型**及**截堵回归模型**。  
  
 当潜变量$y^*$小于等于0时，被解释变量$y$等于0，当$y^*$大于0时，被解释变量$y=y^*$。  

$y_i^*=f(x_i)+\mu, \mu\sim N(0,\sigma^2)$  

$y_i=\begin{cases}
y^*_i, &\mbox{if }y_i^*>0; \\
0,  & \mbox{if }y_i^*\leq 0;
\end{cases}$  
  
$\because \mu\sim N(0,\sigma^2)$  
$\therefore y^*\sim N(f(x),\sigma^2)$
  
$p(y_i>0)=p(y^*_i)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y^*_i-f(x_i))^2}{2\sigma^2}\right)$  
$p(y_i=0)=p(y_i^*<0)=p(f(x_i)+\mu<0)=p(\mu/\sigma<-f(x_i)/\sigma)=\Phi(-\frac{f(x_i)}{\sigma})=1-\Phi(\frac{f(x_i)}{\sigma})$

对于$y_i$，其似然函数为：  
$p(y_i>0)^{I(y_i>0)}p(y_i=0)^{I(y_i=0)}$  
取对数：  
$I(y_i>0)\ln(p(y_i>0))+I(y_i=0)\ln(p(y_i=0))$  
通过将上式对i求和,就可以得到容量为n的一个随机样本的对数似然函数，即  
$\sum_{y_i>0}\ln(p(y_i>0))+\sum_{y_i=0}\ln(p(y_i=0))$


# 贝叶斯估计

假设$ \mu \sim N(0, 1), X|\mu \sim N(\mu, 1)$，我们一起来推导 $\mu$ 的 posterior($p(\mu|X)$)  
说明：$X|\mu$表示：$(x_1,x_2,...,x_n)|\mu$
\begin{align}
$p(\mu|X) &=\frac{p(X|\mu)p(\mu)}{\int p(\mu|X)p(X)d\mu}$  \\
& \propto p(X|\mu)p(\mu)\\
&\propto p(x_1,x_2,...,x_n|\mu)p(\mu) \\
&\propto \frac{1}{\sqrt{2\pi}}exp\left(-\frac{\sum_i(x_i-\mu)^2}{2}\right)exp(-\frac{\mu^2}{2})\\
&\propto exp\left(-\frac{\sum_i(x_i^2-2x_i\mu+\mu^2)+\mu^2}{2}\right)\\
&\propto exp\left(-\frac{(N+1)\mu^2-2\mu\sum_ix_i+\sum_ix_i^2}{2}\right)\\
&\propto exp\left(-\frac{\mu^2-\frac{2\sum_ix_i}{N+1}\mu+\frac{\sum_ix_i^2}{N+1}}{\frac{2}{N+1}}\right)\\
&\propto exp\left(-\frac{(\mu-\frac{\sum_ix_i}{N+1})^2}{\frac{2}{N+1}}\right)\\
\end{align}
所以，$p(\mu|X)\sim N(\frac{\sum_ix_i}{N+1},\frac{1}{(N+1)^2})$，也是正态分布。  
$p(X|\mu),p(\mu|X)$分布均为正态分布，称为conjugate Priors.

## 变分贝叶斯
求证：  
$log p(X) − D[q(z)\Vert p(z | X)] = E_{z\sim q}[log[p(X | z)] − D[Q(z)\Vert P(z)]$  
其中 D 为 KL-divergence，即 $D(P(x)\Vert Q(x)) = E_{x\sim P}(log p(x) − log q(x))。$


证明：  
$l.h.s:$  
$logp(x)-D[Q(z)\Vert P(z | X)]$  
$=logp(x)-E_{z\sim q}[logq(z)-log(p(z|X)]$  
$=logp(x)-E_{z\sim q}[logq(z)-logp(X|z)-logp(z)+logp(X)]$  
$=logp(x)-E_{z\sim q}[logq(z)]+E_{z\sim q}[logp(X|z)]+E_{z\sim q}[logp(z)]-E_{z\sim q}[logp(X))]$  
$=logp(x)-logp(x)E_{z\sim q}[1]-E_{z\sim q}[logq(z)]+E_{z\sim q}[logp(X|z)]+E_{z\sim q}[logp(z)]$  
$=E_{z\sim q}[logp(z)]-E_{z\sim q}[logq(z)]+E_{z\sim q}[logp(X|z)]$   
$r.h.s:$  
$E_{z\sim q}[log(p(X|z)]-E_{z\sim Q}[logq(z)-logp(z)]$  
$l.h.s=r.h.s$

上式中，正负号很多，一不小心容易出错。