# 概率论
联合概率 : $p(X,Y)$,表示为:X且Y下的概率. <br>
条件概率 : $p(X|Y)$,表示为:在Y条件下X的概率.
___    
- 加法律
$$p(X)=\sum_Yp(X,Y)$$
- 乘法律
    $$p(X,Y)=p(Y,X)$$
    $$p(X,Y)=p(X|Y)\dot p(Y)$$
    $$p(Y,X)=p(Y|X)\dot p(X)$$
   


- 有了上面的基础,便可以推出贝叶斯公式如下:
$$p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$$

- 上式又可以写成
$$p(Y|X)=p(Y)\frac{p(X|Y)}{p(X)}$$

其中:
- 后验概率: $p(Y|X)$
- 先验概率: $p(Y)$
- 相似函数: $p(X|Y)$
- 归一因子: $\frac{1}{p(X)}$
___

## 概率密度
- 概率密度: 令$p(x)$为概率密度函数,那么$p(x)$即是事件x下瞬时概率..<br>
那么$x$落在任意区间$(a,b)$概率为:
$$p(x\in (a,b))=\int_a^bp(x)dx$$

并且有以下性质:
概率一定是大于0的: $p(x)\leq=0$
$$\int_{-\infty}^{\infty}p(x)dx=1$$

- 如果有一个密度函数$p(x)$,$x=g(y)$,那么有:
$$p_y(y)=p_x(x)|\frac{dx}{dy}|=p_x(g(y))|g'(y)|$$
其中:

- $p_y(y)$ : 关于事件变量$y$的密度函数
- $p_x(x)$ : 关于事件变量$x$的密度函数
- 即在一个概率密度函数上,如果事件变量$x->y$,那么我们也可以求出不同的事件变量下对应的密度函数.
___

## 累计分布函数

- 位于区间(−∞, z)的x的概率由累积分布函数（cumulative distribution function）给出。定义
为：$$P(z)=\int_{-\infty}^zp(x)dx$$
___

## 期望
- 定义事件函数为$f(x)$,其对应的概率分布为$p(x)$,那么函数$f(x)$在其概率分布下的平均值被称为f(x)的期望,记作$E[f]$
$$E[f]=\int p(x)f(x)dx$$

### 多变量函数的期望
- $E_x[f(x,y)]$ : 是函数$f(x,y)$在概率密度f(x)上的期望. 即对多元函数其中的一个参数求期望.

### 条件期望
- 类似的:$$E(f|y)=\int p(x|y)f(x)dx$$
___

## 方差
- $f(x)$的方差定义为:
$$var[f]=E[(f(x)-E[f(x)]))^2]$$
它表示了$f(x)$对期望的偏离程度

对平方进行展开之后，方差可以写成：
$$var[f]=E[f(x)^2]-E[f(x)]^2$$
特别地，我们考虑 x 本身的方差：
$$var[x]=E[x^2]-E[x]^2$$

### 协方差(convariance)
- 对于两个随机变量 x,y，其协方差（covariance）定义为：
$$ cov[x,y]=E_{x,y}[(x-E[x])(y-E[y])] $$
$$=E_{x,y}[xy]-E[x]E[y]$$

## 协方差矩阵
- 对于两个随机向量$x,y$,其协方差为一个矩阵:
$$conv[x,y]=E_{x,y}[(x-E[x])(y^T-E[y^T])]$$
$$=E_{x,y}[xy^T]-E[x]E[y^T]$$
如果只是考虑随机向量 x 自身分量之间的协方差，那么我们有 $cov[x]≡cov[x,x]$
____

## 贝叶斯概率

- 在机器学习中,我们有数据$D$还有需要训练出来的模型参数$w$,应用于贝叶斯定理中则有:
$$p(\omega\mid D)=p(\omega)\frac{p(D\mid \omega)}{p(D)}$$
$$posterior ∝ likelihood × prior$$

- 在训练之前,我们先对参数$\omega$进行一个假设(初始化),在这里就以先验概率$p(w)$的形式给出.
- 在观测数据集D以后的效果,通过条件概率$p(D|\omega)$表达.它又叫似然函数(likelihood function)

### 频率学派:最大似然法(maximum likelihood)

- 这样我们就可以得到后验概率$p(\omega|D)$,那么找到最大的$p(\omega|D)$,也就是最优的参数$\omega$.
$$W_{ML}=argmax_wp(D|\omega)$$

### 贝叶斯估计
- Bayes 估计的一个重要观点是先验知识的引入，根据后验概率来决定参数 $\omega$。
- 考虑抛硬币的情况，假设我们抛三次，每次都得到正面，那么最大似然估计会得到这枚硬币会 100% 得到正面的结论，而 Bayes 估计不会得到这么极端的结论。
- 两者并没有什么好坏之分，只不过是看问题的角度不同。Bayes 估计如果选定的先验不好，也可能得到很差的结果。
____

## 高斯分布
- 高斯分布（Gaussian distribution），又叫正态分布（normal distribution）。
- 对于实值变量$x$,高斯分布定义为:
$$N(x|\mu,\sigma^2)=\frac{1}{(2\pi \sigma^2)^{1/2}}exp\lbrace-\frac{1}{2\sigma^2}(x-\mu)^2\rbrace$$
- $\mu$ : 均值
- $\sigma^2$ : 方差
- $\sigma$ : 标准差
- $\frac{1}{\sigma^2}$ : 精度


### 多维高斯分布
- 对于 D 维的向量 x，高斯分布定义为：
![image.png](attachment:image.png)

其中，D 维向量 μ 是均值，D×D 矩阵 Σ 是方差，|Σ| 是其行列式。


## 最大似然估计


- 假设我们现在有 N 组对 $x$ 的观测数据 $x=(x_11,…,x_N)^T$，这些数据是独立同分布（independent and identically distributed, i.i.d.）的，都服从一个均值 $μ$，方差 $σ^2$ 的高斯分布。那么在给定这些参数的情况下，出现这些观测数据的概率，或者从参数的角度来说，似然函数为：
$$p(x\mid \mu , \sigma^2)=\prod_{n=1}^NN(x_n\mid \mu,\sigma^2)$$
- 计算出的⼀元⾼斯分布的最⼤似然参数解:
$$\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n$$
$$\sigma^2_{ML}=\frac{1}{N}\sum^{N}_{n=1}(x_n-\mu_{ML})^2$$