# DEEP LEARNING

## Linear Algebra

### singular value decomposition奇异值分解,SVD

$ A$是一个$m \times n$的矩阵, 其可以分解为
$$ A = U D V^T$$
其中, $U$是一个$m \times m$的矩阵, $D$是一个$m \times n$的矩阵. $V$是一个$n \times n$的矩阵. 

$D$定义为对角矩阵(不一定是方阵), 对角线上的元素称为$\textbf{奇异值}$, $U$的列向量称作$\textbf{左奇异向量}$, $V$的列向量称作$\textbf{右奇异向量}$

$A$的左奇异向量是$AA^T$的特征向量, 右奇异向量是$A^TA$的特征向量. 非零特征值是$A^TA$或$AA^T$的特征值的平方根

### Moore-Penrose Pseudoinver伪逆

$$Ax = y$$左逆为$B$满足$$x = By$$

伪逆$A^+$的定义:
$$A^+ = \lim_{\alpha \to 0} (A^TA + \alpha I)^{-1}A^T$$

计算伪逆$A^+$:
$$A^+ = VD^+U^T$$
$UT$是$A$的左右奇异分解矩阵, $D^+$是对角矩阵的伪逆, 即对非零对角线元素全部变为倒数且对矩阵进行转置

---

## Probability Theory & Information Theory

* 离散型变量和概率质量函数(probability mass function PMF)

每个离散的变量都有一个完全不同的PMF, 需要依据不同的随机变量来选取PMF例如$P($x$)$和$P($y$)$表示的PMF是完全不同的

随机变量x 的取值$x$为0\~1. 随机变量x服从PMF写作 x\~$P($x$)$

多个随机变量x, y同时服从于一个PMF称作联合概率分布(joint probability distribution)$P($x$ = x,$ y$ = y)$表示x,y在$x$, $y$取值下的概率. 
简记为$P(x,y)$

$P$是x的PMF满足:
>* $P$的定义域是x所有可能取值的集合
>* $\forall x \in$x,$0 \le P(x) \le 1$
>* 若$\sum_{x \in X} P(x) = 1$. 称作是归一化的(normalized), 如果没有, 则计算某一取值时概率可能大于1

* 连续型变量和概率密度函数(probability density function PDF)

$p$是x的PDF满足:
>* $p$定义域是x所有可能取值的集合
>* $\forall x \in$x,$p(x) \ge 0$但不要求$p(x) \le 1$
>* $\int p(x)dx = 1$

$p(x)$给出了落在面积为$\delta x$的无限小区域的概率$p(x)\delta x$, 

$p(x)$在某一区间内$[a,b]$的概率可以通过积分得出$\int_{[a,b]}p(x)dx$

 * 边缘概率(marginal probability)

计算组合概率分布下的各个分量的概率

离散型:

求$P(x)$:
$$P(x) = \sum_y P(x,y)$$

连续型:

求$p(x)$:
$$p(x) = \int p(x,y)dy$$

* 条件概率(conditional probability)

组合概率中某一事件在其他事件发生的情况下发生的概率例如$X = x, Y = y$在$X = x$发生下的概率
$$P(X = x|Y = y) = \frac{P(X=x,Y=y)}{P(X = x)}$$
只在$P(X= x) >0$有意义

* 条件概率的链式法则

任何多维联合概率分布, 都可以分解为一个变量的条件概率相乘的形式:
$$P(x^1, x^2, \cdots ,x^n) = P(x^1)\prod_{i = 2}^{n} P(x^i | x^1, \cdots ,x^{(i-1)})$$

---


## Maximum likelihood

* 似然

与概率不同, 似然是已知事件结果来反推事件发生时的条件

随机变量$X$ 在$\theta $约束条件下, 生成$x$的概率记为$p(x|\theta)$

似然性（likelihood）与概率（possibility）同样可以表示事件发生的可能性大小，但是二者有着很大的区别：

概率$p(x|\theta)$  是在已知参数 $\theta $ 的情况下，发生观测结果 $x$ 可能性大小；
似然性$L(\theta |x)$  则是从观测结果 $x$ 出发，分布函数的参数为 $\theta $ 的可能性大小；

在结果和条件相关联情况下
$$p(x|\theta ) = L(\theta |x)$$

若在$x$已知的情况下, 对于两个不同的条件$\theta_1$ 和$\theta_2$, 有
$$L(\theta_1|x) = p(x|\theta_1)>L(\theta_2|x) = p(x|\theta_2)$$
则$x$在条件$\theta_1$情况下发生的概率要高于$\theta_2$的

即似然是$x$为定值的, 关于$\theta$的函数

* 最大似然

对于给定的观测数据$x$, 需要从所有的参数$\theta_1, \theta_2, \cdots ,\theta_n$中找到使似然函数最大, (事件发生概率最大)的条件$\theta^*$
$$\theta^* = \arg \max_{\theta}p(x|\theta)$$

对于求解此函数, 使用偏导数为零求解.

对于一组含有$m$个样本的离散型随机变量数据集$\mathbb{X} = \{x_1,x_2, \cdots ,x_m\}$, 其中每一个$x_k$均是在此样本所有可能取值集合$X$空间的一个分量.且每一个$x_k$的概率$p_k(x_k|\theta)$是独立的. 则对于此, 似然函数是联合分布函数
$$L(\theta|x) = \prod_{k=1}^n p_k(x_k|\theta)$$

求在此情况下的最大似然条件$\theta^*$是求解此函数偏导数为零, 为了简化运算, 在上式两侧同取对数. 则将乘积形式化作加和形式. 便于求导
$$\log L = \sum_{k=1}^n \log {p_k(x_k|\theta)}$$