# 独立成分分析(Independent Component Analysis,ICA)

## 1-介绍
&#8195;&#8195;ICA是20世纪90年代发展起来的一种新的信号处理技术，它是从**多维统计数据中找出隐含因子或分量的方法**。从线性变换和线性空间角度，源信号为相互独立的非高斯信号（后面会解释），可以看作线性空间的基信号，而观测信号则为源信号的线性组合,ICA就是在源信号和线性变换均不可知的情况下，从观测的混合信号中估计出数据空间的基本结构或者说源信号。

## 2-ICA模型
### 2.1-Blind Signal Separation（BSS）盲源分离模型

&#8195;&#8195;BSS问题，即盲信号分离问题。BSS是指**仅从观测的混合信号（通常是多个传感器的输出）中恢复独立的源信号**。

**盲信号**:
1. 源信号是不可观测的($S$不可观测)
2. 混合系统是事先未知的（混合矩阵$A$未知）

**分离模型**:
若$M$个观测信号$x_i(k)$经过一个混合模型$W$，得到了估计信号$y_i(t)$，则分离模型为：
$$Y = WX$$
$$y = \begin{pmatrix}
y_1(k)\\ \vdots \\y_M(k) 
\end{pmatrix}
W = \begin{pmatrix}
w_{11} & \cdots & W_{1N} \\
\vdots & \ddots & \vdots \\
w_{M1} & \cdots & w_{MN}
\end{pmatrix}
X = \begin{pmatrix}
x_1(k) \\ \vdots \\ x_N(k)
\end{pmatrix}
$$

### 2.2-典型的问题
在科学研究和工程应用中，**很多观测信号都可以假设成是不可见的源信号的混合**。典型的是“鸡尾酒会”问题就是一个典型的例子：

**Question**:

&#8195;&#8195;简单说就是当很多人（作为不同的声音源）同时在一个房间里说话时，声音信号由一组麦克风记录下来，这样每个麦克风记录的信号是所有人声音的一个混合，也就是通常所说的观测信号。问题是：如何只从这组观测信号中提取每个说话者的声音信号，即源信号。假设在party中有$N$个人，他们可以同时说话，我们也在房间中一些角落里共放置了$N$个声音接收器用来记录声音。宴会后，从$N$个麦克风中得到一组数据$x_i\left(x_{i1},x_{i2},\cdots,x_{in} \right)$,$i=1,2,\cdots,m$,$i$表示采样的时间顺序，也就是说共得到了$m$组采样，每一组采样都是$n$维的。我们的目标是单单从这$m$组采样数据中分辨出每个人说话的信号。
<img src="images\BSS.jpg">

**Answer**:

&#8195;&#8195;如果混合系统是已知的，则以上问题就退化成简单的求混合矩阵的逆矩阵。
但是在更多的情况下，人们无法获取有关混合系统的先验知识，这就要求人们从观测信号来推断这个混合矩阵，实现盲源分离。根据已知$X(t)$的在$A$未知的情况下求位置的$S(t)$，***ICA的思想就是设计一个$n\times n$维反混合矩阵$W$，经过变换后得到$n$维输出列向量$Y(t)=[y_1(t),y_2(t),\cdots,y_n(t)]$，即有$Y(t)=WX(t)=WAS(t)$***


### 2.3-ICA线性模型的假设
1. 信号源之间相互统计独立；
2. 信号源中最多有一个是高斯分布；
3. 观测信号的数目和信号源的数目相等。


## 3-模型转换
&#8195;&#8195;**已知混合信号$X$，来寻找分离矩阵$W$，然后计算$WX$来找到$Y$，即原始信号$S$的估计值。**

&#8195;&#8195;在模型中我们假设各个信号$s_i$间是相互独立的，所以我们求解得到的$y_i$的分量间也是相互独立的，所以在未知$A$，$W$ ，只有观测数据$X$的情况下，我们通过度量$Y$各个分量间的独立性，来评判求解结果的好坏。$Y$的各分量独立性越好，说明$Y$越接近$S$ 的真实值，此时的分离矩阵$W$ 也越好。此时$W=A^{-1}$ 。

&#8195;&#8195;这样盲源分离问题就变成了一个优化问题，已知数据$X$，随机初始化一个分离矩阵$W$；通过变换$WX$的到$Y$，要求$Y$各个分量间相互独立；通过度量$Y$分量间的独立性，来寻找最好的分解矩阵 。

ICA 算法的两部分：优化判据、寻优算法

**优化判据：**就是判断结果好不好的依据，那么在ICA中，根据我们的介绍我们的判据就是Y各个“分量间相互独立性”

**优化算法：**寻找目标函数最优值的算法，例如经典的梯度下降算法等


## 4-ICA的不确定性
&#8195;&#8195;由于$W$和$S$都不确定，那么在没有先验知识的情况下，无法同时确定这两个相关参数。比如上面的公式$S=WX$。当$W$扩大两倍时，只需要 $S$同时扩大两倍即可，等式仍然满足，因此无法得到唯一的$S$。同时如果将人的编号打乱，变成另外一个顺序，那么只需要调换$A$的列向量顺序即可，因此也无法单独确定$S$。这两种情况称为原信号不确定。

## 5-ICA算法
&#8195;&#8195;我们假定每个$s_i$有概率密度$p_s$，那么给定时刻原信号的联合分布就是（假定源信号相互独立）：
$$P_s = \prod_{i=1}^nP_s(s_i)$$ 
每个采样信号$x$的概率：
$$p_x(x) = p_s(Wx)|w| = |w|\prod_{i=1}p_s(w_i^Tx)$$

前面提到过，如果没有先验知识，我们无法求得$W$和$S$。因此我们需要知道$p_s(s_i)$，我们打算选取一个概率密度函数赋给$S$，但是我们不能选取高斯分布的密度函数。在概率论里我们知道密度函数$p(x)$由概率分布函数$F(X)$求导得到。$F(X)$要满足两个性质是单调递增和在[0,1]。我们发现`sigmoid`函数很适合，定义域负无穷到正无穷，值域0到1，缓慢递增。我们假定$S$的概率分布函数符合`sigmoid`函数：
$$g(s) = \frac{1}{1+e^{-s}}$$
求导后可以得到原信号的概率分布函数$P_s(s)$:
$$P_s(s) = g(s) = \frac{e^s}{\left(1+e^s\right)^2}$$
每个采样信号$x$的概率分布函数
$$p_x(x) = p_s(Wx)|w| = |w|g(Wx)$$
***注：*** 如果我们预先知道了$S$的概率分布函数，就不用麻烦做假设，但是在缺失的情况下，`sigmoid`函数确实能取得不错的效果。
现在我们假设（或者已知）$P_s(s)$和可以观测到的训练$X_i\left( X_{i1},X_{i2},\cdots,X_{in} \right)$,$i=1,2,\cdots,m$现在的问题就是求解矩阵$W$。此处我们采用对数似然估计:
$$L(W) = \sum_{i=0}^m \left(\sum_{i=0}^n \log \left( g(W_j^Tx_i) \right)+\log \left(|W|\right)\right)$$
对矩阵$W$求导：
$$\Delta_W[W] = |W|(W^{-1})^T$$
最终得到的求导后公式如下：注：$\log (g(s))$的导数为$\left(1-2g(s)\right)$ 
$$W=W+a \left( \left[\begin{pmatrix}
1-2g(w_1^Tx_i)\\ \vdots \\1-2g(w_n^Tx_i)
\end{pmatrix}
\right]x_i^T + (w^T)^{-1}\right)$$