# 什么是CCA

典型关联分析(Canonical Correlation Analysis，以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据，第一组是人身高和体重的数据，第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢？CCA可以帮助我们分析这个问题。将数据形式不同的矩阵映射成向量，从而可以比较他们之间的相关系数。多用在信息的检索

# CCA推导

首先我们有两份数据$X (N, C1)$ 和 $Y (N, C2)$，注意我们的数据要先进行标准化

使用权重$a(C1, 1)$和$b(C2, 1)$对$X$和$Y$做线性变化$X' = Xa$，$Y' = Yb$

计算得到我们的相关系数，并且要最大化我们的相关系数，问题可描述成：

$$
\underset{a, b}{\operatorname{argmax}} \frac{cov(X', Y')}{\sqrt{Var(X')} \sqrt{Var(Y')}}
$$


进行展开，注意X和Y的均值为0：
$$
cov(X', Y') = E[[Xa - E(Xa)]^T [Yb - E(Yb)]] = E[a^TX^TYb] = a^TE[X^TY]b
$$

$$
Var(X') = Var(Xa) = a^TE[X^TX]a
$$

$$
Var(Y') = Var(Ya) = b^TE[Y^TY]b
$$

代入原式子可化成：

$$
\underset{a, b}{\operatorname{argmax}} \frac{a^TE[X^TY]b}{\sqrt{a^TE[X^TX]a} \sqrt{b^TE[Y^TY]b}}
$$

对于这个最优化问题，我们发现a和b增大相同的倍数最优化的值不改变，所以我们需要应用svm的技巧，固定分母，只优化分子，原问题可变成：

$$
\underset{a, b}{\operatorname{argmax}} a^TE[X^TY]b
$$

$$
s.t. \quad a^TE[X^TX]a = 1 \quad b^TE[Y^TY]b = 1
$$

使用小技巧来把数学期望转成协方差矩阵，方便我们的计算：

$$
E(X^T Y) = E(X^T Y) - E(X)E(Y) = cov(X, Y) = S_{xy}
$$

$$
E(X^T X) = E(X^T X) - E(X)E(X) = cov(X, X) = S_{xx}
$$

$$
E(Y^T Y) = E(Y^T Y) - E(Y)E(Y) = cov(Y, Y) = S_{yy}
$$

代入后:

$$
\underset{a, b}{\operatorname{argmax}} a^TS_{xy}b
$$

$$
s.t. \quad a^TS_{xx}a = 1 \quad b^TS_{yy}b = 1
$$

我们仔细观察后，发现可以再用一个更大的trick，令$a = S_{xx}^{-\frac{1}{2}} u$ 和$b = S_{yy}^{-\frac{1}{2}}v$，其中u(C1, 1),v(C2, 1)那么原式子可变成：

$$
\underset{a, b}{\operatorname{argmax}} u^T S_{xx}^{-\frac{1}{2}T} S_{xy} S_{yy}^{-\frac{1}{2}}v
$$

$$
s.t. \quad u^Tu = 1 \quad v^Tv = 1
$$

这个时候你发现中间那三个S是不是可以用SVD，没错是的，你的直觉很准确，就是要使用SVD来把三个S变成另外三个矩阵：

$$
S_{xx}^{-\frac{1}{2}T} S_{xy} S_{yy}^{-\frac{1}{2}} = U \sum V
$$

其中$U^TU = I$和$VV^T = I$，U的每一列都是标准正交基，V的每一行都是标准正交基，也就是说U里面的每一列只有它自己的內积为1其他为0，接下来我们自己观察下面这个式子：

$$
\underset{a, b}{\operatorname{argmax}} u^T U \sum Vv
$$

在这里u是基向量，U里面的每一列都是基向量（而且相互正交），在这里我直接给出我的直觉，后面复习完线性代数再证明吧：U里面只有一个列向量跟u的内积为1其他的内积为0。所以u^TU是一个one-hot向量（v也是同样的意思）。所以该问题变成找到$\sum$最大的特征值。

# CCA算法流程

输入：X和Y数据(N,C)的形式

输出：权重a和b

对输出的数据进行标准化

计算X的方差$S_{xx}$，计算y的方差$S_{yy}$，计算X与Y的协方差$S_{xy}$

使用svd求到: $S_{xx}^{-\frac{1}{2}T} S_{xy} S_{yy}^{-\frac{1}{2}} = U \sum V$

找到最大特征值和对应的特征向量u和v，并计算出a和b：$a = S_{xx}^{-\frac{1}{2}} u$ 和$b = S_{yy}^{-\frac{1}{2}}v$

# CCA代码实现

In [2]:
import numpy as np
from scipy import linalg

In [14]:
class CCA:
    def __init__(self):
        self.a = None
        self.b = None
    
    def train(self, X, Y):
        Nx, cx = X.shape
        Ny, cy = Y.shape
        
        # 标准化 (N, C)
        X = (X - np.mean(X, 0)) / np.std(X, 0)
        Y = (Y - np.mean(Y, 0)) / np.std(Y, 0)
        
        # 求三个S
        data = np.concatenate([X, Y], axis = 1)
        cov = np.cov(data, rowvar=False)
        N, C = cov.shape
        Sxx = cov[0:cx, 0:cx]
        Syy = cov[cy:C, cy:C]
        Sxy = cov[0:cx, cy:C]
        Sxx_ = linalg.sqrtm(np.linalg.inv(Sxx))
        Syy_ = linalg.sqrtm(np.linalg.inv(Syy))
        M = Sxx_.T.dot(Sxy.dot(Syy_))
        U, S, V = np.linalg.svd(M)
        u = U[:, 0]
        v = V[0, :]
        self.a = Sxx_.dot(u)
        self.b = Syy_.dot(v)
        
    def predict(self, X, Y):
        X_ = X.dot(self.a)
        Y_ = Y.dot(self.b)
        return X_, Y_
    
    def cal_corrcoef(self, X, Y):
        X_, Y_ = self.predict(X, Y)
        return np.corrcoef(X_, Y_)[0,1]

In [15]:
# test
n = 500
# 2 latents vars:
l1 = np.random.normal(size=n)
l2 = np.random.normal(size=n)

latents = np.array([l1, l1, l2, l2]).T
X = latents + np.random.normal(size=4 * n).reshape((n, 4))
Y = latents + np.random.normal(size=4 * n).reshape((n, 4))

X_train = X[:n // 2]
Y_train = Y[:n // 2]
X_test = X[n // 2:]
Y_test = Y[n // 2:]

In [20]:
print (X_train.shape)

(250, 4)


In [16]:
# my cca
clf = CCA()
clf.train(X_train, Y_train)

In [18]:
print (clf.cal_corrcoef(X_train, Y_train))
print (clf.cal_corrcoef(X_test, Y_test))

0.7200173442101319
0.671638992091987


In [26]:
# compare with sklearn
from sklearn.cross_decomposition import CCA
cca_sklearn = CCA(n_components=1)
cca_sklearn.fit(X_train, Y_train)
X_c, Y_c = cca_sklearn.transform(X_train, Y_train)
X_c_, Y_c_ = cca_sklearn.transform(X_test, Y_test)
print (np.corrcoef(X_c[:,0], Y_c[:, 0])[0,1])
print (np.corrcoef(X_c_[:, 0], Y_c_[:, 0])[0,1])

0.7202109376634042
0.6719982185448227


完美：精读差别不大

# CCA缺点

需要计算svd，逆矩阵还有平方根矩阵，非常耗时，只能处理线性的情况。

# reference

[link](http://www.cnblogs.com/pinard/p/6288716.html)