典型相关分析（Canonical Correlation Analysis，CCA）是一种多元统计方法，用于研究两组变量之间的相关关系。它的目的是识别并量化两组变量之间的联系，将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量的线性组合之间的相关关系。简单来说，典型相关分析就是研究两组（每组≥1个）变量之间的相关性有多强¹。

典型相关分析中，在一定的条件下选取一系列线性组合来反映两组变量之间的线性关系，这些被选出的线性组合配对被称为典型变量²。在实际分析问题中，当面临两组多变量数据，并希望研究两组变量之间的关系时，就要用到典型相关分析²。

源: 与必应的对话， 2023/9/8
(1) 典型相关分析（CCA）——快速分析多变量的相关关系 - 知乎. https://zhuanlan.zhihu.com/p/515615713.
(2) 聊一聊典型相关分析 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/358507822.
(3) 典型相关性分析（清风建模学习笔记） - CSDN博客. https://blog.csdn.net/m0_52453314/article/details/120362495.

这段代码使用了典型相关分析（Canonical Correlation Analysis，CCA）来对鸢尾花数据集进行降维。它首先从sklearn库中加载鸢尾花数据集，然后选择前两个特征和后两个特征进行分析。接着，它创建一个CCA对象，并使用fit方法对数据进行训练。最后，它使用transform方法输出降维结果。

In [4]:
# %load 3.6.1 典型相关分析.py

# 代码 3‑1

from sklearn import datasets
from sklearn.cross_decomposition import CCA
import pandas as pd
iris = datasets.load_iris()  # 导入鸢尾花的数据集
iris_x = iris.data[:,0:2]   # 取样本数据前两个特征
iris_y = iris.data[:,2:4]   # 取样本数据后两个特征
print('样本数据前两个特征的前4行数据为：\n',pd.DataFrame(iris_x).head())
print('样本数据后两个特征的前4行数据为：\n',pd.DataFrame(iris_y).head())
cca = CCA()           # 定义一个典型相关分析对象
# 调用该对象的训练方法，主要接收两个参数：两个不同的数据集
cca.fit(iris_x, iris_y)
print('降维结果为：\n', cca.transform(iris_x, iris_y))  # 输出降维结果

样本数据前两个特征的前4行数据为：
      0    1
0  5.1  3.5
1  4.9  3.0
2  4.7  3.2
3  4.6  3.1
4  5.0  3.6
样本数据后两个特征的前4行数据为：
      0    1
0  1.4  0.2
1  1.4  0.2
2  1.3  0.2
3  1.5  0.2
4  1.4  0.2
降维结果为：
 (array([[-1.22140847e+00,  4.95152798e-01],
       [-9.98912611e-01, -6.38966306e-01],
       [-1.39955712e+00, -3.40140243e-01],
       [-1.42183927e+00, -6.00140117e-01],
       [-1.42173073e+00,  6.44565829e-01],
       [-1.24358208e+00,  1.47985887e+00],
       [-1.68889943e+00,  1.39792400e-02],
       [-1.24369062e+00,  2.35152925e-01],
       [-1.46640357e+00, -1.12013986e+00],
       [-1.08793266e+00, -4.34259853e-01],
       [-1.06554197e+00,  1.07044597e+00],
       [-1.46629503e+00,  1.24566082e-01],
       [-1.11021481e+00, -6.94259727e-01],
       [-1.66672583e+00, -9.70726833e-01],
       [-8.87393324e-01,  1.90573901e+00],
       [-1.35477574e+00,  2.66927140e+00],
       [-1.24358208e+00,  1.47985887e+00],
       [-1.22140847e+00,  4.95152798e-01],
       [-8.20655420e-01,  1.4410326

In [5]:
# %load 3.6.2 主成分分析.py

# 代码 3‑2

import numpy as np
random = np.loadtxt("../data/random.csv",delimiter = ",").T
# 计算协方差矩阵Covariance Matrix
cov_mat = np.cov(random)
print('协方差矩阵：\n', cov_mat)

协方差矩阵：
 [[ 2.31472802 -0.01659731 -0.1117694 ]
 [-0.01659731  0.99550289  0.10692141]
 [-0.1117694   0.10692141  7.63116319]]


In [6]:
# 代码3-3

#计算特征值和特征向量
eig_val_cov, eig_vec_cov = np.linalg.eig(cov_mat)
print('特征值：', eig_val_cov)
print('特征向量：\n', eig_vec_cov)

特征值： [7.6352442  2.31253533 0.99361458]
特征向量：
 [[ 0.02105023 -0.99971552 -0.01121415]
 [-0.0161502   0.01087515 -0.99981043]
 [-0.99964797 -0.02122735  0.01591668]]


In [7]:
# 代码3-4

# 计算贡献率
for i in range(0, len(eig_val_cov)):
    contribution = eig_val_cov[i]/sum(eig_val_cov)
    print('第{}主成分的贡献率：{}'.format(i+1,contribution))

# 计算累计贡献率  
for i in range(1, len(eig_val_cov)):
    accumulated_contribution = sum(eig_val_cov[:i])/sum(eig_val_cov)
    print('前{}个主成分的累计贡献率： {}'.format(i, accumulated_contribution))

第1主成分的贡献率：0.6978310194227292
第2主成分的贡献率：0.21135655137723433
第3主成分的贡献率：0.09081242920003633
前1个主成分的累计贡献率： 0.6978310194227292
前2个主成分的累计贡献率： 0.9091875707999636


In [9]:
# 代码 3-5

import numpy as np
random = np.loadtxt("../data/random.csv",delimiter = ",").T
# 计算相关矩阵Correlation Matrix
cor_mat = np.corrcoef(random)

In [10]:
# 代码3-6

# 计算特征值和特征向量
eig_val_cor, eig_vec_cor = np.linalg.eig(cor_mat)
print('特征值：', eig_val_cor)
print('特征向量：\n', eig_vec_cor)

特征值： [1.05254481 0.98988025 0.95757494]
特征向量：
 [[-0.4594177   0.83233046  0.31009898]
 [ 0.58744661  0.54659054 -0.59677908]
 [ 0.66621458  0.09200427  0.74006307]]


In [11]:
# 代码 3-7

# 计算贡献率
for i in range(0, len(eig_val_cor)):
    contribution = eig_val_cor[i]/sum(eig_val_cor)
    print('第{}主成分的贡献率：{}'.format(i+1,contribution))
# 计算累计贡献率
for i in range(1, len(eig_val_cor)):
    accumulated_contribution = sum(eig_val_cor[:i])/sum(eig_val_cor)
    print('前{}个主成分的累计贡献率： {}'.format(i, accumulated_contribution))

第1主成分的贡献率：0.35084827032278515
第2主成分的贡献率：0.3299600841155257
第3主成分的贡献率：0.31919164556168916
前1个主成分的累计贡献率： 0.35084827032278515
前2个主成分的累计贡献率： 0.6808083544383108
