## 4.5
表给出了1991年我国30个省、区、市城镇居民的月平均消费数据，所考察的八个指标如下（单位均为 元/人）：
$$
\begin{array}{ll}
X_{1}：人均粮食支出 & X_{2}：人均副食支出 \\
X_{3}：人均烟酒茶支出 & X_{4}：人均其他副食支出 \\
X_{5}：人均衣着商品支出 & X_{6}：人均日用品支出 \\
X_{7}：人均燃料支出 & X_{8}：人均非商品支出  
\end{array}
$$

### (1)
求样本相关系数矩阵$R$

$$\sigma_{X_i,X_j}^{2}=E[(X_i-E[X_i])(X_j-E[X_j])]\\$$
$$\rho_{X_i,X_j}=\frac{\sigma_{X_i,X_j}}{\sqrt{\sigma_{X_i,X_i}\sigma_{X_j,X_j}}}$$


In [66]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
# 构造完整的省份与 x1–x8 数据
data = {
    "省(区、市)": [
        "山西", "内蒙古", "吉林", "黑龙江", "河南", "甘肃", "青海", "河北",
        "陕西", "宁夏", "新疆", "湖北", "云南", "湖南",
        "安徽", "贵州", "辽宁", "四川", "山东", "江西", "福建", "广西",
        "海南", "天津", "江苏", "浙江", "北京", "西藏", "上海", "广东"
    ],
    "x1": [
        8.35, 9.25, 8.19, 7.73, 9.42, 9.16, 10.06, 9.09,
        9.41, 8.70, 6.93, 8.67, 9.98, 6.77,
        8.14, 7.67, 7.90, 7.18, 8.82, 6.25, 10.60, 7.27,
        13.45, 10.85, 7.21, 7.68, 7.78, 7.94, 8.28, 12.47
    ],
    "x2": [
        23.53, 23.75, 30.50, 29.20, 27.93, 27.98, 28.64, 28.12,
        28.20, 28.12, 29.85, 36.05, 37.69, 38.69,
        37.75, 35.71, 39.77, 40.91, 33.70, 35.02, 52.41, 52.65,
        55.85, 44.68, 45.79, 50.37, 48.44, 39.65, 64.34, 76.39
    ],
    "x3": [
        7.51, 6.61, 4.72, 5.42, 8.20, 9.01, 10.52, 7.40,
        5.77, 7.21, 4.54, 7.31, 7.01, 6.01,
        9.61, 8.04, 8.49, 7.32, 7.59, 4.72, 7.70, 3.84,
        5.50, 7.32, 7.66, 11.35, 8.00, 20.97, 8.00, 5.52
    ],
    "x4": [
        8.62, 9.19, 9.78, 9.43, 8.14, 9.32, 10.05, 9.62,
        10.80, 10.53, 9.49, 7.75, 8.94, 8.82,
        8.49, 8.31, 12.94, 8.94, 10.98, 6.28, 9.98, 9.16,
        7.45, 14.51, 10.36, 13.30, 20.51, 20.82, 22.22, 11.24
    ],
    "x5": [
        17.42, 17.77, 16.28, 19.29, 16.17, 15.99, 16.18, 17.26,
        16.36, 19.45, 16.62, 16.67, 16.15, 14.79,
        13.15, 15.13, 19.27, 17.60, 18.82, 10.03, 12.53, 13.03,
        9.55, 17.13, 16.56, 19.25, 22.12, 22.52, 20.06, 14.52
    ],
    "x6": [
        10.00, 10.48, 7.60, 8.49, 9.42, 9.10, 8.39, 11.12,
        11.56, 13.30, 10.65, 11.68, 11.08, 11.44,
        9.76, 7.76, 11.05, 12.75, 14.73, 7.15, 11.70, 15.26,
        9.52, 12.08, 12.86, 14.59, 15.73, 12.41, 15.12, 22.00
    ],
    "x7": [
        1.04, 1.72, 2.52, 2.52, 1.55, 1.82, 1.96, 2.49,
        1.53, 1.66, 1.88, 2.38, 0.83, 1.74,
        1.28, 1.41, 2.04, 1.14, 1.78, 1.93, 2.31, 1.98,
        2.21, 1.26, 2.25, 2.75, 1.15, 1.75, 0.72, 5.46
    ],
    "x8": [
        11.21, 10.51, 10.32, 10.00, 9.76, 11.35, 10.81, 12.65,
        12.17, 11.96, 13.61, 12.88, 11.67, 13.23,
        11.28, 13.25, 13.29, 14.80, 10.10, 10.39, 14.69, 14.57,
        16.30, 11.57, 11.69, 14.87, 16.61,  7.90, 22.89, 25.50
    ]
}

# 创建 DataFrame 并将“省(区、市)”列设为索引
df = pd.DataFrame(data)
df.set_index("省(区、市)", inplace=True)
scaler = StandardScaler()
X = scaler.fit_transform(df.values)
R = np.corrcoef(X, rowvar=False)
df_R = pd.DataFrame(R, index=df.columns, columns=df.columns)
print(df_R.round(4))


        x1      x2      x3      x4      x5      x6      x7      x8
x1  1.0000  0.3336 -0.0545 -0.0613 -0.2894  0.1988  0.3487  0.3187
x2  0.3336  1.0000 -0.0229  0.3989 -0.1563  0.7111  0.4136  0.8350
x3 -0.0545 -0.0229  1.0000  0.5333  0.4968  0.0328 -0.1391 -0.2584
x4 -0.0613  0.3989  0.5333  1.0000  0.6984  0.4679 -0.1713  0.3128
x5 -0.2894 -0.1563  0.4968  0.6984  1.0000  0.2801 -0.2083 -0.0812
x6  0.1988  0.7111  0.0328  0.4679  0.2801  1.0000  0.4168  0.7016
x7  0.3487  0.4136 -0.1391 -0.1713 -0.2083  0.4168  1.0000  0.3989
x8  0.3187  0.8350 -0.2584  0.3128 -0.0812  0.7016  0.3989  1.0000


### (2)
从$R$ 出发做主成分分析，求各主成分的贡献率及前两个主成分的累积贡献率

In [67]:
from sklearn.decomposition import PCA
pca = PCA(n_components=8)      # 保留所有 8 个主成分
pca.fit(X)

# 特征值
eigenvalues = pca.explained_variance_
# 贡献率
explained_ratio = pca.explained_variance_ratio_
# 累计贡献率
cum_ratio = np.cumsum(explained_ratio)

df_pca = pd.DataFrame({
    "特征值": eigenvalues,
    "贡献率": explained_ratio,
    "累计贡献率": cum_ratio
}, index=[f"PC{i+1}" for i in range(len(eigenvalues))])

print("PCA 特征值与各主成分贡献率")
print(df_pca.round(4))

PCA 特征值与各主成分贡献率
        特征值     贡献率   累计贡献率
PC1  3.2031  0.3870  0.3870
PC2  2.4489  0.2959  0.6829
PC3  0.9517  0.1150  0.7979
PC4  0.7303  0.0882  0.8862
PC5  0.5156  0.0623  0.9485
PC6  0.2378  0.0287  0.9772
PC7  0.1353  0.0163  0.9936
PC8  0.0532  0.0064  1.0000


### (3)
求出前两个主成分并解释其意义；按第一主成分得分将 30 个省、区、市排序，结果如何

In [68]:
loadings = pd.DataFrame(pca.components_, columns=df.columns, index=[f"PC{i+1}" for i in range(8)])
print("前两个主成分的权重")
print(loadings.loc[["PC1","PC2"]].round(4))
print("\n")

scores = pca.transform(X)   # 得到每个样本在各主成分上的得分，shape = (30, 8)
pc1_scores = scores[:, 0]       # 取第 1 主成分得分
pc2_scores = scores[:, 1]       # 取第 2 主成分得分

# 将 PC1 分数加入 DataFrame，便于排序
df_scores = pd.DataFrame({
    "PC1": pc1_scores,
    "PC2": pc2_scores
}, index=df.index)

# 按 PC1 得分由高到低排序
df_pc1_sorted = df_scores.sort_values(by="PC1", ascending=False)

print("按PC1由高到低排序")
print(df_pc1_sorted.round(4))

前两个主成分的权重
         x1      x2      x3      x4      x5      x6      x7      x8
PC1  0.2496  0.5192 -0.0185  0.2541  0.0217  0.4927  0.3171  0.5093
PC2 -0.2412 -0.0376  0.4754  0.5381  0.5754  0.1347 -0.2607 -0.0871


按PC1由高到低排序
           PC1     PC2
省(区、市)                
广东      7.0138 -2.3173
上海      3.3039  2.6047
北京      1.8228  2.9375
浙江      1.5410  1.3970
海南      1.4251 -3.2327
福建      1.1736 -1.3977
广西      1.0746 -1.2564
天津      0.4429  0.4822
江苏      0.1559  0.1151
辽宁      0.0460  0.9973
西藏     -0.1355  4.9924
四川     -0.1372  0.3495
山东     -0.1435  0.6936
湖北     -0.1734 -0.5997
河北     -0.3989 -0.3007
宁夏     -0.4378  0.6567
湖南     -0.5269 -0.5617
陕西     -0.6232 -0.2874
云南     -0.6781 -0.3005
新疆     -0.8325 -0.4285
青海     -1.1324 -0.0185
安徽     -1.1340 -0.4480
甘肃     -1.2024 -0.1963
内蒙古    -1.2797 -0.1345
贵州     -1.2809 -0.4356
吉林     -1.3158 -0.8750
黑龙江    -1.3483 -0.1041
河南     -1.5114 -0.3576
山西     -1.7133  0.1703
江西     -1.9944 -2.1443


PC1完全是一个“总支出水平 / 综合消费能力”指标：凡是本省城镇居民在副食、日用品、非商品方面的人均支出越高，其 PC1 得分也越高；同时燃料、其他副食、粮食也都对 PC1 得分有正向推动，但力度略弱。

当某省在“衣着、其他副食、烟酒茶”等方面支出高而在“粮食、燃料”方面支出偏低，其 PC2 得分就大，表示“可选品质化消费占比更高”；反之，如果“粮食或燃料支出”占比更高，则 PC2 得分为负或较低，说明该地居民在刚性、保温需求上投入较大，可选消费相对偏少。

## 4.6
表是49位女性在空腹情况下三个不同时间点的血糖含量（用$X_1, X_2, X_3$表示）和在摄入等量食糖一小时后的三个时刻的血糖含量（用 $Y_1, Y_2, Y_3$ 表示）的观测值（单位：mg/100 mL）。分别从样本协方差矩阵$S$和样本相关系数矩阵$R$出发进行主成分分析，求各主成分贡献率和各个主成分。在两种情况下，你认为应保留几个主成分，其意义如何解释。就此题而言，你认为哪种更为合理？

In [69]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

data_4_6 = [
    [ 1,  60,  69,  62,  97,  69,  98],
    [ 2,  56,  53,  84, 103,  78, 107],
    [ 3,  80,  69,  76,  66,  99, 130],
    [ 4,  55,  80,  90,  80,  85, 114],
    [ 5,  62,  75,  68, 116, 130,  91],
    [ 6,  74,  64,  70, 109, 101, 103],
    [ 7,  64,  71,  66,  77, 102, 130],
    [ 8,  73,  70,  64, 115, 110, 109],
    [ 9,  68,  67,  75,  76,  85, 119],
    [10,  69,  82,  74,  72, 133, 127],
    [11,  60,  67,  61, 130, 134, 121],
    [12,  70,  74,  78, 150, 158, 100],
    [13,  66,  74,  78, 150, 131, 142],
    [14,  83,  70,  74,  99,  98, 105],
    [15,  68,  66,  90, 119,  85, 109],
    [16,  78,  63,  75, 164,  98, 138],
    [17, 103,  77,  77, 160, 117, 121],
    [18,  77,  68,  74, 144,  71, 153],
    [19,  66,  77,  68,  77,  82,  89],
    [20,  70,  70,  72, 114,  93, 122],
    [21,  75,  65,  71,  77,  70, 109],
    [22,  91,  74,  93, 118, 115, 150],
    [23,  66,  75,  73, 170, 147, 121],
    [24,  75,  82,  76, 153, 132, 115],
    [25,  74,  71,  66, 143, 105, 100],
    [26,  76,  70,  64, 114, 113, 129],
    [27,  74,  90,  86,  73, 106, 116],
    [28,  74,  77,  80, 116,  81,  77],
    [29,  67,  71,  69,  63,  87,  70],
    [30,  78,  75,  80, 105, 132,  80],
    [31,  64,  66,  71,  83,  94, 133],
    [32,  71,  80,  76,  81,  87,  86],
    [33,  63,  75,  73, 120,  89,  59],
    [34,  90, 103,  74, 107, 109, 101],
    [35,  60,  76,  61,  99, 111,  98],
    [36,  48,  77,  75, 113, 124,  97],
    [37,  66,  93,  97, 136, 112, 122],
    [38,  74,  70,  76, 109,  88, 105],
    [39,  60,  74,  71,  72,  90,  71],
    [40,  63,  75,  66, 130, 101,  90],
    [41,  66,  80,  86, 130, 117, 144],
    [42,  77,  67,  74,  83,  92, 107],
    [43,  70,  67, 100, 150, 142, 146],
    [44,  73,  76,  81, 119, 120, 119],
    [45,  78,  90,  77, 122, 155, 149],
    [46,  73,  68,  80, 102,  90, 122],
    [47,  72,  83,  68, 104,  69,  96],
    [48,  65,  60,  70, 119,  94,  89],
    [49,  52,  70,  76,  92,  94, 100],
]
df = pd.DataFrame(data_4_6, columns=["编号","x1","x2","x3","y1","y2","y3"]).set_index("编号")
vars_xy = ["x1", "x2", "x3", "y1", "y2", "y3"]

# 直接对原始数据进行 PCA，相当于基于 S
pca_S = PCA(n_components=6)
pca_S.fit(df[vars_xy].values)

eigen_S = pca_S.explained_variance_               # 特征值 λ_k
ratio_S = pca_S.explained_variance_ratio_          # 贡献率 λ_k / Σλ_j
cumratio_S = np.cumsum(ratio_S)                    # 累计贡献率

# 主成分载荷（特征向量），每列对应一个主成分
loadings_S = pd.DataFrame(
    pca_S.components_.T,
    index=vars_xy,
    columns=[f"PC{i+1}" for i in range(6)]
)

print("PCA基于协方差矩阵")
print("特征值:")
print(np.round(eigen_S, 4))
print("贡献率:")
print(np.round(ratio_S, 4))
print("累计贡献率:")
print(np.round(cumratio_S, 4))
print("\n主成分载荷（基于 S）：")
print(np.round(loadings_S, 4))
print("\n")

# 先标准化每列，使其均值为 0、方差为 1
scaler = StandardScaler()
X_std = scaler.fit_transform(df[vars_xy].values)

# 对标准化后的数据做 PCA，相当于使用 R
pca_R = PCA(n_components=6)
pca_R.fit(X_std)

eigen_R = pca_R.explained_variance_             # 特征值
ratio_R = pca_R.explained_variance_ratio_        # 贡献率
cumratio_R = np.cumsum(ratio_R)                  # 累计贡献率

loadings_R = pd.DataFrame(
    pca_R.components_.T,
    index=vars_xy,
    columns=[f"PC{i+1}" for i in range(6)]
)

print("PCA基于相关系数矩阵")
print("特征值:")
print(np.round(eigen_R, 4))
print("贡献率:")
print(np.round(ratio_R, 4))
print("累计贡献率:")
print(np.round(cumratio_R, 4))
print("\n主成分载荷（基于 R）：")
print(np.round(loadings_R, 4))


PCA基于协方差矩阵
特征值:
[1097.3982  397.996   313.099    99.7448   70.118    45.093 ]
贡献率:
[0.5423 0.1967 0.1547 0.0493 0.0347 0.0223]
累计贡献率:
[0.5423 0.739  0.8938 0.9431 0.9777 1.    ]

主成分载荷（基于 S）：
       PC1     PC2     PC3     PC4     PC5     PC6
x1  0.0812  0.0943 -0.0804  0.8021 -0.4591 -0.3521
x2  0.0344 -0.0094  0.2053  0.5220  0.2844  0.7767
x3  0.0731  0.1231 -0.0188  0.2482  0.8351 -0.4693
y1  0.7582 -0.4505 -0.4630 -0.0139  0.0380  0.0788
y2  0.5134 -0.0259  0.8348 -0.0830 -0.0856 -0.1566
y3  0.3852  0.8788 -0.1993 -0.1248 -0.0477  0.1476


PCA基于相关系数矩阵
特征值:
[2.1658 1.1068 1.0188 0.8898 0.5915 0.3523]
贡献率:
[0.3536 0.1807 0.1663 0.1453 0.0966 0.0575]
累计贡献率:
[0.3536 0.5343 0.7006 0.8459 0.9425 1.    ]

主成分载荷（基于 R）：
       PC1     PC2     PC3     PC4     PC5     PC6
x1  0.3446  0.1487 -0.4542  0.7394 -0.1464  0.2911
x2  0.2618  0.8433  0.0669 -0.0517  0.1155 -0.4469
x3  0.3681  0.0503 -0.4871 -0.6432 -0.4105  0.2059
y1  0.4696 -0.3255  0.3950  0.1536 -0.5485 -0.4394
y2  0.4919  0.0858 

1. 基于$S$时应保留的主成分及其意义

- 保留 3 个主成分（累计贡献 ≈ 89.37%）  
- PC1
  - 贡献率 ≈ 54.23%；载荷主导变量为：  
    $
      y_1\;(0.7582),\quad y_2\;(0.5134),\quad y_3\;(0.3852),\quad
      x_1,x_2,x_3\text{ 较小} .
    $
  - 生理意义：PC1 主要反映“摄糖后血糖水平的绝对高低”，即一位女性在糖后 1 小时/2 小时/3 小时的血糖绝对值越高，PC1 得分越高，反映总体“胰岛素抵抗”或“葡萄糖耐量下降”的程度。

- PC2 
  - 贡献率 ≈ 19.67%；载荷主导变量为：  
    $
      y_3\;(0.8788)\text{（正）},\quad y_1\;(-0.4505)\text{（负）},\quad
      x_1,x_3\text{（较小正值）},\dots
    $
  - 生理意义：PC2 主要对比“摄糖后第 1 小时峰值$y_1$与 第 3 小时恢复水平$y_3$”。若某人第 1 小时峰值高且第 3 小时血糖仍高，则 PC2 负；若其峰值一般，第 3 小时恢复更明显，PC2 正。反映“血糖恢复速度 vs 峰值幅度”的关系。

- PC3
  - 贡献率 ≈ 15.47%；载荷主导变量为：  
    $
      y_2\;(0.8348)\text{（正）},\quad y_1\;(-0.4630)\text{（负）},\quad
      x_2\;(0.2053),\dots
    $
  - 生理意义：PC3 主要对比“摄糖后第 2 小时水平$y_2$与 第 1 小时或空腹后期$y_1,x_2$”。反映“中期血糖峰值 vs 早期/空腹背景” 的差异。


1. 基于$R$时应保留的主成分及其意义

- 保留 4 个主成分（累计贡献 ≈ 84.59%）  
- PC1
  - 贡献率 ≈ 35.36%；载荷（正负方向均较接近）：  
    $
      x_1\;0.3446,\;x_2\;0.2618,\;x_3\;0.3681,\;
      y_1\;0.4696,\;y_2\;0.4919,\;y_3\;0.4632.
    $
  - 意义：PC1 代表“各时刻血糖共同变化模式”。无论空腹 (x1–x3) 还是糖后 (y1–y3)，若所有时间点血糖同时升高（或同时降低），PC1 得分较高（或较低）。它抓住了“总体血糖水平的相对高低”，可视为“血糖整体走向因子”。

- PC2
  - 贡献率 ≈ 18.07%；载荷主导：  
    $
      x_2\;0.8433\text{（正）},\quad 
      y_1\;(-0.3255),\quad y_3\;(-0.3884),\dots
    $
  - 意义：PC2 主要对比“空腹中期$x_2$ vs 糖后晚期$y_3$”。当某人空腹第 2 时刻血糖高、而糖后第 3 时刻恢复较好时，PC2 正；反之，PC2 负。反映“空腹血糖持续性 vs 糖后恢复情况”的差异。

- PC3
  - 贡献率 ≈ 16.63%；载荷主导：  
    $
      y_2\;0.5529\text{（正）},\quad x_3\;(-0.4871)\text{（负）},\quad y_1\;0.3950,\dots
    $
  - 意义：PC3 主要对比“摄糖后第 2 小时$y_2$ vs 空腹后期$x_3$”。反映“中期血糖峰值与空腹后期基线水平” 的对立特征。

- PC4
  - 贡献率 ≈ 14.53%；载荷主导：  
    $
      x_1\;0.7394\text{（正）},\quad x_3\;(-0.6432)\text{（负）},\dots
    $
  - 意义：PC4 主要对比“空腹早期$x_1$ vs 空腹晚期$x_3$”。如果某人在空腹状态下第 1 时刻血糖高、而第 3 时刻血糖较低，则 PC4 正；反之，则 PC4 负。反映“空腹曲线内部起伏” 的特征。

3. 采用基于相关系数矩阵的PCA，保留前 4 个主成分（累计贡献率 ≈ 84.59%），并在此基础上解释“各时刻血糖之间的相对变化模式”。  
题干明确要比较“空腹状态下各时刻血糖”与“摄糖后各时刻血糖”的相对模式，而不仅仅是“谁的血糖最高”。  
  - 若使用 S-PCA，会让“方差更大的糖后时刻”主导分析，失去对“空腹 vs 糖后”本质上相对变化的关注。  
  - 若使用R-PCA，能够提取“各时刻血糖曲线的形态差异”，更符合对“血糖动态特征” 的需求。  


## 4.9
表是 25 个家庭的成年长子的头长 ($X_1$)、头宽 ($X_2$) 与成年次子的头长 ($Y_1$) 和头宽 ($Y_2$) 的观察数据。试分别从样本协方差矩阵 $\Sigma$ 和样本相关系数矩阵 $R$ 出发做典型相关分析，求各典型变量及典型相关系数，检验各典型变量对是否显著相关 ($\alpha = 0.05$)。两种情况下的结果有何异同？

In [70]:
import pandas as pd
import numpy as np
from sklearn.cross_decomposition import CCA
from sklearn.preprocessing import StandardScaler
from scipy.stats import chi2

data_4_9 = {
    "x1": [
        191, 195, 181, 183, 176, 208, 189, 197, 188, 192,
        179, 183, 174, 190, 188, 163, 195, 186, 181, 175,
        192, 174, 176, 197, 190
    ],
    "x2": [
        155, 149, 148, 153, 144, 157, 150, 159, 152, 150,
        158, 147, 150, 159, 151, 137, 155, 153, 145, 140,
        154, 143, 139, 167, 163
    ],
    "y1": [
        179, 201, 185, 188, 171, 192, 190, 189, 197, 187,
        186, 174, 185, 195, 187, 161, 183, 173, 182, 165,
        185, 178, 176, 200, 187
    ],
    "y2": [
        145, 152, 149, 149, 142, 152, 149, 152, 159, 151,
        148, 147, 152, 157, 158, 130, 158, 148, 146, 137,
        152, 147, 143, 158, 150
    ]
}
df = pd.DataFrame(data_4_9)

# 构造 X（长子头长 x1, 长子头宽 x2）和 Y（次子头长 y1, 次子头宽 y2）矩阵
X = df[["x1", "x2"]].values    # 第一组变量（父亲头颅尺寸）
Y = df[["y1", "y2"]].values    # 第二组变量（儿子头颅尺寸）

n = df.shape[0]                # 样本数 = 25
p, q = X.shape[1], Y.shape[1]  # p = q = 2

# 定义一个函数：给定 X, Y，执行 CCA 并返回典型相关系数 r 及载荷矩阵
def perform_cca(X, Y):
    cca = CCA(n_components=min(X.shape[1], Y.shape[1]))
    cca.fit(X, Y)
    U, V = cca.transform(X, Y)
    # 依次计算第 i 对典型变量 U[:,i] 与 V[:,i] 的样本相关系数
    r = [np.corrcoef(U[:, i], V[:, i])[0, 1] for i in range(U.shape[1])]
    return np.array(r), cca.x_weights_, cca.y_weights_

# 直接对原始 X, Y 调用 CCA，相当于基于样本协方差矩阵 S
r_S, A_S, B_S = perform_cca(X, Y)
# r_S：包含两对典型相关系数 [r1, r2]
# A_S：第一组变量（x1,x2）的典型载荷矩阵（列向量对应每个主成分）
# B_S：第二组变量（y1,y2）的典型载荷矩阵

# Bartlett 检验：计算 Wilks' lambda 并近似 chi-square 检验
# 全体检验（检验 r1, r2 是否同时为 0）：
lambda1_S = np.prod(1 - r_S**2)  # λ1 = ∏_{i=1}^m (1 - r_i^2)
bartlett_chi2_all_S = - (n - 1 - (p + q + 1) / 2) * np.log(lambda1_S)
df_all = p * q                 # 自由度 = p * q = 2*2 = 4
p_all_S = 1 - chi2.cdf(bartlett_chi2_all_S, df_all)

# 次第检验（检验 r2 是否为 0，等价于 λ2 = 1 - r2^2）：
lambda2_S = 1 - r_S[1]**2       # λ2 = ∏_{i=2}^m (1 - r_i^2) = 1 - r2^2
bartlett_chi2_sec_S = - (n - 1 - (p + q + 1) / 2) * np.log(lambda2_S)
df_sec = (p - 1) * (q - 1)      # 自由度 = (p-1)*(q-1) = 1*1 = 1
p_sec_S = 1 - chi2.cdf(bartlett_chi2_sec_S, df_sec)

# 先标准化每个变量（去均值、除以标准差），相当于把 X, Y 转为单位方差
scaler = StandardScaler()
X_std = scaler.fit_transform(X)
Y_std = scaler.fit_transform(Y)

# 在标准化数据上做 CCA，相当于基于样本相关系数矩阵 R
r_R, A_R, B_R = perform_cca(X_std, Y_std)

# Bartlett 检验同理：
lambda1_R = np.prod(1 - r_R**2)
bartlett_chi2_all_R = - (n - 1 - (p + q + 1) / 2) * np.log(lambda1_R)
p_all_R = 1 - chi2.cdf(bartlett_chi2_all_R, df_all)

lambda2_R = 1 - r_R[1]**2
bartlett_chi2_sec_R = - (n - 1 - (p + q + 1) / 2) * np.log(lambda2_R)
p_sec_R = 1 - chi2.cdf(bartlett_chi2_sec_R, df_sec)

print("=== 基于 协方差矩阵 S 的 CCA ===")
print("典型相关系数 r_S =", np.round(r_S, 4))
print(f"  全体相关检验:   χ² = {bartlett_chi2_all_S:.4f}, df = {df_all}, p-value = {p_all_S:.4f}")
print(f"  次第相关检验:   χ² = {bartlett_chi2_sec_S:.4f}, df = {df_sec}, p-value = {p_sec_S:.4f}")
print("第一组典型载荷 A_S（x1,x2 → U）:\n", np.round(A_S, 4))
print("第二组典型载荷 B_S（y1,y2 → V）:\n", np.round(B_S, 4))

print("\n=== 基于 相关系数矩阵 R 的 CCA ===")
print("典型相关系数 r_R =", np.round(r_R, 4))
print(f"  全体相关检验:   χ² = {bartlett_chi2_all_R:.4f}, df = {df_all}, p-value = {p_all_R:.4f}")
print(f"  次第相关检验:   χ² = {bartlett_chi2_sec_R:.4f}, df = {df_sec}, p-value = {p_sec_R:.4f}")
print("第一组典型载荷 A_R（标准化后 x1,x2 → U）:\n", np.round(A_R, 4))
print("第二组典型载荷 B_R（标准化后 y1,y2 → V）:\n", np.round(B_R, 4))


=== 基于 协方差矩阵 S 的 CCA ===
典型相关系数 r_S = [0.7885 0.0537]
  全体相关检验:   χ² = 20.9642, df = 4, p-value = 0.0003
  次第相关检验:   χ² = 0.0622, df = 1, p-value = 0.8031
第一组典型载荷 A_S（x1,x2 → U）:
 [[ 0.727  -0.6866]
 [ 0.6866  0.727 ]]
第二组典型载荷 B_S（y1,y2 → V）:
 [[ 0.6838 -0.7297]
 [ 0.7297  0.6838]]

=== 基于 相关系数矩阵 R 的 CCA ===
典型相关系数 r_R = [0.7885 0.0537]
  全体相关检验:   χ² = 20.9642, df = 4, p-value = 0.0003
  次第相关检验:   χ² = 0.0622, df = 1, p-value = 0.8031
第一组典型载荷 A_R（标准化后 x1,x2 → U）:
 [[ 0.727  -0.6866]
 [ 0.6866  0.727 ]]
第二组典型载荷 B_R（标准化后 y1,y2 → V）:
 [[ 0.6838 -0.7297]
 [ 0.7297  0.6838]]


* 第一对典型相关

  * 相关系数 $r_1 = 0.7885$，Bartlett 全体检验 $\chi^2=20.9642,\;df=4,\;p=0.0003<0.05$，显著
  * 对应载荷（父子线性组合）：

    $$
      U_1 = 0.727\,X_1 + 0.687\,X_2,\qquad V_1 = 0.684\,Y_1 + 0.730\,Y_2
    $$

* 第二对典型相关

  * 相关系数 $r_2 = 0.0537$，次第检验 $\chi^2=0.0622,\;df=1,\;p=0.8031>0.05$，不显著
  * 因此仅保留**第一对**典型变量

* 基于 $S$ 和基于 $R$

  * 两种方法给出完全相同的 $r_1,r_2$ 与载荷，因为这几列变量量纲相同、方差接近
  * 若变量方差差异大，宜先标准化（基于 $R$），本题则无差别
