In [1]:
import numpy as np
def calculate_dataset_mean(data):
    n=data.shape[1]
    means=np.zeros(n)
    # 检查数据是否为 NumPy 数组
    #if not isinstance(data, np.ndarray):
     #   raise TypeError("输入数据必须是一个 NumPy 数组。")

    # 检查数据是否至少有一个样本
    #if data.shape[0] == 0:
        #return np.array([0.0, 0.0]) # 或者返回 None，或引发错误

    # 检查数据是否为二维
    #if data.shape[1] != 2:
        #raise ValueError("输入数据的每个点必须是二维的（形状应为 (n, 2)）。")

    # np.mean(data, axis=0) 是核心
    # - axis=0 指示 NumPy 沿着“列”（即每个维度）进行计算
    # - data[ : , 0] (所有x) 被计算均值
    # - data[ : , 1] (所有y) 被计算均值
    for i in range(0, n):
        component=data[:, i]
        means[i]=np.mean(component)
    return means


    

    
    

In [3]:
def pearson(data1, data2):
    mean_x=calculate_dataset_mean(data1)
    mean_y=calculate_dataset_mean(data2)
    
    temp_x=data1-mean_x
    temp_y=data2-mean_y
    numerator=np.einsum('ij,ij->j', temp_x, temp_y)
    
    temp_x=temp_x**2
    temp_y=temp_y**2
    sum_sq_x = np.einsum('ij->j', temp_x)
    sum_sq_y = np.einsum('ij->j', temp_y)
    
    denominator = np.sqrt(sum_sq_x * sum_sq_y)
    return numerator/denominator 
    

In [5]:
if __name__ == "__main__":
    
    print("--- 测试 pearson (相关系数) 函数 ---")
    
    # 创建两个数据集 (5个样本, 4个特征)
    # 移除常数项, 确保所有特征都有方差
    data_x = np.array([
        [1, 10, 1, 1],  # Feature 3: x = [1, 2, 3, 4, 5]
        [2, 20, 2, 2],
        [3, 30, 3, 3],
        [4, 40, 4, 4],
        [5, 50, 5, 5]
    ])
    
    data_z = np.array([
        # F0: 完美正相关 (1.0)
        [ 2, -10,  10, 11],  # Feature 3: y = [11, 14, 13, 17, 19] (高正相关, r ≈ 0.9407)
        [ 4, -20, -20, 14],
        [ 6, -30,  10, 13],
        [ 8, -40, -20, 17],
        [10, -50,  10, 19]
    ])
    
    print("Data X:\n", data_x)
    print("\nData Z:\n", data_z)
    
    # 预期结果向量:
    # F0 (Pos): 1.0
    # F1 (Neg): -1.0
    # F2 (Zero): 0.0
    # F3 (Noisy Pos): 0.940698... (我们取 0.9407)
    expected_correlations = np.array([1.0, -1.0, 0.0, 0.9407])
    
    # 调用函数
    actual_correlations = pearson(data_x, data_z)
    
    # 打印和比较结果 (对实际结果进行四舍五入以便于比较)
    rounded_actual = np.round(actual_correlations, 4)
    
    print(f"\n  > 预期相关系数向量 (四位小数): {expected_correlations}")
    print(f"  > 实际相关系数向量 (四位小数): {rounded_actual}")

    # 自动检查 (使用 np.allclose 进行精确检查)
    if np.allclose(actual_correlations, expected_correlations, atol=1e-4):
        print("  > 状态: 通过 (PASS)")
    else:
        print("  > 状态: 失败 (FAIL)")

    print("\n--- 相关系数测试结束 ---")

--- 测试 pearson (相关系数) 函数 ---
Data X:
 [[ 1 10  1  1]
 [ 2 20  2  2]
 [ 3 30  3  3]
 [ 4 40  4  4]
 [ 5 50  5  5]]

Data Z:
 [[  2 -10  10  11]
 [  4 -20 -20  14]
 [  6 -30  10  13]
 [  8 -40 -20  17]
 [ 10 -50  10  19]]

  > 预期相关系数向量 (四位小数): [ 1.     -1.      0.      0.9407]
  > 实际相关系数向量 (四位小数): [ 1.     -1.      0.      0.9406]
  > 状态: 通过 (PASS)

--- 相关系数测试结束 ---
