In [1]:
import numpy as np
from typing import List, Union

In [2]:
def random_sample_vector_with_specify_angle(b_coeffs:Union[List[float], np.ndarray], target_angle_deg:float):
    '''
    設定空間中的一個向量 b_coeffs 隨機生成另一個向量 c 使得兩個向量間的夾角為 target_angle_deg 度
    '''
    if isinstance(b_coeffs, list):
        b = np.array(b_coeffs, dtype=float)
    elif isinstance(b_coeffs, np.ndarray):
        b = b_coeffs
    len_b = np.linalg.norm(b)
    norm_b = b / len_b
    dim = len(b_coeffs)

    # 隨機產生一個向量a使得a 垂直於 b
    random_v = np.random.standard_normal(dim)
    a = random_v - (np.dot(random_v, b) / np.dot(b,b)) * b
    len_a = np.linalg.norm(a)
    norm_a = a/len_a

    # 若要用空間中的兩個垂直向量a與b生成一個 c 向量並且向量 c 與 b 的夾角為 theta
    # 則 c = |c|*Cos(theta)*norm_b + |c|*Sin(theta)*norm_a
    # 假設 c 的長度為 1，則 c = Cos(theta)*norm_b + Sin(theta)*norm_a
    theta = np.radians(target_angle_deg)
    c = np.cos(theta)*norm_b + np.sin(theta)*norm_a

    return c

def standardize(arr):
    # ddof=0 為總體標準差，ddof=1 為樣本標準差（通常相關係數不影響結果）
    return (arr - np.mean(arr)) / np.std(arr)


In [3]:
# 用簡單多項式平面隨機生成資料
d = 5 # 資料維度
n = 100 # 生成的資料筆數
b_coeffs = np.random.standard_normal(d) # 多項式係數
epsilon_sigma = 0.01 # 隨機誤差的標準差
target_angle_deg = 90

alpha = np.ones(d)
X = np.random.dirichlet(alpha, size=n) # 生成 simplex 資料
Y1 = np.dot(X, b_coeffs) # 用 b_coeffs 生成 Y
if epsilon_sigma > 0:
    Y1 = Y1 + np.random.normal(0, epsilon_sigma, size=n)
# 隨機生成一組與 b_coeffs 夾角為 120 度的向量
c_coeffs = random_sample_vector_with_specify_angle(b_coeffs, target_angle_deg)
Y2 = np.dot(X, c_coeffs)
if epsilon_sigma > 0:
    Y2 = Y2 + np.random.normal(0, epsilon_sigma, size=n)


In [4]:
np.corrcoef(Y1, Y2)

y1_std = standardize(Y1)
y2_std = standardize(Y2)

np.corrcoef(y1_std, y2_std)

array([[ 1.        , -0.72145495],
       [-0.72145495,  1.        ]])