In [1]:
import numpy as np
import pandas as pd

def clr_transformation(data):
    """
    对组成数据（Compositional Data）进行中心化对数比（CLR）变换。

    参数:
    data: 一个NumPy数组或Pandas DataFrame，其中每一行是一个样本，每一列是一个组成成分（比例）。

    返回:
    clr_data: CLR变换后的数据，以与输入相同的形式返回（NumPy数组或Pandas DataFrame）。
    """
    # 如果输入是Pandas DataFrame，提取数值部分并保留索引和列名
    if isinstance(data, pd.DataFrame):
        columns = data.columns
        index = data.index
        data = data.values
        is_dataframe = True
    else:
        is_dataframe = False
    
    # 确保数据中没有零值，因为对数变换不适用于零值
    if np.any(data == 0):
        raise ValueError("数据中存在零值，无法执行CLR变换。请先进行零值替换。")
    
    # 计算几何平均值
    geometric_mean = np.exp(np.mean(np.log(data), axis=1))
    
    # 计算CLR变换
    clr_data = np.log(data / geometric_mean[:, np.newaxis])
    
    # 如果输入是DataFrame，转换为DataFrame形式并返回
    if is_dataframe:
        clr_data = pd.DataFrame(clr_data, index=index, columns=columns)
    
    return clr_data



In [2]:
# 示例数据
data = np.array([
    [0.2, 0.3, 0.4, 0.1],
    [0.1, 0.2, 0.6, 0.1],
    [0.25, 0.25, 0.25, 0.25]
])

# 执行CLR变换
clr_data = clr_transformation(data)

print("原始数据：")
print(data)
print("\nCLR变换后的数据：")
print(clr_data)

原始数据：
[[0.2  0.3  0.4  0.1 ]
 [0.1  0.2  0.6  0.1 ]
 [0.25 0.25 0.25 0.25]]

CLR变换后的数据：
[[-0.10136628  0.30409883  0.5917809  -0.79451346]
 [-0.62122666  0.07192052  1.17053281 -0.62122666]
 [ 0.          0.          0.          0.        ]]
