In [1]:
import pandas as pd
import numpy as np

def add_gaussian_noise(df, noise_std=0.1):
    """
    向 DataFrame 中的特征列添加高斯噪声（从第三列开始）。
    
    参数：
    df (pd.DataFrame): 输入的 DataFrame，包含样本名字、标签和特征。
    noise_std (float): 高斯噪声的标准差，控制噪声强度。
    
    返回：
    pd.DataFrame: 添加了噪声后的 DataFrame。
    """
    # 选择从第三列开始的特征列
    features_df = df.iloc[:, 2:]
    
    # 生成与特征数据形状相同的高斯噪声
    noise = np.random.normal(loc=0.0, scale=noise_std, size=features_df.shape)
    
    # 将噪声添加到特征数据
    noisy_features_df = features_df + noise
    
    # 将噪声添加回 DataFrame（保留前两列：样本名字和标签）
    noisy_df = df.copy()
    noisy_df.iloc[:, 2:] = noisy_features_df
    
    return noisy_df

In [2]:
noise_std = 0.3
for disease in ["EW-T2D", "LC", "C-T2D", "IBD", "Obesity"]:
    for feat in ["ko", "species"]:
        path = f"/hdd/wmh/MSFT-Transfromer/Data/{disease}/{feat}_abundance.csv"
        df = pd.read_csv(path)
        noisy_df = add_gaussian_noise(df, noise_std=noise_std)
        tgt_path = f"/hdd/wmh/MSFT-Transfromer/Data/{disease}/{feat}_noisy_{noise_std}_abundance.csv"
        noisy_df.to_csv(tgt_path, index=False)