In [1]:
import pandas as pd
import statsmodels.api as sm
import numpy as np

def remove_outliers(dataframe, k=1.5):
    """
    使用中位数法剔除异常值。

    参数：
    dataframe -- 输入的Pandas DataFrame。
    k -- 中位数法的系数, 默认为1.5。

    返回值：
    一个新的DataFrame, 其中异常值已被替换为NaN。
    """
    # 计算每列的中位数
    medians = dataframe.median()

    # 计算每列的绝对离差
    abs_deviation = (dataframe - medians).abs()

    # 计算每列绝对离差的中位数
    median_abs_deviation = abs_deviation.median()

    # 计算上下界
    lower_bound = medians - k * median_abs_deviation
    upper_bound = medians + k * median_abs_deviation

    # 找出异常值并替换
    dataframe_no_outliers = dataframe.where((dataframe >= lower_bound) & (dataframe <= upper_bound))

    # 将异常值替换为 NaN
    dataframe_no_outliers = dataframe_no_outliers.mask((dataframe < lower_bound) | (dataframe > upper_bound))

    return dataframe_no_outliers

def standardize_dataframe(dataframe):
    """
    将输入的DataFrame标准化, 使其具有均值为0和标准差为1的正态分布。

    参数：
    dataframe -- 输入的Pandas DataFrame。

    返回值：
    一个新的标准化后的DataFrame。
    """
    
    # 计算均值和标准差
    mean = dataframe.mean()
    std = dataframe.std()

    # 使用公式进行标准化
    standardized_dataframe = (dataframe - mean) / std

    return standardized_dataframe

In [19]:
sourcePath = '../data/risk_factors/'
targetPath = '../data/standardized_risk_factors/'

df = pd.read_csv(sourcePath + 'volatility_factor.csv', index_col=0)

# print(beta.shape)

df_no_outliers  = remove_outliers(df)

df_no_outliers_standardized = standardize_dataframe(df_no_outliers)

df_no_outliers_standardized.to_csv(targetPath + 'volatility_factor_standardized.csv')

# print(beta_no_outliers_standardized)
