In [None]:
import pandas as pd
import numpy as np

def get_first_non_null_uom(df):
    """
    从医疗数据 DataFrame 中提取每个特征的第一个非空单位。

    Args:
        df: 包含医疗数据的 Pandas DataFrame。

    Returns:
        一个 Pandas DataFrame，其中包含特征名和对应的第一个非空单位。
        如果某个特征没有对应的单位列或所有单位列都为空，则单位为 NaN。
    """

    uom_columns = [col for col in df.columns if col.endswith('_uom')]
    feature_names = [col.replace('_uom', '') for col in uom_columns]
    result_data = []

    for feature, uom_col in zip(feature_names, uom_columns):
        # 找到第一个非空值
        first_non_null = df[uom_col].dropna().iloc[0] if not df[uom_col].dropna().empty else np.nan
        result_data.append([feature, first_non_null])

    result_df = pd.DataFrame(result_data, columns=['Feature', 'First_Non_Null_UOM'])
    return result_df


def rename_all_first(data):
    """
    将 DataFrame 中所有包含 "first_" 的列名中的 "first_" 替换为空字符串。

    Args:
        data: 一个 pandas DataFrame。

    Returns:
        修改后的 DataFrame。
    """
    new_columns = [col.replace("first_", "") if "first_" in col else col for col in data.columns]
    data.columns = new_columns
    return data

In [None]:
# eicu数据
eicu_data = pd.read_csv("../../data/delirium_eicu.csv") 
eicu_data = rename_all_first(eicu_data)
eicu_uom_df = get_first_non_null_uom(eicu_data)
eicu_uom_df

In [None]:
# mimic数据
mimic_data = pd.read_csv("../../data/delirium_mimic.csv") 
mimic_uom_df = get_first_non_null_uom(mimic_data)
mimic_uom_df

In [None]:
mimic_data

In [None]:
eicu_data

In [None]:
mimic_data

In [None]:
mimic_uom_df.to_csv("../../data/uom/mimic_uom.csv", index=False)
eicu_uom_df.to_csv("../../data/uom/eicu_uom.csv", index=False)

# 寻找共同特征和特有特征

In [None]:
import pandas as pd

def compare_dataframe_features(df1, df2):
    """
    对比两个 DataFrame 的特征（列名），返回共同特征、df1 特有特征和 df2 特有特征。

    参数：
        df1: 第一个 DataFrame。
        df2: 第二个 DataFrame。

    返回值：
        一个包含三个列表的元组：
        - 共同特征列表
        - df1 特有特征列表
        - df2 特有特征列表
    """

    # 将 DataFrame 的列名转换为集合
    df1_features = set(df1.columns)
    df2_features = set(df2.columns)

    # 计算共同特征（交集）
    common_features = list(df1_features.intersection(df2_features))

    # 计算 df1 特有特征（差集）
    df1_unique_features = list(df1_features.difference(df2_features))

    # 计算 df2 特有特征（差集）
    df2_unique_features = list(df2_features.difference(df1_features))

    return common_features, df1_unique_features, df2_unique_features

common, mimic_unique, eicu_unique = compare_dataframe_features(mimic_data, eicu_data)

print("共同特征:", common)
print("mimic_data 特有特征:", mimic_unique)
print("eicu_data 特有特征:", eicu_unique)

In [None]:
eicu_data

In [None]:
eicu_data.to_csv('../../data/transform/eicu_transform.csv', index=False)
mimic_data.to_csv('../../data/transform/mimic_transform.csv', index=False)

In [None]:
get_first_non_null_uom(eicu_data).to_csv('../../data/单位.csv',index=False)