In [None]:
import pandas as pd
import numpy as np

In [None]:
eicu_data = pd.read_csv("../../data/transform/eicu_transform.csv")
mimic_data = pd.read_csv("../../data/transform/mimic_transform.csv")

In [None]:
eicu_data

In [None]:
mimic_data

In [None]:
mimic_data['subject_id.3'].drop_duplicates().count()

# MIMIC处理

In [None]:
unit_cols = [col for col in mimic_data.columns if '_uom' in col]
mimic_data = mimic_data.drop(columns=unit_cols)
features_no_impact = [
    'subject_id', 'subject_id.1', 'subject_id.2', 'subject_id.3',
    'stay_id', 'stay_id.1', 'stay_id.2',
    'hadm_id', 'hadm_id.1', 'hadm_id.2',
]
mimic_data = mimic_data.drop(columns=features_no_impact)
mimic_data

# EICU处理

In [None]:
unit_cols = [col for col in eicu_data.columns if '_uom' in col]
eicu_data = eicu_data.drop(columns=unit_cols)
eicu_data

# 命名规范化

In [None]:
import pandas as pd

# 打印原始列名
print("原始列名：")
print(mimic_data.columns)
print(eicu_data.columns)

mimic_data.columns = [col.replace('lab', '') if col != 'label' else col for col in mimic_data.columns]
eicu_data.columns = [col.replace('lab', '') if col != 'label' else col for col in eicu_data.columns]

print("处理之后列名：")
print(mimic_data.columns)
print(eicu_data.columns)

In [None]:
import pandas as pd

def compare_dataframe_features(df1, df2):
    """
    对比两个 DataFrame 的特征（列名），返回共同特征、df1 特有特征和 df2 特有特征。

    参数：
        df1: 第一个 DataFrame。
        df2: 第二个 DataFrame。

    返回值：
        一个包含三个列表的元组：
        - 共同特征列表
        - df1 特有特征列表
        - df2 特有特征列表
    """

    # 将 DataFrame 的列名转换为集合
    df1_features = set(df1.columns)
    df2_features = set(df2.columns)

    # 计算共同特征（交集）
    common_features = list(df1_features.intersection(df2_features))

    # 计算 df1 特有特征（差集）
    df1_unique_features = list(df1_features.difference(df2_features))

    # 计算 df2 特有特征（差集）
    df2_unique_features = list(df2_features.difference(df1_features))

    return common_features, df1_unique_features, df2_unique_features

# 假设你的 DataFrame 已经创建，名为 mimic_data 和 eicu_data:
common, mimic_unique, eicu_unique = compare_dataframe_features(mimic_data, eicu_data)

# 打印结果
print("共同特征:", common)
print("mimic_data 特有特征:", mimic_unique)
print("eicu_data 特有特征:", eicu_unique)

In [None]:
mimic_data = mimic_data.drop(columns=mimic_unique)
eicu_data = eicu_data.drop(columns=eicu_unique)

In [None]:
eicu_data

In [None]:
mimic_data

In [None]:
eicu_data.columns

In [None]:
mimic_data.columns

In [None]:
import pandas as pd

def sort_dataframe_columns(df):
    """
    对 DataFrame 的列进行排序，'label' 列放在最后。

    参数：
        df: 要排序的 pandas DataFrame。

    返回值：
        排序后的 DataFrame。
    """

    # 1. 获取所有列名
    columns = list(df.columns)

    # 2. 将 'label' 列从列表中移除 (如果存在)
    if 'label' in columns:
        columns.remove('label')

    # 3. 对剩余列名进行排序
    columns.sort()

    # 4. 将 'label' 列添加到列表末尾 (如果存在)
    if 'label' in df.columns:
        columns.append('label')

    # 5. 使用排好序的列名重新排列 DataFrame 的列
    df = df[columns]

    return df

mimic_data = sort_dataframe_columns(mimic_data)
eicu_data = sort_dataframe_columns(eicu_data)

In [None]:
eicu_data

In [None]:
mimic_data

In [None]:
eicu_data.to_csv('../../data/samefeature/eicu_samefeature.csv', index=False)
mimic_data.to_csv('../../data/samefeature/mimic_samefeature.csv', index=False)