In [None]:
import numpy as np
import pandas as pd

In [None]:
eicu_data = pd.read_csv('../../data/samefeature/eicu_samefeature.csv')
mimic_data = pd.read_csv('../../data/samefeature/mimic_samefeature.csv')

In [None]:
eicu_data

In [None]:
mimic_data

In [None]:
print("eicu性别: ",eicu_data['gender'].unique())
print("mimic性别: ",mimic_data['gender'].unique())

# EICU性别处理

In [None]:
eicu_data = eicu_data[~eicu_data['gender'].isin(['Other', 'Unknown'])]

In [None]:
eicu_data = pd.get_dummies(eicu_data, columns=['gender'], drop_first=True, dtype=int)
eicu_data

# MIMIC性别处理

In [None]:
mimic_data['gender'].value_counts()

In [None]:
mimic_data['gender'] = mimic_data['gender'].replace({'M': 'Male', 'F': 'Female'})

mimic_data

In [None]:
# 2. 独热编码并删除 Female 列
mimic_data = pd.get_dummies(mimic_data, columns=['gender'], prefix='gender', drop_first=False, dtype=int)

In [None]:
mimic_data = mimic_data.drop(columns=['gender_Female'])
mimic_data

# 重命名

In [None]:
rename_mapping = {
    'age': 'Age',
    'albumin': 'Albumin',
    'alt': 'ALT',
    'aniongap': 'Anion_Gap',
    'ast': 'AST',
    'bedglucose': 'Bed_Glucose', # 多词
    'bnp': 'BNP', # 标准医学缩写，全大写
    'bun': 'BUN', # 标准医学缩写，全大写
    'calcium': 'Calcium',
    'chloride': 'Chloride',
    'cpk': 'CPK', # 标准医学缩写，全大写
    'cpkmb': 'CPK_MB', # 标准医学缩写，多词部分用下划线连接
    'creatinine': 'Creatinine',
    'fibrinogen': 'Fibrinogen',
    'freecalcium': 'Free_Calcium', # 多词
    'hct': 'HCT', # 标准医学缩写，全大写 (Hematocrit)
    'hdl': 'HDL', # 标准医学缩写，全大写
    'heartrate': 'Heart_Rate', # 多词
    'height': 'Height',
    'hgb': 'HGB', # 标准医学缩写，全大写 (Hemoglobin)
    'ibp_diastolic': 'IBP_Diastolic', # 保留缩写并大写，多词部分大写并连接
    'ibp_mean': 'IBP_Mean',
    'ibp_systolic': 'IBP_Systolic',
    'lactate': 'Lactate',
    'ldl': 'LDL', # 标准医学缩写，全大写
    'lymphocytes': 'Lymphocytes',
    'neutrophilcount': 'Neutrophil_Count', # 多词
    'nibp_diastolic': 'NIBP_Diastolic', # 保留缩写并大写，多词部分大写并连接
    'nibp_mean': 'NIBP_Mean',
    'nibp_systolic': 'NIBP_Systolic',
    'pco2': 'PCO2', # 标准医学/生理缩写，全大写
    'ph': 'pH', # 标准科学符号
    'plateletcount': 'Platelet_Count', # 多词
    'po2': 'PO2', # 标准医学/生理缩写，全大写
    'potassium': 'Potassium',
    'pt': 'PT', # 标准医学缩写，全大写 (Prothrombin Time)
    'ptinr': 'PT_INR', # 标准医学缩写，多词部分用下划线连接
    'ptt': 'PTT', # 标准医学缩写，全大写 (Partial Thromboplastin Time)
    'rbc': 'RBC', # 标准医学缩写，全大写 (Red Blood Cell)
    'rdw': 'RDW', # 标准医学缩写，全大写 (Red Cell Distribution Width)
    'respiratoryrate': 'Respiratory_Rate', # 多词
    'sodium': 'Sodium',
    'spo2': 'SpO2', # 标准生理缩写，特定大小写
    'temperature': 'Temperature',
    'totalbilirubin': 'Total_Bilirubin', # 多词
    'totalco2': 'Total_CO2', # 多词，CO2是标准缩写
    'totalprotein': 'Total_Protein', # 多词
    'triglycerides': 'Triglycerides',
    'troponini': 'Troponin_I', # 标准医学缩写，特定大小写
    'troponint': 'Troponin_T', # 标准医学缩写，特定大小写
    'uricacid': 'Uric_Acid', # 多词
    'urineprotein': 'Urine_Protein', # 多词
    'wbc': 'WBC', # 标准医学缩写，全大写 (White Blood Cell)
    'weight': 'Weight',
    'label': 'label',
    'gender_Male': 'Gender_Male' # 多词，性别信息
}
mimic_data = mimic_data.rename(columns=rename_mapping)
eicu_data = eicu_data.rename(columns=rename_mapping)

# 特征排序

In [None]:
import pandas as pd

def sort_dataframe_columns(df):
    """
    对 DataFrame 的列进行排序，'label' 列放在最后。

    参数：
        df: 要排序的 pandas DataFrame。

    返回值：
        排序后的 DataFrame。
    """

    # 1. 获取所有列名
    columns = list(df.columns)

    # 2. 将 'label' 列从列表中移除 (如果存在)
    if 'label' in columns:
        columns.remove('label')

    # 3. 对剩余列名进行排序
    columns.sort()

    # 4. 将 'label' 列添加到列表末尾 (如果存在)
    if 'label' in df.columns:
        columns.append('label')

    # 5. 使用排好序的列名重新排列 DataFrame 的列
    df = df[columns]

    return df

# 假设 mimic_data 和 eicu_data 已经加载并具有相同的列：
mimic_data = sort_dataframe_columns(mimic_data)
eicu_data = sort_dataframe_columns(eicu_data)

In [None]:
mimic_data

In [None]:
eicu_data

In [None]:
mimic_data.describe()