In [1]:
import pandas as pd
import numpy as np
import re
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import os
import warnings
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler
warnings.filterwarnings('ignore')    #忽略警告消息

In [2]:
# ========== 初始化设置 ==========

 # 设置pandas显示所有列（不截断）
pd.set_option('display.max_columns', None) 
# 固定随机种子为42
np.random.seed(42) 

#读取保存路径设置
DATA_PATH = '测试.xlsx'
OUTPUT_PATH = '测试预处理结果.xlsx'  

In [3]:
# ========== 数据加载与校验 ==========

#数据加载
df = pd.read_excel(DATA_PATH)
print(f"数据加载成功，原始形状：{df.shape}")

数据加载成功，原始形状：(9, 108)


In [4]:
cols_to_drop = ['CLLI_OID', 'CL_NO', 'LINE_NO', 'BARCODE', 'FX_RATE','PRI_CORR_BRKR_NAME','SCMA_OID_BEN_TYPE', 'CRT_USER', 'UPD_USER',
                'ID_CARD_NO', 'PHONE_NO', 'PAYEE_LAST_NAME', 'PAYEE_FIRST_NAME','CL_PAY_ACCT_NO','POCY_REF_NO','MBR_REF_NO','CLSH_HOSP_CODE',
                'LINE_REMARK', 'CSR_REMARK', 'PLAN_REMARK','MAN_REJ_CODE_DESC_','CL_LINE_FORMULA','CL_CLAIM_FORMULA','CL_INVOICE_FORMULA',
               'KIND_CODE','MAN_REJ_CODE_DESC_1','MAN_REJ_CODE_DESC_2','BEN_HEAD_TYPE','MBR_REF_NO_B','ORG_INSUR_INVOICE_IND','FILE_ID'
               'MEPL_MBR_REF_NO','MEPL_MBR_REF_NO_B','MBR_LAST_NAME  ','BANK_NAME','CL_PAY_ACCT_NAME','FILE_ID ','MAN_REJ_AMT_2',
               'FILE_CLOSE_DATE','TOTAL_RECEIPT_AMT','MEPL_MBR_REF_NO','MAN_REJ_AMT_1','PROV_DEPT','MBR_LAST_NAME','FILE_ID','WORKPLACE_NAME',
                'POCY_PLAN_DESC','INCUR_DATE_FROM','INCUR_DATE_TO','PAY_DATE','CRT_DATE','UPD_DATE','DIAG_DESC','SCMA_OID_CL_LINE_STATUS',
               'RCV_DATE','MBR_FIRST_NAME','SCMA_OID_PROD_TYPE','SCMA_OID_CL_STATUS','SCMA_OID_CL_TYPE','SCMA_OID_COUNTRY_TREATMENT','MEMBER_EVENT',
               'INSUR_INVOICE_IND','PROV_NAME','MBR_TYPE','BOX_BARCODE','PAY_AMT','STR_CRT_DATE','ORG_PRES_AMT','PROV_CODE','MBR_NO','STR_UPD_DATE','POHO_NO',
                'POPL_OID','INVOICE_ID','CL_LINE_NO','PLAN_OID','POCY_NO','POLICY_CNT','INVOICE_NO'
               ,'BEN_HEAD','RJ_CODE_LIST','RECHARGE_AMT']
cols_to_drop = [col for col in cols_to_drop if col in df.columns]
df.drop(columns=cols_to_drop, inplace=True) #inplace=True表示直接在原DataFrame上修改
print(f"已删除字段：{cols_to_drop}")


# 2. 目标变量编码
#修改是否欺诈行的 'AC' → 0（非欺诈，即正常理赔） 'RJ' → 1（欺诈，即可疑或拒赔案件）
if 'CL_LINE_STATUS' in df.columns:
    df['fraud'] = df['CL_LINE_STATUS'].map({'AC': 0, 'RJ': 1,'PD':1,'PV':1})
    df.drop(columns=['CL_LINE_STATUS'], inplace=True)

已删除字段：['CLLI_OID', 'CL_NO', 'LINE_NO', 'BARCODE', 'FX_RATE', 'PRI_CORR_BRKR_NAME', 'SCMA_OID_BEN_TYPE', 'CRT_USER', 'UPD_USER', 'ID_CARD_NO', 'PHONE_NO', 'PAYEE_LAST_NAME', 'PAYEE_FIRST_NAME', 'CL_PAY_ACCT_NO', 'POCY_REF_NO', 'MBR_REF_NO', 'CLSH_HOSP_CODE', 'LINE_REMARK', 'CSR_REMARK', 'PLAN_REMARK', 'CL_LINE_FORMULA', 'CL_CLAIM_FORMULA', 'CL_INVOICE_FORMULA', 'KIND_CODE', 'MAN_REJ_CODE_DESC_1', 'MAN_REJ_CODE_DESC_2', 'BEN_HEAD_TYPE', 'MBR_REF_NO_B', 'ORG_INSUR_INVOICE_IND', 'MEPL_MBR_REF_NO_B', 'BANK_NAME', 'CL_PAY_ACCT_NAME', 'MAN_REJ_AMT_2', 'FILE_CLOSE_DATE', 'TOTAL_RECEIPT_AMT', 'MEPL_MBR_REF_NO', 'MAN_REJ_AMT_1', 'PROV_DEPT', 'MBR_LAST_NAME', 'FILE_ID', 'WORKPLACE_NAME', 'POCY_PLAN_DESC', 'INCUR_DATE_FROM', 'INCUR_DATE_TO', 'PAY_DATE', 'CRT_DATE', 'UPD_DATE', 'DIAG_DESC', 'SCMA_OID_CL_LINE_STATUS', 'RCV_DATE', 'MBR_FIRST_NAME', 'SCMA_OID_PROD_TYPE', 'SCMA_OID_CL_STATUS', 'SCMA_OID_CL_TYPE', 'SCMA_OID_COUNTRY_TREATMENT', 'MEMBER_EVENT', 'INSUR_INVOICE_IND', 'PROV_NAME', 'MBR_TYPE'

In [5]:
from sklearn.preprocessing import MinMaxScaler

# 选择所有数值型列（排除目标变量 'fraud'）
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
num_cols = [col for col in num_cols if col != 'fraud']

# 初始化 MinMaxScaler
scaler = MinMaxScaler()

# 对选定的列进行 Min-Max 标准化
df[num_cols] = scaler.fit_transform(df[num_cols])

# 检查标准化后的数据范围
print("Min-Max 标准化后的数据范围：")
print(df[num_cols].describe().loc[['min', 'max']])


Min-Max 标准化后的数据范围：
     ORG_PRES_AMT_VALUE  APP_AMT  BEN_SPEND  PAY_AMT_USD  REJECTED_AMT  \
min                 0.0      0.0        0.0          0.0           0.0   
max                 1.0      1.0        1.0          1.0           1.0   

     PAYMENT_STATUS  PAYMENT_AMENT_DATE  SUB_AMT  CL_SOCIAL_PAY_AMT  \
min             NaN                 NaN      0.0                0.0   
max             NaN                 NaN      1.0                1.0   

     CL_THIRD_PARTY_PAY_AMT  CL_OWNER_PAY_AMT  CL_SELF_CAT_PAY_AMT  COPAY_PCT  \
min                     0.0               0.0                  0.0        0.0   
max                     0.0               1.0                  1.0        1.0   

     CWF_AMT_DAY  DED_AMT  NO_OF_YR  MAN_REJ_CODE_DESC_3  MAN_REJ_CODE_DESC_4  \
min          0.0      0.0       0.0                  NaN                  NaN   
max          0.0      0.0       0.0                  NaN                  NaN   

     MAN_REJ_CODE_DESC_5  MAN_REJ_AMT_3  MAN_REJ_AMT_4  

In [6]:
#特征编码
from sklearn.preprocessing import LabelEncoder

# 对 PROV_LEVEL 进行特征编码
if 'PROV_LEVEL' in df.columns:
    # 初始化 LabelEncoder
    label_encoder = LabelEncoder()
    
    # 对 PROV_LEVEL 进行编码
    df['PROV_LEVEL'] = label_encoder.fit_transform(df['PROV_LEVEL'])
    
    # 打印编码映射关系
    print("PROV_LEVEL 编码映射关系：")
    for i, label in enumerate(label_encoder.classes_):
        print(f"{label} → {i}")



# 对 BEN_TYPE 进行特征编码
if 'BEN_TYPE' in df.columns:
    # 统计 BEN_TYPE 的唯一值
    unique_ben_types = df['BEN_TYPE'].unique()
    print(f"BEN_TYPE 的唯一值有 {len(unique_ben_types)} 种，具体为：{unique_ben_types}")
    
    # 初始化 LabelEncoder
    label_encoder = LabelEncoder()
    
    # 对 BEN_TYPE 进行编码
    df['BEN_TYPE'] = label_encoder.fit_transform(df['BEN_TYPE'])
    
    # 打印编码映射关系
    print("BEN_TYPE 编码映射关系：")
    for i, label in enumerate(label_encoder.classes_):
        print(f"{label} → {i}")



# 对 DIAG_CODE 进行特征编码（基于前1个字符）
if 'DIAG_CODE' in df.columns:
    # 提取前1个字符作为分类依据
    df['DIAG_CODE_PREFIX'] = df['DIAG_CODE'].str[:1]
    
    # 统计前1个字符的唯一值
    unique_prefixes = df['DIAG_CODE_PREFIX'].unique()
    print(f"DIAG_CODE 的前1个字符有 {len(unique_prefixes)} 种，具体为：{unique_prefixes}")
    
    # 初始化 LabelEncoder
    label_encoder = LabelEncoder()
    
    # 对前1个字符进行编码
    df['DIAG_CODE_PREFIX'] = label_encoder.fit_transform(df['DIAG_CODE_PREFIX'])
    
    # 打印编码映射关系
    print("DIAG_CODE 前1个字符编码映射关系：")
    for i, label in enumerate(label_encoder.classes_):
        print(f"{label} → {i}")
    
    # 删除原始的 DIAG_CODE 列（如果需要）
    df.drop(columns=['DIAG_CODE'], inplace=True)


# 1. 检查 CODES 列是否存在
if 'CODES' in df.columns:
    # 2. 填充缺失值并转换为字符串
    df['CODES'] = df['CODES'].fillna('').astype(str)
    
    # 3. 计算字符串数量
    df['CODES_COUNT'] = df['CODES'].apply(lambda x: len(x.split(',')) if x else 0)
    
    # 4. 删除原始的 CODES 列（如果需要）
    df.drop(columns=['CODES'], inplace=True)
    
    print("CODES 列已编码为字符串数量，新增列：CODES_COUNT")
else:
    print("数据中未找到 CODES 列，请检查数据！")

PROV_LEVEL 编码映射关系：
三级 → 0
二级 → 1
BEN_TYPE 的唯一值有 1 种，具体为：['OP']
BEN_TYPE 编码映射关系：
OP → 0
DIAG_CODE 的前1个字符有 6 种，具体为：['K' 'G' 'L' 'E' 'M' 'R']
DIAG_CODE 前1个字符编码映射关系：
E → 0
G → 1
K → 2
L → 3
M → 4
R → 5
CODES 列已编码为字符串数量，新增列：CODES_COUNT


In [7]:
# ========== 数据输出 ==========

# 确保输出目录存在
os.makedirs(os.path.dirname(OUTPUT_PATH) or '.', exist_ok=True)

# 保存处理后的数据
df.to_excel(OUTPUT_PATH, index=False)
print(f"\n数据处理完成，结果已保存到: {os.path.abspath(OUTPUT_PATH)}")
print(f"最终数据形状：{df.shape}")


数据处理完成，结果已保存到: C:\Users\27826\Desktop\项目\结果预测\测试预处理结果.xlsx
最终数据形状：(9, 31)
