In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

In [2]:
seed = 6435634

In [3]:
train = pd.read_csv('train.csv')
X_ini = train.iloc[:,1:6]
y_ini = train.iloc[:,6]

In [4]:
model = LogisticRegression(random_state=seed)

In [5]:
model.fit(X_ini,y_ini)

In [6]:
pro_train = model.predict_proba(X_ini)[:,1]

In [7]:
print('训练集AUC={:.3f}'.format(roc_auc_score(y_ini,pro_train)))

训练集AUC=0.840


In [8]:
from sklearn.metrics import roc_auc_score, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
# 使用模型对训练集数据进行预测，得到预测标签
y_pred_train = model.predict(X_ini)  

# 计算训练集的AUC值（需要模型输出的概率值 pro_train）
auc_train = roc_auc_score(y_ini, pro_train)

# 计算训练集准确率（正确预测样本比例）
accuracy_train = accuracy_score(y_ini, y_pred_train)

# 计算训练集精确率（预测为正的样本中真实为正的比例）
precision_train = precision_score(y_ini, y_pred_train)

# 计算训练集召回率（真实为正的样本中被正确预测的比例）
recall_train = recall_score(y_ini, y_pred_train)

# 计算训练集F1分数（精确率和召回率的调和平均数）
f1_train = f1_score(y_ini, y_pred_train)

# 生成训练集的混淆矩阵（四分类表格）
confusion_train = confusion_matrix(y_ini, y_pred_train)

# 解构混淆矩阵四个值：真阴、假阳、假阴、真阳
tn, fp, fn, tp = confusion_train.ravel()

# 计算特异度（真实为负的样本中被正确识别的比例）
specificity_train = tn / (tn + fp)

print('训练集AUC={:.3f}'.format(auc_train))
print('训练集Accuracy={:.3f}'.format(accuracy_train))
print('训练集Precision={:.3f}'.format(precision_train))
print('训练集Sensitivity (Recall)={:.3f}'.format(recall_train))
print('训练集Specificity={:.3f}'.format(specificity_train))
print('训练集F1={:.3f}'.format(f1_train))

训练集AUC=0.840
训练集Accuracy=0.732
训练集Precision=0.738
训练集Sensitivity (Recall)=0.738
训练集Specificity=0.727
训练集F1=0.738


In [9]:
df_train = pd.DataFrame({
    'ID':train['ID'],
    'True':y_ini,
    'Pre':pro_train
})
df_train.to_csv('Logistic_train.csv',index=False)

In [11]:
# 导入必要库
import pandas as pd
from sklearn.metrics import (roc_auc_score, accuracy_score, 
                           precision_score, recall_score, 
                           f1_score, confusion_matrix)

# 定义测试集文件列表（简化路径）
test_files = [
    'test1.csv',
    'test2.csv',
    'test3.csv',
    'test4.csv',
    'test5.csv',
    'test6.csv',
    'test7.csv',
    'test8.csv'
]

# 遍历每个测试集文件
for test_file in test_files:
    # 数据加载
    test = pd.read_csv(test_file)  # 读取CSV文件
    
    # 特征工程
    X_test = test.iloc[:, 1:6]   # 提取第2到第10列作为特征（假设第1列为ID）
    y_test = test.iloc[:, 6]     # 提取第11列作为真实标签
    
    # 模型预测
    pro_test = model.predict_proba(X_test)[:, 1]  # 获取正类预测概率
    y_pred_test = model.predict(X_test)           # 获取预测标签（0/1分类）
    
    # 计算评估指标
    auc_test = roc_auc_score(y_test, pro_test)          # AUC面积
    accuracy_test = accuracy_score(y_test, y_pred_test)  # 准确率
    precision_test = precision_score(y_test, y_pred_test) # 精确率
    recall_test = recall_score(y_test, y_pred_test)       # 召回率/敏感度
    f1_test = f1_score(y_test, y_pred_test)              # F1分数
    
    # 混淆矩阵分析
    confusion_test = confusion_matrix(y_test, y_pred_test)  # 生成混淆矩阵
    tn, fp, fn, tp = confusion_test.ravel()                # 解构四类结果
    specificity_test = tn / (tn + fp)                      # 计算特异度
    
    # 输出评估结果
    print(f'\nResults for {test_file}:')
    print(f'测试集 AUC = {auc_test:.3f}')                   
    print(f'测试集 Accuracy = {accuracy_test:.3f}')         
    print(f'测试集 Precision = {precision_test:.3f}')       
    print(f'测试集 Sensitivity (Recall) = {recall_test:.3f}')
    print(f'测试集 Specificity = {specificity_test:.3f}')   
    print(f'测试集 F1 = {f1_test:.3f}')                     
    
    # 保存预测结果
    df_test = pd.DataFrame({
        'ID': test['ID'],       # 保留原始ID列
        'True': y_test,          # 真实标签
        'Pre': pro_test          # 预测概率值
    })
    df_test.to_csv(f'Logistic_{test_file}_predictions.csv', index=False)  # 生成预测文件

# 保存模型
import joblib

model_filename = 'Logistic_model.joblib'
joblib.dump(model, model_filename)  # 这里model需要是已训练好的模型对象
print(f"模型已保存到当前目录下的 {model_filename}")


Results for test1.csv:
测试集 AUC = 0.828
测试集 Accuracy = 0.667
测试集 Precision = 0.900
测试集 Sensitivity (Recall) = 0.562
测试集 Specificity = 0.875
测试集 F1 = 0.692

Results for test2.csv:
测试集 AUC = 0.844
测试集 Accuracy = 0.500
测试集 Precision = 0.500
测试集 Sensitivity (Recall) = 1.000
测试集 Specificity = 0.000
测试集 F1 = 0.667

Results for test3.csv:
测试集 AUC = 0.679
测试集 Accuracy = 0.639
测试集 Precision = 0.619
测试集 Sensitivity (Recall) = 0.722
测试集 Specificity = 0.556
测试集 F1 = 0.667

Results for test4.csv:
测试集 AUC = 0.889
测试集 Accuracy = 0.875
测试集 Precision = 0.846
测试集 Sensitivity (Recall) = 0.917
测试集 Specificity = 0.833
测试集 F1 = 0.880

Results for test5.csv:
测试集 AUC = 0.920
测试集 Accuracy = 0.800
测试集 Precision = 0.812
测试集 Sensitivity (Recall) = 0.867
测试集 Specificity = 0.700
测试集 F1 = 0.839

Results for test6.csv:
测试集 AUC = 0.393
测试集 Accuracy = 0.500
测试集 Precision = 0.667
测试集 Sensitivity (Recall) = 0.571
测试集 Specificity = 0.333
测试集 F1 = 0.615

Results for test7.csv:
测试集 AUC = 0.896
测试集 Accuracy = 0.732
测试集 Preci