In [None]:
# 导入所需库
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, roc_curve, auc
from sklearn.preprocessing import StandardScaler

In [None]:
# 设置绘图风格
sns.set(style="whitegrid")
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑体字体
plt.rcParams['axes.unicode_minus'] = False  # 用于正常显示负号

In [None]:
# Step 1: 加载并预处理数据
def load_and_preprocess_data(file_path):
    """
    加载并预处理数据集。
    """
    # 加载数据集
    data = pd.read_csv(file_path)
    
    # 处理缺失值
    data['Age'] = data['Age'].fillna(data['Age'].median())
    data = data.drop(columns=['Cabin'])
    data['Embarked'] = data['Embarked'].fillna(data['Embarked'].mode()[0])
    
    # 转换类别变量
    data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
    data = pd.get_dummies(data, columns=['Embarked'], drop_first=True)
    
    # 选择相关特征
    X = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_Q', 'Embarked_S']]
    y = data['Survived']
    
    return X, y

In [None]:
# Step 2: 构建并训练逻辑回归模型
def build_and_train_model(X_train, y_train):
    """
    构建并训练逻辑回归模型。
    """
    # **********************************************************************************
    #填空1（使用sklearn中的逻辑回归，设置模型的最大迭代次数为 1000，并使用 fit 函数对模型进行训练）
    model = __________________
    model.__________________
    # **********************************************************************************

    return model

In [None]:
# Step 3: 评估模型性能并可视化结果
def evaluate_model(model, X_test, y_test):
    """
    评估模型性能并可视化结果。
    """
    # 预测
    y_pred = model.predict(X_test)
    y_pred_prob = model.predict_proba(X_test)[:, 1]
    
    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    print(f'模型准确率: {accuracy:.4f}')
    
    # **********************************************************************************
    # 绘制混淆矩阵
    # 填空2（根据文字描补全混淆矩阵的生成与可视化）
    cm = ____________#（补充代码：生成混淆矩阵）

    # 补充代码：绘制混淆矩阵的热力图，包括横轴、纵轴与图表标题
    plt.figure(figsize=(6, 5))
    sns.heatmap(__, annot=True, fmt="d", cmap="Blues", xticklabels=____________, yticklabels=____________)
    plt.title(____________)
    plt.xlabel(____________)
    plt.ylabel(____________)
    plt.show()
    # **********************************************************************************
    
    # 绘制 ROC 曲线
    fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
    roc_auc = auc(fpr, tpr)
    plt.figure(figsize=(8, 6))
    plt.plot(fpr, tpr, label=f"AUC = {roc_auc:.4f}")
    plt.plot([0, 1], [0, 1], linestyle='--', color='gray')
    plt.title("ROC 曲线")
    plt.xlabel("假阳性率 (FPR)")
    plt.ylabel("真正率 (TPR)")
    plt.legend(loc="lower right")
    plt.show()

In [None]:
# Step 4: 主函数
file_path = "titanic.csv"
X, y = load_and_preprocess_data(file_path)

# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
# **********************************************************************************
# 填空3（使用sklearn中的StandardScaler创建标准化对象，并对训练集和测试集分别进行标准化）
scaler = _______________
X_train = _______________
X_test = _______________
# **********************************************************************************


# 构建并训练模型
model = build_and_train_model(X_train, y_train)

# 评估模型
evaluate_model(model, X_test, y_test)