## 基于多维特征预测睡眠障碍类型

相较于睡眠质量，睡眠障碍虽非最普遍的睡眠健康议题，但其与个体生命安全的关联性更为直接。失眠症不仅会严重损害生理健康，如加剧心血管代谢疾病的发病风险，亦会对心理健康构成严重威胁，是抑郁、焦虑等常见精神障碍的重要诱因。而睡眠呼吸暂停则被视为夜间猝死的潜在诱因之一，是心肌梗死、脑梗死的独立危险因素，并因其引发的严重日间嗜睡，极大增加交通事故等高意外死亡率风险。因此，探究睡眠障碍类型与生理、行为指标的关系，对于该疾病的早期预防与自我筛查至关重要。

基于上述背景，我们采用决策树模型，旨在基于多维特征信息，构建一个睡眠障碍类型的分类预测模型。该模型不仅有助于揭示不同睡眠障碍的外在特征，更能为个体提供一种初步的评估工具，从而提升公众对睡眠障碍的警觉性，助力于问题的早期识别与自我诊断。

---

### 1. 数据预处理

问题二为基于多维特征预测睡眠障碍类型。在选择特征时，我们希望能够了解尽可能多的特征与睡眠障碍类型的关系，故决定将表中所有的特征都纳入考量范围。在处理特征时，我们将分类变量进行了独热编码，同时将血压拆分为收缩压和舒张压，再对数字特征做标准化处理，最终得到用于建模的特征数据集。

[../src/02_sleep_disorder_type/data_preprocessing.py](../src/02_sleep_disorder_type/data_preprocessing.py)

![../reports/02_sleep_disorder_type/data_preprocessing.png](../reports/02_sleep_disorder_type/data_preprocessing.png)

---

### 2. 模型建立

[../src/02_sleep_disorder_type/modeling.py](../src/02_sleep_disorder_type/modeling.py)

---

### 3. 模型评估

[../src/02_sleep_disorder_type/model_evaluation.py](../src/02_sleep_disorder_type/model_evaluation.py)

![../reports/02_sleep_disorder_type/model_result.png](../reports/02_sleep_disorder_type/model_result.png)

![../reports/02_sleep_disorder_type/confusion_matrix.png](../reports/02_sleep_disorder_type/confusion_matrix.png)

由上述图表可以看出，在初始参数下的决策树模型总体的识别准确率达到了89.33%。

其中，该模型对于"无睡眠障碍"类别的识别极为可靠，精确率达98%，能够准确排除健康人群。然而，该模型在病症诊断方面存在明显差异：睡眠呼吸中止症的检出率很高（召回率为94%），但误诊率也相对较高（精确率为75%），表明模型对睡眠呼吸中止症这一类型较为敏感，容易将健康人误判为患者。最值得关注的是失眠症的识别问题，召回率仅67%，意味着近三分之一的真实失眠患者被漏诊，这可能是由于失眠症状的主观性导致特征难以捕捉。从混淆矩阵来看，主要错误发生在失眠与健康人群的混淆，以及睡眠呼吸中止与健康人群的误判。

整体而言，在初始参数下的模型基本做到了排除健康人群的初步筛查，但对具体病症的诊断成功率仍需提升。

接下来，我们对决策树模型进行调参。在最开始时，我本想用网格搜索进行参数优化，但尝试后发现优化后的模型预测准确度只有86%左右，低于原先的参数，故我们决定以测试集预测准确度为衡量标准进行手动调参。

[../src/02_sleep_disorder_type/parameter_tuning.py](../src/02_sleep_disorder_type/parameter_tuning.py)

以下为手动调参的可视化结果：

![../reports/02_sleep_disorder_type/parameter_tuning.png](../reports/02_sleep_disorder_type/parameter_tuning.png)

由表现最好的五组数据和图表再次制定调节参数范围并再次搜索最佳参数，并用调节后的参数重新跑模型得到新的准确率和混淆矩阵如下：

[../src/02_sleep_disorder_type/new_model.py](../src/02_sleep_disorder_type/new_model.py)

![../reports/02_sleep_disorder_type/new_result.png](../reports/02_sleep_disorder_type/new_result.png)

![../reports/02_sleep_disorder_type/new_matrix.png](../reports/02_sleep_disorder_type/new_matrix.png)

通过观察新的数据分析和混淆矩阵可发现，经过参数优化后，模型性能显著提升，整体准确率达到94.7%。

在具体类别表现上，模型对"无睡眠障碍"人群的识别近乎完美（精确率100%，召回率98%），能够极其可靠地排除健康个体；对于失眠症的诊断能力也有了大幅改善，精确率提升至93%，召回率87%，仅13%的失眠患者可能被漏诊；睡眠呼吸中止症保持了高检出率（召回率94%），但精确率83%表明仍存在一定程度的误诊风险。从混淆矩阵可以发现，主要错误还是集中在少数失眠患者的漏诊和睡眠呼吸中止的轻微过度诊断。

尽管还是有些许瑕疵，但整体而言该模型已具备较高的准确率，可为睡眠障碍筛查提供有效帮助。

最后，我们想看看哪些特征指标在睡眠障碍类型的判断中起到了较为重要的作用：

[../src/02_sleep_disorder_type/feature_importance.py](../src/02_sleep_disorder_type/feature_importance.py)

![../reports/02_sleep_disorder_type/feature_importance.png](../reports/02_sleep_disorder_type/feature_importance.png)

由此可见，基于项目构建的决策树模型，血压的舒张压、BMI、压力水平和睡眠时长都和睡眠障碍类型有着密切的关系，有趣的是，我们发现“教师”这个职业也有这较高的重要性，目前没有办法解释为何教师在数个职业中“脱颖而出“，但我们推测这可能是由于数据集较小而产生的误差，后续需要在更大的数据集上测试以做进一步的分析。

---

### 4. 总结

在本节中，我们基于编码后的数据集，采用决策树模型进行睡眠障碍类型的预测，在参数调优后在测试集上取得了94.67%的准确率。在具体的特征重要性分析中，我们发现血压的舒张压、BMI和压力水平与睡眠障碍类型有着较为紧密的关系，这也对睡眠障碍的预防和诊断提供了方向。