- 问题背景
- 洪水预测
- 数据集介绍(各个变量的形式和含义)
- 自变量全部都是0-15的评分,是离散变量
- 因变量是洪水发生的概率,是连续的0-1之间的概率
- 各个自变量和因变量的分布(直方图和箱线图)
- 所有自变量的分布都非常接近,大致呈正态分布,密度最高的位置集中在分数为5左右的位置
- 偏度大都处于0.4-0.5之间,轻微的右偏,存在少量的10-15分的数据
- 这些分布的解释,为什么如此均匀?
- 数据集已经经过一定的标准化处理
- 数据的来源机制可能非常接近(部分数据由AI生成)
- 探索城市化和其他变量之间的关系
- 结果:城市化和其他变量之间几乎没有相关性(从散点图可以看出来)
- 解释:可能是当地的城市化与其他方面相对独立发展,因此相关性较低