DataCastle国能日新光伏功率预测

数据异常处

本题在测试集中提供了时间、辐照度、风速、风向、温度、压强、湿度、实发辐照度 8个特征，以及标签实际功率。而在训练集中只有前七个特征，无实发辐照度。

策略

在观察了数据之后，我们确定实发辐照度是一个强力特征，于是我们采取了分部训练的策略：

第一次训练以实发辐照度为标签，预测 测试集的实发辐照度
第二次训练将实发辐照度加入特征进行训练，预测最终的标签实际功率

特征工程

由于数据具有周期性，于是我们提取每天的数据，并以辐照度为依据，构建白天(daytime)和夜晚(nighttime)以及整日(allday)三种时间分区，并对各个时间分区构建mean/std/min/max以及var(max-min),通过对构造特征进行加减乘除来构造新的特征。

模型选择

选择了lightGbm以及xgboost进行融合,由于最后时间不够，所以我们仅尝试了简单的加权融合。最后阶段尝试使用Lstm发现效果不好，故放弃使用。

分析

由于辐照度是人工预测，会带来误差，所以预测的实发辐照度也存着误差。
有的电场的实际功率在夜晚直接为0，有的电场会由于消耗得到负值，所以我们进行了特殊化处理(specialize)
在数据预处理阶段需要做的更加仔细，原始数据的时间在.csv打开之后呈现整数，实际上在控制台打印发现为小数(例如可能看到的0 ：00实际为23 : 59.99)，这样导致提取出来的时间会有很大错误，为后面的运算带来非常大的误差。

总结

这次最深的感受还是那句老话特征为王，只有特征才能带来极大的提分上限，同时，数据预处理的重要性大于模型融合。

博客链接

2019-12-16更新吐槽：
很醉。。写的最普通的代码居然是star最多的。。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
data_preprocessing.py		data_preprocessing.py
first_feature_engineering.py		first_feature_engineering.py
func.py		func.py
main.py		main.py
second_feature_engineering.py		second_feature_engineering.py
specialize.py		specialize.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

data_preprocessing.py

data_preprocessing.py

first_feature_engineering.py

first_feature_engineering.py

func.py

func.py

main.py

main.py

second_feature_engineering.py

second_feature_engineering.py

specialize.py

specialize.py

Repository files navigation

DataCastle国能日新光伏功率预测

数据异常处

策略

特征工程

模型选择

分析

总结

About

Releases

Packages

Languages

yyhhlancelot/DC_power_prediction_rank21

Folders and files

Latest commit

History

Repository files navigation

DataCastle国能日新光伏功率预测

数据异常处

策略

特征工程

模型选择

分析

总结

About

Resources

Stars

Watchers

Forks

Languages