相关性:探索特征与目标的相关性,进行特征的简单选取
多个来源的数据要通过某个关键key来合并到一个表中。
https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html
特征构建:增加现有数据的特征
特征选择:选择最有影响的特征或降维得到特征
降低数据的维度,减少冗余的信息。降低计算量
- 去掉缺失值多的不重要的特征(90%以上的缺失率,人为规定)
- 不相关的特征
做现有特征的平方以及交互相乘项
交互相乘是为了是多个特征变成一个特征,使得多个特征的影响合二为一
Adding interaction terms to a regression model can greatly expand understanding of the relationships among the variables in the model and allows more hypotheses to be tested.
增加回归模型的交互项能极好模型中各变量之间的相关性。
领域知识特征:指的是数据所属领域的专业知识。需要有专业知识背景
线性归一化(minmax_scale) 通俗地解释 : 归一化结果=该点样本值与最小样本的差/样本该轴跨度⋅放缩范围+放缩最小值
无法用于online learning
找到FP TP FN TN
列为实际值 行为预测值
https://www.zhihu.com/question/30643044
f1
PRC
fpr
tpr
class_weight 惩罚权重的方法
kernel density estimation plot 核密度估计
非参数估计
由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。
如何解释图形
一个变量在另一个变量下的密度分布情况
x轴表示自变量
y轴表示某一变量在自变量的影响下的概率情况
曲线下面的面积表示,在自变量为某值的情况下,因变量的概率
分裂 XGB:Level-wise,一次分裂同一层的叶子,但很多叶子分裂增益低、有不必要的搜索和分裂 LGB:Leaf-wise with 深度限制,从所有叶子中找增益最大的叶子分裂 决策树算法 XGB:exact决策树 LGB:Histogram 加速 XGB:无 LGB:直方图做差(父-兄弟) categorical feature XGB:需要one hot / dummy LGB:支持 直方图 XGB:近似直方图算法:对所有feature每一层建一直方图 LGB:对每一feature建直方图,只需一次
http://lightgbm.apachecn.org/cn/latest/Features.html
https://blog.csdn.net/u010242233/article/details/79769950
https://blog.csdn.net/niaolianjiulin/article/details/76584785
https://blog.csdn.net/qq_28031525/article/details/70207918
直方图算法https://blog.csdn.net/jasonwang_/article/details/80833001