Skip to content

Latest commit

 

History

History
124 lines (70 loc) · 3.52 KB

knowledge_of_data_science.md

File metadata and controls

124 lines (70 loc) · 3.52 KB

数据探索

相关性:探索特征与目标的相关性,进行特征的简单选取

多个来源的数据要通过某个关键key来合并到一个表中。

https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html

特征构建:增加现有数据的特征

特征选择:选择最有影响的特征或降维得到特征

降低数据的维度,减少冗余的信息。降低计算量

  1. 去掉缺失值多的不重要的特征(90%以上的缺失率,人为规定)
  2. 不相关的特征

特征构建--多项式特征

做现有特征的平方以及交互相乘项

交互相乘是为了是多个特征变成一个特征,使得多个特征的影响合二为一

Adding interaction terms to a regression model can greatly expand understanding of the relationships among the variables in the model and allows more hypotheses to be tested.

增加回归模型的交互项能极好模型中各变量之间的相关性。

#特征构建--Domain Knowledge Features

领域知识特征:指的是数据所属领域的专业知识。需要有专业知识背景

feature importance 待解决

lgb rf 的特征工程 待解决

minmax归一化

线性归一化(minmax_scale) 通俗地解释 : 归一化结果=该点样本值与最小样本的差/样本该轴跨度⋅放缩范围+放缩最小值

无法用于online learning

模型评估

confusion matrix

找到FP TP FN TN

列为实际值 行为预测值

https://www.zhihu.com/question/30643044

f1

PRC

ROC

fpr

tpr

class_weight 惩罚权重的方法

kernel density estimation plot 核密度估计

非参数估计

由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。

如何解释图形

一个变量在另一个变量下的密度分布情况

x轴表示自变量

y轴表示某一变量在自变量的影响下的概率情况

曲线下面的面积表示,在自变量为某值的情况下,因变量的概率

XGBOOST LightGBMde 区别

分裂 XGB:Level-wise,一次分裂同一层的叶子,但很多叶子分裂增益低、有不必要的搜索和分裂 LGB:Leaf-wise with 深度限制,从所有叶子中找增益最大的叶子分裂 决策树算法 XGB:exact决策树 LGB:Histogram 加速 XGB:无 LGB:直方图做差(父-兄弟) categorical feature XGB:需要one hot / dummy LGB:支持 直方图 XGB:近似直方图算法:对所有feature每一层建一直方图 LGB:对每一feature建直方图,只需一次

http://lightgbm.apachecn.org/cn/latest/Features.html

https://blog.csdn.net/u010242233/article/details/79769950

https://blog.csdn.net/niaolianjiulin/article/details/76584785

https://blog.csdn.net/qq_28031525/article/details/70207918

直方图算法https://blog.csdn.net/jasonwang_/article/details/80833001