This warehouse mainly describes data understanding, data visualization, data preprocessing, feature selection, model selection, model evaluation and the use of various machine learning algorithms based on sklearn library (univariate feature selection, recursive feature elimination, principal component analysis, decision tree , random forest, GBDT family (boosting algorithm)).
1 First simply ml project
iris以鸢尾花的特征作为数据来源,利用常用的分类算法进行分类
2 Data understanding
数据的描述性统计、数据分组分布、数据特征的相关性、数据的分布分析、计算所有数据属性的高斯分布偏离情况
3 Data visualization
数据可视化——绘制直方图、绘制密度图、绘制箱线图、相关矩阵图、散点矩阵图
4 Data preprocessing
MinMaxScaler(归一化)、StandardScaler(标准正态化)、Binarizer(二值化)
5 Selection feature
单变量特征选择、递归特征消除、主要成分分析、决策树、随机森林、GBDT族(提升算法)的特征重要性
6 Select model
a: 分离训练集和评估数据集、K折交叉验证分离、弃一交叉验证分离、重复随机分离评估数据集与训练数据集
b: 分类模型评估:AUC图、混淆矩阵、分类报告
c: 回归模型评估:平均绝对误差、均方误差、决定系数(R2)
7 Pipeline automations
通过Pineline来定义和自动化运行这些流程
8 Optimization
集成算法
9 Adjusting parameter
网格搜索优化参数、随机搜索优化参数
10 Persistent load model
保存模型、加载模型、pickle、joblib
所有文件下均有相对应的数据集供大家直接用来练习!如果没有数据集,读者也可自行百度下载一些数据集!
本仓所有类容,主要用于博主自己学习、总结所用,勿喷!后续也会持续更新,完善!
1、sklearn官方库