1 First simply ml project

iris以鸢尾花的特征作为数据来源，利用常用的分类算法进行分类

2 Data understanding

数据的描述性统计、数据分组分布、数据特征的相关性、数据的分布分析、计算所有数据属性的高斯分布偏离情况

3 Data visualization

数据可视化——绘制直方图、绘制密度图、绘制箱线图、相关矩阵图、散点矩阵图

4 Data preprocessing

MinMaxScaler（归一化）、StandardScaler（标准正态化）、Binarizer（二值化）

5 Selection feature

单变量特征选择、递归特征消除、主要成分分析、决策树、随机森林、GBDT族（提升算法）的特征重要性

6 Select model

a: 分离训练集和评估数据集、K折交叉验证分离、弃一交叉验证分离、重复随机分离评估数据集与训练数据集

b: 分类模型评估：AUC图、混淆矩阵、分类报告

c: 回归模型评估：平均绝对误差、均方误差、决定系数（R2）

7 Pipeline automations

通过Pineline来定义和自动化运行这些流程

8 Optimization

集成算法

9 Adjusting parameter

网格搜索优化参数、随机搜索优化参数

10 Persistent load model

保存模型、加载模型、pickle、joblib

所有文件下均有相对应的数据集供大家直接用来练习！如果没有数据集，读者也可自行百度下载一些数据集！

本仓所有类容，主要用于博主自己学习、总结所用，勿喷！后续也会持续更新，完善！

1、sklearn官方库

Provide feedback

Saved searches