Skip to content

Latest commit

 

History

History
56 lines (29 loc) · 2.08 KB

README.md

File metadata and controls

56 lines (29 loc) · 2.08 KB

本仓库主要讲述数据理解、数据可视化、数据预处理、特征选择、模型选择、模型评估及基于sklearn库中各类机器学习算法的使用

This warehouse mainly describes data understanding, data visualization, data preprocessing, feature selection, model selection, model evaluation and the use of various machine learning algorithms based on sklearn library (univariate feature selection, recursive feature elimination, principal component analysis, decision tree , random forest, GBDT family (boosting algorithm)).

1 First simply ml project

iris以鸢尾花的特征作为数据来源,利用常用的分类算法进行分类

2 Data understanding

数据的描述性统计、数据分组分布、数据特征的相关性、数据的分布分析、计算所有数据属性的高斯分布偏离情况

3 Data visualization

数据可视化——绘制直方图、绘制密度图、绘制箱线图、相关矩阵图、散点矩阵图

4 Data preprocessing

MinMaxScaler(归一化)、StandardScaler(标准正态化)、Binarizer(二值化)

5 Selection feature

单变量特征选择、递归特征消除、主要成分分析、决策树、随机森林、GBDT族(提升算法)的特征重要性

6 Select model

a: 分离训练集和评估数据集、K折交叉验证分离、弃一交叉验证分离、重复随机分离评估数据集与训练数据集

b: 分类模型评估:AUC图、混淆矩阵、分类报告

c: 回归模型评估:平均绝对误差、均方误差、决定系数(R2)

7 Pipeline automations

通过Pineline来定义和自动化运行这些流程

8 Optimization

集成算法

9 Adjusting parameter

网格搜索优化参数、随机搜索优化参数

10 Persistent load model

保存模型、加载模型、pickle、joblib

说明:

所有文件下均有相对应的数据集供大家直接用来练习!如果没有数据集,读者也可自行百度下载一些数据集!

本仓所有类容,主要用于博主自己学习、总结所用,勿喷!后续也会持续更新,完善!

参考:

1、sklearn官方库