# sklearn源码阅读01: API
> 读sklearn源码学机器学习

- toc: true 
- badges: true
- comments: true
- categories: [sklearn, machine_learning, code reading]
- author: aitrek

# sklearn主要API

从sklearn.__init__.py中的__all__可以看到，sklearn对外暴露的接口有下面几个：

In [1]:
__all__ = ['calibration', 'cluster', 'covariance', 'cross_decomposition',
           'datasets', 'decomposition', 'dummy', 'ensemble', 'exceptions',
           'experimental', 'externals', 'feature_extraction',
           'feature_selection', 'gaussian_process', 'inspection',
           'isotonic', 'kernel_approximation', 'kernel_ridge',
           'linear_model', 'manifold', 'metrics', 'mixture',
           'model_selection', 'multiclass', 'multioutput',
           'naive_bayes', 'neighbors', 'neural_network', 'pipeline',
           'preprocessing', 'random_projection', 'semi_supervised',
           'svm', 'tree', 'discriminant_analysis', 'impute', 'compose',
           # Non-modules:
           'clone', 'get_config', 'set_config', 'config_context',
           'show_versions']

# 各API简要说明

* ***`sklearn.base`: estimator基类和基函数模块***  
不属于sklearn对外暴露的接口，包括各种estimator的基类以及一些estimator相关函数。
* **`sklearn.calibration`: 概率校准模块**  
分类模型预测概率校准模块，对于某些比较强调预测概率准确性的模型，使用该模块对模型的预测概率进行校准。
* **`sklearn.cluster`: 聚类模块**  
用于非监督聚类的模块，包含聚类相关的各种算法模型、函数。
* **`sklearn.compose`: 复合estimator模块**  
使用transformer创建复合模型的meta-estimator。
* **`sklearn.covariance`: 协方差estimator**  
协方差评估模块
* **`sklearn.cross_decomposition`: 交叉分解**  
交叉分解模块
* **`sklearn.datasets`: 数据集**  
数据集模块，除了一些著名的真实数据集的函数外，还包含一些人造数据集函数。
* **`sklearn.decomposition`: 矩阵分解**  
矩阵分解模块，主要用于数据降维。
* **`sklearn.dummy`: 虚拟estimator**  
虚拟模型模块，快速创建虚拟分类或回归模型，用来作基准模型等。
* **`sklearn.ensemble`: 集成模块**  
集成学习模块，包含各种基于集成学习的分类、回归和异常检查模型。
* **`sklearn.exceptions`: 异常和告警**  
sklearn中的告警、报错模块，框架工程辅助模块，非模型、算法相关。
* **`sklearn.experimental`: 试验控制模块**  
试验控制模块，用于控制实验性接口的行为。
* **`sklearn.feature_extraction`: 特征提取模块**  
特征提取模块，提供了常用的文本和图片特征提取工具。
* **`sklearn.feature_selection`: 特征选择模块**  
特征选择模块，提供了各种特征过滤、特征消除方法。
* **`sklearn.gaussian_process`: 高斯过程**  
高斯过程模块，实现了高斯过程回归和高斯过程分类。
* **`sklearn.inspection`: 查看**  
查看模型模块
* **`sklearn.isotonic`: 保序回归**  
保序回归模块
* **`sklearn.kernel_approximation`: 核逼近**  
核逼近模块
* **`sklearn.kernel_ridge`: 核岭回归**  
核岭回归模块
* **`sklearn.linear_model`: 线性模型**  
线性模型模块，包含了大量的线性模型。
* **`sklearn.manifold`: 流刑学习**  
流形学习模块
* **`sklearn.metrics`: 指标**  
模型评估模块
* **`sklearn.mixture`: 高斯混合模型**  
混合模型模块，包括高斯混合模型和贝叶斯高斯混合模型。
* **`sklearn.model_selection`: 模型选择**  
模型选择模块
* **`sklearn.multiclass`: 多分类**  
多分类模块
* **`sklearn.multioutput`: 多输出回归和分类**  
多输出模块
* **`sklearn.naive_bayes`: 朴素贝叶斯**  
朴素贝叶斯算法模块，实现了伯努利贝叶斯、高斯贝叶斯、多项式贝叶斯、补充朴素贝叶斯、类别贝叶斯。
* **`sklearn.neighbors`: 近邻模型**  
k近邻算法模块，包含各种常见的k近邻分类、回归模型。
* **`sklearn.neural_network`: 神经网络模型**  
神经网络模块，实现了伯努利受限玻尔兹曼机、多层感知机分类模型和多层感知机回归模型。
* **`sklearn.pipeline`: 通道**  
管道模块，用来创建机器学习管道。
* **`sklearn.preprocessing`: 预处理和标准化**  
数据预处理模块，包含各种数据缩放、中心化、标准化、二值化方法。
* **`sklearn.random_projection`: 随机过程**  
随机映射模块
* **`sklearn.semi_supervised`: 半监督学习**  
半监督学习模块
* **`sklearn.svm`: 支持向量机**  
支持向量机模块
* **`sklearn.tree`: 决策树**  
基于树模型的模块
* **`sklearn.utils`: 实用工具**  
各种实用工具
* **`sklearn.discriminant_analysis`: 判别分析**  
判别分析模块
* **`sklearn.impute`: 缺失值**  
缺失值处理模块
* **`sklearn.externals`: 外部模块**  
外部接口模块，提供与sklearn兼容的非sklearn模块。
* **clone**  
用来克隆带有相同模型参数但未经训练的评估器
* **get_config**  
获得环境配置的函数
* **set_config**  
设置环境配置的函数
* **config_context**  
用来配置sklearn全局环境的管理器
* **show_versions**  
用于展示sklearn框架系统信息以及依赖信息的函数  

## Reference:

1.sklearn API Reference  
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.compose