# Sklearn 相关包

鼓励实现 scikit-learn 估算器 API 的项目使用[scikit-learn-contrib 模板](https://github.com/scikit-learn-contrib/project-template) ，该模板有助于测试和记录估算器的最佳实践。[scikit-learn-contrib GitHub 组织](https://github.com/scikit-learn-contrib/scikit-learn-contrib)也接受符合此模板的存储库的 高质量贡献。

下面是姐妹项目、扩展和特定领域包的列表。

## **互操作性和框架增强**

这些工具使 scikit-learn 适应其他技术或以其他方式增强 scikit-learn 估计器的功能。

**数据格式**

- [快速 svmlight / libsvm 文件加载](https://github.com/mblondel/svmlight-loader) 器 用于 Python 的快速且节省内存的 svmlight / libsvm 文件加载器。
- [用于 scikit-learn 管道的sklearn_pandas](https://github.com/paulgb/sklearn-pandas/)桥接器和带有专用转换器的 pandas 数据框。
- [sklearn_xarray](https://github.com/phausamann/sklearn-xarray/)提供 scikit-learn 估计器与 xarray 数据结构的兼容性。

**自动机器学习**

- [auto-sklearn](https://github.com/automl/auto-sklearn/) 自动化机器学习工具包和 scikit-learn 估计器的替代品 [Auto-sklearn](https://www.notion.so/Auto-sklearn-39d03e0b44884d44ac03af5eb486a101)
- [autoviml](https://github.com/AutoViML/Auto_ViML/)用一行代码 自动构建多个机器学习模型。设计为一种无需预处理数据即可使用 scikit-learn 模型的更快方法。 [Auto_ViML](https://www.notion.so/Auto_ViML-a59b29f2f5fa460482e14d426fef4693)
- [TPOT](https://github.com/rhiever/tpot) 一个自动化机器学习工具包，它优化了一系列 scikit-learn 算子来设计机器学习管道，包括数据和特征预处理器以及估计器。作为 scikit-learn 估计器的替代品。 [TPOT](https://www.notion.so/TPOT-e223991c11494be989e9bae180f3924a)
- [Featuretools](https://github.com/alteryx/featuretools) 执行自动化特征工程的框架。它可用于将时间和关系数据集转换为机器学习的特征矩阵。 [Featuretools](https://www.notion.so/Featuretools-5396dda79ceb47e3b6a9756fe21a43a5)
- [Neuraxle](https://github.com/Neuraxio/Neuraxle) 一个用于构建整洁管道的库，提供正确的抽象来简化机器学习应用程序的研究、开发和部署。它与深度学习框架和 scikit-learn API 兼容，可以流式传输小批量、使用数据检查点、构建时髦的管道以及使用自定义的每步保存程序序列化模型。 [Neuraxle](https://www.notion.so/Neuraxle-b7979e18dd964b6b8df59ce03a8f5512)
- [EvalML](https://github.com/alteryx/evalml) EvalML 是一个 AutoML 库，它使用特定领域的目标函数来构建、优化和评估机器学习管道。它在一个 API 下合并了多个建模库，并且 EvalML 创建的对象使用与 sklearn 兼容的 API。 [Evalml](https://www.notion.so/Evalml-6cb49e0207b44b5387cbe1bc479e88d9)

**实验框架**

- [用于 MLOps 的Neptune](https://neptune.ai/)元数据存储，专为进行大量实验的团队构建。‌它为您提供了一个单一的地方来记录、存储、显示、组织、比较和查询所有模型构建元数据。 [neptune](https://www.notion.so/neptune-48bc19de4d0b45f39f21702050ad7e00)
- 帮助您配置、组织、记录和重现实验的[神圣工具](https://github.com/IDSIA/Sacred)
- 以一致且可重复的方式进行数据驱动研究的[REP环境](https://github.com/yandex/REP)
- [Scikit-Learn Laboratory](https://skll.readthedocs.io/en/latest/index.html) 围绕 scikit-learn 的命令行包装器，可以轻松运行具有多个学习器和大型特征集的机器学习实验。

**模型检查和可视化**

- [dtreeviz](https://github.com/parrt/dtreeviz/)用于决策树可视化和模型解释的 python 库。
- [eli5](https://github.com/TeamHG-Memex/eli5/)用于调试/检查机器学习模型并解释其预测的库。
- [mlxtend](https://github.com/rasbt/mlxtend)包括模型可视化实用程序。
- [Yellowbrick](https://github.com/DistrictDataLabs/yellowbrick)一套用于 scikit-learn 估计器的自定义 matplotlib 可视化器，以支持视觉特征分析、模型选择、评估和诊断。

**型号选择**

- [scikit-optimize](https://scikit-optimize.github.io/) 一个库来最小化（非常）昂贵和嘈杂的黑盒函数。它实现了几种基于模型的顺序优化方法，并包括使用这些策略中的任何一种来替代`GridSearchCV`或`RandomizedSearchCV`进行交叉验证的参数搜索。
- [sklearn-deap](https://github.com/rsteca/sklearn-deap)在 scikit-learn 中使用进化算法而不是网格搜索。

**用于生产的模型导出**

- [sklearn-onnx](https://github.com/onnx/sklearn-onnx)将许多 Scikit-learn 管道序列化到[ONNX](https://onnx.ai/)以进行交换和预测。
- [sklearn2pmml在](https://github.com/jpmml/sklearn2pmml)[JPMML-SkLearn](https://github.com/jpmml/jpmml-sklearn) 库 的帮助下，将各种 scikit-learn 估计器和转换器序列化为 PMML 。
- [sklearn-porter](https://github.com/nok/sklearn-porter) 将训练有素的 scikit-learn 模型转换为 C、Java、Javascript 等。
- [m2cgen](https://github.com/BayesWitnesses/m2cgen) 一个轻量级库，允许将经过训练的机器学习模型（包括许多 scikit-learn 估计器）转换为 C、Java、Go、R、PHP、Dart、Haskell、Rust 和许多其他编程语言的本机代码。
- [treelite](https://treelite.readthedocs.io/) 将基于树的集成模型编译为 C 代码，以最大限度地减少预测延迟。

## **其他估计器和任务**

并非所有东西都属于或足够成熟，可以用于中心 scikit-learn 项目。以下是为其他学习算法、基础设施和任务提供类似于 scikit-learn 的接口的项目。

**结构化学习**

- [tslearn](https://github.com/tslearn-team/tslearn)时间序列机器学习库，提供预处理和特征提取工具以及用于聚类、分类和回归的专用模型。
- [sktime](https://github.com/alan-turing-institute/sktime)一个与 scikit-learn 兼容的工具箱，用于具有时间序列的机器学习，包括时间序列分类/回归和（监督/面板）预测。
- [HMMLearn](https://github.com/hmmlearn/hmmlearn)隐藏马尔可夫模型的实现，以前是 scikit-learn 的一部分。
- [PyStruct](https://pystruct.github.io/)通用条件随机场和结构化预测。
- [Python 的石榴](https://github.com/jmschrei/pomegranate)概率建模，重点是隐马尔可夫模型。
- [sklearn-crfsuite](https://github.com/TeamHG-Memex/sklearn-crfsuite) 线性链条件随机字段（具有类似 sklearn 的 API 的[CRFsuite](http://www.chokkan.org/software/crfsuite/)包装器）。

**深度神经网络等**

- [nolearn](https://github.com/dnouri/nolearn)围绕现有神经网络库的许多包装器和抽象
- [用于 TensorFlow 的Keras](https://www.tensorflow.org/api_docs/python/tf/keras)高级 API，具有受 scikit-learn 启发的 API。
- [lasagne](https://github.com/Lasagne/Lasagne)用于在 Theano 中构建和训练神经网络的轻量级库。
- [skorch](https://github.com/dnouri/skorch)一个封装了 PyTorch 的 scikit-learn 兼容的神经网络库。
- [scikeras](https://github.com/adriangb/scikeras)提供了一个围绕 Keras 的包装器，以将其与 scikit-learn 接口。SciKeras 是`tf.keras.wrappers.scikit_learn`.

**宽范围**

- [mlxtend](https://github.com/rasbt/mlxtend)包括许多额外的估计器以及模型可视化实用程序。
- [scikit-lego](https://github.com/koaning/scikit-lego)一些与 scikit-learn 兼容的自定义转换器、模型和指标，专注于解决实际的行业任务。

**其他回归和分类**

- [xgboost](https://github.com/dmlc/xgboost)优化的梯度提升决策树库。
- [ML-Ensemble](https://mlens.readthedocs.io/)广义集成学习（堆叠、混合、子集成、深度集成等）。
- [闪电般](https://github.com/scikit-learn-contrib/lightning)快速的最先进的线性模型求解器（SDCA、AdaGrad、SVRG、SAG 等）。
- [py-earth](https://github.com/scikit-learn-contrib/py-earth)多元自适应回归样条
- 带自动带宽选择的 Nadaraya-Watson 内核回归的[内核回归实现](https://github.com/jmetzen/kernel_regression)
- [gplearn](https://github.com/trevorstephens/gplearn)用于符号回归任务的遗传编程。
- [scikit-multilearn](https://github.com/scikit-multilearn/scikit-multilearn) 专注于标签空间操作的多标签分类。
- [seglearn](https://github.com/dmbee/seglearn)使用滑动窗口分割的时间序列和序列学习。
- [libOPF](https://github.com/jppbsi/LibOPF)最优路径森林分类器
- [fastFM](https://github.com/ibayer/fastFM)与 scikit-learn 兼容的快速分解机器实现

**分解和聚类**

- [lda](https://github.com/lda-project/lda/)：在 Cython 中快速实现潜在 Dirichlet 分配，它使用[Gibbs 采样](https://en.wikipedia.org/wiki/Gibbs_sampling)从真实的后验分布中采样。（scikit-learn 的 **`[LatentDirichletAllocation](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html#sklearn.decomposition.LatentDirichletAllocation)`**实现使用 [变分推理](https://en.wikipedia.org/wiki/Variational_Bayesian_methods)从主题模型后验分布的易处理近似值中进行采样。）
- [用于分类数据的kmodes](https://github.com/nicodv/kmodes) k-modes 聚类算法及其几种变体。
- [hdbscan](https://github.com/scikit-learn-contrib/hdbscan) HDBSCAN 和稳健的单链接聚类算法，用于稳健的可变密度聚类。
- [spherecluster](https://github.com/clara-labs/spherecluster)用于单位超球面数据的球面 K 均值和 von Mises Fisher 聚类例程的混合。

**预处理**

- [categorical-encoding](https://github.com/scikit-learn-contrib/categorical-encoding)一个与 sklearn 兼容的分类变量编码器库。
- [不平衡学习](https://github.com/scikit-learn-contrib/imbalanced-learn)对数据集进行欠采样和过采样的各种方法。
- [特征引擎](https://github.com/solegalli/feature_engine)sklearn 兼容转换器库，用于缺失数据插补、分类编码、变量转换、离散化、异常值处理等。特征引擎允许对选定的变量组应用预处理步骤，并且与 Scikit-learn 管道完全兼容。

**拓扑数据分析**

- [giotto-tda](https://github.com/giotto-ai/giotto-tda)用于 [拓扑数据分析](https://en.wikipedia.org/wiki/Topological_data_analysis)的库，旨在提供与 scikit-learn 兼容的 API。它提供了将数据输入（点云、图形、时间序列、图像）转换为适合计算拓扑摘要的形式的工具，以及专用于提取拓扑起源的标量特征集的组件，这些组件可以与其他特征提取方法一起使用scikit-学习。

## **使用 Python 进行统计学习**

其他对数据分析和机器学习有用的软件包。

- 用于处理异构和列数据、关系查询、时间序列和基本统计数据的[Pandas工具。](https://pandas.pydata.org/)
- [statsmodels](https://www.statsmodels.org/)估计和分析统计模型。与 scikit-learn 相比，更侧重于统计测试而不是预测。
- [PyMC](https://pymc-devs.github.io/pymc/)贝叶斯统计模型和拟合算法。
- 基于 matplotlib 的[Seaborn可视化库。](https://stanford.edu/~mwaskom/software/seaborn/)它提供了一个用于绘制有吸引力的统计图形的高级界面。
- [scikit-survival](https://scikit-survival.readthedocs.io/)一个实现模型的库，用于从审查的事件发生时间数据中学习（也称为生存分析）。模型与 scikit-learn 完全兼容。

### **推荐引擎包**

- [隐式](https://github.com/benfred/implicit)，隐式反馈数据集的库。
- [lightfm](https://github.com/lyst/lightfm)混合推荐系统的 Python/Cython 实现。
- [基于OpenRec](https://github.com/ylongqi/openrec) TensorFlow 的神经网络启发了推荐算法。
- [Spotlight](https://github.com/maciejkula/spotlight)基于 Pytorch 的深度推荐模型实现。
- 用于显式反馈数据集的[惊喜 Lib库。](http://surpriselib.com/)

### **特定领域的包**

- [scikit-image](https://scikit-image.org/) python 中的图像处理和计算机视觉。
- [自然语言工具包 (nltk)](https://www.nltk.org/)自然语言处理和一些机器学习。
- [gensim](https://radimrehurek.com/gensim/) 用于主题建模、文档索引和相似性检索的库
- [NiLearn](https://nilearn.github.io/)用于神经成像的机器学习。
- [AstroML](https://www.astroml.org/) 天文学机器学习。
- [MSMBuilder](http://msmbuilder.org/) 蛋白质构象动力学时间序列的机器学习。

## **scikit-learn 文档的翻译**

翻译的目的是方便英语以外的其他语言的阅读和理解。它的目的是帮助不懂英语或对其解释有疑问的人。此外，有些人更喜欢用他们的母语阅读文档，但请记住，唯一的官方文档是英文版[1](https://scikit-learn.org/stable/related_projects.html#f1)。

这些翻译工作是社区倡议，我们无法控制它们。如果您想贡献或报告翻译问题，请联系翻译的作者。此处链接了一些可用的翻译，以改善其传播并促进社区努力。

- [中文翻译](https://sklearn.apachecn.org/) （[来源](https://github.com/apachecn/sklearn-doc-zh)）
- [波斯语翻译](https://sklearn.ir/) （[来源](https://github.com/mehrdad-dev/scikit-learn)）
- [西班牙语翻译](https://qu4nt.github.io/sklearn-doc-es/) （[来源](https://github.com/qu4nt/sklearn-doc-es)）