### sklearn库的结构

#### 按功能模块分类

##### 核心模块

1. sklearn.model_selection模块
    - 该模块用于模型选择、训练和测试数据集划分。
    - 包括：
        - train_test_split()：用于将数据集划分为训练集和测试集。
        - cross_val_score()：用于交叉验证，评估模型的泛化能力。
        - GridSearchCV()：用于网格搜索，自动搜索最优参数组合。
        - RandomizedSearchCV()：用于随机搜索，自动搜索最优参数组合。
2. sklearn.datasets模块
    - 该模块用于加载常用数据集。
    - 包括：
        - load_iris()：加载鸢尾花数据集。
        - load_diabetes()：加载糖尿病数据集。
        - load_digits()：加载手写数字数据集。
        - make_moons()：生成半月形数据集。
        - make_circles()：生成圆形数据集。
        - make_classification()：生成二分类数据集。
        - make_regression()：生成回归数据集。
3. sklearn.preprocessing模块
    - 该模块用于数据预处理。
    - 包括：
        - StandardScaler()：用于标准化数据。
        - MinMaxScaler()：用于归一化数据。
        - MaxAbsScaler()：用于将数据映射到[-1,1]范围。
        - RobustScaler()：用于将数据映射到[0,1]范围。
        - Normalizer()：用于将数据映射到单位范数。
        - Binarizer()：用于二值化数据。
        - PolynomialFeatures()：用于多项式特征转换。
        - FunctionTransformer()：用于自定义函数转换。
4. sklearn.feature_extraction模块
    - 该模块用于特征提取。
    - 包括：
        - DictVectorizer()：用于将字典转换为向量。
        - FeatureHasher()：用于将文本数据转换为向量。
        - CountVectorizer()：用于将文本数据转换为词频矩阵。
        - TfidfTransformer()：用于将词频矩阵转换为TF-IDF矩阵。
        - TfidfVectorizer()：用于将文本数据转换为TF-IDF矩阵。
5. sklearn.decomposition模块
    - 该模块用于降维。
    - 包括：
        - PCA()：用于主成分分析。
        - IncrementalPCA()：用于增量主成分分析。
        - TruncatedSVD()：用于奇异值分解。
        - KernelPCA()：用于核主成分分析。
        - SparsePCA()：用于稀疏主成分分析。
        - MiniBatchSparsePCA()：用于稀疏主成分分析的小批量版本。
6. sklearn.impute模块
    - 该模块用于缺失值处理。
    - 包括：
        - SimpleImputer()：用于用均值、中位数或众数替换缺失值。
        - KNNImputer()：用于用K近邻法填补缺失值。
        - MissingIndicator()：用于标记缺失值。
8. sklearn.compose模块
    - 该模块用于数据集的组合。
    - 包括：
        - ColumnTransformer()：用于将多个特征列组合成一个特征向量。
        - make_column_transformer()：用于快速创建ColumnTransformer。
        


##### 模型(估计器)模块

1. sklearn.linear_model模块
    - 线性模型
    - 包括：
        - LinearRegression：线性回归
        - Ridge：岭回归
        - Lasso：套索回归
        - LogisticRegression：逻辑回归
2. sklearn.tree模块
    - 决策树
    - 包括：
        - DecisionTreeClassifier：决策树分类器
        - DecisionTreeRegressor：决策树回归器
3. sklearn.ensemble模块
    - 集成学习
    - 包括：
        - RandomForestClassifier：随机森林分类器
        - RandomForestRegressor：随机森林回归器
4. sklearn.svm模块
    - 支持向量机
    - 包括：
        - SVC：支持向量分类器
        - SVR：支持向量回归器
4. sklearn.neighboors模块
    - 近邻算法
    - 包括：
        - KNeighborsClassifier：K近邻分类器
        - KNeighborsRegressor：K近邻回归器
5. sklearn.cluster模块
    - 聚类
    - 包括：
        - KMeans：K-均值聚类算法
6. sklearn.metrics模块
    - 评估指标
    - 包括：
        - accuracy_score：准确率
        - precision_score：精确率
        - recall_score：召回率
        - r2_score：R-平方值
        - mean_squared_error：均方误差
        - mean_absolute_error：平均绝对误差
7. sklearn.pipeline模块
    - 管道
    - 包括：
        - Pipeline：管道

        

#### 按对象类型划分

**sklearn库几乎所有功能都围绕三种核心对象类型构建，它们都遵循统一的 API 接口。**

这三个核心对象类型是：

1. Estimators（估计器）：
    - 任何可以基于数据学习一些参数的对象都叫做估计器。它可能是分类器、回归器、聚类器、转换器（如 PCA）等。
    - 用于模型训练和预测的对象，可以被实例化并调用其 `fit()` 方法来训练模型，并调用其 `predict()` 方法来预测目标变量。

2. Transformers（转换器）：
    - 转换器是一种特殊的估计器，用于将数据从一种形式转换为另一种形式。
    - 用于数据预处理的对象，可以被实例化并调用其 `fit_transform()` 方法来拟合和转换数据。

3. Predictors（预测器）：
    - 预测器是一种特殊的估计器，用于根据输入数据进行预测。
    - 用于模型评估和选择的对象，可以被实例化并调用其 `score()` 方法来评估模型的性能。
