# 自动化机器学习实践应用
auto-skllearn的API主要分为4个部分：
* Classification: 分类问题相关
* Regression: 回归问题相关
* Metrics: 算法评估方法
* Extension Interfaces: 拓展接口

In [2]:
# auto-sklearn中分类算法API只有一个
'''
autosklearn.classification.AutoSklearnClassifier(time_left_for_this_task=3600, 
                                                per_run_time_limit=360, 
                                                initial_configurations_via_metalearning=25, 
                                                ensemble_size:int=50, ensemble_nbest=50, 
                                                ensemble_memory_limit=1024, 
                                                seed=1, 
                                                ml_memory_limit=3072, 
                                                include_estimators=None, 
                                                exclude_estimators=None, 
                                                include_preprocessors=None, 
                                                exclude_preprocessors=None, 
                                                resampling_strategy='holdout', 
                                                resampling_strategy_arguments=None, 
                                                tmp_folder=None, output_folder=None, 
                                                delete_tmp_folder_after_terminate=True, 
                                                delete_output_folder_after_terminate=True, 
                                                shared_mode=False, 
                                                n_jobs: Optional[int] = None, 
                                                disable_evaluator_output=False, 
                                                get_smac_object_callback=None, 
                                                smac_scenario_args=None, 
                                                logging_config=None, 
                                                metadata_directory=None)
    time_left_for_this_task: 模型搜索时间限制（秒）。通过增加此值，auto-sklearn 有更高的机会找到更好的模型，但耗时更久
    per_run_time_limit: 单次调用模型的时间限制。如果机器学习算法超过该时间限制，则将终止模型拟合
    initial_configurations_via_metalearning: 超参数优化算法从头开始，还是使用元学习方法
    ensemble_size: 从算法库中选择构建集成模型的数量
    ensemble_memory_limit: 整体构建过程的内存限制（MB）
    ml_memory_limit: 单个机器学习算法的内存限制（MB）
    include_estimators: 可手动指定一系列备选算法模型，不设置则使用全部可用算法
    include_preprocessors: 可手动指定一系列备选预处理方法，不设置则使用全部可用预处理方法
    resampling_strategy: 过拟合处理策略，可选交叉验证，或者 holdout，即按照 67:33 比例对训练测试集进行划分
    tmp_folder: 配置和日志文件输出目录
    output_folder: 测试数据预测结果输出目录
'''
# 依旧使用手写数字集
import numpy as np
from sklearn.datasets import load_digits

digits = load_digits()  # 加载数据集

digits.data.shape, np.unique(digits.target)

ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject

In [None]:
# 划分数据集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    digits.data, digits.target, test_size=0.3, random_state=42
)  # 切分数据集

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
# 训练+预测（对照组）
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)  # 训练

model.score(X_test, y_test)  # 评估

In [None]:
# auto-sklearn（实验组）
import warnings
# 这里需要注意auto-sklearn最高适配python3.9 需要新建环境
from autosklearn.classification import AutoSklearnClassifier

warnings.filterwarnings("ignore")  # 忽略代码警告

# 限制算法搜索最大时间，更快得到结果
auto_model = AutoSklearnClassifier(time_left_for_this_task=120, per_run_time_limit=10)

auto_model

# auto-sklearn库支持的python版本太旧，换环境好麻烦，就跳过这一部分内容了