In [1]:
# sklearn 进行分类

import numpy as np
from sklearn.datasets import load_digits

digits = load_digits()  # 加载数据集

digits.data.shape, np.unique(digits.target)


((1797, 64), array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]))

In [2]:
# 切分数据集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    digits.data, digits.target, test_size=0.3, random_state=42
) 

X_train.shape, X_test.shape, y_train.shape, y_test.shape

# 使用 scikit-learn 去解决一个机器学习相关的问题时
# 调用一个机器学习方法构建相应的模型 model，并设置模型参数。
# 使用该机器学习模型提供的 model.fit() 方法训练模型。
# 使用该机器学习模型提供的 model.predict() 方法用于预测。


((1257, 64), (540, 64), (1257,), (540,))

In [3]:
# 计策树
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)  # 训练

model.score(X_test, y_test)  # 评估

0.8462962962962963

In [None]:
# 使用 auto-sklearn 来对该数据集进行分类

In [4]:
import warnings
from autosklearn.classification import AutoSklearnClassifier

warnings.filterwarnings("ignore")  # 忽略代码警告

# 限制算法搜索最大时间，更快得到结果
auto_model = AutoSklearnClassifier(time_left_for_this_task=120, per_run_time_limit=10)

auto_model

ModuleNotFoundError: No module named 'autosklearn'

In [None]:
auto_model.fit(X_train, y_train)  # 训练 2 分钟
auto_model.score(X_test, y_test)  # 评估


In [None]:
# 返回 auto-sklearn 搜索到的模型信息
auto_model.get_models_with_weights()

# 返回训练过程的关键统计信息，包括数据集名称，使用评估指标，算法运行次数，评估结果等
auto_model.sprint_statistics()

In [None]:
# scikit-learn 解决一个回归问题

from sklearn.datasets import load_boston

boston = load_boston()  # 加载数据集

boston.data.shape, boston.target.shape

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(boston.data, boston.target)

model.score(boston.data, boston.target)
# .score 返回了回归拟合的 决定系数。决定系数 R^2 在统计学中用于度量应变量的变异中可由自变量解释部分所占的比例，以此来判断统计模型的解释力。
# 决定系数值越接近 1 时，表示相关的方程式参考价值越高。相反，越接近 0 时，表示参考价值越低

In [None]:
# autosklearn 解决一个回归问题

from autosklearn.regression import AutoSklearnRegressor

In [None]:
# 限制算法搜索最大时间，更快得到结果
auto_model = AutoSklearnRegressor(time_left_for_this_task=120, per_run_time_limit=10)
auto_model.fit(boston.data, boston.target)

auto_model.score(boston.data, boston.target)

In [None]:
# 返回训练过程的关键统计信息
auto_model.sprint_statistics()