In [1]:
import numpy as np
import tensorflow as tf
from tensorflow import keras

## 微调神经网络参数

In [2]:
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

#### 加载数据

In [3]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [4]:
# import joblib 
# import sys
# sys.modules['sklearn.externals.joblib'] = joblib
housing = fetch_california_housing()

ModuleNotFoundError: No module named 'sklearn.externals.joblib'

In [None]:
X_train_full, X_test, y_train_full, y_test = train_test_split(housing.data, 
                                                              housing.target, 
                                                              random_state=42)
X_train, X_valid, y_train, y_valid = train_test_split(X_train_full, 
                                                      y_train_full,
                                                      random_state=42)

scaler = StandardScaler()

X_train = scaler.fit_transform(X_train)#求训练集的固有属性

X_valid = scaler.transform(X_valid)#归一化转换验证集
X_test = scaler.transform(X_test)#归一化转换测试集

In [None]:
def build_model(n_hidden=1, n_neurons=30, learning_rate=3e-3, input_shape=[8]):
    """在给定一组超参数的情况下构建并编译Keras模型（超参数有默认值）"""
    
    model = keras.models.Sequential()
    model.add(keras.layers.InputLayer(input_shape=input_shape))
    for layer in range(n_hidden):
        model.add(keras.layers.Dense(n_neurons, activation="relu"))
    model.add(keras.layers.Dense(1))#单变量回归
    
    optimizer = keras.optimizers.SGD(learning_rate=learning_rate)
    #选择sgd优化器
    model.compile(loss="mse", optimizer=optimizer)
    #编译
    
    return model

#### 包装模型

KerasClassifier：将深度学习分类模型包装成Scikit-Learn中的分类模型，便于其使用Scikit-Learn中的方法和函数

KerasRegressor：将深度学习回归模型包装成Scikit-Learn中的回归模型，便于其使用Scikit-Learn中的方法和函数

KerasClassifier和KerasRegressor类使用参数build_fn，指定用来创建模型的函数的名称。因此必须定义一个函数，并通过函数来定义深度学习的模型，编译并返回函数。

In [None]:
#创建一个KerasRegressor对象：包装类（Wrapper）
keras_reg = keras.wrappers.scikit_learn.KerasRegressor(build_model)

#### 训练模型

In [None]:
#进行训练，回调函数选择EarlyStopping避免过拟合
#传递给fit（）方法的任何其他参数都将传递给内部的Keras模型
keras_reg.fit(X_train, y_train,
              epochs=100,
              validation_data=(X_valid, y_valid),
              callbacks=[keras.callbacks.EarlyStopping(patience=10)])

#### 评估模型

scikit_learn中的score()是依据决定系数R²得来的。对训练集来说取值范围为[0,1]，对测试集时其值可能为负。

一般R²越高，说明自变量x对因变量y的解释程度越高，自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。

In [None]:
#Scikit-learn框架中，回归模型的性能评估的分数(Score)
mse_test = keras_reg.score(X_test, y_test)
mse_test

#### 预测模型

In [None]:
y_pred = keras_reg.predict(X_test)
y_pred

## 使用 随机搜索 探索使模型效果最佳的多个超参数

RandomizedSearchCV使用k折验证法，不使用验证集（只用于提前停止）

xe-y：表示有y个0构成的0.000……000x

np.arange()：函数返回一个有终点和起点的固定步长的排列，参数：起点、终点、步长（默认为0）

np.tolist()：将矩阵转换成列表

scipy.stats.reciprocal()：获得倒数分布的连续随机变量

In [None]:
from scipy.stats import reciprocal
#scipy.stats生成指定分布
#倒数连续随机变量
from sklearn.model_selection import RandomizedSearchCV

param_distribs = {
    "n_hidden": [0, 1, 2, 3],
    "n_neurons": np.arange(1, 100)               .tolist(),
    "learning_rate": reciprocal(3e-4, 3e-2)      .rvs(1000).tolist(),
}
#1e-3：有3个0构成的0.001。
#3e-4为0.0003，3e-2为0.03
#rvs（）：产生指定个数的服从指定分布的随机数
#学习率为1000个范围为（0.003,0.03）的随机数

rnd_search_cv = RandomizedSearchCV(keras_reg, param_distribs, n_iter=10, cv=3, verbose=2)
#每次抽取10个样本，使用3折交叉验证法，详细程度为2

rnd_search_cv.fit(X_train, y_train, epochs=100,
                  validation_data=(X_valid, y_valid),
                  callbacks=[keras.callbacks.EarlyStopping(patience=10)])

In [None]:
print(3e-4)

In [None]:
reciprocal(3e-4,3e-2)

In [None]:
print(reciprocal(3e-4, 3e-2))
#'rv_frozen' object:一个知道其形状参数(hypergeom:m、n、n)的对象(实际上是一个实例)

In [None]:
print(reciprocal(3e-4, 3e-2).rvs(1000))

#### 访问随机搜索找到的模型的最佳参数

In [None]:
rnd_search_cv.best_params_

In [None]:
#最佳模型（估计器）
rnd_search_cv.best_estimator_

In [None]:
#随机搜索出的模型的最佳分数（经过交叉验证过的模型在训练集中的最佳分数）
#在 tuned_params 中指定的参数的单个组合的所有cv折叠的平均分数中最高的
rnd_search_cv.best_score_

In [None]:
#分割数据集中不断地对测试集进行预测得出的最佳分数
#估计器为keras_reg，使用其评估方法：绝对系数
rnd_search_cv.score(X_test, y_test)

#### 保存模型

In [None]:
model = rnd_search_cv.best_estimator_.model
model

#### 评估模型

In [None]:
model.evaluate(X_test, y_test)