我们训练好了一个 Model 以后总需要保存和再次预测, 所以保存和读取我们的 sklearn model 也是同样重要的一步。这次主要介绍两种保存 Model 的模块 `pickle` 与 `joblib`。

# 使用 pickle 保存 

In [1]:
from sklearn import svm
from sklearn import datasets

clf = svm.SVC()
iris = datasets.load_iris()
X, y = iris.data, iris.target
clf.fit(X,y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

使用 `pickle` 来保存与读取训练好的 Model。

In [3]:
import pickle  # pickle模块

# 保存 Model
with open('clf.pickle', 'wb') as f:
    pickle.dump(clf, f)

# 读取Model
with open('clf.pickle', 'rb') as f:
    clf2 = pickle.load(f)
    # 测试读取后的Model
    print(clf2.predict(X[0:1]))

[0]


# 使用 joblib 保存 

`joblib` 是 sklearn 的外部模块。

In [4]:
from sklearn.externals import joblib  # jbolib模块

# 保存 Model
joblib.dump(clf, 'clf.pkl')

# 读取Model
clf3 = joblib.load('clf.pkl')

# 测试读取后的Model
print(clf3.predict(X[0:1]))

[0]


最后可以知道 `joblib` 在使用上比较容易，读取速度也相对 `pickle` 快。