# 数据准备

In [3]:
# 从字典加载特征
from sklearn.feature_extraction import DictVectorizer

staff = [{'name': 'Steve Miller', 'age': 33.},
         {'name': 'Lyndon Jones', 'age': 12.},
         {'name': 'Baxter Morth', 'age': 18.}]

vec = DictVectorizer()
vec.fit_transform(staff)  # 稀疏矩阵

<3x4 sparse matrix of type '<class 'numpy.float64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [4]:
vec.fit_transform(staff).toarray()

array([[33.,  0.,  0.,  1.],
       [12.,  0.,  1.,  0.],
       [18.,  1.,  0.,  0.]])

In [2]:
# 特征名字
vec.feature_names_

['age', 'name=Baxter Morth', 'name=Lyndon Jones', 'name=Steve Miller']

# 保存机器学习模型

在 scikit 中，有两种方式来保存模型以便将来使用：pickle 字符串和作为文件的 pickled 模型。

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
import pickle
import joblib

# 加载鸢尾花数据
iris = datasets.load_iris()

# 创建特征矩阵 X，和向量 y
X, y = iris.data, iris.target

clf = LogisticRegression(random_state=0)
clf.fit(X, y)
# 将已训练的模型保存为 pickle 字符串
saved_model = pickle.dumps(clf)
saved_model

b'\x80\x03csklearn.linear_model._logistic\nLogisticRegression\nq\x00)\x81q\x01}q\x02(X\x07\x00\x00\x00penaltyq\x03X\x02\x00\x00\x00l2q\x04X\x04\x00\x00\x00dualq\x05\x89X\x03\x00\x00\x00tolq\x06G?\x1a6\xe2\xeb\x1cC-X\x01\x00\x00\x00Cq\x07G?\xf0\x00\x00\x00\x00\x00\x00X\r\x00\x00\x00fit_interceptq\x08\x88X\x11\x00\x00\x00intercept_scalingq\tK\x01X\x0c\x00\x00\x00class_weightq\nNX\x0c\x00\x00\x00random_stateq\x0bK\x00X\x06\x00\x00\x00solverq\x0cX\x05\x00\x00\x00lbfgsq\rX\x08\x00\x00\x00max_iterq\x0eKdX\x0b\x00\x00\x00multi_classq\x0fX\x04\x00\x00\x00autoq\x10X\x07\x00\x00\x00verboseq\x11K\x00X\n\x00\x00\x00warm_startq\x12\x89X\x06\x00\x00\x00n_jobsq\x13NX\x08\x00\x00\x00l1_ratioq\x14NX\x0e\x00\x00\x00n_features_in_q\x15K\x04X\x08\x00\x00\x00classes_q\x16cnumpy.core.multiarray\n_reconstruct\nq\x17cnumpy\nndarray\nq\x18K\x00\x85q\x19C\x01bq\x1a\x87q\x1bRq\x1c(K\x01K\x03\x85q\x1dcnumpy\ndtype\nq\x1eX\x02\x00\x00\x00i8q\x1fK\x00K\x01\x87q Rq!(K\x03X\x01\x00\x00\x00<q"NNNJ\xff\xff\xff\xffJ\xff

In [10]:

clf_from_pickle = pickle.loads(saved_model)
clf_from_pickle.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [11]:
# 将模型作为 pickle 保存到文件
joblib.dump(clf, 'logistic.pkl')

['logistic.pkl']

In [12]:
clf_from_joblib = joblib.load('logistic.pkl')
clf_from_joblib.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])