# 结果部署

结果部署是机器学习项目的最后的一步，也是最重要的一步，选定算法之后，对算法训练生成模型，并部署到生产环境上，以便机器学习解决实际问题。模型生成后，也需要定期对模型进行更新，使模型处于最新最有效的状态，通常建议3~6个月更新一次模型

## 持久化加载模型

光得到准确度的模型算法不是机器学习的最后，在实际项目中，需要将生成的模型序列化，并将其发布到生产环境中，当有新的数据出现时，需要反序列化已保存的模型。

### 模型序列化和重用的重要性

### 通过pickle序列化和反序列化机器学习的模型

### 通过joblib序列化和反序列化机器学习的模型

In [3]:
# 通过pickle序列化机器学习算法生成的模型，存到文件中；
# 当需要对新数据进行预测时，将文件中模型反序列化预测新数据结果

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from pickle import dump
from pickle import load
import warnings
warnings.filterwarnings('ignore')
# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
array = data.values
X = array[:, 0:8]
Y = array[:, 8]
test_size = 0.33
seed = 4
X_train, X_test, Y_traing, Y_test =train_test_split(X, Y, test_size=test_size, random_state=seed)

# 训练模型
model = LogisticRegression()
model.fit(X_train, Y_traing)

# 保存模型
model_file = 'finalized_model.sav'
with open(model_file, 'wb') as model_f:
    # 模型序列化
    dump(model, model_f)
    
# 加载模型
with open(model_file, 'rb') as model_f:
    # 模型反序列化
    loaded_model = load(model_f)
    result = loaded_model.score(X_test, Y_test)
    print('算法评估结果： %.3f %%' % (result * 100))

算法评估结果： 80.315 %


In [4]:
# 通过joblib序列化和反序列化机器学习模型
# joblib是Scipy一部分，提供通用工具来序列化Python的对象和反序列化Python对象
# 采用numpy的格式保存数据

from sklearn.externals.joblib import dump,load

# 训练模型
model = LogisticRegression()
model.fit(X_train, Y_traing)

# 保存模型
model_file = 'finalized_model_joblib.sav'
with open(model_file, 'wb') as model_f:
    # 模型序列化
    dump(model, model_f)
    
# 加载模型
with open(model_file, 'rb') as model_f:
    # 模型反序列化
    loaded_model = load(model_f)
    result = loaded_model.score(X_test, Y_test)
    print('算法评估结果： %.3f %%' % (result * 100))

算法评估结果： 80.315 %


## 生成模型技巧

在生成机器学习模型时，需要考虑以下几个问题：
- Python版本
    - 序列化和反序列化时需要使用相同的Python版本
- 类库版本
    - 需要记录所有的主要类库的版本
- 手动序列化
    - 有些时候手动记录下来比仅序列化模型更要价值