# Chapter4：ML与Ops之间的信息存储与传递机制

要想做成MLOps这样的解决方案，就必须从底层基础能力开始搭建，对于MLOps整个生命周期而言，连接各个环节的底层基础是信息的存储及传递，涉及的组件包括：**ML实验追踪、模型注册、特征存储**，这三大组件构成了MLOps的“地基”（信息存储），“Wifi”（信息传递）。所以可以说，MLOps的可重现要求（针对数据、模型及服务的版本化等），以及后续的模型管理和模型监控都是在这三大组件的基础上实现的。

* （1）介绍ML**实验跟踪**组件的基础方法和实现，该组件会存储模型离线评估的指标信息，为模板的版本化和多模型间的可视化评估提供基础信息。

* （2）介绍ML的AB在线实验组件的实现方法及其在ML生命周期起到的作用

* （3）介绍模型注册组件的实现方法，该组件会存储模型部署时设计的信息，为模型训练和推理间的元数据信息传递及模型和服务版本化管理提供基础信息。

* （4）介绍管理离线和在线特征的特征存储，该组件会储存特征的相关信息，为模型训练和推理间的特征传递及数据版本化管理提供基础信息。




# 1 ML实验跟踪

## 1.1 ML实验跟踪的定义

所谓ML实验跟踪，是MLOps的一个过程，专注于收集、组织和跟踪具有不同配置（超参数、模型大小、训练数据、参数等）的多次运行过程中产生的信息。ML实验跟踪模块会定义一个适当的实验跟踪流程，并在所有未来试验中使用该流程，能够将所有实验组织在一个空间中，在我们需要的任何时候都可以查看团队的建模成果，可以轻松跟踪进度并进行协调。

具体来说，需要具备一个集中的实验信息存储库，通过将模型实验过程的信息记录在该存储库中，可以搜索和过滤实验，快速找到需要的信息，这样无需额外的工作即可比较不同模型的指标和参数，也便于深入研究，查看你的团队都尝试了哪些内容（代码、数据版本、模型框架等）。当需要的时候，可以随时复制和重新运行实验，也可以访问实验的源数据并通过看板直接观察。其中比较常见的实验信息列举如下：
* 用于运行的脚本
* 环境配置信息（代码库或文件）
* 用于训练、评估和测试的数据版本
* 模型的超参数和参数配置信息
* 模型迭代训练后产生的权重及性能指标（如F1-score）



## 1.2 ML实验跟踪的必要性

在具体的场景下开发ML模型，数据科学家会尝试不同的算法、模型框架及数据进行大量的实验，调整参数，然后验证不同模型的性能，这个过程是繁琐复杂的。当多个数据科学家同时参与一个ML项目时，记录和比较模型就是一个具有挑战性的事。此外，ML模型实验通常需要反复进行，这就需要可重复性和版本化。

MLOps就可以解决这些问题，可以帮助数据科学家不需要花费大量的精力在设置环境和基础设施上，可以节省时间进行算法业务的研究。

## 1.3 随时随地管理实验

ML实验跟踪机制通过将实验设计的元数据进行中心化处理，可以让数据科学家和团队成员实时的看到模型实验的状态和信息。对于训练周期疆场的模型，这个举措很重要，实时查看实验运行的效果可以对效果不理想的训练做出提前终止的决策，以节省资源和时间。

团队协作时可以通过权限管理规避安全风险，即只对需要协作的模型开放权限，其他的时候团队成员各自只能看到自己的模型信息。

当采用ML实验跟踪机制，将同一个项目中正在运行的实验和以前运行的实验的元数据进行合并时，可以快速比较它们，并决定当前正在进行的实验是否有必要继续或更改算法，也可以实时看到远程训练工作是否出现问题，以随时关闭或修复错误后，重新运行。

## 1.4 ML实验跟踪和模型管理的区别

ML实验跟踪和模型管理都是MLOps的重要组成部分。
* ML实验跟踪：侧重于在**模型开发阶段**进行信息储存和可视化管理。


* 模型管理：发生在模型投产时，目标是简化从实验到生产的模型迁移，模型投产后的模型版本控制、在ML模型注册中心管理模型工件、在生产中测试各种模型版本、模型部署后的服务管理等都属于模型管理的范畴。

## 1.5 在MLOps框架增加ML实验跟踪功能

为了正确地进行ML实验跟踪，除了需要标准化跟踪模块的实验记录功能，还需要对设计的元数据进行处理，通常需要具备以下能力：

* 中央存储：是辅助ML实验跟踪的必要组件，通过提供记录功能将所有实验信息储存在同一个地方，方便随时查询。其中记录功能通常以客户端（实验跟踪API）的形式提供。


* 元数据看板（dashboard）：是实验信息的可视化界面，该组件使用保存在中央存储中的实验信息并将其展示在前端页面上，通过该组件可以直观查看并比较不同实验的各项指标和性能，为模型选择提供便利。


* 实验跟踪API：提供在中央存储中记录和查询数据的方法或API，可以对食盐产生的元数据及已经存储的元数据进行操作。


具体如下图，在部署模型之前，我们需要在实验层与部署层中间加一层实验跟踪组件，以记录不同实验的指标，并将记录的信息存储到中央存储中，同时需要在前端提供可视化能力（dashboard），将实验的元数据信息进行展示，供建模人员和管理人员决策参考。
![image.png](attachment:image.png)

## 1.6 设计和实现ML实验跟踪API

为了便于演示，采用Python和SQLite实现ML实验跟踪的基础逻辑，对于生产级的应用，可以将代码移植到更适合生产的数据库中，比如PostgreSQL，MySQL等。

这里可以将整个训练和评估逻辑放在一个train_evaluate.py代码中。该代码将超参数集作为外部输入，而参数集作为输入并通过迭代不断输出验证分数，以完成模型的训练和评估。完整的操作流程如下图所示：

![image.png](attachment:image.png)

* 超参数集：通常为外部输入的数据，会影响模型的性能，但它们不属于训练数据，不能从训练数据中学习。例如，决策树的最大深度，SVM的误分类惩罚，KNN的K。这里需要注意的是，超参数是代码库的一部分，但与主函数是分开的，一般写在配置文件，比如config.py。

train_evaluate.py 代码可以被切分为4个部分：

* objective_function：定义需要优化的目标函数，该函数通常被称为优化函数。


* 参数集:参数集的类型通常会因算法的不同而有差异，可以是定义学习算法所训练的模型变量的权重。参数是由学习算法根据训练数据直接拟合的。学习的目标是找到使模型在一定意义上达到最优的参数值。


* ML实验跟踪API:负责将以上的参数集、超参数集及评估结果记录在中央存储中，这种内嵌方式可以方便记录每次迭代的信息。


* get_score:负责每次迭代时记录优化函数的分数，反映算法收敛的程度，用以抉择继续迭代还是停止。

### 1.6.1 数据库建表
接下来，就是ML实验跟踪的示例代码。首先我们可以创建一个名为model_track_center.db的库，及一个连接相应数据库的conn对象，conn对象提供了一个可以操作model_track_center.db的连接，该连接由函数get_conn定义，以便执行表的创建和查询。

In [1]:
import os
import sqlite3

# 数据库连接
def get_conn(model_track_path):
    return sqlite3.connect(os.path.join(model_track_path, 'model_track_center.db'))

接下来，为了实现跟踪数据的存储，需要创建一个model_track的跟踪主表，负责记录与模型相关的元数据信息，可以根据需要定义跟踪中的字段。同时，需要为模型迭代时产生的参数及评估日志创建表，sql代码建表如下：

In [2]:
%%file model_track/file_db.sql
drop table if exists model_track;
drop table if exists model_metric;
drop table if exists model_params;
drop table if exists model_task;

create table model_task
(
    task_id integer PRIMARY KEY ASC,
    task_name text not null,
    task_description text,
    tracked_time text default CURRENT_TIMESTAMP not null,
    del_flag integer default 0 not null
);
create table model_metric
(
    metric_id integer PRIMARY KEY ASC,
    model_id integer not null,
    metric_name text not null,
    metric_type text not null,
    epoch integer not null,
    metric_value float not null,
    is_best integer default 0 not null,
    tracked_time text default CURRENT_TIMESTAMP not null
);

create table model_track
(
    model_id integer PRIMARY KEY ASC,
    task_id integer not null,
    model_sequence integer not null,
    model_name text not null,
    model_description text,
    tracked_time text default CURRENT_TIMESTAMP not null,
    del_flag integer default 0 not null
);

create table model_params
(
    param_id integer PRIMARY KEY ASC,
    model_id integer not null,
    param_type text not null,
    param_name text not null,
    param_value text not null,
    tracked_time text default CURRENT_TIMESTAMP not null
);


Overwriting model_track/file_db.sql


我们将上面建表的sql代码保存到sql.db文件后，即可用下面代码进行标准化：

In [3]:
def create_tables(model_track_path):
    conn = get_conn(model_track_path)
    sql_script = open(os.path.join("./", 'db.sql'), 'r', encoding='utf-8').read()
    conn.executescript(sql_script)
    conn.commit()

然后我们可以把这些数据库操作的代码，保存为init_db.py文件。

In [4]:
%%file model_track/init_db.py
import os
import sqlite3

# 数据库连接
def get_conn(model_track_path):
    return sqlite3.connect(os.path.join(model_track_path, 'model_track_center.db'))

# 创建数据表
def create_tables(model_track_path):
    conn = get_conn(model_track_path)
    sql_script = open(os.path.join("./", 'db.sql'), 'r', encoding='utf-8').read()
    conn.executescript(sql_script)
    conn.commit()
    
create_tables("./")

Overwriting model_track/init_db.py


### 1.6.2 ModelTrack类实现逻辑

ML实验跟踪API定义了一个ModelTrack类，该类包含三个关键方法：

* log_param:负责记录超参数


* log_metric:负责记录每次迭代的性能指标


* log_best_param:负责记录最优参数，当然也可以在log_param里添加一个is_best字段来进行识别



In [5]:
%%file model_track/tracking_core.py
import time
import sqlite3
import os

current_path = "./"

class ModelTrack(object):
    
    def __init__(self, task_name, task_desc=''):
        self.conn = sqlite3.connect(os.path.join(current_path, 'model_track_center.db'))
        self.task_name = task_name
        self.task_desc = task_desc
        self.is_add_track = True
        self.param_dict = {}

    def _execute_sql(self,sql,values=None):
        self.conn.execute(sql, values)
        self.conn.commit()

    # 检查model_name是否重复
    def _check_model_name(self, model_name, model_count, task_id):
        if model_name == '':
            model_name = self.task_name + '_' + str(model_count + 1)

        else:
            # 判断是否有model_name
            if self._is_exist_model_name(model_name, task_id):
                model_name = model_name + '_' + str(model_count + 1)
            else:
                model_name = self.model_name

        if self._is_exist_model_name(model_name, task_id):
            return self._check_model_name(model_name, model_count, task_id)
        else:
            return model_name

    # 检查Task name 是否存在
    def _is_exist_task_name(self, task_name):

        sql = "select 1 from model_task m where m.task_name = '{}'".format(task_name)
        task_table = self.conn.execute(sql).fetchall()

        if len(task_table) != 0:
            return True
        else:
            return False

    # 检查model name 是否存在
    def _is_exist_model_name(self, model_name, task_id):

        sql = "select 1 from model_track mt where mt.task_id = {} and mt.model_name = '{}'".format(task_id, model_name)
        model_table = self.conn.execute(sql).fetchall()

        if len(model_table) != 0:
            return True
        else:
            return False

    def log_param(self, param_dict, param_type):
        self.param_dict[param_type] = param_dict

    def log_model_name(self, model_name):
        self.model_name = model_name

    def log_model_desc(self, model_desc):
        self.model_desc = model_desc

    def log_metric(self, metric_name, metric_value, epoch, is_best=0):

        if self.is_add_track:
            self._add_track_logs()
            self.is_add_track = False
        
        sql = """insert 
                 into 
                    model_metric 
                    (model_id, metric_name, metric_type, epoch, metric_value, is_best) 
                 values (?, ?, ?, ?, ?, ?)"""
        self._execute_sql(sql, (self.model_id, metric_name,"line", epoch, '%.4f'%(metric_value), is_best))
        
    def log_best_result(self, best_name, best_value, best_epoch):
        sql = "insert into best_result () values (null, ?, ?, ?, ?, ?)"
        self._execute_sql(sql, (self.sub_model_id, best_name, '%.4f' % (best_value), best_epoch, create_time))
        

    # 添加模型超参数及其他元数据
    def _add_track_logs(self):

        # 插入model
        if not self._is_exist_task_name(self.task_name):
            sql = "insert into model_task (task_name,task_description) values (?, ?)"
            self._execute_sql(sql, (self.task_name, self.task_desc))

        sql = "select task_id from model_task m where m.task_name = '{}'".format(self.task_name)
        task_id = self.conn.execute(sql).fetchall()[0][0]

        sql = "select count(1) from model_track sm where sm.task_id = {}".format(task_id)
        model_count = self.conn.execute(sql).fetchall()[0][0]

        # 插入sub model
        model_name = self._check_model_name(self.model_name, model_count, task_id)
        sql = "insert into model_track (task_id,model_sequence,model_name,model_description) values (?, ?, ?, ?)"
        self._execute_sql(sql, (task_id, model_count + 1, model_name, self.model_desc))

        sql = "select model_id from model_track sm where sm.task_id = ? and sm.model_name = ?"
        self.model_id = self.conn.execute(sql, (task_id, model_name)).fetchall()[0][0]
        print(self.model_id,model_name,"self.model_id")
        
        # 插入model params
        for param_type, value in self.param_dict.items():

            for param_name, param_value in value.items():
                sql = "insert into model_params (model_id, param_type, param_name, param_value) values (?, ?, ?, ?)"
                self._execute_sql(sql, (self.model_id, param_type, param_name, str(param_value)))
                
    def close(self):
        self.conn.close()

Overwriting model_track/tracking_core.py


通过前面实现的ML实验跟踪API可以使用简单的几步来实现记录模型训练性能日志。首先初始化 ModelTrack类，初始化的时候需要指定模型任务的名称（task_name）和任务备注（task_desc）,同一个模型任务可以包含多个子模型。下面使用MLflow的示例，使用前面封装的API进行实验跟踪：

In [6]:
%%file model_track/test_tracking.py
import os
from random import random, randint
from tracking_core import  ModelTrack

model_track = ModelTrack(task_name="churn_model_mlops",task_desc = "流失模型研究")


if __name__ == "__main__":

    model_track.log_model_name("model-A")
    model_track.log_model_desc("模型-A")
    # Log a parameter (key-value pair)
    model_track.log_param({"param1" : randint(0, 100)},param_type = "logistic_param")

    # Log a metric; metrics can be updated throughout the run
    model_track.log_metric("foo", random(), epoch=1,is_best=0)
    model_track.log_metric("foo", random() + 1, epoch=1,is_best=0)
    model_track.log_metric("foo", random() + 2, epoch=1,is_best=0)

Overwriting model_track/test_tracking.py


首先初始化ModelTrack类，填入与任务相关的信息，在迭代前将于模型相关的属性及超参数信息存入中央存储，其中超参数以字典的格式存入。接下来，在模型进入训练环节时，在每次迭代周期内都可以添加评估指标数据，评估指标可以为F1-score，loss，recall等，每次迭代都会调用该api，都会把记录的数据持久化存入中央存储，前端人员就可以根据数据的内容设计看板。

# 2 A/B在线实验

ML实验跟踪侧重于模型的开发阶段，用于评估和记录将模型部署到生产环境之前的模型性能指标和相关信息。虽然礼县实验可用于证明模型在历史数据上表现出了足够好的性能，但这些实验不能简历模型和用户交互之间的因果关系。当ML被引入实时的生产系统以驱动特定的用户行为时，如提高点击率或参与度，我们需要通过实时跟踪具体的业务指标来衡量这些指标的进展，这些指标被称为关键绩效指标（KPI），执行这种在线跟踪和验证的方式被称为在线实验。

AB在线实验是实际应用场景中最经常使用的统计技术。当将其应用于在线模型评估时，它允许我们回答这样的问题，新模型B在生产中是否比现有模型A的效果更好？

## 2.1 确定实验的范围与目标

一旦我们对数据中的关系有了更深入的理解，并确定了相关的KPI指标，就可以开始定义实验的范围，在设计实验之前，通常需要考虑以下四个问题。

* 要创建的实验是否重要。因为一旦创建实验就意味着相应的会见、金钱和资源的投入，应确保实验的结果能正向影响业务、产品和营销决策。


* 能否在这个实验中测量相关的KPI指标。从业务角度出发，最不希望看到的就是无法量化这些KPI指标。一定要确保这些指标是可以量化的。


* 能否检测到影响。要评估在线实验跟踪的指标变化是否有意义，是否需要足够大的样本量才能检测出来。


* 是否满足商业目标，从商业角度来看，需要提前考虑如果实验指标较好，其影响是否有意义。换句话说，即是你的实验所测试的模型带来了统计上的显著提升，如果它只影响少数的几个用户，可能就不值得大规模投入了。

如果上述任何一个问题答案为否，就需要在调整实验目标或KPI的设定。

## 2.2 最小样本量的确定方法

在线实验的理论核心就是最小样本量的确定，其中涉及了：
* 抽样（分流）方案的选择
* 统计假设的定义
* 所需最小样本量的确定

### 2.2.1 抽样方案的选择

抽样方案是对感兴趣的人群进行抽样的方法，需要考虑包含任何潜在的抽样偏差，以确保利益相关者了解不同的抽样方法及这些方法对实验结果的潜在影响。

### 2.2.2 统计假设的定义

零假设（T0）和备择假设（T1）的设计涉及试验定义的核心。需要清楚的描述T0和T1是什么。通常情况下，T0就是控制组（旧版本或现版本），T1就是新版本。实验的目标是检验是否有足够多的证据来拒绝T0，来接受T1。

统计误差是假设的关键部分，具体来说就是要计算两种错误类型：
* 第一类错误（假阳性）：无辜者定罪
* 第二类错误（假阴性）：有罪者无罪释放

计算这两类错误的方法是：
* 第一类错误：显著性水平检验。将显著性水平设为5%，也就是95%置信水平（confidence level）
* 第二类错误：功效统计量，就是检测实验组和对照组之间差异（如果真的存在差异）的能力

下图展示了变量的变化（效应量的大小和样本量大小）是如何影响统计检验的功效的,图中显示了随着观测者数量（x轴）的增加，三种不同效应量（es）的统计功效（y轴）的影响。，这里假设最小统计功效为80%。
![image.png](attachment:image.png)

了解影响的大小或针对给定人群可以预期的结果非常重要。如果我们希望在测试中看到的变化越大，效应量越大（es越小），那么所需的最小样本量就越小。反之亦然。换句话说，如果你想检测较大的差异，你将在测试中使用较少的用户进行检测，但如果你想找到更精细的细小差异，那么在测试就要包含更多的用户。

### 2.2.3 所需最小样本量的确定

一旦定义了显著性水平，功效和效应量，就可以运行功效分析来确定最小样本量，以便检测正在测试的实验是否有意义。该检验通常使用p值进行解释，p值是在T0假设为真的情况下，观察结果的概率。

在解释显著性检验的p值（必须指定显著性水平）时，如果p值小于显著性水平，则显著性检验的结果被称为“统计学上有意义”，这意味着T0（没有显著差异）被拒绝。

最小样本量的计算示例入选所示，用python的statsmodels库即可实现，需要指定显著性水平(alpha)、效应量(effect)、最小统计功效(power)等：


In [7]:
from statsmodels.stats.power import TTestIndPower

# 功效分析参数
alpha = 0.05
effect = 0.05
power = 0.8

# 功效分析表现
analysis = TTestIndPower()
result = analysis.solve_power(effect_size=effect,power=power,alpha=alpha)
print('最小样本量：{}'.format(result))

最小样本量：6280.049008707864


## 2.3 对ML模型进行A/B测试

运行AB测试的第一步就是确定实现商业目标的衡量指标。在实验中，这个指标通常使用商业结果的代理指标，而不是商业结果的直接度量。首选代理指标的原因是速度快且可量化，一个可以在数小时或数天内测量的指标可以使我们快速整合实验反馈。

第二步是确定实验本身的参数，需要确定的两个参数分别是样本量和实验的持续时间，同时需要提前设定对照组和控制组。在实验上线后且预设的样本量达到之前，用户会按照预设的流量比例被随机分流到对照组合控制组，用户丠分裂带不同组决定了他们会看到不同的ML模型。实验的持续时间取决于功效分析，这里的功效分析指的是对假阴性概率及显著性水平的计算。

## 2.4 在MLOps框架增加AB在线实验

接下来，就需要在MLOps流程中嵌入AB在线实验功能。这在实际运行时，意味着要同时操作多个模型，并确保被分配到控制组和对照组的用户能够看到正确的模型产生的结果。顺利做到这点取决于公司的数据基础设施和数据模型，具体的设计模型主要有两种：

### 2.4.1 内嵌模式

这种模式是将不同的模型封装在AB实验API的后端，如下图所示。我们需要在模型部署阶段新增一层AB实验的API，将多个模型封装在API的后端，同时需要在模型发布后对反馈日志和AB实验参数进行保存，所以这里需要将反馈日志和参数信息记录到中央存储中。

![image.png](attachment:image.png)

我们通过简单的flask来实现它的基本逻辑。

假设 model_A是当前部署的模型，可以通过向 /predict 端点发出HTTP请求来获取 model_A的预测结果：

In [8]:
from flask import Flask

app = Flask(__name__)

@app.route("/predict")
def predict():
    features = request.get_json['features']
    return model_A.predict(features)

现在我们根据用户ID将用户分配到控制组和对照组，假设模型A为控制组，在代码中定义为model_A,模型B（model_B）和模型C(model_C)为对照组。内嵌的路由逻辑是将用户与模型服务应用程序中的模型相匹配，也就是在单个应用程序中提供多个模型：

In [9]:
from hashlib import sha1
import random

alternatives = ['model_A','model_B','model_C']

model_A = 'RF'
model_B = 'LR'
model_C = 'lightgbm'


# 将模型名称映射到模型对象
models = {
    'model_A':model_A,
    'model_B':model_B,
    'model_C':model_C
}

def get_hash(user_id):
    hashed = sha1(user_id).hexdigest()[:7]
    return int(hashed,16)

def choose_alternative(user_id):
    rnd = random.random()
    idx = get_hash(user_id) % len(alternatives)
    return alternatives[idx]

@app.route("/predict_models")
def predict_models():
    features = request.get_json['features']
    user_id = request.get_json['user_id']
    model_selected = choose_alternative(str(user_id))
    model = models[model_selected]
    return model.predict(featuresures)


这种模式比较容易理解，但不是一个好模式，其中有三个原因：

* 任务分工难度和测试复杂度高：在引入在线实验之前，我们部署的模型只负责处理对模型的请求，这个任务可以用几行代码封装完成。但是如果将实验逻辑加入到API中，就会增加应用程序的任务、代码库、依赖以及编写更多测试内容。


* 增加代码及模型会增加应用程序失败的风险：在淡漠型的情况下，如果有模型失败的情况，只需独立修复该模型服务即可，更新模型也只需要独立更新，不对对其他模型产生影响。而在内嵌模式下，如果模型调用失败，在修复的时候需要对整个服务进行调整，势必会影响到其他模型的调用。


* 强依赖于开发人员来完成：每次创建实验都需要开发人员配合，而实际应用可能需要很多实验，这种模型会降低实验验证的效率。

### 2.4.2 分离模式

更好的方法是在模型推理服务的客户端和业务系统之间添加一层额外的抽象层，该抽象层负责根据实验的设置路由传入的请求。对于这种模式，每个训练好的模型都托管在独立的环境中，并且各自对应一个模型推理服务，流量先通过AB实验API进行分流，将指令路由到模型推理服务的客户端，也就是模型推理服务和AB在线服务测试是分离的，这样如果模型推理服务出现问题，也不会影响到AB在线服务和其他模型服务的正常运行。

![image.png](attachment:image.png)

该模式首先解决了责任下放的问题，整个应用由两层服务组成。模型推理服务负责执行预测，AB在线实验的服务负责分流和反馈日志的收集，将传入的推理请求路由到适当的模型推理服务上，同时也会接受来自客户端的反馈信息，以便实时展示实验的效果。运行实验时，数据科学家可以根据实验进展打开、关闭操作，不需要开发人员参与，这样极大的提高了实验的灵活性。

## 2.5 MLOps中的A/B实验管理

我们就可以设计一个简单的AB实验管理界面，如下图所示：
![image.png](attachment:image.png)


然后实验的元数据信息会保存到中央存储，就可以查看不同的KPI指标，也可以进行停止实验等操作。
![image.png](attachment:image.png)

# 3 模型注册

## 3.1 模型注册的定义

假设数据科学团队花费了大量资源开发了一个ML模型，这个模型运行良好，并且很有潜力来影响商业结果。但是，将ML推广到生产环境中是痛苦和缓慢的，我们缺乏的是透明度和其他团队成员合作的方式。如果有一个中央存储可以存放所有的生产就绪的模型和元数据信息，那么将简化整个生产和工作流程。模型注册就是负责这件事。

为了对模型生命周期进行全面的管理，快速无缝的发布模型及实现团队协作，首先要做的就是模型的注册功能，模型注册是ML生命州区或MLOps的一部分，介于模型开发和模型部署之间，在两者搭建了信息传递机制，以保持MLOps工作流程的畅通。

本质上，可以把模型注册中心看作为每个模型建立的“档案库”，每个注册后的模型的档案是唯一的，档案的唯一标识是模型ID，档案内容包含模型代码和工件坐在位置、模型训练时使用的特征信息、模型服务状态、模型依赖的代码包，模型版本等。


## 3.2 模型注册的必要性

缺乏管理是当前ML面临的问题，它会拖延生产，模型在应用过程中出现的问题也很难被发现，所以缺乏以模型注册为中心的统一管理会发生以下常见问题。

* 使用常见的错误标记模型文件来跟踪哪个模型来自哪个训练工作，很容易造成错乱。


* 丢失或误删数据，如果不跟踪哪些数据集被用于干什么，团队将不知道哪些数据能删除，哪些不能，很容造成误删。


* 缺少源代码或未知版本。有时候模型会产生难以预料的错误，若不注意，就很容易失去对源代码的跟踪，这可能会导致重复工作。

同时，研究环境下开发的模型也不适合直接进行生产部署。

* 模型开发通常探索性和临时性的：构建和改进模型需要对不同的特征、模型算法、超参数值等进行试验，这项工作一般是在代码编辑环境（jupyter）中实现的。若jupyter和git不能很好的配合工作，一组代码也可能产生多个版本的候选模型，这些版本由模型工件、指标和参数组成，但通常这些也难以进行组织和管理。


* 数据和代码一样重要，并且经常变化：相同的建模代码使用不同的数据集运行时也可能产生不同的结果。


* 计算是重要且随机的：很多算法都是用了random库，如果没有固定random seed，那么每次运行都可以产生不同的输出，所以记录和存储每次的计算结果也是十分重要的。

所以，我们需要通过“模型注册”将模型开发过程中的依赖和产出记录下来，模型注册通过存储“模型版本”来解决这些问题，以实现可重复的研究来帮助数据科学家，这些“模型版本”不必关注计算发生在哪里，只需要捕获计算的输入（代码、参数、数据）和输出（模型文件、指标等）。

同时，模型注册表中的模型更容易交给工程团队进行部署，而且当发生问题时，可以根据模型注册表回滚到上一个正确的版本。



## 3.3 将模型注册功能融入MLOps框架

模型注册为引入模型的各个版本提供了一个共同的来源，当数据科学家与工程图案度沟通时，模型ID可以作为唯一标识来引用模型，不会产生分歧。同样的，应用程序可以将模型ID作为部署管道的参数，并从模型注册中心获取元数据，进而访问相关的工件，使更新模型变得简单。

我们在第三章的基础上，架构图需要在模型开发与模型部署之间再加一层，也就是模型注册层。

![image.png](attachment:image.png)


## 3.4 模型注册中心存储的信息

模型注册中心提供了一个存储模型元数据的机制，通过通信层连接独立的模型训练个推理过程。一个构造良好的模型注册中心允许模型推理服务根据注册的信息来选择已发布的模型以生成预测。随着建模团队的规模和模型数量的增加，模型注册中心可以帮助MLOps灵活扩展模型管理。

具体的，对于每个待注册的模型，通常需要存储模型的标识符，名称，描述信息，发布者，版本，版本的添加日期，持久化模型的远程路径，及模型的状态等。其中，模型的状态可以包含开发、影子模式、生产等标识，也可以进行自己扩展。另外，其他与模型相关的关键信息分为下面4大类：

* 模型代码;模型注册中心应包含用于训练模型的所有代码或依赖包的引用。如果自定义代码用于转换数据或训练模型，则代码应该位于单独版本控制系统中（Git）中，并且模型注册中心应该包含该系统的最新版本ID，大多数项目还会用到外部引用库或其他软件依赖库。


* 数据集：由于ML模型都是基于数据学习的，若要重现模型，则需要访问原始的训练数据。模型注册中心应白喊原始训练数据的静态副本、视图或快照的引用。数据集的副本可以放置在对象存储装置或数据库中，并可以在模型注册中心引用。


* 模型指标：大多数模型注册工具都有一个缓存装置，用于将模型参数或性能指标存储于键值对。存入的输入参数和模型性能的值有助于在创建初期快速比较模型。后期的持续训练作业也需要将所有可配置的输入参数写入模型注册中心，训练完成后，模型的评估和性能指标会通过模型注册中心完整的写入中央存储，方便快速查看新模型的性能是否比以前的版本更好或更差。一些模型注册工具还会自动记录高级属性，如特征重要性、损失函数等。


* 模型工件：模型部署环节需要使用建模阶段创建好的模型工件，ML框架通常具有个性化的机制来持久化模型（pickle或joblib）这些工件应该被存储在模型注册中心，这样只要业务需求确定，就可以随时将模型部署到生产中。

为了记录和存储以上的信息，还需要两个重要的组件：

* 模型注册API：该API可以将保存至中央存储的信息、前端操作或脚本调用导致信息发生的变化，这些操作都需要通过该API向后端数据库传递。比如，在前端操作将某个模型的状态从开发变为生产，就需要该API向后端数据库传递信息的变更。


* 中央存储：该组件的作用是可以在同一个地方管理所有的实验，以及管理带有版本和其他元数据的注册的模型。这个组件是协作的关键，可帮助团队在一个地方轻松访问和共享所有类型的信息。

## 3.5 模型注册的价值

模型注册中心是大多数MLOps 架构中最容易被忽视的组件，即使你的团队已经设置了自动化管道和模型服务，但这样仅实现了模型开发和服务化的能力，对模型、版本和元数据并没有做相关处理，这时就需要在实现模型注册的基础再实现后续的模型管理功能。当我们开始重视模型注册的时候，可以产生以下价值：

（1）更简单的自动化：在模型注册的基础上，模型服务可以通过模型注册中心从中央存储检索到最新模型的信息，并使用最新模型向业务系统提供推理服务。当模型服务的后端模型发生更新时，也可以通过模型注册API自动将最新的模型信息存入中央存储以供模型服务使用。

（2）所有模型的概览：模型注册中心包括模型概况的前端展示，在前端可以展示模型注册中心的信息。使用者可以查看模型注册中心中已经注册了哪些模型、它们是否在生产中运行及最近发布的版本等信息，还可以在前端执行新模型的注册和已注册模型的管理等操作，这些前端操作通过模型注册PI存储进行据交查询、保存及变更)。

（3）跟踪模型版本：我们在手动进行模型开发和部署的时候，一个常见的痛点是不确定当前业务系统正在请求的模型服务是来自哪个模型或哪个模型的哪个版本的。如果团队成员更新了模型而不更新模型注册中心中的版本号，则很容易发生这种情况。比如使用的模型工件是“model.pickle”文件还是“model-new.pickle”文件?文件名中通常没有提供足够多的信息来跟踪相关模型，而且手动保存的内部文档等来源可能已过时或不准确。模型注册中心方便了使用者跟踪随每次模型更新而更新的特定版本号，可以轻松查看每个模型版本的信息。你会知道当前的优惠券推荐服务是由 coupon-recom-model v1.1.2 创建的。该模型上次更新的时间、模型的创建者及模型的任何相关更新也很容易被跟踪到。

（4）跟踪模型所处的阶段：与跟踪模型版本类似，模型注册中心已经注册的不同模型可能会处在不同的阶段，如在开发、暂存或生产中。跟踪这些阶段很重要，可以方便使用者管理当前哪些模型正在使用中，哪些模型已经过期并需要进行清理。

（5）文档化开发者创建的模型：数据科学家在开发ML项目的时候通常还需要对该项目和涉及的模型进行文档化来形成知识库，如记录该项目的目标、业务预期、数据探索和模型开发细节。文档化信息同样很重要，比如，金融行业在进行风控建模时，业务人员会给使用的特征说明及建模过程提供一个详细的解释。如果没有模型注册中心，就没有一个清晰的位置来记录这些数据。模型注册中心允许将结构化和非结构化的元数据与每个模型相关联。简单的文档化也可以使用每个模型的用途及每个模型的相关性描述来注释模型，从而帮助团队和业务人员查看。例如，一个简单的文本注释，如“这个模型是基于[论文X]且使用我们的2020-2021-Y数据集训练的”，可以为几个月后试图弄清楚这一点的人们节省大量时间。

（6）管理所有模型的依赖关系：通常，模型会有不同的依赖关系。例如，开发者可能使用 PyTorch 和Pandas构建了一个模型，使用 TensorFlow构建了另一个模型。如果在模型注册中心跟踪了这些依赖项，可以确保将模型部署到正确的环境中。

（7）团队协作：在团队协作建模的场景中，可能会出现团队的不同成员对同一模型进行更改的情况。使用模型注册中心来记录这些信息，就可以让任何成员都看到新版本何时发布及由谁进行了哪些更改，团队或公司中的每个人都可以在授权后访问完全相同的模型和相同的版本。
如果同一团队的不同成员想要开发相同模型的更好版本，他们每个人都可以使用模型注册中心来查看他们的同事已经尝试过的内容和不同变体的结果。这让每个人都有机会改进现有工作，而不是重复其他人已经尝试过的工作。




## 3.6 一个简单的模型注册流程

假设第3章创建的模型的部署目标是创建一个API，然后使用该模型来提他推理服务。我们可以从一个简单的部署方式开始，下图所示是模型注册的小可行性设计。

![image.png](attachment:image.png)

我们在 Python 环境中使用pickle包来实现模型的序列化。具体来说，我们通过人工方式训练一次性模型并将其序列化为一个名为model.pkl的文件。之后，将该模型文件存储在本地或远程服务器上。最后，读取已保存的模型文件，反序列模型后创建一个可以随时接收预测请求的模型推理API服务。这种设计模式在行业中比较常见，但其也有一些缺点:

* 随着时间的推移，模型可能会随时衰退,尤其是当数据分布随时间变化时，这在线上业务场景中是极其常见的。


* 由于这里的模型训练是一次性的，因此训练代码很难得到很好的维护，这使得后续的重现变得困难。

从长远角度看，我们需要模型是可以版本化的，所以需要升级模型注册的设计模式。

## 3.7 设计和实现符合MLOps标准的模型注册中心

下图展示符合MLOps标准的模型注册的设计：

![image.png](attachment:image.png)

对于模型训练，我们有一个定期训练模型的Cron Job(在MLOps框架下通常是由模型监控模块触发的)。模型训练好后，将其工件序列化到模型注册中心，并 通过信息注册代码将模型相关信息写入模型注册中心，以及将需要更新的API信息提交至模型推理API的后端(模型推理API的更新方法参见第7章)。值得注意的是，这里提到了API信息的更新，这是考虑到新版本模型与当前API的兼容性，因为当前供应API的旧版本模型使用的特征可能与新版本模型训练时使用的特征不一致。比如，旧版本模型使用20个特征进行训练，而新版本模型使用了21个特征进行训练。 

对于模型注册中心的实现，下面给出一个简单示例。我们将使用关系型数据库来存储元数据，并创建一组Python函数来实现基础的注册功能。我们将展示如何使用这些函数和模型接口，本节示例是在第三章创建的模型基础上升级实现的。


### 3.7.1 数据库建立

首先，可以创建一个名为model_registry_center.db的库及一个连接数据库的 session (conn),conn 提供了一个可以操作model_registry_center.db的连接session,该session由函数 get_conn定义，用于执行表的创建和查询操作。这里需要注意一点是，model_registry_center.db库是一个独立的文件，如果要将ML实验跟与模型注册中心的数据打通，则需要使用同一个数据库文件。相关代码如下:

In [10]:
import os
import sqlite3

model_registry_path = './model_registry/'

# 数据库连接
def get_conn(model_registry_path):
    return sqlite3.connect(os.path.join(model_registry_path,'model_registry_center.db'))

接下来，创建一个名为 model_registry 的模型注册表，可以根据需要自己定义自己需要的字段，下面给出一个 model_registry 表的结构示例:

In [11]:
%%file model_registry/file_db.sql
create table model_registry
(
    id INTERGER PRIMARY KEY ASC,
    name TEXT NOT NULL,
    version TEXT NOT NULL,
    registered_date TEXT DEFAULT CURRENT_TIMESTAMP NOT NULL,
    remote_path TEXT NOT NULL,
    stage TEXT DEFAULT 'DEVELOPMENT' NOT NULL
);

Overwriting model_registry/file_db.sql


尽管我们建立了一个基本的数据库表来存储已发布模型的元数据，但还没有指定如何将这些元数据添加到数据库中，我们不希望让数据科学家在每次发布新模型时都手动重新实现数据的写入逻辑，而是希望将常见的操作编码为一组函数来简化这个过程，也就是所谓的应用程序接口(API)。将我们希望在模型注册中心执行的操作编码为一个API 的好处是，易用、可重复且更容易测试。

团队中的数据科学家不必考虑如何与数据库互动，这使得他们可以花更多的时间来开发模型，这也方便了团队中的新手轻松上手。由于我们知道某些操作会被多次运行，因此我们可以设计一个标准规范，避免多次重复实现相同的逻辑。同时，可以很容易地编写单元测试和集成测试，以验证API是否按预期工作。为了设计我们的 API，下面定义希望执行的操作如下：
* 发布新训练的模型。
* 发布一个模型的新版本。
* 更新已发布模型的部署阶段(模型状态)。
* 获取与生产化模型相关的元数据。

现在，我们可以将以上这些操作编码为一组 Python 函数。在这里可以定义一个 ModelRegistry 类，可以让它的实例方法分别执行以上这些操作。在创建 ModelRegistry类之前，首先对基础表创建语句进行初始化，示例代码如下:

In [12]:
import re

column_re = re.compile('(.+?)\((.+)\)', re.S)
column_split_re = re.compile(r'(?:[^,(]|\([^)]*\))+')

def _format_create_table(sql):
    create_table, column_list = column_re.search(sql).groups()
    columns = ['  %s' % column.strip()
               for column in column_split_re.findall(column_list)
               if column.strip()]
    return '%s (\n%s\n)' % (
        create_table,
        ',\n'.join(columns))

def format_create_table(sql):
    try:
        return _format_create_table(sql)
    except:
        return sql

sql = """drop table if exists model_registry;
create table model_registry
(
    id INTEGER PRIMARY KEY ASC,
    name TEXT NOT NULL,
    version TEXT NOT NULL,
    registered_date TEXT DEFAULT CURRENT_TIMESTAMP NOT NULL,
    remote_path TEXT NOT NULL,
    stage TEXT DEFAULT 'DEVELOPMENT' NOT NULL
);"""
    
sql_script = format_create_table(sql)
sql_script

"drop table if exists model_registry;\ncreate table model_registry\n (\n  id INTEGER PRIMARY KEY ASC,\n  name TEXT NOT NULL,\n  version TEXT NOT NULL,\n  registered_date TEXT DEFAULT CURRENT_TIMESTAMP NOT NULL,\n  remote_path TEXT NOT NULL,\n  stage TEXT DEFAULT 'DEVELOPMENT' NOT NULL\n)"

### 3.7.2 ModelRegistry 类

ModelRegistry类的具体构造示例如下：

* __init__:是初始化函数，在初始化时该函数接收一个sqlite3.Connection 对象和数据库表的名称。


* deploy_model:用于将模型信息保存到注册表中，该方法会接收一个 model对象和名称，第一次部署的时候 version默认为1.执行该方法的时候首先会使用task.push_model(在第6章介绍部署模型时，将模型持久化至中央存储的时候会使用方法 task.push model)将训练好的模型持久化(存储模型工件)至中央存储中，然后将模型的元数据插入模型注册表中。


* query_registry_info:负责对已注册的模型信息进行查询，可以根据具体的需求细化查询的内容，如使用模型名称或模型ID查询信息。


* update_stage：用于更新一个特定模型和版本的阶段列。该方法可表示一个模型是否适合生产推理。该方法允许使用者为阶段参数传递任何值，但是你可能希望限制可能值集合并验证使用者的输入。


* update_version：用于更新模型版本，该方法首先检索最新发布的模型版本，然后将新版本信息插入注册表中，其版本(变量version)增加1。


* get_production_model：用于检索与一个阶段列等于“PRODUCTION”的模型相关的元数据。该方法可以在生产推理过程中检索模型的远程路径，该模型应该被反序列化并加载到内存中，以生成预测结果。


* init_db：实现了对数据库表的初始化，该函数会执行创建注册表的 SQL 语句，该注册表是在数据库中创建模型注册时需要的基础表。


* _execute_sql和close：分别用于执行 SQL语句和关闭数据库引擎中的 session。

In [13]:
import os
import sqlite3
import pandas as pd

model_registry_path = "./"

class ModelRegistry:
    def __init__(self, table_name='model_registry'):
        self.conn = sqlite3.connect(os.path.join(model_registry_path, 'model_registry_center.db'))
        self.table_name = table_name

    def deploy_model(self, model, model_name, version = 1):
        model_path = '/models/{}_v{}'.format(model_name, version)
        values = (model_name, version, model_path)
        sql = "insert into {} (name, version, remote_path) values (?, ?, ?)".format(self.table_name)
        #task.push_model(model, model_path)
        self._execute_sql(sql, values)

    def query_registry_info(self):
        sql = "select * from {} limit 10".format(self.table_name)
        query_results = self.conn.execute(sql).fetchall()
        return query_results

    def update_stage(self, model_name, version, stage):
        sql = "update {} set stage = ? where name = ? and version = ?;".format(self.table_name)
        self._execute_sql(sql, (stage, model_name, version))

    def update_version(self, model, model_name):
        version_query = """select 
                                version 
                            from 
                                {} 
                            where
                                name = '{}' 
                            order by 
                                registered_date 
                            desc limit 1
                            ;""".format(self.table_name, model_name)
        version = pd.read_sql_query(version_query, self.conn)
        version = int(version.iloc[0]['version'])
        new_version = version + 1
        remote_path = '/models/{}_v{}'.format(model_name, new_version)
        #task.push_model(model, remote_path)
        self.deploy_model("model",model_name, new_version)
    def get_production_model(self, model_name):
        sql = """
                select
                    *
                from
                    {}
                where
                    name = '{}' and
                    stage = 'PRODUCTION'
                ;""".format(self.table_name, model_name)
        return pd.read_sql_query(sql, self.conn)
    def init_db(self, sql_script):
        self.conn.executescript(sql_script)
        self.conn.commit()

    def _execute_sql(self, sql, values=None):
        self.conn.execute(sql, values)
        self.conn.commit()

    def close(self):
        self.conn.close()

### 3.7.3 在生产中使用模型注册API

现在我们已经设计并实现了一个模型注册中心，下面让我们来展示模型注中心是如何在生产中配合 ML的。特别是，模型注册中心提供了一种机制，用于在模型训练和推理过程中传递信息。这些过程是独立的，因为它们是在不同的时间和环境下运行的。很多工程经验不丰富的科学家会将模型训练和推理设计成耦合的，推理过程会依赖特定训练过程中的特定模型来进行输出。模型注册中心通过在运行时向推理服务提供它所需的信息,可以将模型训练和推理服务进行解耦，接下来，我们将通过走通一个ML工作流程来说明这一点。

想象一下，随着时间的推移，我们训练了多个模型，直到开发出一个满足项目预期的模型。一旦这个模型被开发出来，我们就可以使用它进行推理。开发出来的模型在被注册后，都可以运行以下代码来查询模型在模型注册中心数据库中的状态:

pd.read_sql_query("select * from model registry;", conn)

模型在生命周期内会经历多个和多次迭代实验，我们使用ModelRegistry类来部署训练好的模型及其元数据到模型注册中心，下面的代码实例化了一个ModelRegistry对象，并将训练好的模型部署到模型注册中心。


In [14]:
import re

column_re = re.compile('(.+?)\((.+)\)', re.S)
column_split_re = re.compile(r'(?:[^,(]|\([^)]*\))+')

def _format_create_table(sql):
    create_table, column_list = column_re.search(sql).groups()
    columns = ['  %s' % column.strip()
               for column in column_split_re.findall(column_list)
               if column.strip()]
    return '%s (\n%s\n)' % (
        create_table,
        ',\n'.join(columns))

def format_create_table(sql):
    try:
        return _format_create_table(sql)
    except:
        return sql

sql = """drop table if exists model_registry;
create table model_registry
(
    id INTEGER PRIMARY KEY ASC,
    name TEXT NOT NULL,
    version TEXT NOT NULL,
    registered_date TEXT DEFAULT CURRENT_TIMESTAMP NOT NULL,
    remote_path TEXT NOT NULL,
    stage TEXT DEFAULT 'DEVELOPMENT' NOT NULL
);"""

sql_script = format_create_table(sql)
registry_init = ModelRegistry()
registry_init.init_db(sql_script)
registry_init.deploy_model("model","churn_first_model")

我们的模型很难在第一个版本就达到业务预期，而是要经过多次迭代，一旦模型投入生产，我们就需要重新训练它防止数据和模型发生漂移，新版本模型训练出来后，可以用update_version方法向模型注册中心添加一个新条目：

In [15]:
registry_init.update_version("model","churn_first_model")

一旦我们开发出了一个可以部署于生产环境的模型，那就可以调用update_stage来更改模型状态：

In [16]:
registry_init.update_stage(model_name = "churn_first_model", version='2', stage="PRODUCTION")

以上，我们就完成了模型的训练、迭代、并将其推广到生产环境，这时业务系统就可以使用该模型进行推理了。为了检索与生产就绪的模型的元数据，就可以调用get_production_model方法，接着可以用remote_path值将相应的模型加载到内存中并执行推理过程。若要查看模型的元数据信息，也可以调用query_registry_info方法来实现。

## 3.8 模型注册中心的权限设置

对于注册到模型注册中心的每个模型，可以为其设置操作权限，这意味着我们可以控制谁可以看到模型注册中心的哪些模型，以及谁有权限可以对模型进行操作。模型的责任人或被授权了的人可能需要在将模型过渡到部署阶段之前检查以下事项。

* 确保注册的模型是验证和测试后有效的。
* 确保针对模型的输入数据进行了数据验证测试,避免其在生产环境中运行时出现错误。

在实现模型注册功能后，一方面可以记录模型部署时的信息，另一方面可以记录和关联不同操作人的权限标签(如关联用户信息表中的权限标签)，通过变更权限标签来实现对权限的控制。

# 4 特征存储

到目前为止，我们已经介绍了模型开发过程中的ML实验跟踪、A/B在线实验及模型注册功能，这三项功能中的ML实验跟踪是用于辅助模型开发的(属于ML“阵营”)，A/B在线实验和模型注册铺助模型用管理和运维(属手Ops“阵营”)。这三项功能虽然分工和归属的阵营不同，但它们有一个共同点那就是对数据的依赖，模型开发的时候依赖训练数据，模型应用、管理和运维的时候依赖用户请求和反馈数据。值得注意的是，这里提到的共同点虽然都是数据，但也有区别，比如，模型开发的时候使用的通常是离线批量数据，而模型应用的时候使用的可能是实时单条数据，传统数据库通常很难很友好地支持这两种数据需求，而目前能同时支持这两种数据需求的是一个叫特征存储的装置。

特征存储就像数据科学的数据仓库，它的主要目标是使数据科学家能够缩短从数据提取到ML模型训练和推理的时间，特征存储的出现填补了 MLOps 生命周期中的一个重要空白。

需要注意的是，特征存储与 MLOps一样，目前也处于探索和百家争鸣的阶段，直到2020年，还没有一个大的ML平台供应商能提供一个明确的产品来实现这一功能。在2020年12月，亚马逊公司公开了一个服务 SageMaker 的特征存储，随后谷歌在2021年5月发布了他们的MLOps平台 VertexAI，该平台提供了一个特征存储组件。Databricks在2021年6月发布了他们在Azure平台支持的特征存储实现的公开版本。除此之外，还有像 Hopsworks 和 Tecton这样的初创公司在进行专注于特征存储的研发，以及一些像Feast 这样的开源项目，这些公司和开源项目都在引领特征存储技术的发展。因此，整个行业正在努力研究特征存储技术， 以填补MLOps生命周期中的特征应用的空白。

## 4.1 特征工程及使用挑战

良好的特征工程对于很多ML解案能获得成功至关重要。然而，它也是模型开发中最耗时的环节之一。有些特征需要大量的业务知识才能正确计算，而且商业策略的变化也会影响特征的计算方式。为了确保这些特征的计算方式一致，这些特征的计算最好由业务专家而不是ML工程师来主导。一些输入字段可能允许选择不同的数据表示方式，以使它们更适合 ML。

每个来源的数据结构之间也可能有所不同，这就要求每个输入都有自己的特征工程步骤，然后才能将其输入建模过程中。这种开发过程通常是在虚拟机或者个人机器上完成的，这导致特征创建与建立模型的软件环境相关，而模型越复杂，这些数据工程管道(流水线)就越复杂。一个临时的方案是，根据ML项目的需要来灵活创建特征(case by case)，这种方式比较灵活，可能适用于一次性的模型开发和训练，但随着 ML项目的不断增多，这种特征工程的方法变得不切实，很容易造成混乱和问题。

首先，临时性的特征不容易被复用，这样导致同类型的特征被反复创建。这对于那些计算复杂的高级特征来说，问题尤其严重，因为这些高级特征的探案过程可能是昂贵的。比如，一个客户在过去一个月内的订单数量，涉及时间周期内的数据聚合，这类特征的点计算通常是耗时的。如果每个新项目从头创建相同特征，那么会浪费很多精力和时间。

其次，临时性的特征不容易在团队间或者跨项目间共享。在实际场景中，相同的原始数据通常被多个团队同时使用，但不同的团队可能会以不同的方式定义特征，并且不容易获得特征文档，这会阻碍团队的有效协作，导致孤岛式的工作和不必要的重复劳动。此外，用于训练和推理服务的特征经常会出现不一致，这时容易发生训练与服务偏差，训练通常是使用历史数据和离线创建的批量特征进行的，而推理服务通常是在线进行的。如果用于训练的特征管道与生产中用于推理服务的特征管道有任何的不同(例如，不同的库、预设代码或时间周期)，就容易产生训练与推理服务出现偏差的风险。

总之，特征工程的临时方法很容易拖慢模型的开发进程，导致重复劳动和工作流处理的低效率。当转向生产时，在没有一个标准化的框架来为在线 ML模型服务提供实时特征并为离线训练提供批量特征的情况下,特征的生产化是困难的，模型的离线训练可以使用批量处理过程创建的特征，但当在生产中提供服务时，这些特征的创建和检索往往需要低延迟而不是高吞吐量。如果特征生产和存储的框架不灵活，则很难同时满足模型的开发和应用。


## 4.2 特征存储的定义

特征存储是一个用于管理 ML 特征的数据管理系统，包括特征工程代码和特征数据。它也属于中央存储的范畴，用于存储记录的、设计的和访问权限控制的特征，可以在整个团队创建的许多不同的 ML模型中使用。它从各种来源获取数据，并执行定义的转换、聚合、验证和其他操作来创建特征，特征存储注册了可用的特征，并使它们准备好被ML训练管道和推理服务检索和消费。



## 4.3 在MLOps框架增加特征存储

对于特征工程为 ML 服务的问题，解决方案是创建一个共享的特征存储，使用一个集中的位置来记录和存储特征数据集，这些数据集将用于构建ML模型，并可以在不同的项目和团队中共享。特征存储为数据工程师创建特征管道和在数据科学家使用这些特征建立模型的工作流程间建立服务接口，后端存放预先计算好的特征，从而加快模型开发进程，并有利于特征的发现，也方便将版本、文档和访问控制等基本的软件工程原则应用于所创建的特征。

特征存储通过存储优胜的特征来补充中央存储，并使它们可用于训练或推理。特征存储是一个将原始数据转化为有用特征的地方。原始数据通常来自各种数据源，有结构化的、非结构化的、流式的、批量的和实时的。这些数据都需要被提取、转换(使用特征管道)，并存储在统一的地方，而这个地方可以是特征存储。

数据科学家的建模工作通常是重复的，尤其是数据处理工作。除此之外，每个ML项目都是从寻找正确的特征开始的。问题是，在大多数情况下，没有一个单一的、集中的地方可以搜索特征，而特征又是无处不在且被托管在各个地方(不同表，甚至不同的系统中)的。

特征存储提供了统一的管理平台来集中管理所有可用的特征，这样可以有效减少重复的工作，在同一个地方共享所有的特征。特征存储可以为数据科学家与其他团队提供有效的共享特征的能力，从而提高他们的生产力，不必每次都从头开始预处理特征。特征存储的设计需要在提供批处理功能的基础上实现在低延迟要求下计算实时特征，以支持实时预测。这些实时用例涉及各个行业，一些常见的例子是欺诈检测、实时商品推荐、预测性维护、动态定价、语音助手、聊天机器人等。因此，有必要重新审视构建实时特征存储的概念和做法。

如下图所示，我们需要在MLOps架构里添加特征存储的功能，以实现对模型训练与模型部署(推理服务)提供不同形式的特征。

![image.png](attachment:image.png)

一个典型的特征存储的建立有两个关键的设计特点:快速处理大型特征数据集的工具，以及支持低延迟访问(用于推理)和大型批量访问(用于模型训练)的特征存储方式。此外，还有一个元数据层，用以存储不同特征集的文档和版本以及一个管理加载和检索特征数据的API


## 4.4 离线与在线特征

我们在建模时遇到的特征从应用角度可以分为离线特征和在线特征，离线特征通常是为批处理的应用服务的，它们主要在离线状态下使用，这种类型的特征一般是在一定周期内的历史数据基础上计算生成的，如月平均支出。在实际场景中，离线特征通常由大数据计算框架来实现，如通过 Spark框架来批量计算离线特征，或者在传统数据库中运行简单的 SQL 查询与计算，这种类型的特征主要用于模型训练阶段(或批量推理阶段)。

在线特征则复杂一些，因为它们需要非常快的计算速度，通常对性能延迟有非常高的要求，一般需要以毫秒级别的延迟提供服务，比如，在商品推荐的应用场景中，当用户访问网站，向推荐引擎发起请求时，会附带在线行为(如在此次进入网站的 session 内的点击行为)，推荐系统需要在毫秒级内完成该特征的转换和推理工作，需要对原始数据进行快速访问及对特征进行计算。在该场景下就需要数据层对特征具有快速响应能力。

## 4.5 特征存储带来的益处

首先，特征存储可以提高特征及模型的开发效率。根据Airbnb的说法，大约60%~80%的数据科学家的时间用于创建、训练和测试数据。特征存储使数据科学家能够重复使用特征，而不是为不同的模型反复创建这些特征，从而节省了数据科学家宝贵的时间和精力。特征存储使特征工程过程自动化，并且可以在这一过程中优选好新特征时触发。这种自动化的特征工程是MLOps组成部分。

然后，在理想情况下，数据科学团队应该专注于他们研究的目标及他们最擅长的领域，即建立模型。然而，他们经常发现自己不得不将大量的时间消耗在数据工程的配置上。某些特征计算成本高，需要构建聚合，而其他特征则非常简单，但这不应该成为阻碍数据科学家使用特征的门槛。因此，特征存储的理念是抽象出这些工程层，并为读取和写入特征提供方便，为数据科学家节省大量特征工程计算、设计和持久化的时间。

接着，特征存储可以让模型在生产中顺利进行部署。在生产中实施 ML 的主要挑战之一是，开发环境中训练模型的特征与生产服务层的特征通常会有些差异。因此，在训练层和服务层之间实现一致的特征集可以使部署过程更加顺畅，确保训练过程中特征的使用可以与其在生产环境中的工作方式保持一致。除了实际特征，特征存储还可以为每个特征保留额外的元数据。这些元数据可以是特征的描述信息，在为新模型选择特征时，这些信息可以极大地帮助数据科学家，让他们专注于那些在类似的现有模型上取得更好影响的特征。

最后，特征存储可以实现更好的协作。随着数字化的推广与发展，现在几乎每一个新的商业服务中都会有ML的身影，ML项目所使用的特征数量也在成倍增长。很多现有企业的实际情况是，对这些模型和特征并没有很好的全面概述和管理能力，很多模型和特征都是在孤岛上开发的，特征存储的出现极大地改善了这种弊端。基于特征存储的设计模式允许我们与同行分享我们已经创建的特征及它们的元数据。在大型企业里，不同的团队可能会实现类似的解决方案，这已经成为普遍的现象，因为他们在造轮子的时候并不知道其他人的任务。特征存储引补了这个差距，使每个人都能分享自己创建的特征，避免重复劳动。

## 4.6 特征存储的架构设计

特征存储不仅是一个数据层，它也是一个数据转换服务，使得用户能够外原始数据并将其存储为特征，用于任意的ML模型。特征存储将特征创建过程与特征的使用过程(模型开发和应用)解耦，即特征的处理和应用是异步的。这做法可以简化跨项目的特征管理，并使特征的共享成为可能。

正如我们在下图中看到的，特征存储与中央存储(存储来自多个来源的装据)之间是有连接通道的，原始数据通常被保存在中央存储中，而在经过特征工程的相关处理后它会被保存到特征存储中。特征存储中的特征可以被检索，用于模型训练、推理服务或数据分析等应用。

![image.png](attachment:image.png)

前面提到，生产中的模型(推理服务)可能需要在毫秒级的时间内产生实时预测，对延迟有较高要求。而对于模型训练来说，较高的延迟并不是问题，但模型训练使用的是批量数据，通常需要将数据一次性加载到内存中进行相关计算，高吞吐量是必要的。为了同时支持模型训练和推理服务的不同要求，特征存储需要使用不同类型的数据存储装置和访问方式。例如，用于模型训练的离线特征通常存储在传统数据库或分布式数据库中，离线特征的计算和访问方式大多建立在 Spark或SOL框架上;而在线特征一般存储在Redis、Cassandra等内存键值数据库中，并通过相应的API进行特征访问。

特征存储的设计模式可以更灵活地加快特征的迭代周期，在实际场景中，我们通常会使用历史日志数据创建离线特征，随着时间的推移，数据科学家在模型实验中不断地发现新的可用特征。例如，假设我们把用户访问某电商平台内某门店的时间作为推荐排序模型中的新特征，尽管我们没有记录这个特征，但我们可以结合业务来定义和计算这个特征。然后，我们可以在这些模拟的特征上训练新的模型，如果这些特征的任何一个改进了我们的模型，我们就可以在特征工程的作业中重新实现它们，进一步可以提供它们给在线模型使用，如图 4-16 所示是新特征的录入示例，特征存储的特征计算引擎在完成特征计算后会将新特征保存到特征存储中。

![image.png](attachment:image.png)


特征存储的设计模型允许使用这种异步模式来进行新特征的录入，当数据科家需要使用特征时，可以使用一个简单的API来检索所需的特征，而不是编写程代码。类似地，可以简单地运行以下程序:


In [17]:
class FeatureStore:
    def __init__(self):
        pass
    
    def get_historical_features(self,feature_df,features):
        pass
    
    def get_online_features(self,features,feature_rows):
        pass

In [18]:
feature_store = FeatureStore()

feature_range = {
    'customer_id':[1001,1002,1003,1004],
    'feature_time_range':{'feature_from':'2021-05-12 10:59',
                          'feature_to':'2021-06-12 10:59'}
}



# 离线特征获取-用于模型训练
trainning_feature_df = feature_store.get_historical_features(
                        feature_df=feature_range,
                        features = ['Feature_A','Feature_B','Feature_new'])


# 在线特征获取-用于推理服务
feature_vector = feature_store.get_online_features(
                        features = ['Feature_A','Feature_B','Feature_new'],
                        feature_rows=[{'custoemr_id':1001}])


具体地，下图展示了特征存储在MLOps程中的使用示例，蓝线部体现了模型构建过程，即 ML部分，红线部分体现了模型的应用和运维过程就是 Ops 的部分。

可以看出，实时特征工程对于任何现代特征存储都是至关重要的。为了应对创建和管理实时特征的复杂挑战，实时特征的提取能力和框架必须成为这种解方案的一部分，且通常需要满足低延迟的要求。特征存储不是独立的功能，与MLOps框架中其他部分(尤其是监控和训练部分)的整合是一个全面解决方案的关键，可以大大简化部署新 ML 项目的过程。

![image.png](attachment:image.png)