Skip to content

Latest commit

 

History

History
48 lines (26 loc) · 3.04 KB

feature_platform.md

File metadata and controls

48 lines (26 loc) · 3.04 KB

特征平台

背景

用户使用软件或浏览网页时,在搜广推这样的使用场景中,会看到不同于别人且符合自己兴趣的内容,这就用到了机器学习的技术。

机器学习服务用户的应用有三个过程。一是做特征和样本数据,二是用样本数据训练模型,三是加载模型和模型读取特征数据做预估。

在正式使用场景中,需要确保预估效果的精准和稳定。例如购物软件在商品推荐的场景中,模型预估的结果是推荐给用户的商品,如果预估不准,用户不感兴趣,直接影响是收入的下降。

简介

特征平台是一个数据平台,解决机器学习在生产环境应用过程中管理和构建数据的高成本问题。

特征平台提供高质量的特征和样本数据,用来训练出更好的模型,更好的模型能提高预估质量。

特征平台承担算法工程师管理和生产特征与样本数据的工作内容,让算法工程师有更多的时间专注于做出更好的模型。

特征平台提供高效的特征读取方式,模型预估服务能低延时的读取到特征数据,尽快得出预估结果。

高质量的特征和样本数据

高质量数据的定义:高效编码、准确、新鲜。

高效编码:特征平台对原始特征数据做特征工程,特征工程就是对原始特征数据做编码,编码后的数据更精简且能被机器学习框架读取。对特征工程不太准确的类比是高级语言被编译为机器码的过程,CPU 只能处理机器码。

准确:模型训练读取的样本数据包含的特征需要是预估时模型读取的特征。

新鲜:预估服务读取的特征数据包含最新信息,如用户最新的行为。预估服务用到的模型是使用最新的样本数据训练得到的。使用流式任务实时产出最新的特征和样本数据。

提高效率

提高算法工程师的效率

  1. 管理特征和样本数据。提供一个 Web 服务,用户在网页注册特征和样本信息,也可以探索和复用已有的特征与样本信息。查看自己名下特征和样本数据的详情,如数据质量、数据大小、数据产出时间、数据间的关联关系等。
  2. 产出特征和样本数据。平台根据用户注册的特征和样本的元信息,创建对应的 Spark 批处理任务或 Flink 流式任务产出特征和样本数据。

提高模型预估服务读取特征的效率

  1. 从高性能存储系统读特征数据。高性能存储系统具有低延迟、负载均衡、多备份、高可用的特性。
  2. 数据读取 API。模型预估服务调用平台提供的 API 可以很方便地获取模型所需要的特征数据。

参考链接