Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[DISCUSS]: Discuss about enhance the dataset manager capability #11

Open
xieydd opened this issue Nov 8, 2020 · 2 comments
Open

[DISCUSS]: Discuss about enhance the dataset manager capability #11

xieydd opened this issue Nov 8, 2020 · 2 comments

Comments

@xieydd
Copy link
Member

xieydd commented Nov 8, 2020

To enhance the fluid dataset manager capability, i summary our commany dataset usage:

Unisound Atlas AI Platform(网络隔离):

数据存储方式:
非对象存储,为分布式文件系统存储,分布式文件挂载到所有物理节点的固定目录,所有组和用户有统一的入口

数据的来源:

  1. 公开数据集, 例如 ImageNetMS-Celeb-1MLibriSpeech
  2. 针对业务场景,算法科学家指导数据标注部门进行数据采集
  3. 算法工程师自己拿设备(摄像头、麦克风、或者真实场景会用到的设备)进行符合业务场景环境采集
  4. 爬虫在网络爬取数据

数据的备份:

  1. 针对上述的1和2会进行数据入库,并进行备份(注:通过原始数据能够生成的数据(比如特征等)不会入库)

数据的使用场景和使用方式:

  1. 针对数据1一般为复现模型和实验 Baseline
  2. 针对数据2一般为针对业务场景在 Basline 优化
  3. 数据3一般会作为测试集或针对业务优化
  4. 看情况,可能是上面3种任意一种

使用数据的痛点:

  1. 入库数据非面向用户(数据科学家)使用,虽然可查但是从申请数据到数据到自己的目录需要手动的拷贝
  2. 各个用户(每个用户一个 namespace)的文件目录下有很多重复的数据集(对存储是一种浪费)
  3. 数据来源 2、3、4 的大量数据没有入库,用户间无法感知,复用较复杂(需要用户和用户之间沟通,并授权或拷贝)
  4. 模型复现依赖于数据(原始数据或者前处理后数据),无法管理如此零散的数据

@cheyang @TrafalgarZZZ @wsxiaozhang

@xieydd
Copy link
Member Author

xieydd commented Nov 8, 2020

dataset_col

@xieydd
Copy link
Member Author

xieydd commented Nov 25, 2020

用户角度:

  1. 我想对我的数据集可视化,我想看到的信息是xx
  2. 我想使用指定版本的数据集进行训练,并想在训练中可以缓存加速
  3. 我想用类似 git 的方式管理数据元信息(回滚,commit,checkout...)
  4. 我想把特征文件也当做数据集关管理,并且我知道我的上游是谁,类似一个 DAG

是否有价值:

  1. 数据集信息可视化,是用户了解自己数据集的一个手段,目的为了方便再次使用;但是问题是如果这个东西只是一个人看的价值没那么大;但是所有人都能看到,需要很强的管理能力,让数据集重用率大幅增加,以提升价值
  2. 目前个人指定版本这个场景的需求和频率使用不强烈,只有拓展到团队或者公司各个版本维护的价值才能最大化
  3. 个人价值不大,类 git 工具本身是为 team 合作准备的
  4. 个人价值不大,复现是有用的

开发者角度:

  1. 可视化需要增加 dataset 的 status,提取有用信息
  2. 版本化需要对元数据分别的存储
  3. git 化元数据管理方式,需要借鉴 dvc 部分功能
  4. DAG引擎或者字需要DAG 结构即可

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant