Skip to content
This repository has been archived by the owner on Jan 24, 2024. It is now read-only.

2018 08

dzhwinter edited this page Sep 1, 2018 · 55 revisions

2018 8月值班日志

注:最新的日志记录在最上面

20180831

值班人:董志宏 http://ce.paddlepaddle.org:8080/viewLog.html?tab=buildLog&buildTypeId=PaddleCe_CEBuild&buildId=1558 现象:sequence_tagging_for_ner 模型速度下降 分析:这个PR https://github.com/PaddlePaddle/Paddle/pull/13094 修复了ShareDataWith的错误接口,修复后多了一次内存拷贝,降低了速度,该模型里使用了shrinkMemoryOp。更新最新的kpi

20180830

值班人:董志宏

CE问题1:dist_resnet50失败 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1529&tab=buildLog&buildTypeId=PaddleCe_CEBuild&logTab=tail http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1542&buildTypeId=PaddleCe_CEBuild&tab=buildLog

现象:CE任务build失败,找不到dist_resnet速度指标文件

分析:速度指标文件在对应CE机器上被删了,正在修复

附加分析(闵启阳): PaddleCloud随机生成错误的环境变量, 导致多机任务失败, 所以未获得指标文件, 导致报错找不到指标文件, 问题已修复

20180829

值班人:严春伟 CE问题1:resnet50_net_GPU失败 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1512&tab=buildLog&buildTypeId=PaddleCe_CEBuild&logTab=tree&filter=all#_state=86

现象:两个速度指标出现小幅下降,一个精度出现异常 分析:此task在flower数据下无法固定指标,已经交给chengduo提交pr disable相关指标;待有时间固定指标后再打开。

20180828

值班人: 郭超容
CE问题1: 昨天resnet50_net_GPU模型有随机性,修复pr:https://github.com/PaddlePaddle/paddle-ce-latest-kpis/pull/140 ,今日无新增问题
CE问题2: xxx
CI问题: 无

20180827

值班人:卫科 问题:resnet50_net_GPU和resnet50_net_CPU模型的acc和speed指标不太稳定,在0.003左右波动。

20180824

值班人:武毅
问题:revert两个pr后, CE恢复。

20180823

值班人: 武毅
问题1:青青老师pr导致 resnet50 和 vgg16 的speed下降4-5%,
revert pr:https://github.com/PaddlePaddle/Paddle/pull/12902
问题2:于洋老师pr导致几个模型speed 继续下降5%左右,
revert pr: https://github.com/PaddlePaddle/Paddle/pull/12903

20180822

值班人: 武毅
问题: 从commit开始f5d5d7b2d989e8aa5b5e637fd04318566b23f2fe,5个模型speed 下降,

20180821

值班人:武毅
问题: 多机fail:再次出现磁盘不够,disbale多机case ,可能需要修改CE 的机器docker 磁盘驱动, 改为到 overlay2

20180820

值班人:武毅
问题1: CE 多机fail: 磁盘不够,重新设置dockerd 配置重启,解决
问题2: 继续失败, 问题:acc的KPI 阈值超过。 修改acc基数

20180817

值班人:邱学忠

问题:无

20180816

值班人:曾锦乐

问题: cuda 9 场景编译出错

解决:已提出revert #12184的PR #12747,已经revert

20180815

值班人:闵启阳

问题: 无

20180814

值班人:唐舰

问题: VGG16 fail

解决: 定位到是elementwise_add的修改导致,已经revert #12681

20180813

值班人:李青晟

问题1: CE提示找不到文件Fail,疑似网络问题,更换代理后,该错误暂未再次出现

问题2: MNIST Fail,脚本运行失败,已经fix。

20180810

值班人:汤伟
问题1: resnet50多机 fail,已经revert

20180808

值班人: 乔龙飞
问题: 升级了所有CE agent 支持 CE多机,fail了2个,在重试中, 另外有一个agent性能下降,在调查中

20180807

值班人: 乔龙飞

问题: 无

20180806

值班人: 冯佳宜

问题: CE系统出现两次timeout错误:

解决:是由于新加入的多机模型的数据集存放位置问题。已经暂停该模型的CE。

20180803

值班人: 于洋
问题: 无