Skip to content
This repository has been archived by the owner on Jan 24, 2024. It is now read-only.

2018 09

Yan Xu edited this page Sep 30, 2018 · 42 revisions

2018 9月值班日志

注:最新的日志记录在最上面

20180930

值班人:闫旭

CE

20180929

值班人:董志宏

CE

CE的问题从25号开始有问题,@陈后江在跟进。涉及的模型有resnet50 model_icnet model_image_classification model_ocr_recognition model_sequence_tagging_for_ner。

CI

  1. test_parallel_executor_mnist有diff,排查后发现春伟的PR是core掉了。单测没问题。
  2. paddle whl包没有正常生成。排查后发现是pip版本太低。@杨嘉彬尝试升级到9.0.1

20180928

值班人:陈后江

CE

  1. ce性能问题,25号开始就存在,涉及的模型有resnet50 cifar10_128_train_speed/sequence_tagging_for_ner/vgg cifar10_128_train_speed/text_classification,问题还在跟进。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1862&buildTypeId=PaddleCe_CEBuild
  2. 连续三次ce出现timeout问题。编译接近1个半小时,正常情况大概20分钟,怀疑是机器和网络问题,昨天重启机器后今天没有再复现,已解决http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1873&buildTypeId=PaddleCe_CEBuild&tab=buildLog&_focus=17111
  3. transformer模型检查graph报错,可能原因是模型的问题。已经提交fix commit,ce已经重新提交,验证通过,已解决http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1894&buildTypeId=PaddleCe_CEBuild&tab=buildLog。
  4. language_model 4卡训练cross_entropy会报错,从27号开始就存在这个问题。可能原因是paddle ce中的训练脚本多卡并行用的是parallel do,而parallel do现在可能会出现问题,改成parallel executor后正在验证。 http://ce.paddlepaddle.org:8080/viewLog.html?buildId=1938&buildTypeId=build_CeCertainTasks&tab=buildLog

CI

py35 dist单测会出现偶然性hang住,原因是python35 subprocess控制分布式进程的bug,暂时disable。

值班机制问题

  1. ce/ci @机制有问题,26号没有通知到对应的值班人
  2. 上一天问题没有明确结论,遗留到下一天
  3. ce日志有点混乱,不大好排查问题
  4. ce debug缺少文档

20180927

  • 值班人: 武毅
  • CE问题:
    • 发现CE性能差异较多,revert 可疑改动:https://github.com/PaddlePaddle/Paddle/pull/13618
    • CE机器从 commit 01fda9345a6db12ce4db3e05e9ae561de7bdab20 开始性能差距巨大,检查后怀疑为机器问题,重启机器后性能好转,但仍有少量diff,需要继续追查原因
  • CI问题:
    • 有一台机器出现recordio单测稳定失败,怀疑为docker 使用 devicemapper导致IO不稳定,已和 @田硕 沟通,决定推进阡陌升级 overlay2 并测试是否可以解决
    • 修复mac CI缺少aclocal命令目前可以正常执行

20180925

20180924

  • 值班人:唐舰
  • CE问题:无
  • CI问题:无

20180920

20180918

20180917

20180912

20180911

  • 值班人:党青青
  • CE问题:language_model的speed超了阈值,待查是哪个PR @qingqing , object_detection的speed超了阈值,待查是哪个PR。
  • CI问题:无

20180910

20180907

20180906

20180905

值班人: 董志宏
问题: 无