Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[WeeklyReports] 2024.04.19~2024.05.10 周报汇总 #252

Open
28 of 29 tasks
AndSonder opened this issue May 8, 2024 · 28 comments
Open
28 of 29 tasks

[WeeklyReports] 2024.04.19~2024.05.10 周报汇总 #252

AndSonder opened this issue May 8, 2024 · 28 comments

Comments

@AndSonder
Copy link
Collaborator

AndSonder commented May 8, 2024

[WeeklyReports] 2024.04.19~2024.05.10 周报汇总

请各位学员在本 issue 下以 comment 的形式填写周报摘要,ddl 本周五晚,格式示例如下:

### 姓名

xxx

### 本周工作

1. xxx
2. xxx
 
### 下周工作

1. xxx
2. xxx

### 详细周报链接:

- https://github.com/PFCCLab/Camp/pull/xxx

项目二:PIR 控制流专项

项目三:PIR Python API 升级及机制建设

项目四:动转静 SOT 模块 Python 3.12 支持

项目五:算子支持复数计算专项

项目六:模型迁移工具建设

项目七:框架 API 易用性提升

项目八:组合机制算子专项和机制建设

项目九:高阶微分的性能分析和优化

项目十:静态图半自动并行训练性能优化

项目十一:全自动并行架构升级

项目十二:科学计算领域拓展专项(DeePMD-kit、光学案例)

项目十三:科学计算领域拓展专项(超分重构方向)

项目十四:科学计算领域拓展专项(领域流体方向)

项目十五:科学计算领域拓展专项(领域气象方向)

项目十六:CINN 支持动态 Shape 专项(前端方向)

项目十八:CINN 静态 shape 下鲁棒性和性能优化

项目十九:CINN 支持动态 Shape 专项(后端规则升级)

项目二十:CINN 支持动态 Shape 专项 (后端模型扩量)

项目二十一:Paddle CMake 治理和编译优化

项目二十二:PaddleMIX 套件能力建设(文图方向)

项目二十三:PaddleMIX 套件能力建设(图文方向)

项目二十四:大模型训练稳定性和高效低价小模型快速收敛

项目二十六:推理 Pass & 融合算子优化

项目二十七:PaddleSpeech 套件能力建设

  • @kk-2000 (@zxcdlucy)
  • @mattheliu (@zxcdlucy)
@AndSonder
Copy link
Collaborator Author

AndSonder commented May 8, 2024

姓名

卢畅

实习项目

静态图半自动并行训练性能优化

本周工作

本周工作主要是编写 ZBV 编排代码,并在不同 memory limit 下进行测试以及将编排结果与官方实现对比。还对显存估计工具的问题进行了排查,并在不同配制下进行测试。

1. 解决Backward 阶段峰值显存估计偏差的问题

2. 在不同配置下估计显存

相关 PR:

3. 编写 ZBV 编排代码

初步完成 ZBV 编排的代码编写

相关 PR:

4. 编排结果与官方实现对比

下周工作

适配 vpp_degree > 2 的情况,完成 ZBV 编排代码的编写。修改分布式标记适配 ZBV 的 V 形编排。在 Llama2 上进行初步性能测试。

详细周报链接:

@DUCH714
Copy link
Contributor

DUCH714 commented May 9, 2024

姓名

DUCH714

本周工作

成功应用 Transolver 子模块代替GINO中的GNO模块,将压力的相对误差降低至 0.0260。

下周工作

尝试应用DrivAerNet

详细周报链接:

@yulangz
Copy link
Contributor

yulangz commented May 10, 2024

姓名

Github ID: yulangz

实习项目

CINN子图鲁棒性和性能优化

本周工作

  1. CINN 故障修复

    1. 添加 DistributeFpnProposalsOpInferSymbolicShape、RoiAlignOpInferSymbolicShape,支持 FPN 模型子图的符号推导。PR: [CINN]Add InferSymbolicShape of fpn ops PaddlePaddle/Paddle#63947
    2. 基于 gather 算子理解 CINN 中从符号推导到代码生成的全部流程。

下周工作

  1. 从 gather 算子出发,理解 CINN 的整体流程。

详细周报链接

#256

@zhaojiameng
Copy link
Contributor

姓名

赵加孟

本周工作

  1. 训练代码跑通
  2. paddlescience代码反向精度对齐

下周工作

  1. 残差损失精度对齐
  2. 整理仓库,提交PR

详细周报链接:

@mattheliu
Copy link
Contributor

姓名

刘卓鑫

实习项目

PaddleSpeech 套件能力建设

本周工作

  1. 跑PaddleSpeech/Demos
  • Name 运行结果 截图
    TTSAndroid
    TTSArmLinux
    TTSCppFrontend
    asr_deployment source path.sh执行报错Error: 'build/speechx' directory not found. please ensure that the project build successfully
    audio_content_search 报错[2024-05-06 22:41:47,376] [ INFO] - acs http client start
    [2024-05-06 22:41:47,377] [ INFO] - endpoint: http://127.0.0.1:8090/paddlespeech/asr/search
    [2024-05-06 22:41:47,382] [ ERROR] - Failed to speech recognition.
    [2024-05-06 22:41:47,383] [ ERROR] - HTTPConnectionPool(host='127.0.0.1', port=8090): Max retries exceeded with url: /paddlespeech/asr/search (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7fbaf10e6830>: Failed to establish a new connection: [Errno 111] Connection refused')) $ python test.py
    [2024-05-06 22:48:23,017] [ INFO] - acs http client start
    [2024-05-06 22:48:23,017] [ INFO] - endpoint: http://127.0.0.1:8490/paddlespeech/asr/search
    Traceback (most recent call last):
    File "/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/urllib3/connection.py", line 200, in _new_conn
    sock = connection.create_connection(
    File "/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/urllib3/util/connection.py", line 85, in create_connection
    raise err
    File "/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/urllib3/util/connection.py", line 73, in create_connection
    sock.connect(sa)
    ConnectionRefusedError: [Errno 111] Connection refused

    The above exception was the direct cause of the following exception:
    image
    audio_searching 需要dockerimage
    audio_tagging 成功 image
    automatic_video_subtitiles 成功 image
    custom_streaming_asr 需要docker
    keyword_spotting 成功 image
    metaverse 报错 image
    punctuation_restoration 成功 image
    speaker_verification 成功 image
    speech_recognition 成功 image
    speech_server 报错 image
    speech_ssl # 识别文本 text = ssl_executor( model='wav2vec2,确实右单引号,命令行成功,Python API识别文本成功,得到声学表征失败,报错ASR Result:
    i knocked at the door on the ancient side of the building
    [2024-05-03 23:56:05,298] [ ERROR] - forward() missing 3 required positional arguments: 'wavs_lens_rate', 'target', and 'target_lens'
    Traceback (most recent call last):
    File "/home/aistudio/external-libraries/tools/venv/lib/python3.8/site-packages/paddlespeech/cli/ssl/infer.py", line 290, in infer
    out_feature = self.model(audio[:, :, 0])
    File "/home/aistudio/external-libraries/tools/venv/lib/python3.8/site-packages/paddle/nn/layer/layers.py", line 1426, in call
    return self.forward(*inputs, **kwargs)
    TypeError: forward() missing 3 required positional arguments: 'wavs_lens_rate', 'target', and 'target_lens'
    Representation:
    i knocked at the door on the ancient side of the building
    image
    speech_translation 成功 image
    speech_web 成功 image
    story_talker 报错 image
    streaming_asr_server 成功 image
    streaming_tts_server
    streaming_tts_serving_fastdeploy 需要docker
    style_fs2 报错 image
    text_to_speech 报错 image
    whisper 报错PaddlePaddle version 2.3.0 or higher is required, but 0.0.0 installed, Maybe you are using a develop version, please make sure the version is good with your code. image

下周工作

  1. 继续跑PaddleSpeech/Demos

详细周报链接:

@zeroRains
Copy link
Contributor

姓名

卢林军

本周工作

  1. reduce_as op 实现complex64/128int8的支持
  1. 补充reduce_as op的中文文档
  1. reduce_as op的反向拆解

下周工作

  1. 探索sigmoid_cross_entropy_with_logits op中,pos_weight参数不为全1 Tensor时,拆解的反向计算和kernel的反向计算结果不一致的原因
  2. 修改reduce_as的中文文档
  3. 完善之前尚未merge的PR。

详细周报链接:

@lshpku
Copy link
Contributor

lshpku commented May 10, 2024

姓名

梁书豪

本周工作

  1. 针对CUDA warp访存连续性提出一个新的Tile流程,并使用TVM验证了正确性

下周工作

  1. 在CINN后端TileFirstGeneralTactic中实现新的Tile流程

详细周报链接:

@Yang-Changhui
Copy link
Contributor

姓名

Yang-Changhui

本周工作

  1. 完成earthformer技术文档的编写
  2. 实现tfno、uno、sfno网络的训练、验证、推理可视化功能

下周工作

  1. 根据导师意见,继续完善earthformer的技术文档
  2. 根据导师意见,修改neuraloperator模型的代码,以及相关文档的编写

相关pr:

详细周报链接:

@huangjiyi
Copy link
Contributor

huangjiyi commented May 10, 2024

姓名

黄济懿

实习项目

PIR 控制流专项

本周工作

  1. 分析 PaddleDetection 中 ppyoloe_plus_crn_l_80e_coco 模型训练在 PIR 下出现的显存泄露问题并初步解决

下周工作

  1. 为 yield op 实现 instruction

详细周报链接:

@gouzil
Copy link
Contributor

gouzil commented May 10, 2024

姓名

田川

本周工作

  1. 升级pybind11
  2. 解决了遗留已久的反向 Program 析构问题

下周工作

  1. PyFuncOp 迁移

详细周报链接:

@NKNaN
Copy link
Contributor

NKNaN commented May 10, 2024

姓名

李睿文

本周工作

  1. 针对 paddle.nn.functional.group_normpaddle.nn.GroupNorm 的功能增强
  2. 分析 paddle.distribution.Categoricaltorch.distributions.Categorical 不一致的地方
  3. 针对 paddle.nn.initializer.TruncatedNormal 的功能增强

下周工作

  1. 计划修改 paddle.nn.Layer 中的 stat_dict 方法:增加参数 keep_vars
  2. 计划修改 paddle.io.BatchSampler:升级 sampler 参数,支持任意可迭代类型
  3. 升级 paddle.add/sub/div/mul 等二元 API 以支持 python number 的任务,需进一步参考类型提升进行修改

详细周报链接:

@Eddie-Wang1120
Copy link
Contributor

姓名

王晋恒

实习项目

组合机制算子专项和机制建设

本周工作

  1. 学习动态shape相关知识

    • 了解算子拆解中动态shape的相关知识
  2. 进行算子拆解工作

下周工作

  1. 继续进行算子拆解工作

详细周报链接

@Austin-00
Copy link
Contributor

姓名

Github-ID: Austin-00

实习项目

CINN 支持动态 Shape 专项 (后端规则升级)

本周工作

  1. 理清CINN LowertoAST 以及 Schedule 的整个pipeline过程

  2. 理清dy_shape_group_scheduler、tile_config、tile_first_general_tactic的动态Shape Scheduleconfig以及代码骨架调整逻辑,设计后续ScheduleConfig

  3. 了解并确定后续Searcher开发需求和大致技术路线

下周工作

  1. 对后续Searcher的接口进行补全,并继续迭代开发,完成PR合并

  2. 根据需求动态调整,进一步优化性能

详细周报链接

#267

@yinfan98
Copy link
Contributor

姓名

尹帆

本周工作

  1. kernel精度对齐
  2. 重新实现int4 weight only kernel
    [PHI] add int4 weight only quant kernel, add int4 weight only permute kernel PaddlePaddle/Paddle#64094

下周工作

  1. Llama3 RoPE kernel
  2. Llama3 GQA kernel

详细周报链接:

@unseenme
Copy link
Contributor

姓名

Github ID: unseenme

本周工作

  1. 离线测试流程代码改进

  2. 离线测试与筛选

  3. 将有价值的用例提交到Paddle仓库

下周工作

  1. 继续离线测试

  2. 继续改进测试流程代码以进一步提高测试效率

详细周报链接:

@silverling
Copy link
Contributor

姓名

凌少鹏

本周工作

下周工作

  • 完善模块抽离工作等相关测试,确保影响面尽可能的小

详细周报链接:

@YibinLiu666
Copy link
Contributor

姓名

YibinLiu666

本周工作

  1. 升级cumprod的功能,支持reverse与exclusive两个参数 Support exclusive and reverse for cumprod PaddlePaddle/Paddle#64022
  2. 使用双向cumprod修复 prod_grad 在x有0的时候x_grad出现nan的bug,use cumprod fix bug of prod_grad PaddlePaddle/Paddle#64127

下周工作

  1. 收尾cumprod升级pr。
  2. 修复双向cumprod实现prod_grad的bug
  3. 然后支持bmm复数complex类型

详细周报链接

#271

@lishuai-97
Copy link
Contributor

姓名

李帅

Github ID: lishuai-97

本周工作

本周主要的工作为完善实验,构建XXX梯度裁剪算法论文框架,撰写完成论文初稿

下周工作

继续完善、润色XXX梯度裁剪算法论文,准备投稿

详细周报链接:

@ZelinMa557
Copy link
Contributor

姓名

马欣楷

本周工作

  1. 与导师沟通并敲定reduce mean优化方案,实现了generate shape算子的中端代码生成
  2. 修复部分inferSymbolic与inferMeta结果不一致的问题

下周工作

  1. 收尾上述工作
  2. 开始对if/else等控制流在计算图中与在cuda kernel中的性能差异进行测试

详细周报链接:

@zbt78
Copy link
Contributor

zbt78 commented May 12, 2024

姓名

周波涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续解决上周中pow的问题,当算子的attr作为Scalar时仍然没有较好的解决方法。另一部分是在powfunctor中求梯度时,采用的是把输入数据的实部和虚部拆分开两部分来计算,但functor中的参数为eigen类型的数据,在测试时没有问题,同样ci中出现较多错误,继续解决。
  2. 调研黑客松题目

下周工作

  1. 继续解决pow中出现的问题
  2. 修复其他当前已提交pr,收尾这部分

详细周报链接:

@cocoshe
Copy link
Contributor

cocoshe commented May 12, 2024

姓名

叶柯

实习项目

PaddleMIX 套件能力建设(图文方向)

本周工作

本周主要工作如下:

帮助启航计划的同学解决一些遇到的问题

推进 internlm-xcomposer2 集成到 PaddleMIX 中的PR合入

下周工作

  1. 赶一下毕设和最近nips的ddl

详细周报链接:

@xusuyong
Copy link
Contributor

姓名

xusuyong

本周工作

  1. 调研文献,理解使用NTK理论调节loss权重的算法
  2. 基于allen_cahn_default案例添加通用的ntk优化策略

下周工作

  1. 修正ntk weight的PR

详细周报链接:

@kk-2000
Copy link
Contributor

kk-2000 commented May 14, 2024

姓名

张千芊

本周工作

  1. 基于paddlepaddle-gpu==2.6.1及paddleSpeech==develop对demos中14个demo(共25个)进行了测试,并记录测试情况

下周工作

  1. 继续完成PaddleSpeech测试,搭建docker环境

详细周报链接:

@Tsaiyue
Copy link
Contributor

Tsaiyue commented May 15, 2024

姓名

蔡越

实习项目

PaddleMIX 套件能力建设(文图方向)

本周工作

  1. 添加Open-Sora前向推理支持,包含文生视频及其他高级玩法;

下周工作

  1. 推进Open-Sora前向推理PR合入;
  2. 开展Open-Sora训练对齐工作。

详细周报链接

@zrr1999
Copy link
Contributor

zrr1999 commented May 16, 2024

姓名

詹荣瑞

实习项目

PIR Python API 升级及机制建设

本周工作

  1. 完成 PaddleSOT 的动态 shape 支持的部分准备工作

    相关 PR:

下周工作

  1. 继续完善 PaddleSOT 的动态 shape 支持

详细周报链接

@zyt1024
Copy link
Contributor

zyt1024 commented May 17, 2024

姓名

张玉涛

实习项目

算子支持复数计算专项

本周工作

  1. 继续完善fill_constant_op算子,当属性支持Scalar后,跑CI时会出现较多问题,已解决好PR-CE-Framework等问题,仍有一部分CI有问题。

下周工作

  1. 继续修复fill_constant_op实现上的问题

详细周报链接

@WintersMontagne10335
Copy link
Contributor

姓名

马贺达

本周工作

  1. 添加 cinn_op.reshape 到 pd_op.reshape 的转换规则
    (相关PR:Add transform rules for cinn_op.reshape PaddlePaddle/Paddle#64303
  2. 将 "pd_op.add" 添加至 ALLOW_DYNAMIC_SHAPE_VJP_OPS;补充全局推导时带有外部输入时的处理逻辑
    (相关PR:[Prim]Add pd_op.add Operation in ALLOW_DYNAMIC_SHAPE_VJP_OPS PaddlePaddle/Paddle#64342
  3. 以《浅析 cinn 中的符号推导机制》为题做代码串讲
    (相关链接:https://github.com/WintersMontagne10335/Paddle-Code-Camp/blob/master/code%20reading/%E6%B5%85%E6%9E%90%20cinn%20%E4%B8%AD%E7%9A%84%E7%AC%A6%E5%8F%B7%E6%8E%A8%E5%AF%BC%E6%9C%BA%E5%88%B6.md

下周工作

  1. 继续修 bug
  2. 完善《浅析 cinn 中的符号推导机制》
  3. VerticalLoopFusion 阅读笔记

详细周报链接:

@Corle-hyz
Copy link
Contributor

姓名

何咏哲

本周工作

  1. 探究异构集群的性质
  2. 初步构建一个异构体系下的全自动并行方案

下周工作

  1. 借助显存公式完成动态均衡的拆分算法,完善异构体系下的全自动并行方案,将其参数化。

详细周报链接:

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests