-
Notifications
You must be signed in to change notification settings - Fork 191
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问为何 Mkldnn 在 ChineseV4 下运行会比 Onnx 和 Openblas 慢很多? #75
Comments
intel oneapi mkldnn本就是amd黑 而v4模型所需的新版本 |
我去。。。之前我也在网上搜了一圈,确实看到有说 mkl 对 AMD 负优化的,但是没有深入去找更多信息,还以为是谣言来着,想着可能是对 paddle 不熟研究看看调参数行不行。。。看来还是折腾下 GPU 环境吧。 感谢提供的链接,尤其是第一篇 post,基本能锤死 mkl 是个 amd 黑了 /泪奔 |
您试试看我之前用于 |
谢谢,折腾一阵之后,用 mkl+V3 模型调整到了 0.7 秒完成一次识别,勉强算可以接受了。 |
这个好像也和AMD没有的关系,是和这个问题有关:PaddlePaddle/PaddleOCR#10346 |
原来是这个原因,查了下 R7-5800H 确实不支持 AVX512,看来 mkl 在我现在用的机器上确实不适合跑 V4 模型,谢谢大佬解惑!
谢谢,因为目前调整到可以接受的程度了,我就没仔细看您发的链接地址,只打开链接下载的包看了下,我以为是您自己从源码编译的。那个飞桨的页面也多次翻到过,但是并没有下旧版本的回来试过(还没有走到那步吧,想先试试其他法子能不能解决问题),而且 VS C# 的开发习惯还是喜欢直接用一键安装的 nuget 包不用自己折腾,所幸现在已经调整出可以接受的方案了。并且楼上大佬已经指出了问题原因,不然可能确实还得按您说的逐个降级版本来试。 |
然而22年9月amd发布的
而
我又不是百度员工,隔壁友商 @raoyutian 才是 raoyutian/PaddleOCRSharp#28 (comment) cc @yangbowen
百度文档万年不更新
|
按 Readme 里面的说明来看,貌似 mkl 比 openblas 是要快的,
在我的机器(R7-5800H 16G Win10 22H2)上跑出来的耗时对比如下:
LocalFullModels.ChineseV3
LocalFullModels.ChineseV4
ChineseV3 模型基本符合 Readme 的描述,
但是用 ChineseV4 模型 mkl 明显慢于其他两个,
而且其他两个跑 V4 也不如在 V3 上快。
上面的耗时数据是使用默认参数创建 PaddleOcrAll 对象的情况下得到的,
请问在参数上进行调整能让 V4 模型耗时降下来吗?
尤其是 mkl 的耗时,谢谢。
The text was updated successfully, but these errors were encountered: