-
Notifications
You must be signed in to change notification settings - Fork 5.5k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
希望官方吧ai studio的cuda版本提升一下,似乎paddle这边的concat有问题 #41861
Comments
您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快~ Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API,FAQ,Github Issue and AI community to get the answer.Have a nice day! |
第三行日志可以看见shape=[1, 4] 调用paddle.concat后自动变成shape = [4] 导致整个程序报错: |
已联系相关同学,稍等 |
你先查看下本地环境的paddle版本,以及自己先check下AI Studio创建项目的时候用的哪个版本,看看2个是否一致,不一致的话,在AI Studio创建项目时,指定和自己本地环境相同版本的paddle,重新运行看看 |
本地环境是CUDA : 11.3 cudnn : 8.2.1 paddle-gpu 2.2.2 win11操作系统 |
看你描述版本是一致的,这个报错和CUDA版本是没有关系的。确认2份代码完全一致吗?相同版本的Paddle应该不会出现不一样的结果。 |
对的 我是直接复制上去的。 我再上传一份试试 |
问题似乎再concat调用后 自动吧shape=[1, 4] 变成shape=[4] 然后报错 |
用这种方式看看版本信息。 |
输入给concat的tensor是shape=[1,4]的吧?你在AI Studio上,可以试试,写一个测试脚本,只做concat,直接拿shape=[1,4]和[N, 4]这样的Tensor进行concat,看看是不是也报这个错误呢? |
那看着不像是concat本身的问题。你在模型代码里,把concat的输入shape都打印出来,比如concat(x=[a,b,c]),在进行concat前,把a,b,c的shape都打印出来看看呢 |
#41855 |
试一下把concat的所有的输入保存到一个文件里,然后上传一下,我们看看是不是在这种输入下,单独调用concat会出错 |
已经搞定了, 每个tenso都是[[ ... ]] 写入txt了 您试试看 |
您好我已经上传了 请问有这样的问题吗? |
在#41855中,你贴的那些tensor打印出来的shape,没有[122, 4]和[4]的,但是后面你给出的报错信息是[112,4]和[4],我怀疑你在本地跑的时候恰好没有跑到这批数据。concat不会将输入的shape做任何改变,所以你需要本地再次运行确认下,你所有的数据里是不是有一个[4]的shape
|
您说的这个 “报错信息是[112,4]和[4]” 和上面一大堆日志不是同一个报错了已经~ 可能时间太久 描述不清了 |
我的建议是首先在本地,至少训练1个epoch,确保你已经运行过数据集的全部数据。因为从你的报错信息来看,的确是concat的输入shape不对。我不太确定你在本地运行成功的那次,是否已经经过1个epoch? |
本地跑了15epoch 确实没有问题 本地15轮我需要跑20分钟左右 也没有报错 |
2边的数据完全一样吗?因为ai studio本质上和你本地跑不应该有什么区别,尤其是在版本也一致的情况下,出现这个报错比较奇怪。 |
对的, 我是本地上传的 武大公开数据集。我也感觉奇怪, 解决了好久 改了各种写concat的方法,甚至都for循环list concat了。。。 所以才上传的 |
所以才来提issue的 |
在ai studio上,先跑一个epoch,把这条[4]对应的数据能否找出来,先去掉呢? |
我输出了,list里面的tensor 确实没有shape=[4]的但是只要出现shape=[1, 4]就会报错 因为concat似乎自动给我吧shape=[1, 4]转为了shape=[1, 4] |
在ai studio上尝试装一下最新版本呢?按照这个文档,安装nigthly build的版本。https://www.paddlepaddle.org.cn/ 另外:上传的res读取后是个字符串,复现起来比较麻烦。你自己有尝试过吗?可以自己尝试下,先把concat的这个输入解析后,单独用concat操作,看是否能复现。 |
2.2.2应该是最新版本吧 我重新上传一份代码试试吧 |
最新的是nightly build,这个是develop版本的包。 重新上传代码后情况如何呢? |
这是我在本地用paddle跑的, 可以运行很多轮 我跑了接近40轮,手动停了。 但是重新复制到BML上就报错 这次报错换了。
|
在ai studio上用这个打印出的版本是什么?在前面的的comment,好像截图里没有看到版本信息。可能是最开始的给的那个命令,显示的有点问题,你重新看看这个命令,确认下版本?总觉得不太像是同一个版本运行出来的效果。
|
|
重新上传的完整报错 |
https://aistudio.baidu.com/studio/project/partial/verify/3801194/3e187b1358cf478eb6eab382d0a932ac |
您好~这个问题卡太久了 请问有什么方式解决吗 在本地跑确实也是跑起来了 为什么放到bml上就不行了呢? 报错大部分都是因为出现了某一个tensor第一维度为0 或者 1 |
咨询了AI studio的同事,他们认为平台的环境应该没有问题。上面提到重新上传了一次代码,报错又不一样了。我始终觉得可能是上传到BML的数据或者代码与本地不一样,这个你有方法去检查一致性吗? |
您好~ 我昨天也有怀疑这一点 ,所以我昨天把本地的数据也上传了,报错依旧一样。如下
之前的concat的错误是因为我当时觉得concat内部会自动把shape=[1, 4]变成[4] ,这次我又没重写concat了 直接用的paddle.concat |
Since you haven't replied for more than a year, we have closed this issue/pr. |
详情可以参考这个#41855 问题
The text was updated successfully, but these errors were encountered: