Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

模型融合之后,采用llama.cpp 进行推理,输入中文后按回车没有反应,光标仍然在当前这行 #315

Closed
zhiyixu opened this issue May 11, 2023 · 15 comments

Comments

@zhiyixu
Copy link

zhiyixu commented May 11, 2023

详细描述问题

请尽量具体地描述您遇到的问题。这将有助于我们更快速地定位问题所在。
模型融合之后,采用llama.cpp 进行推理,输入中文后按回车没有反应,光标仍然在当前这行

运行截图或log

Snipaste_2023-05-11_18-12-59

已经在这里卡了好几分钟了,是单纯的慢吗?

必查项目

  • [ x ] 哪个模型的问题:Alpaca , 我合并用的lora模型是 alpaca-plus-lora-7b 所以这里是填写 alpaca 吗?

  • [ x ] 问题类型:

    • 模型量化和部署问题(llama.cpp、text-generation-webui、LlamaChat)
  • [ x ] 由于相关依赖频繁更新,请确保按照Wiki中的相关步骤执行

  • [ x ] 我已阅读FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案

  • [ x ] 第三方插件问题:例如llama.cpptext-generation-webuiLlamaChat等,同时建议到对应的项目中查找解决方案

我又看到关于终端类型的问题, 我尝试过 cmd, git bush, powershell, 都是这样, 就一直卡在那里。

@ymcui
Copy link
Owner

ymcui commented May 11, 2023

卡好几分钟不太正常,看你的log应该是7B-Q4_0的模型,不至于写个“你好”就卡这么长时间。你pull一下最新的llama.cpp代码重新编译一下试试呢?

make clean && make

@zhiyixu
Copy link
Author

zhiyixu commented May 11, 2023

pull 之后显示已经是最的了, 我按下回车之后,任务管理器里的资源使用情况没有啥变化,感觉不是慢,而是输入没有提交给模型

@ymcui
Copy link
Owner

ymcui commented May 11, 2023

最小化原则,把几个参数调小一点

-c 128 -b 16 -n 64

如果可以正常使用,再把-c -n调高。-b其实没什么用处,除了BLAS加速(但你的log里显示为0)。

@zhiyixu
Copy link
Author

zhiyixu commented May 11, 2023

Snipaste_2023-05-11_18-43-59

还是这样,它一直卡在那里,我不是按了几次回车吗, 没啥反映然后我 ctrl-c 之后,命令行里就有很多的换行,如果我第一次按回车之后,没有响应,再次正常输入输入的字符闪一下就没了,ctrl-c 之后才出现在命令行里,如上边的 “你好你好”。
我不是写C语言的,但是我感觉这就像 输入的字符没提交,而是一直放在输入缓冲里边,ctrl-c 之后 才一次全部都提交了,大概就是这么个感觉。

@ymcui
Copy link
Owner

ymcui commented May 11, 2023

似乎换了个界面,是换到windows下了还是这样吗?最开始的图应该是linux下的吧?
另外也可以排查一下是只有中文输入有问题还是都有问题。你可以输一个hello试试。

@zhiyixu
Copy link
Author

zhiyixu commented May 11, 2023

一直都是win11, 第一个截图是 window terminal (powershell ), 后边这个就是 cmd

hello 也一样卡住。

@airaria
Copy link
Contributor

airaria commented May 11, 2023

可以去llama.cpp那边问一下

@a108599
Copy link

a108599 commented May 12, 2023

我也是一样,用的是别人量化后的模型,改了很多参数,调大调小也不行,两台win10都是这样

@zhiyixu
Copy link
Author

zhiyixu commented May 12, 2023

@a108599 这个是 llama.cpp 的问题,他对中文的支持有问题,详情见issue646

解决方案是使用修改后重新编译的exe文件,详情见这里

@zhiyixu zhiyixu closed this as completed May 12, 2023
@a108599
Copy link

a108599 commented May 12, 2023

@zhiyixu 谢谢老哥,已经解决,换了windows哪个版本的llama可以了,不过他哪个版本少引入一个#include ,7b速度还可以 感谢

@zhiyixu
Copy link
Author

zhiyixu commented May 12, 2023

@a108599 “他哪个版本少引入一个#include” 哥们问下你说的这个在哪里, 我没遇到这个问题。
我用window 版本的llama 用中文提问但是他回答的中英参杂并且有时候会一直重复最后几个字,跟这个有关吗?

@a108599
Copy link

a108599 commented May 12, 2023

我试了7B和13B的,暂时没这问题, 7B写快排答非所问,13B能正常写出代码, 上述只是少了locale库导致make无法编译成功,你的问题应该跟这没关系,你可以试试issue204里面的量化模型

@zhiyixu
Copy link
Author

zhiyixu commented May 12, 2023

@a108599 哥们你的模型是自己合并量化的还是直接用的上边这个老哥提供的?

@a108599
Copy link

a108599 commented May 12, 2023

@zhiyixu 直接用上面那个的

@zhiyixu
Copy link
Author

zhiyixu commented May 12, 2023

好的,多谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants