Replies: 6 comments 7 replies
-
mark,我们下周在测试一次,因为我清空历史的时候显存正常了所以之前关闭了issue |
Beta Was this translation helpful? Give feedback.
-
您好,很高兴能看到有大佬愿意帮助我这个充满无知的小老弟,对您的行为表示感谢 from transformers import AutoModel, AutoTokenizer
import json
tokenizer = AutoTokenizer.from_pretrained("/Users/houhaozhan/GPT/chatglm3-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("/Users/houhaozhan/GPT/chatglm3-6b", trust_remote_code=True).to('mps')
model = model.eval()
his = []
query = "你是一名网店,我不希望出现任何让客户认为你是机器人的话语,同时你应该尽可能去的促成单子成交,引导用户进行下单,并尽量让成交的金额变高。同时如果你对客户的要求或者问题不清楚,可以请求客户描述的更加精确。但注意你的措辞,回答尽可能用一句话来描述,少说点话。"
resp,his = model.chat(tokenizer,query,history=his)
print ("###[角色设定]",query)
query = "HWbook_LTS笔记本是什么配置?能给我介绍一下吗?"
notebook = """
英特尔 i11-13900k
内存 196GB
硬盘 256TB
显卡 RTX6090
4代雷电口*4
USB3.2*2
RJ45*1
4G 上网模块
8k 触摸 OLED屏幕
HWbook_LTS是 2025年9 月最新上架的机器,拥有不俗的游戏性能释放,除此之外,还能应用于其他的不同领域
质保 3 个月,人为损坏不保
6999元,优惠最低价 6799
"""
# resp,his = model.chat(tokenizer,notebook,history=his)
while True:
query = input("USER: ")
if (query=="clear"):
print ("清空 history")
his = []
prompt = f"已知信息:\n{notebook},根据已知信息回答问题:{query}"
resp,his = model.chat(tokenizer,prompt,history=his)
print ("BOT: ",resp) 开始运行时,内存为 12.78GB 我查看内存的方式是 macos 的系统监视器,直接点击内存栏进行查看的。基于 MACOS独特的内存显存管理机制,我不知这样是否准确。但是当占用内存居高不下后,我的电脑处理事情会肉眼可见的发生卡顿 |
Beta Was this translation helpful? Give feedback.
-
估计是bad case,移动到讨论区后,看看社群有没有人能处理,我们已经将其标注为错误,会进行系统的检查 |
Beta Was this translation helpful? Give feedback.
-
这个问题,关掉use_cache选项,应该能解决,但是会导致推理速度变慢,可做下权衡 |
Beta Was this translation helpful? Give feedback.
-
限制一下history的条数就可以了,我是m2 32G的,现在内存增长的很慢 |
Beta Was this translation helpful? Give feedback.
-
这个问题有处理办法了吗? |
Beta Was this translation helpful? Give feedback.
-
System Info / 系統信息
我的设备:
m1 pro 32+512
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
Reproduction / 复现过程
无
Expected behavior / 期待表现
您好,我对 AI 智能领域知之甚少。当我成功部署 CHATGLM3 的时候,经过几轮连续对话,我的 内存占用飙升。13G——26G,这可能是正常现象,也可能是不正常现象。当在服务器部署的时候,内存也会像在本地部署一样居高不下吗?
那岂不是在一台电脑上只能等待将内存吃的干干净净然后服务器待机吗?
显然可能不是这样的。
我猜测应该当对话进行的时候 GPU 会进行大量的运算,会占用大量内存,但是如果 history 清空了,应该就会回到占用少量内存的时候
实际上我history 清空以后再问问题,并没有看到内存占用有下落的迹象。这说明之前占用内存的会话还在,有没有办法把之前的给清理掉,当我清空 history 进行会话的时候,能让占用的内存下落。
之所以问这个问题是因为我希望这个模型能一直运行下去,不因为触碰到内存上限而导致各种问题出现。
Beta Was this translation helpful? Give feedback.
All reactions