大模型问答巨慢

我的配置是3080ti 12G显存。我是用ollama搭建了一个4b模型用于聊天，在使用聊天页面的功能，且没有添加知识库，发现大模型回答的巨慢，我进入到ollama中直接用终端进行问答就特别快。还有一个奇怪的现象，我通过聊天功能的页面，一发送问题，GPU就立刻占用到100%，感觉不是在调用ollama的模型，都不知道在干什么，我又没有选择知识库。坑了我两天，还以为是电脑有问题