Releases: wangzhaode/mnn-llm
Releases · wangzhaode/mnn-llm
mnn-llm-apk
基于mnn-llm构建的Android apk, apk中不含模型文件。使用方法如下:
- 下载想要测试的模型文件夹,可以参考README中的链接下载, 注意文件夹名称需要包含模型名称;
- 将下载好的文件夹使用adb推动到
/data/local/tmp/mnn-llm目录下,命令行如下:
adb shell mkdir /data/local/tmp/mnn-llm
adb push ./qwen-1.8b-mnn /data/local/tmp/mnn-llm- 下载安装
apk,打开后在下拉列表中选择要测试的模型文件目录,点击加载模型按钮; - 进入聊天界面,进行聊天测试;
qwen-1.8b-apk
基于mnn-llm与qwen-1.8b-int4模型构建的完全离线的安卓聊天程序。
chatglm3-6b-mnn
chatglm-6b-mnn
ChatGLM-6B ONNX Models
ChatGLM-6B导出的ONNX模型,权重使用fp32保存;使用顺序如下:
embedding -> block_0 -> ... -> block_27 -> lm_head
提供ONNX便于在其他框架上进行部署与测试。
onnx模型转移到 https://github.com/wangzhaode/llm-export 项目中。
ChatGLM-MNN fp16 models
ChatGLM-MNN models with fp16 weight.
-权值使用fp16存储,相比fp32模型降低一半;推理时precision=Low则使用fp16;否则使用fp32。
- fp16权值会相比于fp32基本无损。