d194437e410a17547c93d637fded2d22_raw.mp4
本智能体是笔者在完成硕士学位论文时所构建的第五章主体,本意是为了探索新一代智慧医疗技术与面向手术机器人的多模态视觉语言大模型。整个软件平台面向腹腔镜智能医疗手术机器人场景,平台功能包括一个基于Intern-S1-mini多模态视觉-语言大模型进行LoRA Plus微调的医疗场景交互大模型以及基于腹部CT配准的可视化应用。
🤟 感谢上海AI Lab提供的A100算力支持!
🧠 平台基于Intern-S1-mini多模态视觉-语言大模型、LMDeploy部署工具、ms-swift工具箱构建
conda create -n ms-swift python=3.10
conda activate ms-swift
pip install ms-swift==3.6
pip install lmdeploy
pip install nibabel👋参考我们团队获得MICCAI Learn2Reg挑战赛国际亚军的解决方案EOIR
- 将相关数据及基座模型配置好后,命令行进入SFT文件夹路径,即可在ms-swift中一键启动:
cd ./SFT
conda activate ms-swift
bash Slake_sft_InternS1.sh- 微调完成后,选择想要合并权重的checkpoint,完成合并:
bash merge.sh- 将相关数据及基座模型配置好后,命令行进入SFT文件夹路径,即可在ms-swift中一键启动:
cd ./SFT
conda activate ms-swift
bash MediScope_sft_InternS1.sh
- 微调完成后,选择想要合并权重的checkpoint,完成合并:
bash merge.sh
- 启动LMDeploy大模型API服务,实现KV Cache高效端侧部署:
python lmdeploy_server.py
- 本项目部署在上海AI Lab提供的A100工作站上,因此使用VS code或其他工具进行端口转发Gradio界面,实现快速前端交互:
VS code运行Agent_UI.py- 使用VS code端口转发功能,默认是127.0.0.1:7860,端口号可自行在YueLu_Agent.py中修改合法值;
- 在本地浏览器中输入127.0.0.1:7860(根据自己部署的情况修改)
- 交互:
本框架使用Apache License (Version 2.0)进行许可。模型和数据集请查看原资源页面并遵守对应License!


