Skip to content

Latest commit

 

History

History

visualglm

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

VisualGLM

1. 模型简介

VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段,模型在长视觉问答数据上训练,以生成符合人类偏好的答案。 关于VisualGLM的更多信息请参考VisualGLM

2. 快速使用

run_predict.py脚本展示了使用VisualGLM的方法,可以执行以下命令进行启动。其中参数 pretrained_name_or_path 用于指定 MiniGPT4 的保存目录或模型名称。

python run_predict.py \
    --pretrained_name_or_path "THUDM/visualglm-6b" \
    --image_path "https://paddlenlp.bj.bcebos.com/data/images/mugs.png"

下图这个示例展示了在使用visualglm-6b时的效果:

输入图片:

输入文本:“写诗描述一下这个场景”

输出:

泰坦尼克号,浪漫而美丽。
男女主角手牵手,共舞于船头。
夕阳余晖洒落,风景如画。
他们的身影如此优美,令人陶醉。 海水翻涌,波涛汹涌。
船上的人们,沉浸在这美妙的时刻中。
爱情的力量,让他们更加坚定。
他们在大海上翱翔,享受着彼此的温暖。 电影的结束,意味着爱情的开始。
他们将永远铭记这段美好的日子。
在回忆里,他们会珍惜这份爱。

输入文本:“这部电影的导演是谁?”

输出:

这部电影的导演是詹姆斯·卡梅隆(James Cameron)。

3. License 说明

VisualGLM-6B模型权重使用需要遵循清华大学发布的Model License

Reference