Skip to content

本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。

Notifications You must be signed in to change notification settings

percent4/multi-modal-image-search

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。

OCR模型

PaddleOCR

模型介绍及部署方法: https://www.paddlepaddle.org.cn/hubdetail?name=ch_pp-ocrv3&en_category=TextRecognition

多模态模型

LLaVA 1.6

Github网址:https://github.com/haotian-liu/LLaVA/tree/main

DEMO网址:https://llava.hliu.cc/

实现原理

待补充

图片上传

src/serve/image_upload_gradio_server.py

image-search-图片上传.png

使用文字搜图

src/serve/image_search_server.py

  • 单个短语

image-search-单个短语1.png image-search-单个短语2.png image-search-单个短语3.png

  • 多个短语

image-search-多个短语1.png image-search-多个短语2.png image-search-多个短语3.png

以图搜图

image-search-以图搜图1.png image-search-以图搜图2.png image-search-以图搜图3.png

About

本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages