GitHub - percent4/multi-modal-image-search: 本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。

本项目使用LLaVA 1.6多模态模型实现以文搜图和以图搜图功能。

OCR模型

PaddleOCR

模型介绍及部署方法: https://www.paddlepaddle.org.cn/hubdetail?name=ch_pp-ocrv3&en_category=TextRecognition

多模态模型

LLaVA 1.6

Github网址：https://github.com/haotian-liu/LLaVA/tree/main

DEMO网址：https://llava.hliu.cc/

实现原理

待补充

图片上传

src/serve/image_upload_gradio_server.py

使用文字搜图

src/serve/image_search_server.py

单个短语

多个短语

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
docs		docs
offline		offline
src		src
tests		tests
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs

docs

offline

offline

src

src

tests

tests

.gitignore

.gitignore

README.md

README.md

Repository files navigation

OCR模型

多模态模型

实现原理

图片上传

使用文字搜图

以图搜图

About

Releases

Packages

Languages

percent4/multi-modal-image-search

Folders and files

Latest commit

History

Repository files navigation

OCR模型

多模态模型

实现原理

图片上传

使用文字搜图

以图搜图

About

Resources

Stars

Watchers

Forks

Languages