cross-modal-retrieval

Here are 80 public repositories matching this topic...

jina-ai / clip-as-service

🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

deep-learning pytorch openai bert sentence2vec onnx cross-modality multi-modality image2vec sentence-encoding bert-as-service cross-modal-retrieval neural-search clip-model clip-as-service

Updated Jan 23, 2024
Python

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense reasoning, and cross-modal retrieval).

image-captioning video-captioning visual-question-answering vision-and-language cross-modal-retrieval pretraining tden

Updated Feb 27, 2023
Python

Paranioar / Awesome_Matching_Pretraining_Transfering

Star

The Paper List of Large Multi-Modality Model, Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insight.

tutorial awesome-list vision-and-language video-text-recognition cross-modal-retrieval visual-semantic-embedding image-text-matching video-text-retrieval image-text-retrieval multimodal-pretraining large-language-models large-vision-language-models multimodal-large-language-models memory-efficient-tuning parameter-efficient-fine-tuning large-vision-models

Updated Jul 11, 2024

zjukg / KG-MM-Survey

Star

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

information-extraction survey knowledge-graph awsome image-classification image-generation surveys entity-linking knowledge-graph-embeddings visual-question-answering entity-alignment paper-list awsome-list cross-modal-retrieval multi-modal-learning multi-modal-fusion large-language-models multi-modal-knowledge-graph

Updated May 16, 2024

layumi / Image-Text-Embedding

Star

TOMM2020 Dual-Path Convolutional Image-Text Embedding 🐾 https://arxiv.org/abs/1711.05535

matlab image-search matconvnet image-retrieval person-reidentification visual-semantic bidirectional-retrieval language-retrieval cross-modality cross-modal-retrieval

Updated Jun 16, 2023
MATLAB

slavabarkov / tidy

Star

Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

android kotlin nlp computer-vision deep-learning image-search quantization clip semantic-search image-retrieval onnx cross-modal-retrieval image-text-matching image-text-retrieval

Updated Mar 28, 2024
Kotlin

Paranioar / SGRAF

Star

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

image-retrieval aaai text-matching similarity-metric cross-modal-retrieval image-text-matching image-text-retrieval

Updated Apr 11, 2024
Python

woodfrog / vse_infty

Star

Code for "Learning the Best Pooling Strategy for Visual Semantic Embedding", CVPR 2021 (Oral)

pytorch vse visual-semantic vision-language cross-modal-retrieval image-text-matching

Updated Feb 20, 2023
Python

penghu-cs / DSCMR

Star

Deep Supervised Cross-modal Retrieval (CVPR 2019, PyTorch Code)

cross-modal-retrieval

Updated Sep 19, 2019
Python

yalesong / pvse

Star

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval (CVPR 2019)

metric-learning mscoco-dataset cross-modal-retrieval mrw-dataset tgif-dataset

Updated Mar 15, 2024
Python

naver-ai / pcme

Star

Official Pytorch implementation of "Probabilistic Cross-Modal Embedding" (CVPR 2021)

cross-modal-retrieval probabilistic-machine-learning cvpr2021 probabilistic-embeddings

Updated Mar 1, 2024
Python

jpthu17 / EMCL

Star

[NeurIPS 2022 Spotlight] Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

video-captioning neurips video-retrieval video-question-answering cross-modal-retrieval

Updated Apr 9, 2024
Python

jpthu17 / DiffusionRet

Star

[ICCV 2023] DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

video-retrieval cross-modal-retrieval diffusion-models iccv2023

Updated Apr 9, 2024
Python

howard-hou / BagFormer

Star

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

vision-language cross-modal-retrieval image-text-retrieval

Updated Jan 14, 2023
Python

jpthu17 / HBI

Star

[CVPR 2023 Highlight] Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

cvpr video-retrieval video-question-answering cross-modal-retrieval

Updated Apr 9, 2024
Python

ilaria-manco / muscall

Star

Official implementation of "Contrastive Audio-Language Learning for Music" (ISMIR 2022)

music-information-retrieval cross-modal-retrieval music-ai

Updated Jan 7, 2023
Python

AyanKumarBhunia / on-the-fly-FGSBIR

Star

[CVPR 2020, Oral] "Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval”, IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2020. .