multimodality

Here are 78 public repositories matching this topic...

kyegomez / swarmalators

Pytorch Implementation of the Swarmalators algorithm from "Exotic swarming dynamics of high-dimensional swarmalators"

machine-learning-algorithms artificial-intelligence swarm-cluster swarms attention-mechanism multimodality swarm-intelligence attention-is-all-you-need swarm-robotics multimodal

Updated Jun 17, 2024
Python

Aeternalis-Ingenium / V4Vision-POC-Backend

Star

API to infer automated disease detection and report generation from medical images.

machine-learning software-engineering multimodality radiology multimodal-deep-learning med-tech llm

Updated Jul 8, 2024
Python

kyegomez / CELESTIAL-1

Sponsor

Star

Omni-Modality Processing, Understanding, and Generation

openai attention multi-modal multimodality attention-is-all-you-need attention-mechanisms multimodal multimodal-deep-learning gpt-4 gpt4 omnimodal

Updated May 3, 2024
Python

XavierSpycy / MultiCLIP

Star

MultiCLIP: A framework for multimodal-multilabel-multistage classification utilizing advanced pretrained models like CLIP and BLIP. 一个多模态多标签多阶段分类框架，利用像CLIP和BLIP这样的先进预训练模型。

pretrained-models clip multimodality blip multilabel-classification multimodal-deep-learning

Updated Jun 24, 2024
Python

kyegomez / MMCA

Sponsor

Star

The open source community's implementation of the all-new Multi-Modal Causal Attention from "DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention"

neural-network opensource-library artificial-intelligence attention attention-mechanism multimodality neuralnetwork opensourceforgood attention-is-all-you-need multimodal gpt4

Updated Mar 11, 2024
Python

Droliven / DHMP_jittor

Star

Jittor reimplementation of DiverseSampling (MM22)

diversity deep-learning stochastic accuracy sampling manifold multimodality variational-inference likelihood cvae gcn gaussian-distribution variational-autoencoder gumbel-softmax diverse hinge-loss human-motion-prediction jittor acmmm2022

Updated Feb 25, 2023
Python

kyegomez / MMCA-MGQA

Sponsor

Star

Experiments around using Multi-Modal Casual Attention with Multi-Grouped Query Attention

artificial-intelligence attention attention-mechanism multimodality attention-is-all-you-need multimodal multimodal-deep-learning gpt4

Updated Mar 11, 2024
Python

manunair1990 / Phi3-Vision-huggingface

Star

This repository contains Python code for performing vision tasks using the Microsoft Phi-3 Vision model and the Hugging Face library. It demonstrates generating textual responses based on image content, showcasing the integration of advanced vision-language models for tasks such as image analysis and descriptive text generation.

microsoft multimodality huggingface genai genaivision phi3-vision

Updated Jun 6, 2024
Python

Dazzid / DataToRepovizz

Star

Under the framework of TELMI Project, this is a python script to automatically upload multimodal data into repovizz repository. The project is part of TELMI within MTG Universitat Pompeu Fabra

data multimodality music-performance

Updated May 2, 2017
Python

FuxiaoLiu / DocumentCLIP

Star

[ICPRAI 2024] DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents

language deep-learning wikipedia dataset vision alignment document llama arxiv clip multimodality multimodal-deep-learning vision-transformer gpt4 clipmodel

Updated Apr 4, 2024
Python

Clealiya / Multimodal-model

Star

[FR|EN - Trio] 2023 - 2024 Centrale Méditerranée AI Master | Multimodal retranscription with text, audio and video

machine-learning ai deep-learning multimodality multimodal multimodal-fusion

Updated Jan 27, 2024
Python

JiaqingFu / MultimodalModel

Star

deep-learning keras multimodality

Updated Sep 27, 2021
Python

thiippal / diagrams-genre

Star

A repository for the article "Corpus-based insights into multimodality and genre in primary school science diagrams" published in Visual Communication (2023)

python diagrams multimodality ai2d-dataset ai2d-rst-dataset diagram-understanding

Updated Jul 29, 2023
Python

kyegomez / ConvNet

Sponsor

Star

Implementation of the NFNets from the paper: "ConvNets Match Vision Transformers at Scale" by Google Research

machine-learning ai ml convolutional-layers deeplearning convolutional-neural-networks multimodality multimodal-learning

Updated Jun 17, 2024
Python

kyegomez / Gen2

Sponsor

Star

Implementation of "Text driven video generation" in pytorch

artificial-intelligence multimodality multimodal-learning multimodal multimodal-deep-learning texttovideo gpt4 stablediffusion

Updated Mar 11, 2024
Python

tianleimin / ACL2018-MultimodalMultitaskSentimentAnalysis

Star

Codes for ACL2018 Multimodal Language Workshop paper

sentiment-analysis multimodality acl2018

Updated May 24, 2018
Python

eric-ai-lab / Mitigate-Gender-Bias-in-Image-Search

Star

Code for the EMNLP 2021 Oral paper "Are Gender-Neutral Queries Really Gender-Neutral? Mitigating Gender Bias in Image Search" https://arxiv.org/abs/2109.05433

image-search multimodality gender-bias fairness-ml vision-language