multimodal

Here are 13 public repositories matching this topic...

enricoros / big-AGI

Generative AI suite powered by state-of-the-art models and providing advanced AI/AGI functions. It features AI personas, AGI functions, multi-model chats, text-to-image, voice, response streaming, code highlighting and execution, PDF import, presets for developers, much more. Deploy on-prem or in the cloud.

ui beam agi openai gpt mistral multimodal groq openai-api gpt-4 large-language-models stable-diffusion generative-ai chatgpt chatgpt-ui gpt-5 anthropic

Updated May 11, 2024
TypeScript

alan-ai / alan-sdk-ionic

Star

Conversational AI SDK for Ionic to enable text and voice conversations with actions (React, Angular, Vue)

machine-learning text-to-speech sdk ionic chatbot voice voice-commands speech-recognition voice-control voice-assistant conversational-ai vui multimodal voice-interface voice-ai alan-studio alan-ionic-sdk

Updated May 1, 2024
TypeScript

xtreme1-io / xtreme1

Star

Xtreme1 is an all-in-one data labeling and annotation platform for multimodal data training and supports 3D LiDAR point cloud, image, and LLM.

computer-vision image-annotation annotation point-cloud image-classification annotation-tool 3d-annotation labeling-tool multimodal image-labelling-tool rlhf

Updated May 11, 2024
TypeScript

vignshwarar / AI-Employe

Star

Create browser automation as if you were teaching a human using GPT-4 Vision.

productivity automation rpa automation-testing multimodal gpt-4

Updated Feb 19, 2024
TypeScript

rustic-ai / ui-components

Star

React component library for crafting user-friendly and engaging conversational experiences

chat ai reactjs mui reactjs-components conversational-ai multimodal

Updated May 10, 2024
TypeScript

jacobmarks / audio-retrieval-plugin

Star

FiftyOne Plugin for searching images by audio clip using ImageBind and Qdrant

react javascript python machine-learning plugins mui replicate multimodal vector-search fiftyone qdrant imagebind

Updated Nov 1, 2023
TypeScript

iamsrikanthnani / gemini

Sponsor

Star

Gemini is an open-source application powered by the Google Gemini Vision API. It enables users to identify and learn about objects captured by their camera through a simple and interactive experience. Just say 'Hey Gemini' and show an object to the camera and say!

ai machine speech-synthesis gemini video-processing vision speech-recognition google-api multimodal generative-ai google-gemini gemini-ai

Updated Jan 3, 2024
TypeScript

jacobmarks / concept-interpolation

Star

Interpolate between two text concepts using a CLIP model and FiftyOne Plugins!

react python plugins multimodal fiftyone

Updated Apr 4, 2024
TypeScript

weaviate-tutorials / next-multimodal-search-demo

Star

a Weaviate multimodal search demo

search nextjs multimodal weaviate vector-database generative-ai imagebind

Updated Feb 23, 2024
TypeScript

sinhaGuild / storyboard-ai

Star

An opinionated hybrid boilerplate with python backend and react-ts frontend, dockerized for deployment. Uses language model chaining to sequentially generate multi-modal (images and text) content from micro prompts.

azure openai multimodal dalle