ComfyUI-GPT5_Image_Text

A ComfyUI custom node for vision + text analysis using GPT-5 (and GPT-4o) with direct API key input, system prompt, temperature, max tokens, and multi-image support.

Perfect for:

Image captioning
Visual question answering (VQA)
Scene understanding
Object detection via description
Multimodal reasoning

No image generation or editing — pure analysis only.

Features

GPT-5 Ready (when available) + GPT-4o / GPT-4o-mini fallbacks
Multi-Image Input – Analyze batches of images in one prompt
Vision + Text – Combine image(s) with text prompt
Full Control – System prompt, temperature, max tokens
API Key in UI – No .env files or hardcoding
Zero Dependencies Beyond OpenAI – Lightweight & fast

Installation

Clone this repo into ComfyUI/custom_nodes/:

cd ComfyUI/custom_nodes
git clone https://github.com/yourusername/ComfyUI-GPT5_Image_Text.git

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.github/workflows		.github/workflows
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
gpt5_image_text.py		gpt5_image_text.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ComfyUI-GPT5_Image_Text

Features

Installation

About

Uh oh!

Releases

Packages

Languages

License

comrender/ComfyUI-gpt5_image_text

Folders and files

Latest commit

History

Repository files navigation

ComfyUI-GPT5_Image_Text

Features

Installation

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages