-
Notifications
You must be signed in to change notification settings - Fork 0
Models Web vlm
Mike edited this page May 28, 2026
·
1 revision
Режим: Web. Категория: VLM / image-to-text.
Всего моделей: 7.
| Поле | Значение |
|---|---|
| Название | HuggingFaceTB/SmolVLM-256M-Instruct |
| Label | SmolVLM 256M Instruct |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.24 GB catalog size, ~243 MB disk/cache |
| Параметры | 0.256B |
| Минимальные требования | tiny - очень слабое железо, CPU/WASM или небольшой GPU; disk >= 243 MB; memory/VRAM около 291 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 803 MB+ свободной VRAM/RAM и 755 MB+ disk cache |
| HF link | HuggingFaceTB/SmolVLM-256M-Instruct |
| Доступные quantizations | auto |
| Краткое описание | ONNX/WebGPU artifact marker |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | onnx-community/FastVLM-0.5B-ONNX |
| Label | FastVLM 0.5B |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.46 GB catalog size, ~475 MB disk/cache |
| Параметры | 0.5B |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 475 MB; memory/VRAM около 570 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 1082 MB+ свободной VRAM/RAM и 987 MB+ disk cache |
| HF link | onnx-community/FastVLM-0.5B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | onnx-community/Florence-2-base |
| Label | Florence 2 base |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.63 GB catalog size, ~650 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 650 MB; memory/VRAM около 780 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 1292 MB+ свободной VRAM/RAM и 1162 MB+ disk cache |
| HF link | onnx-community/Florence-2-base |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | onnx-community/Florence-2-large |
| Label | Florence 2 large |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.63 GB catalog size, ~650 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 650 MB; memory/VRAM около 780 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 1292 MB+ свободной VRAM/RAM и 1162 MB+ disk cache |
| HF link | onnx-community/Florence-2-large |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | onnx-community/Florence-2-large-ft |
| Label | Florence 2 large ft |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.63 GB catalog size, ~650 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 650 MB; memory/VRAM около 780 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 1292 MB+ свободной VRAM/RAM и 1162 MB+ disk cache |
| HF link | onnx-community/Florence-2-large-ft |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | Xenova/vit-gpt2-image-captioning |
| Label | ViT GPT-2 image captioning |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.45 GB catalog size, ~460 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 460 MB; memory/VRAM около 950 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 1462 MB+ свободной VRAM/RAM и 972 MB+ disk cache |
| HF link | Xenova/vit-gpt2-image-captioning |
| Доступные quantizations | q8 |
| Краткое описание | Catalog entry for VLM / image-to-text. |
| Best in | captioning, VQA, image-to-text |
| Поле | Значение |
|---|---|
| Название | onnx-community/Florence-2-base-ft |
| Label | Florence 2 base finetuned |
| Категория | VLM / image-to-text |
| Runtime/backend | transformers |
| Вес | 0.76 GB catalog size, ~780 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 780 MB; memory/VRAM около 1500 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 2025 MB+ свободной VRAM/RAM и 1292 MB+ disk cache |
| HF link | onnx-community/Florence-2-base-ft |
| Доступные quantizations | q8 |
| Краткое описание | Catalog entry for VLM / image-to-text. |
| Best in | captioning, VQA, image-to-text |
- xlocllm
- Quickstart
- About
- Functions Python
- Functions TypeScript
- Use cases
- Examples Python
- Examples TypeScript
- Shared GPU mode
-
Models catalog
- Models The best
- Models Full model list
- Models Use your model
- For native mode
- Models Native LLM tiny small
- Models Native LLM medium
- Models Native LLM large
- Models Native embedding
- Models Native reranker
- Models Native translator
- Models Native tts
- Models Native vlm
- Models Native asr
- Models Native ocr
- Models Native image-classification
- Models Native object-detection
- Models Native image-segmentation
- Models Native depth-estimation
- Models Native document-layout
- Models Native table-detection
- Models Native document-qa
- Models Native language-id
- Models Native audio-classification
- Models Native text-classification
- Models Native ner
- Models Native zero-shot-text
- Models Native summarization
- Models Native text2text
- Models Native code
- For webgpu mode
- For web mode
- Models Web LLM
- Models Web embedding
- Models Web reranker
- Models Web translator
- Models Web tts
- Models Web vlm
- Models Web asr
- Models Web ocr
- Models Web image-classification
- Models Web object-detection
- Models Web image-segmentation
- Models Web depth-estimation
- Models Web document-layout
- Models Web table-detection
- Models Web document-qa
- Models Web zero-shot-image
- Models Web language-id
- Models Web audio-classification
- Models Web text-classification
- Models Web ner
- Models Web zero-shot-text
- Models Web summarization
- Models Web text2text
- Models Web code
- Dev