-
Notifications
You must be signed in to change notification settings - Fork 0
Models WebGPU LLM
Mike edited this page May 28, 2026
·
1 revision
Режим: WebGPU. Категория: LLM / чат и генерация текста.
Всего моделей: 20.
| Поле | Значение |
|---|---|
| Название | SmolLM2-360M-Instruct-q4f16_1-MLC |
| Label | SmolLM2 360M Instruct |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | mlc |
| Вес | 0.27 GB catalog size, ~280 MB disk/cache |
| Параметры | 0.36B |
| Минимальные требования | tiny - очень слабое железо, CPU/WASM или небольшой GPU; disk >= 280 MB; memory/VRAM около 700 MB; браузер с WebGPU |
| Оптимальные требования | WebGPU-capable browser/GPU; желательно 1212 MB+ свободной VRAM/RAM и 792 MB+ disk cache |
| HF link | не указан в каталоге |
| Доступные quantizations | q4f16_1 |
| Краткое описание | Catalog entry for LLM / чат и генерация текста. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | Qwen3.5-0.8B-q4f16_1-MLC |
| Label | Qwen 3.5 0.8B q4 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | mlc |
| Вес | 0.63 GB catalog size, ~650 MB disk/cache |
| Параметры | 0.8B |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 650 MB; memory/VRAM около 1200 MB; браузер с WebGPU |
| Оптимальные требования | WebGPU-capable browser/GPU; желательно 1712 MB+ свободной VRAM/RAM и 1162 MB+ disk cache |
| HF link | не указан в каталоге |
| Доступные quantizations | q4f16_1 |
| Краткое описание | Small multilingual chat model for low-end GPUs. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | Llama-3.2-1B-Instruct-q4f16_1-MLC |
| Label | Llama 3.2 1B Instruct q4 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | mlc |
| Вес | 0.83 GB catalog size, ~850 MB disk/cache |
| Параметры | 1B |
| Минимальные требования | small - ноутбук или небольшой GPU; disk >= 850 MB; memory/VRAM около 1800 MB; браузер с WebGPU |
| Оптимальные требования | WebGPU-capable browser/GPU; желательно 2430 MB+ свободной VRAM/RAM и 1362 MB+ disk cache |
| HF link | не указан в каталоге |
| Доступные quantizations | q4f16_1 |
| Краткое описание | Catalog entry for LLM / чат и генерация текста. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | Qwen2.5-1.5B-Instruct-q4f16_1-MLC |
| Label | Qwen 2.5 1.5B Instruct q4 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | mlc |
| Вес | 1.12 GB catalog size, ~1150 MB disk/cache |
| Параметры | 1.5B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1150 MB; memory/VRAM около 2200 MB; браузер с WebGPU |
| Оптимальные требования | WebGPU-capable browser/GPU; желательно 2970 MB+ свободной VRAM/RAM и 1662 MB+ disk cache |
| HF link | не указан в каталоге |
| Доступные quantizations | q4f16_1 |
| Краткое описание | Catalog entry for LLM / чат и генерация текста. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen3.5-0.8B-ONNX#fp16 |
| Label | Qwen3.5 0.8B ONNX FP16 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 1.52 GB catalog size, ~1560 MB disk/cache |
| Параметры | 0.8B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1560 MB; memory/VRAM около 2200 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 2970 MB+ свободной VRAM/RAM и 2072 MB+ disk cache |
| HF link | onnx-community/Qwen3.5-0.8B-ONNX |
| Доступные quantizations | fp16 |
| Краткое описание | Higher-quality non-q4 ONNX variant; uses FP16 files from the same HF repo. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/DeepSeek-R1-Distill-Qwen-1.5B-ONNX |
| Label | DeepSeek R1 Distill Qwen 1.5B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 1.39 GB catalog size, ~1425 MB disk/cache |
| Параметры | 1.5B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1425 MB; memory/VRAM около 2565 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 3462 MB+ свободной VRAM/RAM и 1937 MB+ disk cache |
| HF link | onnx-community/DeepSeek-R1-Distill-Qwen-1.5B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen2.5-Coder-1.5B-Instruct |
| Label | Qwen2.5 Coder 1.5B Instruct |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 1.39 GB catalog size, ~1425 MB disk/cache |
| Параметры | 1.5B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1425 MB; memory/VRAM около 2565 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 3462 MB+ свободной VRAM/RAM и 1937 MB+ disk cache |
| HF link | onnx-community/Qwen2.5-Coder-1.5B-Instruct |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen3-1.7B-ONNX |
| Label | Qwen3 1.7B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 1.58 GB catalog size, ~1615 MB disk/cache |
| Параметры | 1.7B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1615 MB; memory/VRAM около 2907 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 3924 MB+ свободной VRAM/RAM и 2127 MB+ disk cache |
| HF link | onnx-community/Qwen3-1.7B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | HuggingFaceTB/SmolLM2-1.7B-Instruct |
| Label | SmolLM2 1.7B Instruct |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 1.58 GB catalog size, ~1615 MB disk/cache |
| Параметры | 1.7B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 1615 MB; memory/VRAM около 2907 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 3924 MB+ свободной VRAM/RAM и 2127 MB+ disk cache |
| HF link | HuggingFaceTB/SmolLM2-1.7B-Instruct |
| Доступные quantizations | auto |
| Краткое описание | ONNX/WebGPU artifact marker |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen3.5-0.8B-ONNX#fp32 |
| Label | Qwen3.5 0.8B ONNX FP32 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.95 GB catalog size, ~3020 MB disk/cache |
| Параметры | 0.8B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 3020 MB; memory/VRAM около 3600 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 4860 MB+ свободной VRAM/RAM и 3775 MB+ disk cache |
| HF link | onnx-community/Qwen3.5-0.8B-ONNX |
| Доступные quantizations | fp32 |
| Краткое описание | Full precision ONNX variant without q4/q8 quantization. Heavier than the default MLC q4 profile. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | Phi-4-mini-instruct-q4f16_1-MLC |
| Label | Phi 4 mini Instruct q4 |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | mlc |
| Вес | 2.44 GB catalog size, ~2500 MB disk/cache |
| Параметры | не указаны |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2500 MB; memory/VRAM около 4200 MB; браузер с WebGPU |
| Оптимальные требования | WebGPU-capable browser/GPU; желательно 5670 MB+ свободной VRAM/RAM и 3125 MB+ disk cache |
| HF link | не указан в каталоге |
| Доступные quantizations | q4f16_1 |
| Краткое описание | Catalog entry for LLM / чат и генерация текста. |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Llama-3.2-3B |
| Label | Llama 3.2 3B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.78 GB catalog size, ~2850 MB disk/cache |
| Параметры | 3B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache |
| HF link | onnx-community/Llama-3.2-3B |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Llama-3.2-3B-Instruct-ONNX |
| Label | Llama 3.2 3B Instruct |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.78 GB catalog size, ~2850 MB disk/cache |
| Параметры | 3B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache |
| HF link | onnx-community/Llama-3.2-3B-Instruct-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen2.5-Coder-3B-Instruct |
| Label | Qwen2.5 Coder 3B Instruct |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.78 GB catalog size, ~2850 MB disk/cache |
| Параметры | 3B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache |
| HF link | onnx-community/Qwen2.5-Coder-3B-Instruct |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | HuggingFaceTB/SmolLM3-3B-ONNX |
| Label | SmolLM3 3B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.78 GB catalog size, ~2850 MB disk/cache |
| Параметры | 3B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache |
| HF link | HuggingFaceTB/SmolLM3-3B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | ONNX/WebGPU artifact marker |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | HuggingFaceTB/SmolLM3-3B-Base |
| Label | SmolLM3 3B Base |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 2.78 GB catalog size, ~2850 MB disk/cache |
| Параметры | 3B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache |
| HF link | HuggingFaceTB/SmolLM3-3B-Base |
| Доступные quantizations | auto |
| Краткое описание | ONNX/WebGPU artifact marker |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen3-4B-ONNX |
| Label | Qwen3 4B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 3.71 GB catalog size, ~3800 MB disk/cache |
| Параметры | 4B |
| Минимальные требования | medium - рабочая станция или заметный GPU; disk >= 3800 MB; memory/VRAM около 6840 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 9234 MB+ свободной VRAM/RAM и 4750 MB+ disk cache |
| HF link | onnx-community/Qwen3-4B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/Qwen3-8B-ONNX |
| Label | Qwen3 8B |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 7.42 GB catalog size, ~7600 MB disk/cache |
| Параметры | 8B |
| Минимальные требования | large - мощная локальная машина/GPU; disk >= 7600 MB; memory/VRAM около 13680 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 18468 MB+ свободной VRAM/RAM и 9500 MB+ disk cache |
| HF link | onnx-community/Qwen3-8B-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnx-community/gpt-oss-20b-ONNX |
| Label | gpt oss 20b |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 18.55 GB catalog size, ~19000 MB disk/cache |
| Параметры | 20B |
| Минимальные требования | large - мощная локальная машина/GPU; disk >= 19000 MB; memory/VRAM около 34200 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 46170 MB+ свободной VRAM/RAM и 23750 MB+ disk cache |
| HF link | onnx-community/gpt-oss-20b-ONNX |
| Доступные quantizations | auto |
| Краткое описание | known browser-ready provider |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
| Поле | Значение |
|---|---|
| Название | onnxruntime/gpt-oss-20b-onnx |
| Label | gpt oss 20b |
| Категория | LLM / чат и генерация текста |
| Runtime/backend | transformers |
| Вес | 18.55 GB catalog size, ~19000 MB disk/cache |
| Параметры | 20B |
| Минимальные требования | large - мощная локальная машина/GPU; disk >= 19000 MB; memory/VRAM около 34200 MB; браузер CPU/WASM; WebGPU полезен, если доступен |
| Оптимальные требования | modern CPU plus WebGPU/NPU when available; желательно 46170 MB+ свободной VRAM/RAM и 23750 MB+ disk cache |
| HF link | onnxruntime/gpt-oss-20b-onnx |
| Доступные quantizations | auto |
| Краткое описание | ONNX/WebGPU artifact marker |
| Best in | локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions
|
- xlocllm
- Quickstart
- About
- Functions Python
- Functions TypeScript
- Use cases
- Examples Python
- Examples TypeScript
- Shared GPU mode
-
Models catalog
- Models The best
- Models Full model list
- Models Use your model
- For native mode
- Models Native LLM tiny small
- Models Native LLM medium
- Models Native LLM large
- Models Native embedding
- Models Native reranker
- Models Native translator
- Models Native tts
- Models Native vlm
- Models Native asr
- Models Native ocr
- Models Native image-classification
- Models Native object-detection
- Models Native image-segmentation
- Models Native depth-estimation
- Models Native document-layout
- Models Native table-detection
- Models Native document-qa
- Models Native language-id
- Models Native audio-classification
- Models Native text-classification
- Models Native ner
- Models Native zero-shot-text
- Models Native summarization
- Models Native text2text
- Models Native code
- For webgpu mode
- For web mode
- Models Web LLM
- Models Web embedding
- Models Web reranker
- Models Web translator
- Models Web tts
- Models Web vlm
- Models Web asr
- Models Web ocr
- Models Web image-classification
- Models Web object-detection
- Models Web image-segmentation
- Models Web depth-estimation
- Models Web document-layout
- Models Web table-detection
- Models Web document-qa
- Models Web zero-shot-image
- Models Web language-id
- Models Web audio-classification
- Models Web text-classification
- Models Web ner
- Models Web zero-shot-text
- Models Web summarization
- Models Web text2text
- Models Web code
- Dev