Skip to content

Models WebGPU LLM

Mike edited this page May 28, 2026 · 1 revision

Models WebGPU LLM

Режим: WebGPU. Категория: LLM / чат и генерация текста.

Всего моделей: 20.

SmolLM2 360M Instruct

Поле Значение
Название SmolLM2-360M-Instruct-q4f16_1-MLC
Label SmolLM2 360M Instruct
Категория LLM / чат и генерация текста
Runtime/backend mlc
Вес 0.27 GB catalog size, ~280 MB disk/cache
Параметры 0.36B
Минимальные требования tiny - очень слабое железо, CPU/WASM или небольшой GPU; disk >= 280 MB; memory/VRAM около 700 MB; браузер с WebGPU
Оптимальные требования WebGPU-capable browser/GPU; желательно 1212 MB+ свободной VRAM/RAM и 792 MB+ disk cache
HF link не указан в каталоге
Доступные quantizations q4f16_1
Краткое описание Catalog entry for LLM / чат и генерация текста.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen 3.5 0.8B q4

Поле Значение
Название Qwen3.5-0.8B-q4f16_1-MLC
Label Qwen 3.5 0.8B q4
Категория LLM / чат и генерация текста
Runtime/backend mlc
Вес 0.63 GB catalog size, ~650 MB disk/cache
Параметры 0.8B
Минимальные требования small - ноутбук или небольшой GPU; disk >= 650 MB; memory/VRAM около 1200 MB; браузер с WebGPU
Оптимальные требования WebGPU-capable browser/GPU; желательно 1712 MB+ свободной VRAM/RAM и 1162 MB+ disk cache
HF link не указан в каталоге
Доступные quantizations q4f16_1
Краткое описание Small multilingual chat model for low-end GPUs.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Llama 3.2 1B Instruct q4

Поле Значение
Название Llama-3.2-1B-Instruct-q4f16_1-MLC
Label Llama 3.2 1B Instruct q4
Категория LLM / чат и генерация текста
Runtime/backend mlc
Вес 0.83 GB catalog size, ~850 MB disk/cache
Параметры 1B
Минимальные требования small - ноутбук или небольшой GPU; disk >= 850 MB; memory/VRAM около 1800 MB; браузер с WebGPU
Оптимальные требования WebGPU-capable browser/GPU; желательно 2430 MB+ свободной VRAM/RAM и 1362 MB+ disk cache
HF link не указан в каталоге
Доступные quantizations q4f16_1
Краткое описание Catalog entry for LLM / чат и генерация текста.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen 2.5 1.5B Instruct q4

Поле Значение
Название Qwen2.5-1.5B-Instruct-q4f16_1-MLC
Label Qwen 2.5 1.5B Instruct q4
Категория LLM / чат и генерация текста
Runtime/backend mlc
Вес 1.12 GB catalog size, ~1150 MB disk/cache
Параметры 1.5B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1150 MB; memory/VRAM около 2200 MB; браузер с WebGPU
Оптимальные требования WebGPU-capable browser/GPU; желательно 2970 MB+ свободной VRAM/RAM и 1662 MB+ disk cache
HF link не указан в каталоге
Доступные quantizations q4f16_1
Краткое описание Catalog entry for LLM / чат и генерация текста.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen3.5 0.8B ONNX FP16

Поле Значение
Название onnx-community/Qwen3.5-0.8B-ONNX#fp16
Label Qwen3.5 0.8B ONNX FP16
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 1.52 GB catalog size, ~1560 MB disk/cache
Параметры 0.8B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1560 MB; memory/VRAM около 2200 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 2970 MB+ свободной VRAM/RAM и 2072 MB+ disk cache
HF link onnx-community/Qwen3.5-0.8B-ONNX
Доступные quantizations fp16
Краткое описание Higher-quality non-q4 ONNX variant; uses FP16 files from the same HF repo.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

DeepSeek R1 Distill Qwen 1.5B

Поле Значение
Название onnx-community/DeepSeek-R1-Distill-Qwen-1.5B-ONNX
Label DeepSeek R1 Distill Qwen 1.5B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 1.39 GB catalog size, ~1425 MB disk/cache
Параметры 1.5B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1425 MB; memory/VRAM около 2565 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 3462 MB+ свободной VRAM/RAM и 1937 MB+ disk cache
HF link onnx-community/DeepSeek-R1-Distill-Qwen-1.5B-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen2.5 Coder 1.5B Instruct

Поле Значение
Название onnx-community/Qwen2.5-Coder-1.5B-Instruct
Label Qwen2.5 Coder 1.5B Instruct
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 1.39 GB catalog size, ~1425 MB disk/cache
Параметры 1.5B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1425 MB; memory/VRAM около 2565 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 3462 MB+ свободной VRAM/RAM и 1937 MB+ disk cache
HF link onnx-community/Qwen2.5-Coder-1.5B-Instruct
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen3 1.7B

Поле Значение
Название onnx-community/Qwen3-1.7B-ONNX
Label Qwen3 1.7B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 1.58 GB catalog size, ~1615 MB disk/cache
Параметры 1.7B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1615 MB; memory/VRAM около 2907 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 3924 MB+ свободной VRAM/RAM и 2127 MB+ disk cache
HF link onnx-community/Qwen3-1.7B-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

SmolLM2 1.7B Instruct

Поле Значение
Название HuggingFaceTB/SmolLM2-1.7B-Instruct
Label SmolLM2 1.7B Instruct
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 1.58 GB catalog size, ~1615 MB disk/cache
Параметры 1.7B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 1615 MB; memory/VRAM около 2907 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 3924 MB+ свободной VRAM/RAM и 2127 MB+ disk cache
HF link HuggingFaceTB/SmolLM2-1.7B-Instruct
Доступные quantizations auto
Краткое описание ONNX/WebGPU artifact marker
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen3.5 0.8B ONNX FP32

Поле Значение
Название onnx-community/Qwen3.5-0.8B-ONNX#fp32
Label Qwen3.5 0.8B ONNX FP32
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.95 GB catalog size, ~3020 MB disk/cache
Параметры 0.8B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 3020 MB; memory/VRAM около 3600 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 4860 MB+ свободной VRAM/RAM и 3775 MB+ disk cache
HF link onnx-community/Qwen3.5-0.8B-ONNX
Доступные quantizations fp32
Краткое описание Full precision ONNX variant without q4/q8 quantization. Heavier than the default MLC q4 profile.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Phi 4 mini Instruct q4

Поле Значение
Название Phi-4-mini-instruct-q4f16_1-MLC
Label Phi 4 mini Instruct q4
Категория LLM / чат и генерация текста
Runtime/backend mlc
Вес 2.44 GB catalog size, ~2500 MB disk/cache
Параметры не указаны
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2500 MB; memory/VRAM около 4200 MB; браузер с WebGPU
Оптимальные требования WebGPU-capable browser/GPU; желательно 5670 MB+ свободной VRAM/RAM и 3125 MB+ disk cache
HF link не указан в каталоге
Доступные quantizations q4f16_1
Краткое описание Catalog entry for LLM / чат и генерация текста.
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Llama 3.2 3B

Поле Значение
Название onnx-community/Llama-3.2-3B
Label Llama 3.2 3B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.78 GB catalog size, ~2850 MB disk/cache
Параметры 3B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache
HF link onnx-community/Llama-3.2-3B
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Llama 3.2 3B Instruct

Поле Значение
Название onnx-community/Llama-3.2-3B-Instruct-ONNX
Label Llama 3.2 3B Instruct
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.78 GB catalog size, ~2850 MB disk/cache
Параметры 3B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache
HF link onnx-community/Llama-3.2-3B-Instruct-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen2.5 Coder 3B Instruct

Поле Значение
Название onnx-community/Qwen2.5-Coder-3B-Instruct
Label Qwen2.5 Coder 3B Instruct
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.78 GB catalog size, ~2850 MB disk/cache
Параметры 3B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache
HF link onnx-community/Qwen2.5-Coder-3B-Instruct
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

SmolLM3 3B

Поле Значение
Название HuggingFaceTB/SmolLM3-3B-ONNX
Label SmolLM3 3B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.78 GB catalog size, ~2850 MB disk/cache
Параметры 3B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache
HF link HuggingFaceTB/SmolLM3-3B-ONNX
Доступные quantizations auto
Краткое описание ONNX/WebGPU artifact marker
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

SmolLM3 3B Base

Поле Значение
Название HuggingFaceTB/SmolLM3-3B-Base
Label SmolLM3 3B Base
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 2.78 GB catalog size, ~2850 MB disk/cache
Параметры 3B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 2850 MB; memory/VRAM около 5130 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 6925 MB+ свободной VRAM/RAM и 3562 MB+ disk cache
HF link HuggingFaceTB/SmolLM3-3B-Base
Доступные quantizations auto
Краткое описание ONNX/WebGPU artifact marker
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen3 4B

Поле Значение
Название onnx-community/Qwen3-4B-ONNX
Label Qwen3 4B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 3.71 GB catalog size, ~3800 MB disk/cache
Параметры 4B
Минимальные требования medium - рабочая станция или заметный GPU; disk >= 3800 MB; memory/VRAM около 6840 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 9234 MB+ свободной VRAM/RAM и 4750 MB+ disk cache
HF link onnx-community/Qwen3-4B-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Qwen3 8B

Поле Значение
Название onnx-community/Qwen3-8B-ONNX
Label Qwen3 8B
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 7.42 GB catalog size, ~7600 MB disk/cache
Параметры 8B
Минимальные требования large - мощная локальная машина/GPU; disk >= 7600 MB; memory/VRAM около 13680 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 18468 MB+ свободной VRAM/RAM и 9500 MB+ disk cache
HF link onnx-community/Qwen3-8B-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

gpt oss 20b

Поле Значение
Название onnx-community/gpt-oss-20b-ONNX
Label gpt oss 20b
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 18.55 GB catalog size, ~19000 MB disk/cache
Параметры 20B
Минимальные требования large - мощная локальная машина/GPU; disk >= 19000 MB; memory/VRAM около 34200 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 46170 MB+ свободной VRAM/RAM и 23750 MB+ disk cache
HF link onnx-community/gpt-oss-20b-ONNX
Доступные quantizations auto
Краткое описание known browser-ready provider
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

gpt oss 20b

Поле Значение
Название onnxruntime/gpt-oss-20b-onnx
Label gpt oss 20b
Категория LLM / чат и генерация текста
Runtime/backend transformers
Вес 18.55 GB catalog size, ~19000 MB disk/cache
Параметры 20B
Минимальные требования large - мощная локальная машина/GPU; disk >= 19000 MB; memory/VRAM около 34200 MB; браузер CPU/WASM; WebGPU полезен, если доступен
Оптимальные требования modern CPU plus WebGPU/NPU when available; желательно 46170 MB+ свободной VRAM/RAM и 23750 MB+ disk cache
HF link onnxruntime/gpt-oss-20b-onnx
Доступные quantizations auto
Краткое описание ONNX/WebGPU artifact marker
Best in локальный чат, агентные сценарии, OpenAI-compatible /v1/chat/completions

Clone this wiki locally