Benchmarking large language models on Minestom knowledge.
google/gemini-2.5-pro ██████████████████████████████████████████░░░░░░░░ 84.4% (27/32)
openai/gpt-5-codex █████████████████████████████████████████░░░░░░░░░ 81.3% (26/32)
openai/gpt-5 ███████████████████████████████████████░░░░░░░░░░░ 78.1% (25/32)
anthropic/claude-sonnet-4.5 ██████████████████████████████████████░░░░░░░░░░░░ 75.0% (24/32)
anthropic/claude-haiku-4.5 ██████████████████████████████████████░░░░░░░░░░░░ 75.0% (24/32)
x-ai/grok-code-fast-1 ████████████████████████████████████░░░░░░░░░░░░░░ 71.9% (23/32)
openai/gpt-oss-120b ██████████████████████████████████░░░░░░░░░░░░░░░░ 68.8% (22/32)
z-ai/glm-4.6 ██████████████████████████████████░░░░░░░░░░░░░░░░ 68.8% (22/32)
minimax/minimax-m2:free ██████████████████████████████████░░░░░░░░░░░░░░░░ 68.8% (22/32)
x-ai/grok-4-fast █████████████████████████████████░░░░░░░░░░░░░░░░░ 65.6% (21/32)
qwen/qwen3-coder ███████████████████████████████░░░░░░░░░░░░░░░░░░░ 62.5% (20/32)
z-ai/glm-4.5-air ███████████████████████████████░░░░░░░░░░░░░░░░░░░ 62.5% (20/32)
inclusionai/ring-1t ███████████████████████████████░░░░░░░░░░░░░░░░░░░ 62.5% (20/32)
google/gemini-2.5-flash ██████████████████████████████░░░░░░░░░░░░░░░░░░░░ 59.4% (19/32)
deepseek/deepseek-v3.1-terminus ███████████████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░ 46.9% (15/32)
google/gemma-3-27b-it ███████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 21.9% (7/32)