LLMJudge 🔍 一个专注于评测语言模型能力的自动化测试框架 核心能力 多维度测评:支持数学、常识、专业领域等多类型题库 智能评判:采用双模型验证机制(提问模型+评判模型) 精准分析:自动生成可视化评估报告和权重评分 灵活扩展:兼容任何OpenAI API标准的模型服务 技术亮点 ✨ 分布式测试架构 | 📊 动态权重计算 | 🧩 模块化设计 | 📈 智能容错机制 🛠️ 适用于模型开发者、研究人员和算法评测团队 Licensed under MIT