CLUE benchmark

CLUE Public

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

Python 4.1k 545

SuperCLUE Public

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

SuperCLUE-Safety Public

SC-Safety: 中文大模型多轮对抗安全基准

SuperCLUE-Auto Public

汽车行业中文大模型测评基准，基于多轮开放式问题的细粒度评测

SuperCLUE-Agent Public

SuperCLUE-Agent: 基于中文原生任务的Agent智能体核心能力测评基准

SuperCLUE-RAG Public

中文原生检索增强生成测评基准

Provide feedback