Skip to content

Latest commit

 

History

History
155 lines (116 loc) · 7.62 KB

README_zh-CN.md

File metadata and controls

155 lines (116 loc) · 7.62 KB

欢迎来到FinEval

大型语言模型(LLMs)在各种自然语言处理任务中展现出卓越的性能,然而它们在更具挑战性和领域特定的任务中的功效仍然未被充分探索。本文介绍了FinEval,一个专门为LLMs中的金融领域知识而设计的基准测试。

FinEval是一个包含高质量多项选择题的集合,涵盖金融、经济、会计和证书等领域。它包括4,661个问题,涵盖了34个不同的学术科目。为了确保对模型性能进行全面的评估,FinEval采用了多种方法,包括zero-shot,few-shot,仅预测答案(answer-only)和思维链(chain-of-thought)提示词。通过在FinEval上评估最先进的中英文大语言模型,结果显示只有GPT-4在不同提示设置下达到了接近70%的平均准确率,表明大语言模型在金融领域知识方面具有显著的增长潜力。我们的工作提供了一个更全面的金融知识评估基准,利用了模拟考试数据,涵盖了广泛的大语言模型评估范围。



目录

性能排行榜

我们分为仅预测答案思维链对模型进行评估,如果需要了解两种方法的Prompt样例,请参考仅预测答案的zero-shot仅预测答案的few-shot思维链

下面是我们评估模型在测试集(test)上的平均准确率(%)。每个类别下的平均准确率是该类别下所有学科的平均准确率,最后一列是模型在所有学科上的平均准确率。此外,在四种Prompt设置下,我们只给出了所有学科平均准确率最高的设置结果。

Model Size Finance Economy Accounting Certificate Average
GPT-4 unknown 71.0 74.5 59.3 70.4 68.6
ChatGPT 175B 59.3 61.6 45.2 55.1 55.0
Qwen-7B 7B 54.5 54.4 50.3 55.8 53.8
Qwen-Chat-7B 7B 51.5 52.1 44.5 53.6 50.5
Baichuan-13B-Base 13B 52.6 50.2 43.4 53.5 50.1
Baichuan-13B-Chat 13B 51.6 51.1 41.7 52.8 49.4
ChatGLM2-6B 6B 46.5 46.4 44.5 51.5 47.4
InternLM-7B 7B 49.0 49.2 40.5 49.4 47.1
InternLM-Chat-7B 7B 48.4 49.1 40.8 49.5 47.0
LLaMA-2-Chat-70B 70B 47.1 46.7 41.5 45.7 45.2
Falcon-40B 40B 45.4 43.2 35.8 44.8 42.4
Baichuan-7B 7B 44.9 41.5 34.9 45.6 42.0
LLaMA-2-Chat-13B 13B 41.6 38.4 34.1 42.1 39.3
Ziya-LLaMA-13B-v1 13B 43.3 36.9 34.3 41.2 39.3
Bloomz-7b1-mt 7B 41.4 42.1 32.5 39.7 38.8
LLaMA-2-13B 13B 39.5 38.6 31.6 39.6 37.4
ChatGLM-6B 6B 38.8 36.2 33.8 39.1 37.2
Chinese-Llama-2-7B 7B 37.8 37.8 31.4 36.7 35.9
Chinese-Alpaca-Plus-7B 7B 30.5 33.4 32.7 38.5 34.0
moss-moon-003-sft 16B 35.6 34.3 28.7 35.6 33.7
LLaMA-2-Chat-7B 7B 35.6 31.8 31.9 34.0 33.5
LLaMA-2-7B 7B 34.9 36.4 31.4 31.6 33.4
AquilaChat-7B 7B 34.2 31.3 29.8 36.2 33.1
moss-moon-003-base 16B 32.2 33.1 29.2 30.7 31.2
Aquila-7B 7B 27.1 31.6 32.4 33.6 31.2
LLaMA-13B 13B 33.1 29.7 27.2 33.6 31.1
Falcon-7B 7B 28.5 28.2 27.5 27.4 27.9

安装

下面展示了快速安装的步骤,详细请参考安装指南

   conda create --name fineval_venv python=3.8
   conda activate fineval_venv
    git clone https://github.com/SUFE-AIFLM-Lab/FinEval
    cd FinEval
    pip install -r requirements.txt

准备数据集

使用Hugging Face datasets下载数据集。运行命令进行手动下载解压,在FinEval/code的项目目录下运行下面命令,数据集准备至FinEval/code/data目录下。

cd code/data
wget https://huggingface.co/datasets/SUFE-AIFLM-Lab/FinEval/resolve/main/FinEval.zip
unzip FinEval.zip

数据集解压后,文件格式如下:

  • -----data
    • ----dev:每个科目的dev集中包含五个示范实例以及few-shot评估提供的解释
    • ----val:val集主要用于自测模型得分,可直接得到分数
    • ----test:用于模型最终评估,test集的答案不会公开,需用户提交测评submission.json的结果,获得的分数参加最终排行榜

评测

请阅读快速上手了解如何运行一个评测任务。

支持新数据集和模型

如果需要新加入数据集进行评测,请参考支持新数据集

如果需要加载新模型,请参考支持新模型

如何提交

测评结果保存位置为:output_path=$PROJ_HOME/output_dir/${exp_name}/$exp_date ,该文件夹下自动生成submission.json,用户只需提交该文件。

如何运行中有保存位置的说明。

submission.json文件格式如下:

## 每个学科内部的键名是数据集中的"id"字段
{
    "banking_practitioner_qualification_certificate": {
        "0": "A",
        "1": "B",
        "2": "B",
        ...
    },
    
    "学科名称":{
    "0":"答案1",
    "1":"答案2",
    ...
    }
    ....
}

您可以将生成的submission.json文件以邮件形式提交到zhang.liwen@shufe.edu.cn

引用

@misc{2308.09975,
Author = {Liwen Zhang and Weige Cai and Zhaowei Liu and Zhi Yang and Wei Dai and Yujie Liao and Qianru Qin and Yifei Li and Xingyu Liu and Zhiqiang Liu and Zhoufan Zhu and Anbo Wu and Xin Guo and Yun Chen},
Title = {FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models},
Year = {2023},
Eprint = {arXiv:2308.09975},
}