OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景,旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。
- 真实性: 数据集专注于金融领域知识,每一条数据均由实际金融业务场景产生,确保了数据的真实性和实用性。
- 全面性: 涵盖多种数据类型和多样化金融场景,详细归类,确保评估的全面性,满足不同金融模型的需求。
- 专业性: 数据集由金融行业专业人士构建,经过高质量筛选和处理,保证了数据的专业性和准确性。
- 拓展性: 数据集设计具有高度的可拓展性,支持快速编辑与迭代,以适应金融科技领域的快速发展和变化。
OpenFinData数据集由以下六个模块构成,每个模块包含多个任务维度,以满足金融领域的不同评测需求。以下是数据集内容的详细表格:
模块名称 | 任务维度 | 描述 |
---|---|---|
金融知识 | 金融术语/黑话 | 提供金融行业中的专业术语及其解释。 |
金融事实 | 记录金融市场的历史事件和事实数据。 | |
金融判别 | 金融意图理解 | 识别用户在金融场景中的意图。 |
情绪识别 | 分析金融文本中的情绪倾向。 | |
金融实体识别 | 从文本中识别出金融相关的实体。 | |
金融实体消歧 | 解决金融实体在不同上下文中的歧义问题。 | |
金融计算 | 金融数据检查 | 验证金融数据的一致性和准确性。 |
金融数值提取 | 从非结构化数据中提取关键的金融数值信息。 | |
金融指标计算 | 计算并提供各种金融指标。 | |
金融分析 | 股票分析 | 对股票市场进行深入分析。 |
基金分析 | 分析基金的表现和风险。 | |
行业/板块分析 | 对特定行业或板块的市场表现进行评估。 | |
行情分析 | 提供市场行情的综合分析。 | |
金融解读 | 宏观解读 | 解读宏观经济政策和事件对金融市场的影响。 |
行业解读 | 分析特定行业的发展动态和趋势。 | |
公告解读 | 对上市公司公告进行内容分析和影响评估。 | |
事件解读 | 解释金融市场中的重大事件及其潜在影响。 | |
金融合规 | 金融业务合规 | 确保金融业务流程符合相关法规要求。 |
信息安全合规 | 保护金融数据的安全,防止数据泄露和滥用。 |
- 数据下载: 请点击数据集链接下载数据集。
- 模型评估: 我们提供基于OpenCompass的模型评估方案。 首先,完成 opencompass 的安装过程后,将解压后的 openfindata_release 文件夹放入 {PATH_TO_OPENCOMPASS}/data/ 处。 而后,使用如下命令即可评测 LLaMA-7B 模型在 OpenFinData 数据集上的性能
python run.py --models hf_llama_7b --datasets OpenFinData_gen
更多细节更新在OpenCompass的文档中。
我们感谢所有参与OpenFinData项目的贡献者,包括但不限于数据收集、清洗、标注和评测的团队成员。特别感谢东方财富和上海人工智能实验室的支持。
本数据集仅供学术研究使用,请勿将此数据集用于任何的模型训练。
如有任何问题或建议,请通过以下方式联系我们:
- Email: opencompass@pjlab.org.cn
- GitHub Issues: OpenFinData GitHub页面
- 2023年12月29日: 发布了OpenFinData数据集的初始版本,包含1500条数据记录。