In [1]:
import torch
import pandas as pd
from transformers import AutoTokenizer, AutoModel
from tools.standard_name_utils import optimize_parameters
from tools.common_utils import highlight_diff, read_jsonl

# model_path = "../ChatGLM2-6B/ptuning/output/checkpoint-100"
model_path = "../../train-result/2024-06-17/checkpoint-500"
top_p=0.7 
temperature=0.95

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()
model = model.eval()

Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.
Loading checkpoint shards: 100%|██████████| 6/6 [01:46<00:00, 17.80s/it]


In [3]:
response, history = model.chat(tokenizer, "你好", history=[], top_p=top_p, temperature=temperature)
print(response)

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


你好👋！我是人工智能助手 ChatGLM3-6B，很高兴见到你，欢迎问我任何问题。


### 评估一下训练数据的情况

In [None]:
json_file_path = 'data/train.json'
data_list = read_jsonl(json_file_path)

df = pd.DataFrame(data_list)
df.head()

In [None]:
from random import random

total_eval_count = 0.0
correct_count = 0.0

for index, row in df.iterrows():
    if random() <= 0.9:
        continue
    
    input = row["input"]
    output = row["output"]
    response, history = model.chat(tokenizer=tokenizer, query=input, history=[], top_p=top_p, temperature=temperature)
    
    total_eval_count += 1
    if response == output:
        correct_count += 1
    else:
        print("-----data index-----")
        print(index)
        print("-----query input-----")
        print(input)
        print("-----output diff-----")
        print(highlight_diff(output, response))
        print(response)
        print()
    
    if total_eval_count == 100:
        break
    
print("预测正确的比例：" + f"{correct_count / total_eval_count :.2%}")

In [4]:
json_file_path = 'data/dev.json'
data_list = read_jsonl(json_file_path)

df = pd.DataFrame(data_list)
df.head()

Unnamed: 0,input,output
0,你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。...,"{""relevant APIs"": [{""api_id"": ""0"", ""api_name"":..."
1,你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。...,"{""relevant APIs"": [{""api_id"": ""0"", ""api_name"":..."
2,你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。...,"{""relevant APIs"": [{""api_id"": ""0"", ""api_name"":..."
3,你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。...,"{""relevant APIs"": [{""api_id"": ""0"", ""api_name"":..."
4,你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。...,"{""relevant APIs"": [{""api_id"": ""0"", ""api_name"":..."


In [5]:
data_stock = pd.read_excel('data/标准名.xlsx',sheet_name='股票标准名')
data_fund = pd.read_excel('data/标准名.xlsx',sheet_name='基金标准名')

fund_standard_name = data_fund['标准基金名称'].to_list()
stock_standard_name = data_stock['标准股票名称'].to_list()

In [None]:
stock_standard_name[:5]

In [7]:
from random import random

total_eval_count = 0.0
correct_count = 0.0

for index, row in df.iterrows():
    if random() <= 0.9:
        continue
    
    input = row["input"]
    output = row["output"]
    response, history = model.chat(tokenizer=tokenizer, query=input, history=[], top_p=top_p, temperature=temperature)
    
    optimized_resp = optimize_parameters(response, fund_standard_name, stock_standard_name)
    
    total_eval_count += 1
    if optimized_resp == output:
        correct_count += 1
    else:
        print("-----data index-----")
        print(index)
        print("-----query input-----")
        print(input)
        print("-----output diff-----")
        print(highlight_diff(output, optimized_resp))
        print(optimized_resp)
        print()
    
    if total_eval_count == 20:
        break
    
print("预测正确的比例：" + f"{correct_count / total_eval_count :.2%}")

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
5
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：昨天成交量是70万8300股，而上个月最低价是5.71元的股票有哪些？ 
 query中提到的产品标准名可能是：兴全中证800六个月持有期指数增强型证券投资基金C类、兴全中证800六个月持有期指数增强型证券投资基金A类、富国医药成长30股票型证券投资基金、申万菱信沪深300价值指数证券投资基金C类、申万菱信沪深300价值指数证券投资基金A类、大成睿裕六个月持有期股票型证券投资基金C类、大成睿裕六个月持有期股票型证券投资基金A类、富国沪深300基本面精选股票型证券投资基金C类、富国沪深300基本面精选股票型证券投资基金A类、招商科技动力3个月滚动持有股票型证券投资基金C类、招商科技动力3个月滚动持有股票型证券投资基金A类、安信均衡成长18个月持有期混合型证券投资基金C类、安信均衡成长18个月持有期混合型证券投资基金A类、中航量化阿尔法六个月持有期股票型证券投资基金C类、中航量化阿尔法六个月持有期股票型证券投资基金A类、中庚港股通价值18个月封闭运作股票型证券投资基金、申万菱信沪深300价值交易型开放式指数证券投资基金、大成尊享18个月持有期混合型发起式证券投资基金C类、大成尊享18个月持有期混合型发起式证券投资基金A类、国投瑞银港股通6个月定期开放股票型发起式证券投资基金、浙商汇金卓越优选3个月持有期股票型基金中基金(FOF)、新华精选成长主题3个月持有期混合型基金中基金(FOF)、同泰积极配置3个月持有期股票型基金中基金(FOF)C类、同泰积极配置3个月持有期股票型基金中基金(FOF)A类、大成沪深300指数证券投资基金、嘉实低价策略股票型证券投资基金、申万宏源季季优选3个月滚动持有债券型集合资产管理计划C类、申万宏源季季优选3个月滚动持有债券型集合资产管理计划A类、工银瑞信中证500六个月持有期指数增强型证券投资基金C类、工银瑞信中证500六个月持有期指数增强型证券投资基金A类、天弘睿享3个月持有期混合型发起式基金中基金(FOF)C类、天弘睿享3个月持有期混合型发起式基金中基金(FOF)A类、银华中国梦30股票型证券投资基金、南方天元新产业股票型证券投资基金、长江量化科技

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
7
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我5000块要全投鹏华一带一路(LOF)A，扣除认购费用后真正可以投入的金额是多少 
 query中提到的产品标准名可能是：鹏华中证一带一路主题指数型证券投资基金(LOF)A类、鹏华中证一带一路主题指数型证券投资基金(LOF)C类、鹏华中证500指数证券投资基金(LOF)A类、易方达标普500指数证券投资基金(LOF)A类、富国中证500指数增强型证券投资基金(LOF)A类、中信保诚中证500指数型证券投资基金(LOF)A类、富国中证1000指数增强型证券投资基金(LOF)A类、财通资管中证500指数增强型证券投资基金(LOF)A类、西部利得中证500指数增强型证券投资基金(LOF)A类、汇添富中证500指数型发起式证券投资基金(LOF)A类、易方达标普500指数证券投资基金(LOF)(美元)A类、鹏华中证500指数证券投资基金(LOF)C类、易方达上证50指数证券投资基金(LOF)A类、广发深证100指数证券投资基金(LOF)A类、海富通中证100指数证券投资基金(LOF)A类、易方达标普500指数证券投资基金(LOF)C类、富国中证500指数增强型证券投资基金(LOF)、宏利中证500指数增强型证券投资基金(LOF)、融通巨潮100指数证券投资基金(LOF)A/B类、中金中证优选300指数证券投资基金(LOF)A类、广发中证500交易型开放式指数证券投资基金联接基金(LOF)A类、南方中证500交易型开放式指数证券投资基金联接基金(LOF)A类、鹏华中证空天一体军工指数证券投资基金(LOF)A类、长盛中证申万一带一路主题指数证券投资基金(LOF)、浙商沪深300指数增强型证券投资基金(LOF)A类、易方达中小企业100指数证券投资基金(LOF)A类、建信沪深300指数增强型证券投资基金(LOF)A类、富国中证500指数增强型证券投资基金(LOF)C类、大成中华沪深港300指数证券投资基金(LOF)A类、兴全沪深300指数增强型证券投资基金(LOF)A类、中信保诚沪深300指数型证券投资基金(LOF)A类、中信保诚中证500指数型证券投资基金(LOF)C类、银华中证中票5

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
16
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我想知道我昨天和今天一共买了200股川金诺，现在总共的市值是多少 
 query中提到的产品标准名可能是：天弘国证2000指数增强型证券投资基金C类、天弘国证2000指数增强型证券投资基金A类、前海开源强势共识100强等权重股票型证券投资基金、川金诺、泰信中证200指数证券投资基金、长盛同瑞中证200指数分级证券投资基金、天弘养老目标日期2030一年持有期混合型发起式基金中基金(FOF)、天弘中证500指数增强型证券投资基金C类、天弘中证500指数增强型证券投资基金A类、大成财富管理2020生命周期证券投资基金、博道沪深300指数增强型证券投资基金C类、博道沪深300指数增强型证券投资基金A类、博道中证500指数增强型证券投资基金C类、博道中证500指数增强型证券投资基金A类、招商和惠养老目标日期2040三年持有期混合型基金中基金(FOF)Y类、招商和惠养老目标日期2040三年持有期混合型基金中基金(FOF)A类、鹏华国证2000指数增强型证券投资基金C类、鹏华国证2000指数增强型证券投资基金A类、长盛同瑞中证200指数分级证券投资基金B类、长盛同瑞中证200指数分级证券投资基金A类、鑫元国证2000指数增强型证券投资基金C类、鑫元国证2000指数增强型证券投资基金A类、招商国证2000指数增强型证券投资基金C类、招商国证2000指数增强型证券投资基金A类、招商中证2000指数增强型证券投资基金C类、招商中证2000指数增强型证券投资基金A类、建信中国制造2025股票型证券投资基金C类、建信中国制造2025股票型证券投资基金A类、工银瑞信中国制造2025股票型证券投资基金、富国中证1000优选股票型证券投资基金C类、富国中证1000优选股票型证券投资基金A类、天弘沪深300交易型开放式指数证券投资基金、天弘中证800指数型发起式证券投资基金C类、天弘中证800指数型发起式证券投资基金A类、天弘中证500交易型开放式指数证券投资基金、天弘中证100指数型发起式证券投资基金C类、天弘中证100指数型发起式证券投资基金A类、天弘中证1000指数增强型证券投资基金C类、天弘中证

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
33
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我想知道我在誉辰上个月的最低价买入1000股，卖出在今日的最高价，我会赚多少钱？ 
 query中提到的产品标准名可能是：富国中证1000优选股票型证券投资基金C类、富国中证1000优选股票型证券投资基金A类、博道中证1000指数增强型证券投资基金C类、博道中证1000指数增强型证券投资基金A类、国泰君安中证1000优选股票型发起式证券投资基金C类、国泰君安中证1000优选股票型发起式证券投资基金A类、银河定投宝中证腾讯济安价值100A股指数型发起式证券投资基金、华夏中证智选1000价值稳健策略交易型开放式指数证券投资基金、华宝中证1000指数证券投资基金C类、华宝中证1000指数证券投资基金A类、鹏华中证1000指数增强型证券投资基金C类、鹏华中证1000指数增强型证券投资基金A类、长信中证1000指数增强型证券投资基金C类、长信中证1000指数增强型证券投资基金A类、财通中证1000指数增强型证券投资基金C类、财通中证1000指数增强型证券投资基金A类、浙商中证1000指数增强型证券投资基金C类、浙商中证1000指数增强型证券投资基金A类、明亚中证1000指数增强型证券投资基金C类、明亚中证1000指数增强型证券投资基金A类、招商中证1000指数增强型证券投资基金C类、招商中证1000指数增强型证券投资基金A类、太平中证1000指数增强型证券投资基金C类、太平中证1000指数增强型证券投资基金A类、天弘中证1000指数增强型证券投资基金C类、天弘中证1000指数增强型证券投资基金A类、国金中证1000指数增强型证券投资基金C类、国金中证1000指数增强型证券投资基金A类、博时中证1000指数增强型证券投资基金C类、博时中证1000指数增强型证券投资基金A类、华安中证1000指数增强型证券投资基金C类、华安中证1000指数增强型证券投资基金A类、华夏中证1000指数增强型证券投资基金C类、华夏中证1000指数增强型证券投资基金A类、兴银中证1000指数增强型证券投资基金C类、兴银中证1000指数增强型证券投资基金A类、中银中证1000指数增强型证券投资基金C类、中银中证

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
58
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：如果我3年前用5000元购买了财通恒利基金而且在1年前卖出，那么我会获得多少利润呢？ 
 query中提到的产品标准名可能是：财通恒利纯债债券型证券投资基金、建信沪深300红利交易型开放式指数证券投资基金、嘉实沪深300红利低波动交易型开放式指数证券投资基金、前海开源中证500等权重交易型开放式指数证券投资基金、财通景利纯债债券型证券投资基金、财通弘利纯债债券型证券投资基金、大成沪深300指数证券投资基金、鹏华沪深300交易型开放式指数证券投资基金(2013)、人保沪深300指数型证券投资基金、人保中证500指数型证券投资基金、财通多利纯债债券型证券投资基金E类、财通多利纯债债券型证券投资基金C类、财通多利纯债债券型证券投资基金A类、诺德深证300指数分级证券投资基金、富国沪深300增强证券投资基金C类、富国沪深300增强证券投资基金A类、大成沪深300指数证券投资基金C类、国泰沪深300指数证券投资基金C类、国泰沪深300指数证券投资基金A类、华安沪深300指数分级证券投资基金、农银汇理中证500指数证券投资基金、万家信用恒利债券型证券投资基金D类、万家信用恒利债券型证券投资基金C类、万家信用恒利债券型证券投资基金A类、易方达沪深300量化增强证券投资基金、招商沪深300高贝塔指数证券投资基金、平安深证300指数增强型证券投资基金、南方大数据300指数证券投资基金C类、南方大数据300指数证券投资基金A类、华宝中证1000指数证券投资基金C类、华宝中证1000指数证券投资基金A类、华商300智选混合型证券投资基金C类、华商300智选混合型证券投资基金A类、东吴沪深300指数型证券投资基金A类、长城久泰沪深300指数证券投资基金C类、长城久泰沪深300指数证券投资基金A类、银河沪深300价值指数证券投资基金C类、银河沪深300价值指数证券投资基金A类、诺德深证300指数分级证券投资基金B类、诺德深证300指数分级证券投资基金A类、深证300交易型开放式指数证券投资基金、工银瑞信沪深300指数证券投资基金C类、工银瑞信沪深300指数证券投资基金A类、大成沪深300指数证券投

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
67
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：如果我五年前用5000块买的国联安科创板50C基金，在过去一年里，我每个月要支付的管理费是多少？ 
 query中提到的产品标准名可能是：国联安上证科创板50成份交易型开放式指数证券投资基金、国联安上证科创板50成份交易型开放式指数证券投资基金联接基金C类、国联安上证科创板50成份交易型开放式指数证券投资基金联接基金A类、华安上证科创板50成份交易型开放式指数证券投资基金、华安创业板50指数型证券投资基金C类、华安创业板50指数型证券投资基金A类、国联安科技创新混合型证券投资基金(LOF)、华安创业板50交易型开放式指数证券投资基金、国联安创业板科技交易型开放式指数证券投资基金、国联安中证消费50交易型开放式指数证券投资基金、华安上证科创板50成份交易型开放式指数证券投资基金发起式联接基金C类、华安上证科创板50成份交易型开放式指数证券投资基金发起式联接基金A类、富国中证科创创业50交易型开放式指数证券投资基金、国泰中证科创创业50交易型开放式指数证券投资基金、国泰上证科创板100交易型开放式指数证券投资基金、广发上证科创板50成份交易型开放式指数证券投资基金、天弘上证科创板50成份指数型发起式证券投资基金C类、天弘上证科创板50成份指数型发起式证券投资基金A类、国联金如意双利一年持有期债券型集合资产管理计划C类、国联金如意双利一年持有期债券型集合资产管理计划A类、国联金如意3个月滚动持有债券型集合资产管理计划C类、国联金如意3个月滚动持有债券型集合资产管理计划A类、国泰君安科创板量化选股股票型发起式证券投资基金C类、国泰君安科创板量化选股股票型发起式证券投资基金A类、博时上证科创板50成份指数型发起式证券投资基金C类、博时上证科创板50成份指数型发起式证券投资基金A类、南方上证科创板50成份交易型开放式指数证券投资基金、华安创业板50指数分级证券投资基金之稳健收益类份额、华安创业板50指数分级证券投资基金之积极收益类份额、华夏上证科创板50成份交易型开放式指数证券投资基金、国联安新科技混合型证券投资基金、景顺长城上证科创板50成份指数增强型证券投资基金C类、景顺长城上证

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
86
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：昨天有没有股票涨幅是1.82%呢，或者你知道上个月开盘价格正好是10块94的是哪些股票吗？ 
 query中提到的产品标准名可能是：中庚港股通价值18个月封闭运作股票型证券投资基金、中欧天添18个月定期开放债券型证券投资基金C类、中欧天添18个月定期开放债券型证券投资基金A类、中欧天尚18个月定期开放债券型证券投资基金C类、中欧天尚18个月定期开放债券型证券投资基金A类、中欧天启18个月定期开放债券型证券投资基金C类、中欧天启18个月定期开放债券型证券投资基金A类、财通鼎欣量化选股18个月定期开放混合型证券投资基金、国投瑞银港股通6个月定期开放股票型发起式证券投资基金、鹏华永泽18个月定期开放债券型证券投资基金、鹏华永泰18个月定期开放债券型证券投资基金、鹏华永安18个月定期开放债券型证券投资基金、招商招盈18个月定期开放债券型证券投资基金、广发鑫盛18个月定期开放混合型证券投资基金、博时安誉18个月定期开放债券型证券投资基金、博时安荣18个月定期开放债券型证券投资基金、华夏恒益18个月定期开放债券型证券投资基金、九泰锐和18个月定期开放混合型证券投资基金、鹏华尊惠18个月定期开放混合型证券投资基金C类、鹏华尊惠18个月定期开放混合型证券投资基金A类、银华信用精选18个月定期开放债券型证券投资基金、财通内需增长12个月定期开放混合型证券投资基金、德邦纯债18个月定期开放债券型证券投资基金C类、德邦纯债18个月定期开放债券型证券投资基金A类、广发汇安18个月定期开放债券型证券投资基金C类、广发汇安18个月定期开放债券型证券投资基金A类、工银瑞信瑞盈18个月定期开放债券型证券投资基金、富国融享18个月定期开放混合型证券投资基金C类、富国融享18个月定期开放混合型证券投资基金A类、博时弘裕18个月定期开放债券型证券投资基金C类、博时弘裕18个月定期开放债券型证券投资基金A类、博时弘康18个月定期开放债券型证券投资基金C类、博时弘康18个月定期开放债券型证券投资基金A类、博时安瑞18个月定期开放债券型证券投资基金C类、博时安瑞18个月定期开放债券型证券投资基金A类、博时安源18个

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
98
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我购买2次新能源80，第一次是1000块3年前，第二次是2000块1年前，现在卖出了，会赚多少钱？ 
 query中提到的产品标准名可能是：同泰新能源优选1年持有期股票型证券投资基金C类、同泰新能源优选1年持有期股票型证券投资基金A类、银河中债-1-3年久期央企20债券指数证券投资基金、鹏华沪深300交易型开放式指数证券投资基金(2013)、中邮中债-1-3年久期央企20债券指数证券投资基金C类、中邮中债-1-3年久期央企20债券指数证券投资基金A类、华宝中证1000指数证券投资基金C类、华宝中证1000指数证券投资基金A类、诺德中证研发创新100指数型证券投资基金、鹏华国证2000指数增强型证券投资基金C类、鹏华国证2000指数增强型证券投资基金A类、鹏华中证1000指数增强型证券投资基金C类、鹏华中证1000指数增强型证券投资基金A类、长信中证1000指数增强型证券投资基金C类、长信中证1000指数增强型证券投资基金A类、鑫元国证2000指数增强型证券投资基金C类、鑫元国证2000指数增强型证券投资基金A类、财通中证1000指数增强型证券投资基金C类、财通中证1000指数增强型证券投资基金A类、浙商中证1000指数增强型证券投资基金C类、浙商中证1000指数增强型证券投资基金A类、明亚中证1000指数增强型证券投资基金C类、明亚中证1000指数增强型证券投资基金A类、招商国证2000指数增强型证券投资基金C类、招商国证2000指数增强型证券投资基金A类、招商中证2000指数增强型证券投资基金C类、招商中证2000指数增强型证券投资基金A类、招商中证1000指数增强型证券投资基金C类、招商中证1000指数增强型证券投资基金A类、富国中证1000优选股票型证券投资基金C类、富国中证1000优选股票型证券投资基金A类、太平中证1000指数增强型证券投资基金C类、太平中证1000指数增强型证券投资基金A类、天弘国证2000指数增强型证券投资基金C类、天弘国证2000指数增强型证券投资基金A类、天弘中证1000指数增强型证券投资基金C类、天弘中证1000指数增强型证券投资基金A

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
115
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我想知道哪些股票的总市值正好是39亿零340万4151元46分，或者最近三天主力资金的净流出了大约394.9万元。 
 query中提到的产品标准名可能是：合煦智远诚正30天持有期债券型证券投资基金C类、合煦智远诚正30天持有期债券型证券投资基金A类、诺德深证300指数分级证券投资基金、博道红利智航股票型证券投资基金C类、博道红利智航股票型证券投资基金A类、博道消费智航股票型证券投资基金C类、博道消费智航股票型证券投资基金A类、博道成长智航股票型证券投资基金C类、博道成长智航股票型证券投资基金A类、博道叁佰智航股票型证券投资基金C类、博道叁佰智航股票型证券投资基金A类、博道伍佰智航股票型证券投资基金C类、博道伍佰智航股票型证券投资基金A类、华安沪深300指数分级证券投资基金、广发理财30天债券型证券投资基金B类、博时理财30天债券型证券投资基金B类、南方理财14天债券型证券投资基金B类、南方理财14天债券型证券投资基金A类、华夏理财30天债券型证券投资基金B类、华夏理财30天债券型证券投资基金A类、中银理财14天债券型证券投资基金B类、中银理财14天债券型证券投资基金A类、长江90天持有期债券型证券投资基金C类、长江90天持有期债券型证券投资基金A类、诺德深证300指数分级证券投资基金B类、诺德深证300指数分级证券投资基金A类、汇添富理财30天债券型证券投资基金B类、汇添富理财14天债券型证券投资基金B类、汇添富理财14天债券型证券投资基金A类、富达90天持有期债券型证券投资基金C类、富达90天持有期债券型证券投资基金A类、长盛添利30天理财债券型证券投资基金B类、长盛添利30天理财债券型证券投资基金A类、长城久兆中小板300指数分级证券投资基金、长信90天滚动持有债券型证券投资基金C类、长信90天滚动持有债券型证券投资基金A类、鑫元长三角区域主题混合型证券投资基金C类、鑫元长三角区域主题混合型证券投资基金A类、安信90天滚动持有债券型证券投资基金C类、安信90天滚动持有债券型证券投资基金A类、博道沪深300指数增强型证券投资基金C类、博道沪深300指数增强型证券投资

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
125
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：有没有夏普率过去三个月是负137.35%或者在过去三年里创下新高是614次的基金？ 
 query中提到的产品标准名可能是：华夏上证3-5年期中高评级可质押信用债交易型开放式指数证券投资基金、东海鑫宁利率债三个月定期开放债券型证券投资基金、华夏中债3-5年政策性金融债指数证券投资基金C类、华夏中债3-5年政策性金融债指数证券投资基金A类、华夏中债1-3年政策性金融债指数证券投资基金C类、华夏中债1-3年政策性金融债指数证券投资基金A类、华夏养老目标日期2035三年持有期混合型发起式基金中基金(FOF)Y类、华夏养老目标日期2035三年持有期混合型发起式基金中基金(FOF)C类、华夏养老目标日期2035三年持有期混合型发起式基金中基金(FOF)A类、建信裕丰利率债三个月定期开放债券型证券投资基金C类、建信裕丰利率债三个月定期开放债券型证券投资基金A类、华夏鼎诺三个月定期开放债券型发起式证券投资基金C类、华夏鼎诺三个月定期开放债券型发起式证券投资基金A类、华夏鼎祥三个月定期开放债券型发起式证券投资基金C类、华夏鼎祥三个月定期开放债券型发起式证券投资基金A类、华夏鼎瑞三个月定期开放债券型发起式证券投资基金C类、华夏鼎瑞三个月定期开放债券型发起式证券投资基金A类、中航瑞安利率债三个月定期开放债券型证券投资基金C类、中航瑞安利率债三个月定期开放债券型证券投资基金A类、华夏福泽养老目标日期2035三年持有期混合型发起式基金中基金(FOF)Y类、华夏福泽养老目标日期2035三年持有期混合型发起式基金中基金(FOF)A类、华夏创新前沿股票型证券投资基金、华夏聚锐优选三个月持有期混合型基金中基金(FOF)C类、华夏聚锐优选三个月持有期混合型基金中基金(FOF)A类、华夏聚源优选三个月持有期混合型基金中基金(FOF)C类、华夏聚源优选三个月持有期混合型基金中基金(FOF)A类、华夏聚恒优选三个月持有期混合型基金中基金(FOF)C类、华夏聚恒优选三个月持有期混合型基金中基金(FOF)A类、华夏聚安优选三个月持有期混合型基金中基金(FOF)C类、华夏聚安优选三个月持有期混合型基金中基金(FOF

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
175
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：我想知道如果我昨天买大化的股票，我今天卖出的话对比昨天的买入价赚了多少？ 
 query中提到的产品标准名可能是：九泰天利量化股票型证券投资基金C类、九泰天利量化股票型证券投资基金A类、九泰天辰量化新动力股票型证券投资基金、天弘文化新兴产业股票型证券投资基金C类、天弘文化新兴产业股票型证券投资基金A类、光大保德信创业板量化优选股票型证券投资基金C类、光大保德信创业板量化优选股票型证券投资基金A类、创金合信上证超大盘量化精选股票型发起式证券投资基金C类、创金合信上证超大盘量化精选股票型发起式证券投资基金A类、大成优选股票型证券投资基金、大成睿鑫股票型证券投资基金C类、大成睿鑫股票型证券投资基金A类、嘉实量化精选股票型证券投资基金、南方量化成长股票型证券投资基金、九泰久信量化股票型证券投资基金、长信量化中小盘股票型证券投资基金、建信多因子量化股票型证券投资基金、国泰大农业股票型证券投资基金C类、国泰大农业股票型证券投资基金A类、国泰大健康股票型证券投资基金C类、国泰大健康股票型证券投资基金A类、南方天元新产业股票型证券投资基金、中银大健康股票型证券投资基金C类、中银大健康股票型证券投资基金A类、鹏华文化传媒娱乐股票型证券投资基金、长城量化精选股票型证券投资基金C类、长城量化精选股票型证券投资基金A类、长城量化小盘股票型证券投资基金C类、长城量化小盘股票型证券投资基金A类、英大国企改革主题股票型证券投资基金、泰达宏利量化增强股票型证券投资基金、汇丰晋信大盘股票型证券投资基金C类、汇丰晋信大盘股票型证券投资基金A类、景顺长城量化精选股票型证券投资基金、景顺长城量化小盘股票型证券投资基金、摩根大盘蓝筹股票型证券投资基金C类、摩根大盘蓝筹股票型证券投资基金A类、建信量化事件驱动股票型证券投资基金、大成科技消费股票型证券投资基金C类、大成科技消费股票型证券投资基金A类、大成消费精选股票型证券投资基金C类、大成消费精选股票型证券投资基金A类、大成品质医疗股票型证券投资基金C类、大成品质医疗股票型证券投资基金A类、大成医药健康股票型证券投资基金C类、大成医药健康股票型证券投资基金A类、博

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


-----data index-----
202
-----query input-----
你现在是一个金融领域专家，你需要通过编排api来得到用户query的答案，输出json格式。query是：想了解下南方恒生A基金由成立至今的年化收益率是怎样的，以及其在同类型基金中的排名如何 
 query中提到的产品标准名可能是：东方强化收益债券型证券投资基金、南方恒生交易型开放式指数证券投资基金联接基金C类、南方恒生交易型开放式指数证券投资基金联接基金A类、大成强化收益定期开放债券型证券投资基金、大成强化收益定期开放债券型证券投资基金、南方亚洲美元收益债券型证券投资基金C类、南方亚洲美元收益债券型证券投资基金A类、南方恒生中国企业交易型开放式指数证券投资基金联接基金C类、南方恒生中国企业交易型开放式指数证券投资基金联接基金A类、东方成长收益灵活配置混合型证券投资基金C类、东方成长收益灵活配置混合型证券投资基金A类、南方收益宝货币市场基金B类、南方收益宝货币市场基金A类、汇添富恒生指数分级证券投资基金之稳健收益类份额、汇添富恒生指数分级证券投资基金之积极收益类份额、南方绝对收益策略定期开放混合型发起式证券投资基金、银河强化收益债券型证券投资基金、诺安优化收益债券型证券投资基金、南方宝恒混合型证券投资基金C类、南方宝恒混合型证券投资基金A类、南方亚洲美元收益债券型证券投资基金(美元现汇)C类、南方亚洲美元收益债券型证券投资基金(美元现汇)A类、易方达保证金收益货币市场基金B类、易方达保证金收益货币市场基金A类、银华恒生中国企业指数分级证券投资基金之稳健收益类份额、银华恒生中国企业指数分级证券投资基金之积极收益类份额、南方安享绝对收益策略定期开放混合型发起式证券投资基金、南方卓享绝对收益策略定期开放混合型发起式证券投资基金、金鹰民富收益混合型证券投资基金C类、金鹰民富收益混合型证券投资基金A类、富国天丰强化收益债券型证券投资基金、华安强化收益债券型证券投资基金B类、华安强化收益债券型证券投资基金A类、民生加银新收益债券型证券投资基金C类、民生加银新收益债券型证券投资基金A类、易方达稳健收益债券型证券投资基金B类、易方达稳健收益债券型证券投资基金A类、南方浩达稳健优选一年持有期混合型基金中基金(FOF)C类、南方浩达稳健优选一年持有期混合型基金中基金(FOF)A类、南方浩盈进取

Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
Both `max_new_tokens` (=1024) and `max_length`(=8192) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


预测正确的比例：40.00%


In [None]:
test_input = df.loc[35]["input"]
test_input

In [None]:
test_input = df.loc[19]["input"]
test_input += " 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价 请使用查询当前价"
response, history = model.chat(tokenizer=tokenizer, query=test_input, history=[], top_p=top_p, temperature=temperature)
optimized_resp = optimize_parameters(response, fund_standard_name, stock_standard_name)

output = df.loc[19]["output"]
print(highlight_diff(output, optimized_resp))
print(optimized_resp)

### 输出新的提交文件

In [None]:
test_json_file_path = 'data/test_a.json'
test_data_list = read_jsonl(test_json_file_path)

test_df = pd.DataFrame(test_data_list)
test_df.head()

In [None]:
total_eval_count = 0

with open('data/submit.txt','w', encoding="utf-8") as n:
    for index, row in test_df.iterrows():    
        input = row["input"]
        response, history = model.chat(tokenizer=tokenizer, query=input, history=[], top_p=top_p, temperature=temperature)
        
        optimized_resp = optimize_parameters(response, fund_standard_name, stock_standard_name)
        
        total_eval_count += 1
        n.write(optimized_resp+'\n')
        if total_eval_count % 10 == 0:
            print("现在是第" + f"{total_eval_count}" + "条数据")