Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

train_dual_encoder 训练效果不好 #55

Closed
fallbernana123456 opened this issue Jul 26, 2022 · 6 comments
Closed

train_dual_encoder 训练效果不好 #55

fallbernana123456 opened this issue Jul 26, 2022 · 6 comments

Comments

@fallbernana123456
Copy link

fallbernana123456 commented Jul 26, 2022

我尝试用了一些训练集去训练dual_encoder ,但是效果不好
比如 可怜飞燕倚新妆\t\t《清平调》之二 李白\t\t"一枝秾艳露凝香,云雨巫山枉断肠。借问汉宫谁得似,可怜飞燕倚新妆。"\t0
但是我查询可怜飞燕倚新妆还是查不出来,
在dureader.para里存放了《清平调》之二 李白\t"一枝秾艳露凝香,云雨巫山枉断肠。借问汉宫谁得似,可怜飞燕倚新妆。"
并且使用了训练后的dual_encoder。
我想问下这个是我的训练集没写对吗还是有其他特别的要求
规格是: query \t\t title \t\t para \t 0,1 对吗?

@procedure2012
Copy link
Collaborator

训练数据集的格式是:
query \t title \t para \t title \t para \t 0 (没有空格)
第一组title+para是正例,第二组title+para是负例,0是固定占位用的。

测试时:
para格式:title \t para (没有空格)对应dureader.para
query格式:query \t - \t - \t 0(没有空格)对应dureader.q

@fallbernana123456
Copy link
Author

我在做dual_encoder训练的时候
《春兴》武元衡 \t《春兴》武元衡 \t "杨柳阴阴细雨晴,残花落尽见流莺。春风一夜吹乡梦,又逐春风到洛城。" \t《从军行》 \t 杨炯 "烽火照西京,心中自不平。牙璋辞凤阙,铁骑绕龙城。雪暗凋旗画,风多杂鼓声。宁为百夫长,胜作一书生。" \t 0
《春兴》武元衡 \t 《春兴》武元衡 \t "杨柳阴阴细雨晴,残花落尽见流莺。春风一夜吹乡梦,又逐春风到洛城。" \t 《南园》李贺 \t "方领蕙带折角巾,杜若已老兰苕春。南山削秀蓝玉合,小雨归去飞凉云。熟杏暖香梨叶老,草梢竹栅锁池痕。郑公乡老开酒尊,坐泛楚奏吟招魂。" \t 0
用这个做训练语料。 但是搜《春兴》武元衡 春兴 武元衡 都不能命中。但是下面的诗句比如杨柳阴阴细雨晴都能命中。而且很多语料里 模式 《XX》XXXX 都命中不了。能帮看看你们以前遇到过这样的问题吗?

@procedure2012
Copy link
Collaborator

请问训练集有多大呢?是从头开始训练还是在现有的某个模型上开始训练的?

@fallbernana123456
Copy link
Author

从头开始和从现有模型上继续训练都不行。

@fallbernana123456
Copy link
Author

训练集大概由5万条数据

@fallbernana123456
Copy link
Author

fallbernana123456 commented Jul 28, 2022

我错了。忘记操作index了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants