Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

cpm ant++ tune训练之后infer不出想要结果 #254

Closed
touwenameng opened this issue Nov 29, 2022 · 23 comments
Closed

cpm ant++ tune训练之后infer不出想要结果 #254

touwenameng opened this issue Nov 29, 2022 · 23 comments

Comments

@touwenameng
Copy link

cpm ant++ 使用几十万级别的素材tune训练之后得到best.pt文件,但在推理阶段输入对应的input,得不到想要的结果,全是英文字符和---------这种符号,不知道哪块环节出了问题

@zh-zheng
Copy link
Collaborator

可以贴一下推理的阶段的关键代码

@touwenameng
Copy link
Author

(https://github.com/OpenBMB/CPM-Live/tree/cpm-ant-plus/cpm-live/examples/scripts)/LCSTS.sh,把tune部分注释掉了,官方例子运行
INFER_CMD="python -u infer_cpm_ant.py ${OPTS}"
echo ${INFER_CMD}
$INFER_CMD

@touwenameng
Copy link
Author

test.jsonl 文件如下:
{"input":"品牌:TCL;公司:TCL;产品:TCL T7E;型号:T7E;观点:大[文章]"}
{"input":"品牌:TCL;产品:TCL X11智屏;型号:TCL X11;屏幕分辨率:120Hz;充电效率:60W;功能:NFC投屏;观点:清晰流畅;屏幕刷新率:120Hz[文章]"}
{"input":"品牌:TCL;公司:TCL;产品:2.1声道扬声器;产品:TCL 98 Q10G;型号:98 Q10G;充电效率:50w;操作系统:2.1声道扬声器[文章]"}
{"input":"品牌:TCL;公司:TCL;观点:好;技术点:QLED量子点[文章]"}
{"input":"品牌:TCL;公司:TCL;型号:98Q10G;观点:不够;观点:不清晰;观点:高[文章]"}
{"input":"品牌:安桥音响;产品:98Q10G;型号:98Q10G;屏幕分辨率:1600尼特;配件:低音炮;屏幕刷新率:1600尼特;屏幕亮度:1600尼特[文章]"}
{"input":"产品:电动牙刷;品牌:舒克;口碑评价:品质;口碑评价:性价比[文章]"}
{"input":"产品:电动牙刷;品牌:飞利浦;品牌:usmile;口碑评价:续航能力;使用感受:续航能力[文章]"}

@touwenameng
Copy link
Author

训练50轮之后得到了十几M的best.pt,但是infer推理的结果好像不对,只显示了英文,还有很多-----------
[" on the internet. The company's website is at www.TCL.com. ----------------------------------", ", easy to use, and the price is right."", " " ", " ----------------------------------------------------", " ", " The company's website is at www.ambridge.com.au. The company's website is at www.ambridge.com.au. The company's website is at www.ambridge.com.au.", " [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price] [price]",

@touwenameng
Copy link
Author

可以贴一下推理的阶段的关键代码

您这边是否明白我调用的代码在哪

@zh-zheng
Copy link
Collaborator

我用你昨天贴的几条训练数据,few shot训练了一下模型,在测试集上至少能正常生成文章,如果训练数据更多则会有更好的效果。输出结果如下:
["每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中TCL T7E可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL X11智屏不但做到了NFC投屏,还超过了现在高刷定义的120Hz,做到了全通道120Hz输出。其采用全通道4K 120Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 120Hz的解决方案,并且同时向下兼容4K 60Hz和4K 60Hz。TCL X11智屏所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL98 Q10G不但做到了2.1声道扬声器全开,更是超过了现在高刷定义的50w输出功率,做到了全通道2.1声道扬声器全开。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。TCL98 Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "而高端产品意味着更高的毛利率,能够让TCL华星业绩的周期性波动得到一定缓冲。面板是公认的强周期行业,其周期性主要由产能和需求周期叠加经济周期造成的。自2021年下半年价格开始回落后,液晶面板的价格在2022年不断下探。集邦咨询TrendForce日前公布了6月上旬的面板报价,电视、液晶显示器和笔记本电脑显示面板价格持续下跌,其中以LED显示面板跌幅最大。而已经降至历史低点的面板价格还有可能继续下探。TrendForce称,目前电视、液晶显示器和笔记本电脑显示面板各尺寸应已跌破现金成本,预估6月份电视面板价将继续下跌。对于面板价格持续下跌,TCL集团创始人、董事长TCL希望能通过产业整合等方式缓解价格压力。", "每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中98Q10G可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。98Q10G不但做到了硬件不缩水,更是超过了现在高刷定义的1600尼特,做到了全通道1600尼特输出。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。98Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "2021年9月,电动牙刷品牌:舒克消费者口碑评价:品质;口碑评价:性价比在此,小编也为大家推荐几款好用的电动牙刷,大家可以参考一下。第一款:舒克声波电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。第二款:舒克电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到更好的清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。", "我试着用笔记本下载电脑版原神,手机应该回归轻便功能,游戏还是交给屏幕也相对较大的笔记本吧结果新的问题出现了,这个键盘我按起来实在难受电脑版原神画质可以开到更高不妥协于这个手感的我再次出击,为游戏体验购入朋友极力推荐的Philoden牙刷,虽然原神带也带得动,但屏幕实在太小了哇!没有办法美美欣赏CG,抱着在床上当平板还可以,但是拿着手柄以后,我对这个尺寸实在是充满了嫌弃不服输的我撇到了家里的电视,快速购入了转接头,嘿嘿,虽然只是42寸,但是已经比在笔记本上玩快乐多辽使用显示器做任务过剧情更有感觉"]

bash脚本如下:

#! /bin/bash
export CUDA_VISIBLE_DEVICES=0,1
GPUS_PER_NODE=2

NNODES=1
MASTER_ADDR=localhost
MASTER_PORT=12345

OPTS=""
OPTS+=" --dataset-name LCSTS"
OPTS+=" --dataset-path my_path/test"
OPTS+=" --output-path my_path/test"
OPTS+=" --model-path my_path/cpm-ant-plus-10b.pt"
OPTS+=" --config-path my_path/cpm-ant-plus-10b.json"
OPTS+=" --batch-size 6"
OPTS+=" --early-stop-patience 20"
OPTS+=" --eval-interval 50"
OPTS+=" --tune-maxlen 1024"
OPTS+=" --lr 1e-2"
OPTS+=" --warmup-iters 50"
OPTS+=" --epochs 100"
OPTS+=" --infer-maxlen 500"

TUNE_CMD="torchrun --nnodes=${NNODES} --nproc_per_node=${GPUS_PER_NODE} --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} tune_cpm_ant.py ${OPTS}"

echo ${TUNE_CMD}
$TUNE_CMD

INFER_CMD="python -u infer_cpm_ant.py ${OPTS}"
echo ${INFER_CMD}

所以请检查下你的使用方式是否有问题,比如检查下是否正确加载了config、checkpoint、训好的best.pt等。

@touwenameng
Copy link
Author

好的,我检查一下,训练集我这边用了几十万数据

@touwenameng
Copy link
Author

image
真的很奇怪啊,infer还是不行,路径都是对的呀,如果所示,模型已经显示delta成功了

@touwenameng
Copy link
Author

我用你昨天贴的几条训练数据,few shot训练了一下模型,在测试集上至少能正常生成文章,如果训练数据更多则会有更好的效果。输出结果如下: ["每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中TCL T7E可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL X11智屏不但做到了NFC投屏,还超过了现在高刷定义的120Hz,做到了全通道120Hz输出。其采用全通道4K 120Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 120Hz的解决方案,并且同时向下兼容4K 60Hz和4K 60Hz。TCL X11智屏所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL98 Q10G不但做到了2.1声道扬声器全开,更是超过了现在高刷定义的50w输出功率,做到了全通道2.1声道扬声器全开。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。TCL98 Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "而高端产品意味着更高的毛利率,能够让TCL华星业绩的周期性波动得到一定缓冲。面板是公认的强周期行业,其周期性主要由产能和需求周期叠加经济周期造成的。自2021年下半年价格开始回落后,液晶面板的价格在2022年不断下探。集邦咨询TrendForce日前公布了6月上旬的面板报价,电视、液晶显示器和笔记本电脑显示面板价格持续下跌,其中以LED显示面板跌幅最大。而已经降至历史低点的面板价格还有可能继续下探。TrendForce称,目前电视、液晶显示器和笔记本电脑显示面板各尺寸应已跌破现金成本,预估6月份电视面板价将继续下跌。对于面板价格持续下跌,TCL集团创始人、董事长TCL希望能通过产业整合等方式缓解价格压力。", "每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中98Q10G可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。98Q10G不但做到了硬件不缩水,更是超过了现在高刷定义的1600尼特,做到了全通道1600尼特输出。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。98Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "2021年9月,电动牙刷品牌:舒克消费者口碑评价:品质;口碑评价:性价比在此,小编也为大家推荐几款好用的电动牙刷,大家可以参考一下。第一款:舒克声波电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。第二款:舒克电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到更好的清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。", "我试着用笔记本下载电脑版原神,手机应该回归轻便功能,游戏还是交给屏幕也相对较大的笔记本吧结果新的问题出现了,这个键盘我按起来实在难受电脑版原神画质可以开到更高不妥协于这个手感的我再次出击,为游戏体验购入朋友极力推荐的Philoden牙刷,虽然原神带也带得动,但屏幕实在太小了哇!没有办法美美欣赏CG,抱着在床上当平板还可以,但是拿着手柄以后,我对这个尺寸实在是充满了嫌弃不服输的我撇到了家里的电视,快速购入了转接头,嘿嘿,虽然只是42寸,但是已经比在笔记本上玩快乐多辽使用显示器做任务过剧情更有感觉"]

bash脚本如下:

#! /bin/bash
export CUDA_VISIBLE_DEVICES=0,1
GPUS_PER_NODE=2

NNODES=1
MASTER_ADDR=localhost
MASTER_PORT=12345

OPTS=""
OPTS+=" --dataset-name LCSTS"
OPTS+=" --dataset-path my_path/test"
OPTS+=" --output-path my_path/test"
OPTS+=" --model-path my_path/cpm-ant-plus-10b.pt"
OPTS+=" --config-path my_path/cpm-ant-plus-10b.json"
OPTS+=" --batch-size 6"
OPTS+=" --early-stop-patience 20"
OPTS+=" --eval-interval 50"
OPTS+=" --tune-maxlen 1024"
OPTS+=" --lr 1e-2"
OPTS+=" --warmup-iters 50"
OPTS+=" --epochs 100"
OPTS+=" --infer-maxlen 500"

TUNE_CMD="torchrun --nnodes=${NNODES} --nproc_per_node=${GPUS_PER_NODE} --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} tune_cpm_ant.py ${OPTS}"

echo ${TUNE_CMD}
$TUNE_CMD

INFER_CMD="python -u infer_cpm_ant.py ${OPTS}"
echo ${INFER_CMD}

所以请检查下你的使用方式是否有问题,比如检查下是否正确加载了config、checkpoint、训好的best.pt等。

我知道原因了,之前训练时间太短了,没有训练完,现在跑到了220多iter还没停

@touwenameng
Copy link
Author

image
训练过程中Early stop at iteration 9700!loss 还有1.9370
这个问题大概是啥呢,推理结果还是不对,应该是还未训练结束,接下来该如何处理呢

@touwenameng
Copy link
Author

train和eval数据集的大概比例是多少,train如果是10万条的话,eval多少比较合适

@touwenameng
Copy link
Author

image
训练过程中Early stop at iteration 2500,batch size 32,推理结果还是错误

@touwenameng
Copy link
Author

image
代码配置如上所示,train.json9万条数据,eval9000条数据

@touwenameng
Copy link
Author

我用你昨天贴的几条训练数据,few shot训练了一下模型,在测试集上至少能正常生成文章,如果训练数据更多则会有更好的效果。输出结果如下: ["每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中TCL T7E可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL X11智屏不但做到了NFC投屏,还超过了现在高刷定义的120Hz,做到了全通道120Hz输出。其采用全通道4K 120Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 120Hz的解决方案,并且同时向下兼容4K 60Hz和4K 60Hz。TCL X11智屏所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。TCL98 Q10G不但做到了2.1声道扬声器全开,更是超过了现在高刷定义的50w输出功率,做到了全通道2.1声道扬声器全开。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。TCL98 Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "而高端产品意味着更高的毛利率,能够让TCL华星业绩的周期性波动得到一定缓冲。面板是公认的强周期行业,其周期性主要由产能和需求周期叠加经济周期造成的。自2021年下半年价格开始回落后,液晶面板的价格在2022年不断下探。集邦咨询TrendForce日前公布了6月上旬的面板报价,电视、液晶显示器和笔记本电脑显示面板价格持续下跌,其中以LED显示面板跌幅最大。而已经降至历史低点的面板价格还有可能继续下探。TrendForce称,目前电视、液晶显示器和笔记本电脑显示面板各尺寸应已跌破现金成本,预估6月份电视面板价将继续下跌。对于面板价格持续下跌,TCL集团创始人、董事长TCL希望能通过产业整合等方式缓解价格压力。", "每逢618,各家电品牌都卯足了劲、使出浑身解数点燃消费者购物热情,因此各大厂商销量也随之增加、捷报频传。在各品类的角逐中,以家庭娱乐为核心刚需的电视品类爆款频出,其中国货大品牌TCL凭借绝佳的产品力和消费者口碑,在618狂欢活动开启的58秒,销售额就突破了1亿大关,更是在短短10分钟内就达到了2亿销售额,成功拿下天猫618电视和京东平板电视品牌排行榜双第一,无疑是家电赛道上的实力领跑者。在TCL持续霸榜的同时,旗下多款电视产品均成为了今年618当之无愧的热销爆款。其中98Q10G可以说是备受年轻消费群体所追捧,其凭借着“不牺牲清晰度的高刷屏,才是真电竞大屏”的主张,真正成为了一款不忽悠年轻人的真高刷电视,已经收获越来越多游戏玩家的青睐。", "为何高刷还有真假之分呢?虽说很多厂商都想实现真高刷,但是迫于显示技术的限制,大部分的电视厂商都无法实现真正的高刷新率,只能通过屏体减配、插帧技术、芯片减配等隐蔽手段实现的伪高刷来充当真高刷。这类高刷是以牺牲一定画面清晰度为代价的,看似提高了刷新率,实则大大降低了画质。98Q10G不但做到了硬件不缩水,更是超过了现在高刷定义的1600尼特,做到了全通道1600尼特输出。其采用全通道4K 144Hz“真高刷”技术,从传输接口、解码接口、显示接口都实现了4K 144Hz的解决方案,并且同时向下兼容4K 120Hz和4K 60Hz。98Q10G所呈现的视觉解决方案,能够真正保证高刷的同时兼顾高显。", "2021年9月,电动牙刷品牌:舒克消费者口碑评价:品质;口碑评价:性价比在此,小编也为大家推荐几款好用的电动牙刷,大家可以参考一下。第一款:舒克声波电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。第二款:舒克电动牙刷。推荐理由:国产大牌,品质有保障。这款电动牙刷有两大优势:第一,国内市场上唯一一款采用声波技术的电动牙刷,可以更好地清除牙缝里的污垢,达到更好的清洁效果。第二,这款电动牙刷不仅有声波技术,还有电脉冲技术,能更好地清除牙缝里的污垢,达到更好的清洁效果。", "我试着用笔记本下载电脑版原神,手机应该回归轻便功能,游戏还是交给屏幕也相对较大的笔记本吧结果新的问题出现了,这个键盘我按起来实在难受电脑版原神画质可以开到更高不妥协于这个手感的我再次出击,为游戏体验购入朋友极力推荐的Philoden牙刷,虽然原神带也带得动,但屏幕实在太小了哇!没有办法美美欣赏CG,抱着在床上当平板还可以,但是拿着手柄以后,我对这个尺寸实在是充满了嫌弃不服输的我撇到了家里的电视,快速购入了转接头,嘿嘿,虽然只是42寸,但是已经比在笔记本上玩快乐多辽使用显示器做任务过剧情更有感觉"]
bash脚本如下:

#! /bin/bash
export CUDA_VISIBLE_DEVICES=0,1
GPUS_PER_NODE=2

NNODES=1
MASTER_ADDR=localhost
MASTER_PORT=12345

OPTS=""
OPTS+=" --dataset-name LCSTS"
OPTS+=" --dataset-path my_path/test"
OPTS+=" --output-path my_path/test"
OPTS+=" --model-path my_path/cpm-ant-plus-10b.pt"
OPTS+=" --config-path my_path/cpm-ant-plus-10b.json"
OPTS+=" --batch-size 6"
OPTS+=" --early-stop-patience 20"
OPTS+=" --eval-interval 50"
OPTS+=" --tune-maxlen 1024"
OPTS+=" --lr 1e-2"
OPTS+=" --warmup-iters 50"
OPTS+=" --epochs 100"
OPTS+=" --infer-maxlen 500"

TUNE_CMD="torchrun --nnodes=${NNODES} --nproc_per_node=${GPUS_PER_NODE} --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=${MASTER_ADDR}:${MASTER_PORT} tune_cpm_ant.py ${OPTS}"

echo ${TUNE_CMD}
$TUNE_CMD

INFER_CMD="python -u infer_cpm_ant.py ${OPTS}"
echo ${INFER_CMD}

所以请检查下你的使用方式是否有问题,比如检查下是否正确加载了config、checkpoint、训好的best.pt等。

我知道原因了,之前训练时间太短了,没有训练完,现在跑到了220多iter还没停

的确不知道问题出在哪了,前晚和昨晚的训练都是提前停止,然后推理结果不对,能辛苦看看我的配置吗

@zh-zheng
Copy link
Collaborator

zh-zheng commented Dec 2, 2022

early stop是因为你在验证集上的loss连续20次高于之前的最低loss。你需要看下验证集上的最低loss是多少(按你当前的配置,应为停止时的步数的前1000步),然后看下和训练集上loss的差距。

@touwenameng
Copy link
Author

如果总数据量在10万,训练集和验证集的比例多少合适

@zh-zheng
Copy link
Collaborator

zh-zheng commented Dec 2, 2022

如果总数据量在10万,训练集和验证集的比例多少合适

你现在的比例就可以。但是你需要确定验证集和训练集格式一样,并且验证集是从整体数据集里随机抽取的。剩下的就是需要你自己调节超参数,特别是学习率,让模型更好的收敛,在验证集上的loss尽可能低。

@touwenameng
Copy link
Author

好的,感谢回复,我看您例子 --lr 1e-2,官方例子是2e-2

@zh-zheng
Copy link
Collaborator

zh-zheng commented Dec 4, 2022

另外,确认下你的bmtrain版本是否为0.1.8.post1

@touwenameng
Copy link
Author

另外,确认下你的bmtrain版本是否为0.1.8.post1

还真不是,pip install 的时候提示只有0.1.8版本,我换一个试试,难怪模型一直训练不出来

@touwenameng
Copy link
Author

bmtrain没有升级到0.1.8.post1之前,使用了8卡进行训练,结果是train的loss每个epoch都下降明显,但是eval的loss下降2个epoch之后不降反升,感觉是过拟合了(8卡使用batch是48,lr是1e-02)
bmtrain升级到0.1.8.post1之后,使用了4卡进行训练,batch是24,lr是1e-02,训练表现出来的现象是单次iteration lr从5e-04一直升级到1.3e-03之后到达峰值,此后单次iteration lr一路下降,每50个iteration下降loss0.01到0.03,训练速度很慢,不知道是何原因,参数上是否还有调整的空间

@touwenameng
Copy link
Author

现在有点摸不准到底该用几张显卡,然后batch和lr究竟设置成啥比较合适了

@zh-zheng
Copy link
Collaborator

zh-zheng commented Dec 5, 2022

bmtrain没有升级到0.1.8.post1之前,使用了8卡进行训练,结果是train的loss每个epoch都下降明显,但是eval的loss下降2个epoch之后不降反升,感觉是过拟合了(8卡使用batch是48,lr是1e-02) bmtrain升级到0.1.8.post1之后,使用了4卡进行训练,batch是24,lr是1e-02,训练表现出来的现象是单次iteration lr从5e-04一直升级到1.3e-03之后到达峰值,此后单次iteration lr一路下降,每50个iteration下降loss0.01到0.03,训练速度很慢,不知道是何原因,参数上是否还有调整的空间

  1. 这是因为没升级0.1.8.post1前,不是真正在做delta tuning,实际你跑的是全参数微调,所以loss下降的更快。
  2. 这个lr先升后降是正常的,因为有lr scheduler存在。
  3. batch和lr等超参数应根据你的数据量、计算资源、训练集loss、验证集loss自行决定
  4. 如果仍有问题,建议加入OpenBMB交流群735930538,在群内继续提问。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants