关于预测准确率 #11

yun97 · 2018-12-13T13:39:10Z

我用您的代码跑了一下数据，eval accuracy 只有0.1,predict 的结果并没有图片中的80%那么高？

hxs91 · 2018-12-14T05:45:31Z

我也是，按照这个思路跑出来感觉不对劲。。

supergyz · 2018-12-16T14:51:37Z

我用您的代码跑了一下数据，eval accuracy 只有0.1,predict 的结果并没有图片中的80%那么高？

没有shuffle数据的原因 @yun97 @hxs91

jotline · 2018-12-17T07:21:07Z

然而shuf之后也只有0.58的eval_accuracy.

supergyz · 2018-12-17T07:34:01Z

@jotline 两个原因。你看下data下的数据，第一行其实是噪音建议删去，稍微修改下_create_examples函数。因为如果先shuffle的话，第一行会被当成训练数据进去，更糟糕的是会多了个label变成11分类。第二个就加大步长，原文中写的是3000多步，也就是100epochs；我跑到1000步最高达到0.71，之后就没试过了。

jotline · 2018-12-17T07:44:33Z

@supergyz 好的，十分感谢🙏。我再试试看

jotline · 2018-12-18T07:51:55Z

@supergyz 我跑了30000步，仍然是0.66左右。我估摸着数据有点少，导致测试集准确度太低。我换了一个6分类的场景，可以达到0.84的acc

h123c · 2018-12-18T13:00:10Z

我开始也是0.1,看到上面的讨论才反应过来,只是对数据去掉第一行并shuffle后变为79%,可能会有浮动.

yun97 · 2018-12-19T00:15:41Z

@supergyz 非常感谢！

jotline · 2018-12-19T03:43:54Z

@supergyz 可以直接跑一下官方的run_classifier.py，多加一些trainset的规模80%不难，我用我自己的数据集可以跑到挺高。

sportzhang · 2018-12-20T12:06:54Z

@jotline 你用的英文还是中文？

h123c · 2018-12-21T02:47:46Z

@h123c 你好，run_classifier的代码能发给我下吗。。刚才试了下还是0.66。。有点绝望。。

就是这里的原码,没有动,但是数据集处理了一下

sportzhang · 2018-12-21T07:30:52Z

shuffle之后，跑到0.81是没什么问题的。

jotline · 2018-12-24T01:24:09Z

@jotline 你用的英文还是中文？

我的数据集还比较复杂，有英文有中文，还有其他语言。

jotline · 2018-12-24T01:25:50Z

@supergyz 我感觉是数据不太够？我跑的自己的多语种数据集，代码没有变，可以跑很高。后来没用tf版的bert了，pytorch版非常好用，速度也快。

sportzhang · 2018-12-25T00:21:39Z

@supergyz 我是shuffle了一个与数据等长的list,然后分别对每个字段按照shuffle后的listc重排，参数没有改动。

hxs91 · 2018-12-25T02:20:16Z

的确需要做shuffle，我之前以为代码中是有做shuffle的…在processor的_create_esamples中对examples做一下shuffle即可。我的实验（200+个类别文本分类）上结果从14%提升到91.7%

hxs91 · 2018-12-25T05:04:54Z

@supergyz 没有，我只是跑的我自己的数据集…

JepsonWong · 2018-12-26T17:33:04Z

@hxs91 这个10分类的数据集跑了吗；我觉着上面谁跑到0.8的都是自己的数据集，不是这个1000行10分类数据集的结果。。。

我跑到了，不知道跑的对不对，但肯定没有用自己的数据集。
命令是
python3 run_classifier.py --data_dir=./data --vocab_file=./uncased_L-12_H-768_A-12/vocab.txt --bert_config_file=./uncased_L-12_H-768_A-12/bert_config.json --init_checkpoint=./uncased_L-12_H-768_A-12/bert_model.ckpt --output_dir=./output

RebeccaRrr · 2018-12-27T01:51:36Z

@hxs91 这个10分类的数据集跑了吗；我觉着上面谁跑到0.8的都是自己的数据集，不是这个1000行10分类数据集的结果。。。

我跑到了，不知道跑的对不对，但肯定没有用自己的数据集。
命令是
python3 run_classifier.py --data_dir=./data --vocab_file=./uncased_L-12_H-768_A-12/vocab.txt --bert_config_file=./uncased_L-12_H-768_A-12/bert_config.json --init_checkpoint=./uncased_L-12_H-768_A-12/bert_model.ckpt --output_dir=./output

可以请问一下你是怎么处理的呢？只是删除了第一行shuffle了数据吗？
方便的话可以发一下你的shuffle代码吗？谢谢！！

hxs91 · 2018-12-27T02:36:54Z

@RebeccaRrr _create_examples中在return之前random.shuffle(examples)

JepsonWong · 2018-12-27T02:47:52Z

@hxs91 这个10分类的数据集跑了吗；我觉着上面谁跑到0.8的都是自己的数据集，不是这个1000行10分类数据集的结果。。。

我跑到了，不知道跑的对不对，但肯定没有用自己的数据集。
命令是
python3 run_classifier.py --data_dir=./data --vocab_file=./uncased_L-12_H-768_A-12/vocab.txt --bert_config_file=./uncased_L-12_H-768_A-12/bert_config.json --init_checkpoint=./uncased_L-12_H-768_A-12/bert_model.ckpt --output_dir=./output

可以请问一下你是怎么处理的呢？只是删除了第一行shuffle了数据吗？
方便的话可以发一下你的shuffle代码吗？谢谢！！

_create_examples函数返回数据之前random.shuffle(examples)。没有删除第一行呀，原代码中删了吧，我看作者循环中在读取的时候if i==0 已经进行continue操作了。

supergyz · 2018-12-27T03:37:40Z

@JepsonWong 我也跑到啦~

LightingFx · 2019-02-03T09:00:40Z

@hxs91 的确需要做shuffle，我之前以为代码中是有做shuffle的…在processor的_create_esamples中对examples做一下shuffle即可。我的实验（200+个类别文本分类）上结果从14%提升到91.7%

你好，请问下你200+类别的数据集有多大？用到多少个句子，我现在想做个大概90个类别的任务，想评估下自己的数据集大概有多少就够了。

mofengboy · 2019-05-17T12:19:16Z

我问一下num_train_epochs=100.0的情况下，checkpoints的数量大概有多少？我跑了好长时间了还没跑完。

supergyz · 2019-05-18T01:02:08Z

不用100太多了，你先跑个10试试应该就差不多了发自我的 iPhone

…

在 2019年5月17日，20:19，陌风小同学 ***@***.***> 写道：我问一下num_train_epochs=100.0的情况下，checkpoints的数量大概有多少？我跑了好长时间了还没跑完。 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

Duanexiao · 2019-06-14T06:33:33Z

@jotline 两个原因。你看下data下的数据，第一行其实是噪音建议删去，稍微修改下_create_examples函数。因为如果先shuffle的话，第一行会被当成训练数据进去，更糟糕的是会多了个label变成11分类。第二个就加大步长，原文中写的是3000多步，也就是100epochs；我跑到1000步最高达到0.71，之后就没试过了。

请问是每个_create_examples都需要加random.shuffle(examples)吗？

Duanexiao · 2019-06-16T05:31:00Z

NancyLele · 2019-08-30T08:39:06Z

@jotline
我有个问题，对于测试集一定要赋标签吗。
若不给test加标签，file_based_convert_examples_to_features就会报错，提示label是none。
若加了一个常量标签（即所有测试数据固定一个标签），那么预测结果就变成了之前设定好的标签。
这个问题，要怎么解决呢？

ann22 · 2020-07-21T05:37:16Z

我用您的代码跑了一下数据，eval accuracy 只有0.1,predict 的结果并没有图片中的80%那么高？

没有shuffle数据的原因 @yun97 @hxs91

您好，为什么要将数据打乱

yun97 changed the title ~~关于预测精度~~ 关于预测准确率 Dec 13, 2018

hxs91 mentioned this issue Jan 2, 2019

It is the problem of shuffle. I did not shuffle my data. google-research/bert#324

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于预测准确率 #11

关于预测准确率 #11

yun97 commented Dec 13, 2018

hxs91 commented Dec 14, 2018

supergyz commented Dec 16, 2018 •

edited

Loading

jotline commented Dec 17, 2018

supergyz commented Dec 17, 2018

jotline commented Dec 17, 2018

jotline commented Dec 18, 2018 •

edited

Loading

h123c commented Dec 18, 2018

yun97 commented Dec 19, 2018

jotline commented Dec 19, 2018

sportzhang commented Dec 20, 2018

h123c commented Dec 21, 2018

sportzhang commented Dec 21, 2018

jotline commented Dec 24, 2018

jotline commented Dec 24, 2018

sportzhang commented Dec 25, 2018

hxs91 commented Dec 25, 2018

hxs91 commented Dec 25, 2018

JepsonWong commented Dec 26, 2018

RebeccaRrr commented Dec 27, 2018

hxs91 commented Dec 27, 2018

JepsonWong commented Dec 27, 2018

supergyz commented Dec 27, 2018

LightingFx commented Feb 3, 2019

mofengboy commented May 17, 2019

supergyz commented May 18, 2019 via email

Duanexiao commented Jun 14, 2019

Duanexiao commented Jun 16, 2019

NancyLele commented Aug 30, 2019

ann22 commented Jul 21, 2020

关于预测准确率 #11

关于预测准确率 #11

Comments

yun97 commented Dec 13, 2018

hxs91 commented Dec 14, 2018

supergyz commented Dec 16, 2018 • edited Loading

jotline commented Dec 17, 2018

supergyz commented Dec 17, 2018

jotline commented Dec 17, 2018

jotline commented Dec 18, 2018 • edited Loading

h123c commented Dec 18, 2018

yun97 commented Dec 19, 2018

jotline commented Dec 19, 2018

sportzhang commented Dec 20, 2018

h123c commented Dec 21, 2018

sportzhang commented Dec 21, 2018

jotline commented Dec 24, 2018

jotline commented Dec 24, 2018

sportzhang commented Dec 25, 2018

hxs91 commented Dec 25, 2018

hxs91 commented Dec 25, 2018

JepsonWong commented Dec 26, 2018

RebeccaRrr commented Dec 27, 2018

hxs91 commented Dec 27, 2018

JepsonWong commented Dec 27, 2018

supergyz commented Dec 27, 2018

LightingFx commented Feb 3, 2019

mofengboy commented May 17, 2019

supergyz commented May 18, 2019 via email

Duanexiao commented Jun 14, 2019

Duanexiao commented Jun 16, 2019

NancyLele commented Aug 30, 2019

ann22 commented Jul 21, 2020

supergyz commented Dec 16, 2018 •

edited

Loading

jotline commented Dec 18, 2018 •

edited

Loading