-
Notifications
You must be signed in to change notification settings - Fork 143
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于预测准确率 #11
Comments
我也是,按照这个思路跑出来感觉不对劲。。 |
@jotline 两个原因。你看下data下的数据,第一行其实是噪音建议删去,稍微修改下 |
@supergyz 好的,十分感谢🙏。我再试试看 |
@supergyz 我跑了30000步,仍然是0.66左右。我估摸着数据有点少,导致测试集准确度太低。我换了一个6分类的场景,可以达到0.84的acc |
我开始也是0.1,看到上面的讨论才反应过来,只是对数据去掉第一行并shuffle后变为79%,可能会有浮动. |
@supergyz 非常感谢! |
@supergyz 可以直接跑一下官方的run_classifier.py,多加一些trainset的规模80%不难,我用我自己的数据集可以跑到挺高。 |
@jotline 你用的英文还是中文? |
就是这里的原码,没有动,但是数据集处理了一下 |
shuffle之后,跑到0.81是没什么问题的。 |
我的数据集还比较复杂,有英文有中文,还有其他语言。 |
@supergyz 我感觉是数据不太够?我跑的自己的多语种数据集,代码没有变,可以跑很高。后来没用tf版的bert了,pytorch版非常好用,速度也快。 |
@supergyz 我是shuffle了一个与数据等长的list,然后分别对每个字段按照shuffle后的listc重排,参数没有改动。 |
的确需要做shuffle,我之前以为代码中是有做shuffle的…在processor的_create_esamples中对examples做一下shuffle即可。我的实验(200+个类别文本分类)上结果从14%提升到91.7% |
@supergyz 没有,我只是跑的我自己的数据集… |
我跑到了,不知道跑的对不对,但肯定没有用自己的数据集。 |
可以请问一下你是怎么处理的呢?只是删除了第一行shuffle了数据吗? |
@RebeccaRrr _create_examples中在return之前random.shuffle(examples) |
_create_examples函数返回数据之前random.shuffle(examples)。没有删除第一行呀,原代码中删了吧,我看作者循环中在读取的时候if i==0 已经进行continue操作了。 |
@JepsonWong 我也跑到啦~ |
你好,请问下你200+类别的数据集有多大?用到多少个句子,我现在想做个大概90个类别的任务,想评估下自己的数据集大概有多少就够了。 |
我问一下num_train_epochs=100.0的情况下,checkpoints的数量大概有多少?我跑了好长时间了还没跑完。 |
不用100太多了,你先跑个10试试应该就差不多了
发自我的 iPhone
… 在 2019年5月17日,20:19,陌风小同学 ***@***.***> 写道:
我问一下num_train_epochs=100.0的情况下,checkpoints的数量大概有多少?我跑了好长时间了还没跑完。
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub, or mute the thread.
|
请问是每个_create_examples都需要加random.shuffle(examples)吗? |
@jotline |
我用您的代码跑了一下数据,eval accuracy 只有0.1,predict 的结果并没有图片中的80%那么高?
The text was updated successfully, but these errors were encountered: