咨询 MacBert 上的一些问题 #13

T-baby · 2022-04-14T03:52:48Z

你好，我在看 MacBert 的论文时有一些迷惑。本来想法邮件的，但好像发不到那个邮箱。

关于“ We use whole word masking as well as N-gram masking strategies for selecting candidate tokens for masking, with a percentage of 40%, 30%, 20%, 10% for word-level unigram to 4-gram. ”，这段是指一个词 40% 的概率被换成近义词，两个词以 30% 概率换成近义词，以此类推吗？

ymcui · 2022-04-14T04:48:46Z

你好，邮箱没有问题，邮件可以发送到论文中的邮箱或者ymcui@ieee.org。
这里说的是执行N-gram masking的时候，有40%的概率以单个词（unigram）进行mask，有30%的概率以两个词（bigram）进行mask，以此类推。

T-baby · 2022-04-14T07:32:33Z

那比如四个要以 10% 概率进行 mask 的时候，这四个词必须是常在一起的吗？比如“自然/语言/处理/很酷/”。

ymcui · 2022-04-14T09:25:24Z

不确定是否正确理解了你说的。
N-gram就是指连续的N个词。我们的N-gram masking是采用顺序选取的模式。
比如一个句子中包含8个词。

A B C D E F G H

step1：指针指向A，此时假设概率选择了3-gram，那么A/B/C将同时被mask（若进行相似词替换，则每个词都会被其相似词替换）
step2：指针跳过该3-gram，指向D，按概率选取下一个N-gram，以此类推。

T-baby · 2022-04-14T09:28:25Z

非常谢谢，我就是想问这个问题。

T-baby closed this as completed Apr 14, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

咨询 MacBert 上的一些问题 #13

咨询 MacBert 上的一些问题 #13

T-baby commented Apr 14, 2022 •

edited

ymcui commented Apr 14, 2022 •

edited

T-baby commented Apr 14, 2022

ymcui commented Apr 14, 2022

T-baby commented Apr 14, 2022

咨询 MacBert 上的一些问题 #13

咨询 MacBert 上的一些问题 #13

Comments

T-baby commented Apr 14, 2022 • edited

ymcui commented Apr 14, 2022 • edited

T-baby commented Apr 14, 2022

ymcui commented Apr 14, 2022

T-baby commented Apr 14, 2022

T-baby commented Apr 14, 2022 •

edited

ymcui commented Apr 14, 2022 •

edited