Skip to content

Latest commit

 

History

History
55 lines (21 loc) · 2.61 KB

models.md

File metadata and controls

55 lines (21 loc) · 2.61 KB

RoBERTa-japanese pretrain models

RoBERTa-japanese Pretrained Model

学習済みRoBERTa (改良BERT) 日本語モデル

Baseモデル→→→ダウンロード予備URL)←←←

RoBERTa (改良BERT) とは

Liu, Yinhanらが提案する、BERTの改良版です。

RoBERTaの、BERTからの改良点は学習手法の改良のみで、モデル構造そのものはオリジナルのBERTそのものです(こちらの記事などが詳しいです)。

RoBERTa-japaneseとは

日本語コーパス(コーパス2020)を学習させたモデルです。

オリジナルのBERTに、RoBERTaの論文から、以下のFEATUREsを導入して作成しました。

  • dynamic mask
  • NSPは使わない
  • FULL-SENTENCESな学習
  • バッチサイズとlr値を最適化

分かち書き/エンコードはJapanese-BPEEncoderを使用します。そのため、オリジナルのRoBERTaからも、語彙数について違いがあります。また、分かち書きがBPEエンコードで、単語単位ではないので、[MASK]もBPE単位になっています。

公開している学習済みモデル

現在、smallとbaseの二種類のモデルがあります。モデルサイズが異なるため、学習の際にGPUメモリ上に乗せられるバッチサイズが異なっており、出来るだけ大きなバッチサイズで学習させるようにしました。また、総backward step数が同じ程度になる回数学習させましたが、バッチサイズとiter数が異なるので、learning rateも微調整しています。

モデル 隠れ層次元 レイヤー数 学習バッチサイズ 学習回数 ダウンロードURL
small 512 4heads,4layers 16K 330K https://www.nama.ne.jp/models/RoBERTa-ja_small.tar.bz2
(予備URL:http://ailab.nama.ne.jp/models/RoBERTa-ja_small.tar.bz2)
base 768 12heads,12layers 4K 1.34M https://www.nama.ne.jp/models/RoBERTa-ja_base.tar.bz2
(予備URL:http://ailab.nama.ne.jp/models/RoBERTa-ja_base.tar.bz2)