Skip to content

Latest commit

 

History

History
164 lines (107 loc) · 9 KB

deberta.md

File metadata and controls

164 lines (107 loc) · 9 KB

DeBERTa

Overview

DeBERTa モデルは、Pengcheng He、Xiaodong Liu、Jianfeng Gao、Weizhu Chen によって DeBERTa: Decoding-enhanced BERT with Disentangled Attendant で提案されました。Google のモデルに基づいています。 2018年にリリースされたBERTモデルと2019年にリリースされたFacebookのRoBERTaモデル。

これは、もつれた注意を解きほぐし、使用されるデータの半分を使用して強化されたマスク デコーダ トレーニングを備えた RoBERTa に基づいて構築されています。 ロベルタ。

論文の要約は次のとおりです。

事前トレーニングされたニューラル言語モデルの最近の進歩により、多くの自然言語モデルのパフォーマンスが大幅に向上しました。 言語処理 (NLP) タスク。この論文では、新しいモデル アーキテクチャ DeBERTa (Decoding-enhanced BERT with これは、2 つの新しい技術を使用して BERT モデルと RoBERTa モデルを改善します。 1つ目は、 もつれを解く注意メカニズム。各単語は、その内容をエンコードする 2 つのベクトルを使用して表現され、 単語間の注意の重みは、それらの単語のもつれ解除行列を使用して計算されます。 内容と相対的な位置。 2 番目に、強化されたマスク デコーダを使用して、出力ソフトマックス レイヤを次のように置き換えます。 モデルの事前トレーニング用にマスクされたトークンを予測します。これら 2 つの手法により効率が大幅に向上することを示します。 モデルの事前トレーニングと下流タスクのパフォーマンスの向上。 RoBERTa-Large と比較すると、DeBERTa モデルは半分のレベルでトレーニングされています。 トレーニング データは幅広い NLP タスクで一貫して優れたパフォーマンスを示し、MNLI で +0.9% の改善を達成しました。 (90.2% 対 91.1%)、SQuAD v2.0 では +2.3% (88.4% 対 90.7%)、RACE では +3.6% (83.2% 対 86.8%) でした。 DeBERTa コードと 事前トレーニングされたモデルは https://github.com/microsoft/DeBERTa で公開されます。

このモデルは DeBERTa によって寄稿されました。このモデルの TF 2.0 実装は、 kamalkraj による寄稿。元のコードは こちら にあります。

Resources

DeBERTa を使い始めるのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示される) リソースのリスト。ここに含めるリソースの送信に興味がある場合は、お気軽にプル リクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

DebertaConfig

[[autodoc]] DebertaConfig

DebertaTokenizer

[[autodoc]] DebertaTokenizer - build_inputs_with_special_tokens - get_special_tokens_mask - create_token_type_ids_from_sequences - save_vocabulary

DebertaTokenizerFast

[[autodoc]] DebertaTokenizerFast - build_inputs_with_special_tokens - create_token_type_ids_from_sequences

DebertaModel

[[autodoc]] DebertaModel - forward

DebertaPreTrainedModel

[[autodoc]] DebertaPreTrainedModel

DebertaForMaskedLM

[[autodoc]] DebertaForMaskedLM - forward

DebertaForSequenceClassification

[[autodoc]] DebertaForSequenceClassification - forward

DebertaForTokenClassification

[[autodoc]] DebertaForTokenClassification - forward

DebertaForQuestionAnswering

[[autodoc]] DebertaForQuestionAnswering - forward

TFDebertaModel

[[autodoc]] TFDebertaModel - call

TFDebertaPreTrainedModel

[[autodoc]] TFDebertaPreTrainedModel - call

TFDebertaForMaskedLM

[[autodoc]] TFDebertaForMaskedLM - call

TFDebertaForSequenceClassification

[[autodoc]] TFDebertaForSequenceClassification - call

TFDebertaForTokenClassification

[[autodoc]] TFDebertaForTokenClassification - call

TFDebertaForQuestionAnswering

[[autodoc]] TFDebertaForQuestionAnswering - call