Skip to content

Latest commit

 

History

History
68 lines (44 loc) · 3.08 KB

bertweet.md

File metadata and controls

68 lines (44 loc) · 3.08 KB

BERTweet

Overview

BERTweet モデルは、Dat Quoc Nguyen、Thanh Vu によって BERTweet: A pre-trained language model for English Tweets で提案されました。アン・トゥアン・グエンさん。

論文の要約は次のとおりです。

私たちは、英語ツイート用に初めて公開された大規模な事前トレーニング済み言語モデルである BERTweet を紹介します。私たちのBERTweetは、 BERT ベースと同じアーキテクチャ (Devlin et al., 2019) は、RoBERTa 事前トレーニング手順 (Liu et al.) を使用してトレーニングされます。 al.、2019)。実験では、BERTweet が強力なベースラインである RoBERTa ベースおよび XLM-R ベースを上回るパフォーマンスを示すことが示されています (Conneau et al., 2020)、3 つのツイート NLP タスクにおいて、以前の最先端モデルよりも優れたパフォーマンス結果が得られました。 品詞タグ付け、固有表現認識およびテキスト分類。

Usage example

>>> import torch
>>> from transformers import AutoModel, AutoTokenizer

>>> bertweet = AutoModel.from_pretrained("vinai/bertweet-base")

>>> # For transformers v4.x+:
>>> tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-base", use_fast=False)

>>> # For transformers v3.x:
>>> # tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-base")

>>> # INPUT TWEET IS ALREADY NORMALIZED!
>>> line = "SC has first two presumptive cases of coronavirus , DHEC confirms HTTPURL via @USER :cry:"

>>> input_ids = torch.tensor([tokenizer.encode(line)])

>>> with torch.no_grad():
...     features = bertweet(input_ids)  # Models outputs are now tuples

>>> # With TensorFlow 2.0+:
>>> # from transformers import TFAutoModel
>>> # bertweet = TFAutoModel.from_pretrained("vinai/bertweet-base")

この実装は、トークン化方法を除いて BERT と同じです。詳細については、BERT ドキュメント を参照してください。 API リファレンス情報。

このモデルは dqnguyen によって提供されました。元のコードは ここ にあります。

BertweetTokenizer

[[autodoc]] BertweetTokenizer