## __ModernBRRTを試す__

__ModernBERTとは__

- 2024年12月時点でsota的なテキストエンコーダーモデル

- 解説記事

  - https://zenn.dev/tossy21/articles/93591442269292

  - https://engineering.digeon.co/blog/modern-bert

- HuggingFaceのリンク: https://huggingface.co/collections/answerdotai/modernbert-67627ad707a4acbf33c41deb

- モデルサイズ: BaseモデルとLargeモデルが公開されている

- 軽量なのでGPUは使わずにCPUで動かす

### __準備__

In [1]:
# NOTE: 新しいモデルであるため、transformerをGitHubからinstallする必要がある
%%capture
!pip install git+https://github.com/huggingface/transformers.git

In [2]:
import torch
from transformers import pipeline
from pprint import pprint

### __Baseモデル__

In [3]:
model_name = "answerdotai/ModernBERT-base"
pipe = pipeline("fill-mask", model=model_name, torch_dtype=torch.bfloat16)
pipe

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/599M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/20.8k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.13M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/694 [00:00<?, ?B/s]

Device set to use cpu


<transformers.pipelines.fill_mask.FillMaskPipeline at 0x7f25ac7546d0>

In [4]:
input_text = "The capital of U.K. is [MASK]."
results = pipe(input_text)
pprint(results)

[{'score': 0.73046875,
  'sequence': 'The capital of U.K. is London.',
  'token': 4693,
  'token_str': ' London'},
 {'score': 0.0301513671875,
  'sequence': 'The capital of U.K. is Manchester.',
  'token': 17427,
  'token_str': ' Manchester'},
 {'score': 0.026611328125,
  'sequence': 'The capital of U.K. is Edinburgh.',
  'token': 25990,
  'token_str': ' Edinburgh'},
 {'score': 0.0172119140625,
  'sequence': 'The capital of U.K. is Oxford.',
  'token': 12719,
  'token_str': ' Oxford'},
 {'score': 0.01611328125,
  'sequence': 'The capital of U.K. is Cambridge.',
  'token': 11988,
  'token_str': ' Cambridge'}]


In [5]:
# 日本語に対応している
input_text = "東京の首都は[MASK]です。"
results = pipe(input_text)
pprint(results)

[{'score': 0.451171875,
  'sequence': '東京の首都は日本です。',
  'token': 49868,
  'token_str': '日本'},
 {'score': 0.06103515625,
  'sequence': '東京の首都は今です。',
  'token': 37248,
  'token_str': '今'},
 {'score': 0.047607421875,
  'sequence': '東京の首都はこれです。',
  'token': 41162,
  'token_str': 'これ'},
 {'score': 0.0419921875,
  'sequence': '東京の首都は市です。',
  'token': 42335,
  'token_str': '市'},
 {'score': 0.03076171875,
  'sequence': '東京の首都は Tokyoです。',
  'token': 17413,
  'token_str': ' Tokyo'}]


### __Largeモデル__

In [6]:
model_name = "answerdotai/ModernBERT-large"
pipe = pipeline("fill-mask", model=model_name, torch_dtype=torch.bfloat16)
pipe

config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.58G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/20.8k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.13M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/694 [00:00<?, ?B/s]

Device set to use cpu


<transformers.pipelines.fill_mask.FillMaskPipeline at 0x7f25ac797e80>

In [7]:
input_text = "The capital of U.K. is [MASK]."
results = pipe(input_text)
pprint(results)

[{'score': 0.8671875,
  'sequence': 'The capital of U.K. is London.',
  'token': 4693,
  'token_str': ' London'},
 {'score': 0.026123046875,
  'sequence': 'The capital of U.K. is Edinburgh.',
  'token': 25990,
  'token_str': ' Edinburgh'},
 {'score': 0.0115966796875,
  'sequence': 'The capital of U.K. is England.',
  'token': 5854,
  'token_str': ' England'},
 {'score': 0.01092529296875,
  'sequence': 'The capital of U.K. is Manchester.',
  'token': 17427,
  'token_str': ' Manchester'},
 {'score': 0.01025390625,
  'sequence': 'The capital of U.K. is Birmingham.',
  'token': 26846,
  'token_str': ' Birmingham'}]


In [8]:
# 日本語に対応している
input_text = "東京の首都は[MASK]です。"
results = pipe(input_text)
pprint(results)

[{'score': 0.5546875,
  'sequence': '東京の首都は日本です。',
  'token': 49868,
  'token_str': '日本'},
 {'score': 0.0751953125,
  'sequence': '東京の首都は都です。',
  'token': 34446,
  'token_str': '都'},
 {'score': 0.045654296875,
  'sequence': '東京の首都は Tokyoです。',
  'token': 17413,
  'token_str': ' Tokyo'},
 {'score': 0.01904296875,
  'sequence': '東京の首都は中です。',
  'token': 13609,
  'token_str': '中'},
 {'score': 0.01483154296875,
  'sequence': '東京の首都は市です。',
  'token': 42335,
  'token_str': '市'}]


In [12]:
# 日本語に対応しているが、自然な文章ではない
input_text = "人間は困難を乗り越えるために[MASK]を発揮する生き物です。"
results = pipe(input_text)
pprint(results)

[{'score': 0.1513671875,
  'sequence': '人間は困難を乗り越えるために気を発揮する生き物です。',
  'token': 44899,
  'token_str': '気'},
 {'score': 0.1328125,
  'sequence': '人間は困難を乗り越えるためにそれを発揮する生き物です。',
  'token': 39984,
  'token_str': 'それ'},
 {'score': 0.091796875,
  'sequence': '人間は困難を乗り越えるために何を発揮する生き物です。',
  'token': 35201,
  'token_str': '何'},
 {'score': 0.0556640625,
  'sequence': '人間は困難を乗り越えるためにこれを発揮する生き物です。',
  'token': 41162,
  'token_str': 'これ'},
 {'score': 0.043212890625,
  'sequence': '人間は困難を乗り越えるために人を発揮する生き物です。',
  'token': 13484,
  'token_str': '人'}]
