<a href="https://colab.research.google.com/github/taishi-i/nagisa_bert/blob/develop/notebooks/fill_mask-japanese_bert_models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TransformersPipeline によるマスク言語モデル 🤗 

このノートブックでは、Transformers の Pipeline 関数を利用して、テキストの穴埋めを実行します。

テキスト中の[MASK]を、文脈から予測することができます。

## ライブラリのインストール

In [None]:
!pip install datasets
!pip install nagisa_bert # taishi-i/nagisa_bert
!pip install fugashi
!pip install ipadic # cl-tohoku/bert-base-japanese-whole-word-masking
!pip install unidic-lite # cl-tohoku/bert-base-japanese-v2

## ライブラリのインポート

In [None]:
from transformers import pipeline
from nagisa_bert import NagisaBertTokenizer
from transformers import BertJapaneseTokenizer

## 利用する言語モデル（BERTモデルの種類）の指定

In [None]:
model_name = "taishi-i/nagisa_bert"
# model_name = "cl-tohoku/bert-base-japanese-whole-word-masking"
# model_name = "cl-tohoku/bert-base-japanese-v2"

if model_name == "taishi-i/nagisa_bert":
    tokenizer = NagisaBertTokenizer.from_pretrained(model_name)
else:
    tokenizer = BertJapaneseTokenizer.from_pretrained(model_name)

## マスク言語モデルの動作確認

In [None]:
fill_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)

In [None]:
text = "nagisaで[MASK]できるモデルです"
print(fill_mask(text))
# [{'score': 0.1385931372642517, 'token': 8092, 'token_str': '使 用', 'sequence': 'nagisa で 使用 できる モデル です'}, {'score': 0.11947669088840485, 'token': 8252, 'token_str': '利 用', 'sequence': 'nagisa で 利用 できる モデル です'}, {'score': 0.04910655692219734, 'token': 9559, 'token_str': '作 成', 'sequence': 'nagisa で 作成 できる モデル です'}, {'score': 0.03792576864361763, 'token': 9430, 'token_str': '購 入', 'sequence': 'nagisa で 購入 できる モデル です'}, {'score': 0.026893319562077522, 'token': 11273, 'token_str': '入 手', 'sequence': 'nagisa で 入手 できる モデル です'}]

In [None]:
text = "大学では自然言語処理の[MASK]をしています。"
print(fill_mask(text))
# [{'score': 0.25847551226615906, 'token': 8110, 'token_str': '研 究', 'sequence': '大学 で は 自然 言語 処理 の 研究 を し て い ます 。'}, {'score': 0.22482648491859436, 'token': 12688, 'token_str': '勉 強', 'sequence': '大学 で は 自然 言語 処理 の 勉強 を し て い ます 。'}, {'score': 0.11745239794254303, 'token': 8471, 'token_str': '教 授', 'sequence': '大学 で は 自然 言語 処理 の 教授 を し て い ます 。'}, {'score': 0.11419476568698883, 'token': 10538, 'token_str': '講 師', 'sequence': '大学 で は 自然 言語 処理 の 講師 を し て い ます 。'}, {'score': 0.05345834791660309, 'token': 14534, 'token_str': '講 義', 'sequence': '大学 で は 自然 言語 処理 の 講義 を し て い ます 。'}]