<a href="https://colab.research.google.com/github/fujitako03/AppropriateHeight/blob/main/roberta_base_japanese_tutorial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# roberta-base-japaneseを試してみる
- [hagging face](https://huggingface.co/studio-ousia/luke-base)
- [Github](https://github.com/studio-ousia/luke)

## モデル概要
LUKE (Language Understanding with Knowledge-based Embeddings) は、単語や実体の文脈に応じた表現を、変換器に基づいて事前に学習した新しい表現方法である。LUKEは与えられたテキスト中の単語や実体を独立したトークンとして扱い、文脈に応じた表現を出力する。LUKEは、変換器の自己注意機構を拡張した、実体を意識した自己注意機構を採用しており、注意スコアを計算する際に、トークンの種類（単語または実体）を考慮する。

LUKEは、SQuAD v1.1（抽出型質問応答）、CoNLL-2003（名前付き実体認識）、ReCoRD（クローズ型質問応答）、TACRED（関係分類）、Open Entity（固有表現型付け）の5つの有名NLPベンチマークで最先端の結果を達成しました。

詳細や更新情報は、公式リポジトリをご確認ください。

これはLUKEベースモデルで、隠れ層12層、隠れサイズ768です。このモデルの総パラメータ数は253Mです。2018年12月版のWikipediaを使用して学習しています。

In [40]:
!pip install --upgrade transformers torch sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [1]:
import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM

In [2]:
# tokenizer modelの準備
model_name = "studio-ousia/luke-japanese-base-lite"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForMaskedLM.from_pretrained(model_name)

Downloading:   0%|          | 0.00/842k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/51.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/33.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/468 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/873 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/536M [00:00<?, ?B/s]

In [6]:
# 入力
sentence_origin = '京都大学で自然言語処理を[MASK]する。'
sentence = "[CLS]" + sentence_origin

# tokenize
tokens = tokenizer.tokenize(sentence, )
# masked_idx = tokens.index('[MASK]')
print(tokens)
# print('mask index :' , masked_idx)

['▁[', 'C', 'LS', ']', '京都', '大学で', '自然', '言語', '処理を', '[', 'M', 'AS', 'K', ']', 'する', '。']


In [32]:
tokens[masked_idx] = tokenizer.mask_token

# convert to ids
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("token_ids", token_ids)

# convert to tensor
import torch
token_tensor = torch.tensor([token_ids])

# get the top 10 predictions of the masked token
model = model.eval()
with torch.no_grad():
    outputs = model(token_tensor)
    predictions = outputs[0][0, masked_idx].topk(10)

print(sentence_origin)

for i, index_t in enumerate(predictions.indices):
    index = index_t.item()
    token = tokenizer.convert_ids_to_tokens([index])[0]
    print(i, token)

token_ids [2, 634, 663, 328, 362, 269, 383, 855, 435, 568, 1024, 453, 273, 4, 277, 271, 265]
京都大学で自然言語処理を[MASK]する。
0 楽
1 〜
2 や
3 学
4 今
5 、
6 を
7 ~
8 と
9 私
