# 多言語の固有表現認識

* ゼロショット異言語間転移
* XLM-RoBERTa

## データセット

* XTREME: Cross-lingual TRansfer Evaluation of Multilingual Encoders ベンチマーク
* WikiANN または PAN-X
* 多言語のWikipedia記事
* LOC（場所）、PER（人名）、ORG（組織名）でアノテーションされている
* `B-` 固有表現の先頭
* `I-` 固有表現に属する連続したトークン
* `O` どの固有表現にも属さない

In [None]:
# データセットのconfigを取得
from datasets import get_dataset_config_names

xtreme_subsets = get_dataset_config_names("xtreme")
len(xtreme_subsets)

In [None]:
# PAN-Xに絞り込み
panx_subsets = [s for s in xtreme_subsets if s.startswith("PAN")]
panx_subsets[:3]

In [None]:
# ドイツ語のコーパスをロード
from datasets import load_dataset

load_dataset("xtreme", name="PAN-X.de")

In [None]:
# スイスコーパスを模倣するためにドイツ語、フランス語、イタリア語、英語のコーパスを話者の比率でサンプリング
from collections import defaultdict
from datasets import DatasetDict

langs = ["de", "fr", "it", "en"]
fracs = [0.629, 0.229, 0.084, 0.059]
panx_ch = defaultdict(DatasetDict)

for lang, frac in zip(langs, fracs):
    # 単言語コーパスをダウンロード
    ds = load_dataset("xtreme", name=f"PAN-X.{lang}")

    # 分割をシャッフルし、話者の割合に応じてサンプリング
    for split in ds:
        panx_ch[lang][split] = (
            ds[split]
            .shuffle(seed=0)
            .select(range(int(frac * ds[split].num_rows))))

In [None]:
import pandas as pd

pd.DataFrame({lang: [panx_ch[lang]["train"].num_rows] for lang in langs},
             index=["Number of training examples"])

In [None]:
# ドイツ語コーパスのデータを確認
element = panx_ch["de"]["train"][0]
for key, value in element.items():
    print(f"{key}: {value}")

In [None]:
for key, value in panx_ch["de"]["train"].features.items():
    print(f"{key}: {value}")

In [None]:
tags = panx_ch["de"]["train"].features["ner_tags"].feature
print(tags)

In [None]:
tags.int2str(1)

In [None]:
# ner_tagsのIDを文字列に変換したner_tags_str列を新たに追加する
def create_tag_names(batch):
    return {"ner_tags_str": [tags.int2str(idx) for idx in batch["ner_tags"]]}

panx_de = panx_ch["de"].map(create_tag_names)

In [None]:
# DatasetDictにner_tags_strが追加されている
panx_de

In [None]:
de_example = panx_de["train"][0]
print(de_example)

In [None]:
pd.DataFrame([de_example["tokens"], de_example["ner_tags_str"]],
             ["Tokens", "Tags"])

In [None]:
# タグの数に不均衡がないか確認
from collections import Counter

split2freqs = defaultdict(Counter)
for split, dataset in panx_de.items():
    for row in dataset["ner_tags_str"]:
        for tag in row:
            if tag.startswith("B"):
                tag_type = tag.split("-")[1]
                split2freqs[split][tag_type] += 1
pd.DataFrame.from_dict(split2freqs, orient="index")

## 多言語Transformer

* 事前学習に用いるコーパスが多言語の文書から構成されている
* 言語を区別する明示的な情報がなくても下流タスクに対して汎化できる

## XLM-RoBERTa（XLM-R）

* 100言語に対してマスク言語モデルのみで事前学習
* WikipediaのダンプデータとCommon Crawlデータを使って訓練
* トークン化にSentencePieceを使用

In [None]:
# BERTの WordPiece TokenizerとXML-RのSentencePiece Tokenizerを比較
from transformers import AutoTokenizer

bert_model_name = "bert-base-cased"
xlmr_model_name = "xlm-roberta-base"
bert_tokenizer = AutoTokenizer.from_pretrained(bert_model_name)
xlmr_tokenizer = AutoTokenizer.from_pretrained(xlmr_model_name)

In [None]:
text = "Jack Sparrow loves New York!"
bert_tokens = bert_tokenizer(text).tokens()
xlmr_tokens = xlmr_tokenizer(text).tokens()

In [None]:
bert_tokens

In [None]:
xlmr_tokens

## Transformerモデルクラスの詳細

In [None]:
import torch.nn as nn
from transformers import XLMRobertaConfig
from transformers.modeling_outputs import TokenClassifierOutput
from transformers.models.roberta.modeling_roberta import RobertaModel
from transformers.models.roberta.modeling_roberta import RobertaPreTrainedModel

In [None]:
class XLMRobertaForTokenClassification(RobertaPreTrainedModel):
    config_class = XLMRobertaConfig

    def __init__(self, config):
        super().__init__(config)
        self.num_labels = config.num_labels

        # ボディ部分はRobertaと共通
        self.roberta = RobertaModel(config, add_pooling_layer=False)

        # ヘッダを追加
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier = nn.Linear(config.hidden_size, config.num_labels)

        # ボディ部分の重みをロード
        # RobertaPreTrainModelのメソッドで訓練済み重みをロードできる
        self.init_weights()

    def forward(self, input_ids=None, attention_mask=None, token_type_ids=None, 
                labels=None, **kwargs):
        # ボディの出力を得る
        outputs = self.roberta(input_ids, attention_mask=attention_mask,
                               token_type_ids=token_type_ids, **kwargs)

        # ヘッドで分類
        sequence_output = self.dropout(outputs[0])
        logits = self.classifier(sequence_output)

        # Lossを計算
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss()
            loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))

        return TokenClassifierOutput(loss=loss, logits=logits, 
                                     hidden_states=outputs.hidden_states, 
                                     attentions=outputs.attentions)

In [None]:
tags.names

index2tag = {idx: tag for idx, tag in enumerate(tags.names)}
tag2index = {tag: idx for idx, tag in enumerate(tags.names)}

In [None]:
print(index2tag)
print(tag2index)

In [None]:
tags.num_classes

In [None]:
from transformers import AutoConfig

xlmr_config = AutoConfig.from_pretrained(xlmr_model_name,
                                         num_labels=tags.num_classes,
                                         id2label=index2tag,
                                         label2id=tag2index)

In [None]:
xlmr_config

In [None]:
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

In [None]:
xlmr_model = XLMRobertaForTokenClassification.from_pretrained(xlmr_model_name, config=xlmr_config).to(device)

In [None]:
text

In [None]:
input_ids = xlmr_tokenizer.encode(text, return_tensors="pt")
input_ids

In [None]:
pd.DataFrame([xlmr_tokens, input_ids[0].numpy()], index=["Tokens", "Input IDs"])

In [None]:
# それぞれのトークンに対する分類ラベル
outputs = xlmr_model(input_ids.to(device)).logits
outputs.shape

In [None]:
predictions = torch.argmax(outputs, dim=-1)
predictions.shape

In [None]:
# この時点ではヘッダが訓練されていないためランダムな出力
preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
pd.DataFrame([xlmr_tokens, preds], index=["tokens", "Tags"])

In [None]:
def tag_text(text, tags, model, tokenizer):
    # Get tokens with special characters
    tokens = tokenizer(text).tokens()
    # Encode the sequence into IDs
    input_ids = xlmr_tokenizer(text, return_tensors="pt").input_ids.to(device)
    # Get predictions as distribution over 7 possible classes
    outputs = model(input_ids)[0]
    # Take argmax to get most likely class per token
    predictions = torch.argmax(outputs, dim=2)
    # Convert to DataFrame
    preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
    return pd.DataFrame([tokens, preds], index=["Tokens", "Tags"])

## 固有表現抽出のためのテキストトークン化

In [None]:
de_examp

In [None]:
words = de_example["tokens"]
words

In [None]:
labels = de_example["ner_tags"]
labels

In [None]:
# is_split_into_words=Trueは入力はすでに単語に分割されていることを示す
tokenized_input = xlmr_tokenizer(de_example["tokens"], is_split_into_words=True)
tokenized_input

In [None]:
# どういうトークンに分割されたか調べる
tokens = xlmr_tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
pd.DataFrame([tokens], index=["Tokens"])

In [None]:
word_ids = tokenized_input.word_ids()
pd.DataFrame([tokens, word_ids], index=["Tokens", "Word IDs"])

In [None]:
# ▁がついていない単語は前のトークンの従属トークンのためラベル推定が不要なのでマスクする
# マスクには -100 を使う
# -100 は nn.CrossEntropyLoss の ignore_index の値

In [None]:
#hide_output
previous_word_idx = None
label_ids = []

for word_idx in word_ids:
    if word_idx is None or word_idx == previous_word_idx:
        label_ids.append(-100)
    elif word_idx != previous_word_idx:
        label_ids.append(labels[word_idx])
    previous_word_idx = word_idx

In [None]:
print(label_ids)

In [None]:
# ▁がついたトークンのみ正解ラベルが割り振られていることがわかる
labels = [index2tag[l] if l != -100 else "IGN" for l in label_ids]
index = ["Tokens", "Word IDs", "Label IDs", "Labels"]
pd.DataFrame([tokens, word_ids, label_ids, labels], index=index)

In [None]:
def tokenize_and_align_labels(examples):
    # input_idsとattention_maskが追加される
    tokenized_inputs = xlmr_tokenizer(examples["tokens"], truncation=True, 
                                      is_split_into_words=True)

    # ラベルを割り当てる
    labels = []
    for idx, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_inputs.word_ids(batch_index=idx)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            if word_idx is None or word_idx == previous_word_idx:
                label_ids.append(-100)
            else:
                label_ids.append(label[word_idx])
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels

    return tokenized_inputs

In [None]:
def encode_panx_dataset(corpus):
    return corpus.map(tokenize_and_align_labels, batched=True, remove_columns=["langs", "ner_tags", "tokens"])

In [None]:
panx_ch["de"]

In [None]:
panx_de_encoded = encode_panx_dataset(panx_ch["de"])
panx_de_encoded

In [None]:
print(panx_de_encoded["train"][0]["input_ids"])
print(panx_de_encoded["train"][0]["attention_mask"])
print(panx_de_encoded["train"][0]["labels"])