# Bidirectional Encoder Representations from Transformers (BERT)


---

## 目的
Bidirectional Encoder Representations from Transformers (BERT) を理解する．



## モジュールのインポート・データのダウンロード
演習に使用するモジュールとデータをダウンロードします．

## GPUの確認
続いてGPUを使用した計算が可能かどうかを確認します．

`Use CUDA: True`と表示されれば，GPUを使用した計算をChainerで行うことが可能です．
Falseとなっている場合は，上記の「Google Colaboratoryの設定確認・変更」に記載している手順にしたがって，設定を変更した後に，モジュールのインポートから始めてください．

In [None]:
!pip install transformers fugashi ipadic

In [None]:
import os
import urllib.request
import numpy as np
import pandas as pd
import torch
import re
import sys
import csv
import tarfile

# GPUの使用設定の確認
use_cuda = torch.cuda.is_available()
print('Use CUDA:', use_cuda)

## データセットの作成

ダウンロードしたデータを読み込んで，学習データの作成を行います．

今回使用するデータは，[livedoorニュースコーパスデータセット](https://www.rondhuit.com/download.html#ldcc)です．
これは，Web上のweb記事のデータセットとなっており，複数のカテゴリのニュース記事から構成されています．
今回はこのうち，「ITLife Hack（IT関連記事）」と「Sports Watch（スポーツ関連記事）」を分類するタスクおよびデータセットを扱います．

まずデータをダウンロードし，実験に使用するデータ飲みを抽出し，テキストファイルに一度書き出します．

In [None]:
tgz_fname = "ldcc-20140209.tar.gz"              # ダウンロードした圧縮ファイルのパスを設定
target_genre = ["it-life-hack", "sports-watch"] # 2つをニュースメディアのジャンルを選定
tsv_fname = "all_text.tsv"                      # 処理をした結果を保存するファイル名 

# データのダウンロード（カレントディレクトリに圧縮ファイルがダウンロードされる）
urllib.request.urlretrieve("https://www.rondhuit.com/download/ldcc-20140209.tar.gz", "ldcc-20140209.tar.gz")

# 処理部分 -------
brackets_tail = re.compile('【[^】]*】$')
brackets_head = re.compile('^【[^】]*】')

def remove_brackets(inp):
    output = re.sub(brackets_head, '', re.sub(brackets_tail, '', inp))
    return output

def read_title(f):
    # 2行スキップ
    next(f)
    next(f)
    title = next(f) # 3行目を返す
    title = remove_brackets(title.decode('utf-8'))
    return title[:-1]

zero_fnames = []
one_fnames = []

with tarfile.open(tgz_fname) as tf:
    # 対象ファイルの選定
    for ti in tf:
        # ライセンスファイルはスキップ
        if "LICENSE.txt" in ti.name:
            continue
        if target_genre[0] in ti.name and ti.name.endswith(".txt"):
            zero_fnames.append(ti.name)
            continue
        if target_genre[1] in ti.name and ti.name.endswith(".txt"):
            one_fnames.append(ti.name)
    with open(tsv_fname, "w") as wf:
        writer = csv.writer(wf, delimiter='\t')
        # ラベル 0
        for name in zero_fnames:
            f = tf.extractfile(name)
            title = read_title(f)
            row = [target_genre[0], 0, '', title]
            writer.writerow(row)
        # ラベル 1
        for name in one_fnames:
            f = tf.extractfile(name)
            title = read_title(f)
            row = [target_genre[1], 1, '', title]
            writer.writerow(row)

### データの表示と確認

抽出したデータを読み込み，一部を表示して内容を確認します．

表示すると，文章と記事のクラスなどがまとめられていることが確認できます．

In [None]:
# データの読み込み
df = pd.read_csv("all_text.tsv", 
                 delimiter='\t', header=None, names=['media_name', 'label', 'NaN', 'sentence'])

# データの確認
print(f'データサイズ： {df.shape}')
df.sample(10)

### データの抽出

上記では，pandasのDataFrameでデータを読み込んでいるため，
必要なデータのみをDataFrameから抽出します．

In [None]:
# データの抽出
sentences = df.sentence.values
labels = df.label.values

### 日本語文章の分解とIDへの変換

次に，データセットの日本語文章を単語に分解し，各単語に対応するIDへ変換を行います

この処理には，`BertJapaneseTokenizer`を用いて変換します．

まず，`BertJapaneseTokenizer`のインスタンスを作成します．

In [None]:
from transformers import BertJapaneseTokenizer
tokenizer = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')

次に作成したTokenizerを使用して，日本語文章を単語およびIDへの変換結果を確認してみます．

単語に分解されていることが確認できます．

In [None]:
# 元文章
print('Original: ', sentences[0])
# Tokenizer
print('Tokenized: ', tokenizer.tokenize(sentences[0]))
# Token-id
print('Token IDs: ', tokenizer.convert_tokens_to_ids(tokenizer.tokenize(sentences[0])))

次にデータセット全ての文章を単語へ分解しID変換したデータを作成します．

In [None]:
# 最大単語数の確認
max_len = []

# 1文づつ処理
for sent in sentences:
    # Tokenizeで分割
    token_words = tokenizer.tokenize(sent)
    # 文章数を取得してリストへ格納
    max_len.append(len(token_words))

# 最大の値を確認
print('最大単語数:', max(max_len))
print('注意：上記の最大単語数にSpecial token（[CLS], [SEP]）の+2をした値が最大単語数')

input_ids = []
attention_masks = []

# 1文づつ処理
for sent in sentences:
    encoded_dict = tokenizer.encode_plus(
                        sent,                      
                        add_special_tokens = True,      # Special Tokenの追加
                        max_length = 37,                # 文章の長さを固定（Padding/Trancatinating）
                        pad_to_max_length = True,       # PADDINGで埋める
                        return_attention_mask = True,   # Attention maksの作成
                        return_tensors = 'pt',          #  Pytorch tensorsで返す
                   )

    # 単語IDを取得    
    input_ids.append(encoded_dict['input_ids'])

    # Attention maskの取得
    attention_masks.append(encoded_dict['attention_mask'])

# リストに入ったtensorを縦方向（dim=0）へ結合
input_ids = torch.cat(input_ids, dim=0)
attention_masks = torch.cat(attention_masks, dim=0)

# tenosor型に変換
labels = torch.tensor(labels)

### データセットクラスの作成

読み込み・整理をしたデータを用いて，データセットクラスを作成します．

In [None]:
from torch.utils.data import TensorDataset, random_split
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

# データセットクラスの作成
dataset = TensorDataset(input_ids, attention_masks, labels)

# 90%地点のIDを取得
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size

# データセットを分割
train_dataset, val_dataset = random_split(dataset, [train_size, val_size])

print('訓練データ数: {}'.format(train_size))
print('検証データ数: {}'.format(val_size))

# データローダーの作成
batch_size = 32

# 訓練データローダー
train_dataloader = DataLoader(
            train_dataset,  
            sampler = RandomSampler(train_dataset),   # ランダムにデータを取得してバッチ化
            batch_size = batch_size
        )

# 検証データローダー
validation_dataloader = DataLoader(
            val_dataset, 
            sampler = SequentialSampler(val_dataset), # 順番にデータを取得してバッチ化
            batch_size = batch_size
        )

## ネットワークモデルの作成

ネットワークモデルを作成します．

今回は，BERTの日本語用のPre-trainedモデルを活用し，Fine-Tuningを行うことで，記事の分類を行います．

Pre-trainedモデルの読み込みには`BertForSequenceClassification`を活用します．

In [None]:
from transformers import BertForSequenceClassification, AdamW, BertConfig

# BertForSequenceClassification 学習済みモデルのロード
model = BertForSequenceClassification.from_pretrained(
    "cl-tohoku/bert-base-japanese-whole-word-masking", # 日本語Pretrainedモデルの指定
    num_labels = 2,                                    # ラベル数（今回はBinayなので2、数値を増やせばマルチラベルも対応可）
    output_attentions = False,                         # アテンションベクトルを出力するか
    output_hidden_states = False,                      # 隠れ層を出力するか
)

# モデルをGPUへ転送
model.cuda()

## 学習
ネットワークを学習（Fine-Tuning）します．

最適化手法には，Adamに用いるweight decayを改良した`AdamW`を使用します．

In [None]:
# 最適化手法の設定
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)

# 訓練パートの定義
def train(model):
    model.train() # 訓練モードで実行
    train_loss = 0
    for batch in train_dataloader:# train_dataloaderはword_id, mask, labelを出力する点に注意
        b_input_ids = batch[0].cuda()
        b_input_mask = batch[1].cuda()
        b_labels = batch[2].cuda()
        optimizer.zero_grad()
        
        loss = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask, labels=b_labels).loss
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        optimizer.step()
        train_loss += loss.item()
    return train_loss

# テストパートの定義
def validation(model):
    model.eval()# 訓練モードをオフ
    val_loss = 0
    with torch.no_grad(): # 勾配を計算しない
        for batch in validation_dataloader:
            b_input_ids = batch[0].cuda()
            b_input_mask = batch[1].cuda()
            b_labels = batch[2].cuda()
            with torch.no_grad():
                loss = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask,labels=b_labels).loss
            val_loss += loss.item()
    return val_loss

# 学習の実行
max_epoch = 4
train_loss_ = []
test_loss_ = []

for epoch in range(max_epoch):
    train_ = train(model)
    test_ = train(model)
    train_loss_.append(train_)
    test_loss_.append(test_)

## 検証

学習したモデルを検証データで評価します．

In [None]:
# 検証方法の確認（1バッチ分で計算ロジックに確認）
count = 0
model.eval()# 訓練モードをオフ
for batch in validation_dataloader:
    b_input_ids = batch[0].cuda()
    b_input_mask = batch[1].cuda()
    b_labels = batch[2].cuda()
    with torch.no_grad():   
        # 学習済みモデルによる予測結果をpredsで取得     
        preds = model(b_input_ids, token_type_ids=None, attention_mask=b_input_mask)
        if count == 0:
            PRED = preds[0]
            LABEL = b_labels
        else:
            PRED = torch.cat((PRED, preds[0]), dim=0)
            LABEL = torch.cat((LABEL, b_labels), dim=0)
        count += 1
        

# 比較しやすい様にpd.dataframeへ整形
# pd.dataframeへ変換（GPUに乗っているTensorはgpu->cpu->numpy->dataframeと変換）
logits_df = pd.DataFrame(PRED.cpu().numpy(), columns=['logit_0', 'logit_1'])

# np.argmaxで大き方の値を取得
pred_df = pd.DataFrame(np.argmax(PRED.cpu().numpy(), axis=1), columns=['pred_label'])
label_df = pd.DataFrame(LABEL.cpu().numpy(), columns=['true_label'])

print("accuracy: ", np.sum(np.argmax(PRED.cpu().numpy(), axis=1) == LABEL.cpu().numpy()) / len(PRED))

最後に結果をDataFrameで一覧表示し，確認します．

In [None]:
accuracy_df = pd.concat([logits_df, pred_df, label_df], axis=1)
accuracy_df