In [1]:
!pip install transformers==4.5.0 fugashi==1.1.0 ipadic==1.0.0 

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [1]:
import numpy as np
import pandas as pd

import torch
from torch.utils.data import Dataset, DataLoader
from transformers import AutoModel, AutoTokenizer, BertJapaneseTokenizer, BertModel
from torch import cuda
import sklearn.metrics as skm
from sklearn.model_selection import train_test_split
import torch.nn.functional as F
from transformers import logging


In [2]:
batch_size = 16
max_len = 256

In [3]:
df = pd.read_csv("./drive/MyDrive/Colab_Notebooks/data/livedoor_text.csv")
print(df.shape)
df.head()

(7367, 2)


Unnamed: 0,text,category
0,27日に生放送された日本テレビ「バンクーバー2010」には、女子フィギュアスケートで銀メダル...,7
1,「腐女子」という言葉をご存知でしょうか。\nいわゆる漫画やアニメキャラなどの男性同士の恋愛（...,0
2,展示会イベント恒例のおねいさん写真のコーナーでございます \n\n国内最大級の携帯電話や無線...,6
3,芸能界を引退した島田紳助さんが、今月２８日に公開される映画「犬の首輪とコロッケと」に声だけ出...,2
4,お花に包まれた洋館で、イケメン執事に囲まれながら、ゆったりと過ごす午後のひととき……。女の子...,5


# データセットの作成

In [4]:
class CreateDataset(Dataset):
  def __init__(self, X, y, tokenizer, max_len):
    self.X = X
    self.y = y
    self.tokenizer = tokenizer
    self.max_len = max_len

  def __len__(self):
    return len(self.y)

  def encode(self, tokenizer, text):
      inputs = tokenizer.encode_plus(
          text,
          add_special_tokens=True,
          max_length=self.max_len,
          padding = 'max_length',
          truncation = True
      )
      return inputs

  def __getitem__(self, index):
    text = self.X[index]
    label = self.y[index]
    ids = []
    mask = []
    inputs = self.encode(tokenizer=self.tokenizer, text=text)
    ids.append(torch.LongTensor(inputs['input_ids']))
    mask.append(torch.LongTensor(inputs['attention_mask']))

    return {
      'ids': ids,
      'mask': mask,
      'label': label,
      'text':text,
      # 'userID':userID
    }

In [5]:
tokenizer = BertJapaneseTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-whole-word-masking")

In [6]:
X = df["text"].values
y = df["category"].values

In [7]:
X_train_eval, X_test, y_train_eval, y_test = train_test_split(X, y, train_size=0.8)

X_train, X_eval, y_train, y_eval = train_test_split(X_train_eval, y_train_eval, train_size=0.75)

print(len(X_train))
print(len(X_eval))
print(len(X_test))

print(len(y_train))
print(len(y_eval))
print(len(y_test))

4419
1474
1474
4419
1474
1474


In [8]:
dataset_train = CreateDataset(X_train, y_train, tokenizer, max_len=max_len)
dataset_eval = CreateDataset(X_eval, y_eval, tokenizer, max_len=max_len)
dataset_test = CreateDataset(X_test, y_test, tokenizer, max_len=max_len)

print(dataset_train.__len__())
print(dataset_eval.__len__())
print(dataset_test.__len__())

4419
1474
1474


In [9]:
# dataset_train[0]

# データローダの作成

In [10]:
dataloader_train = DataLoader(dataset_train, batch_size=batch_size, shuffle=True, pin_memory=True)
dataloader_eval = DataLoader(dataset_eval, batch_size=batch_size, shuffle=True, pin_memory=True)
dataloader_test = DataLoader(dataset_test, batch_size=batch_size, shuffle=True, pin_memory=True)

# 辞書オブジェクトにまとめる
dataloaders_dict = {"train": dataloader_train, "val": dataloader_eval}

In [11]:
tmp = next(iter(dataloader_train))
print(tmp["ids"][0].size())
print(tmp["label"])
tmp["ids"][0][0]


torch.Size([16, 256])
tensor([8, 4, 0, 6, 4, 0, 8, 0, 6, 1, 1, 6, 0, 5, 2, 1])


tensor([    2,   101,    32,     6,    91,  1208,     5, 13129,    36,    25,
         4187, 17495,    38,    12,     6,   281,  1251,    53,    35, 12817,
          964, 29494,   643,     5,  3266,    11,  9368,    34, 20619,    14,
         2021,     6,  1920, 13129,    14,  3919, 18220,    58,    16,    33,
            8, 20619,    14,  2860,    84,    10,     5,     9,    25,  4187,
        17495,     5,    36,  2626, 18652,  2318, 28497,  2489,    12,     6,
           70, 13129,     9,  2203, 12830,  1964,    13,   501,    62,  6029,
           11,  1330,    10,  2255,     5,  4502,   278, 20619,    11,  1485,
            7,  3612,    45,     9,   203,    80,     8, 12830,    11,  1330,
           16,    33,  4502,     9,  2203,  3753,  1964,    13,   501,    20,
            6,  1379,     6, 12817,   964, 29494,   643,  3266,  9368, 20619,
           28,    36,  4913,   312,  3081,   591,  4913, 21793, 11911,    38,
           13,  7359,     6,  5607,  3753,    11,   763,    16, 

# BERTモデル

In [12]:
model = BertModel.from_pretrained("cl-tohoku/bert-base-japanese-whole-word-masking", output_attentions=True, output_hidden_states=True)

In [13]:
from torch import nn


class BertForLivedoor(nn.Module):
    '''BERTモデルにLivedoorニュースの9クラスを判定する部分をつなげたモデル'''

    def __init__(self):
        super(BertForLivedoor, self).__init__()

        # BERTモジュール
        self.bert = model  # 日本語学習済みのBERTモデル

        # headにクラス予測を追加
        # 入力はBERTの出力特徴量の次元768、出力は9クラス
        self.cls = nn.Linear(in_features=768, out_features=9)

        # 重み初期化処理
        nn.init.normal_(self.cls.weight, std=0.02)
        nn.init.normal_(self.cls.bias, 0)

        # カウント
        self.count = 0


    def forward(self, input_ids, attention_show_flg:bool):
        '''
        input_ids： [batch_size, sequence_length]の文章の単語IDの羅列
        '''

        # BERTの基本モデル部分の順伝搬
        # 順伝搬させる
        result = self.bert(input_ids)  # reult は、sequence_output, pooled_output

        # sequence_outputの先頭の単語ベクトルを抜き出す
        vec_0 = result[0]  # 最初の0がsequence_outputを示す
        vec_0 = vec_0[:, 0, :]  # 全バッチ。先頭0番目の単語の全768要素
        vec_0 = vec_0.view(-1, 768)  # sizeを[batch_size, hidden_size]に変換
        output = self.cls(vec_0)  # 全結合層

        self.count += 1

        if attention_show_flg:
          return output, result.attentions[-1]
        else:
          return output


In [15]:
# モデル構築
net = BertForLivedoor()

# 訓練モードに設定
net.train()

print('ネットワーク設定完了')

ネットワーク設定完了


In [16]:
# 勾配計算を最後のBertLayerモジュールと追加した分類アダプターのみ実行

# 1. まず全部を、勾配計算Falseにしてしまう
for param in net.parameters():
    param.requires_grad = False

# 2. BertLayerモジュールの最後を勾配計算ありに変更
for param in net.bert.encoder.layer[-1].parameters():
    param.requires_grad = True

# 3. 識別器を勾配計算ありに変更
for param in net.cls.parameters():
    param.requires_grad = True

In [17]:
# 最適化手法の設定
import torch.optim as optim


# BERTの元の部分はファインチューニング
optimizer = optim.Adam([
    {'params': net.bert.encoder.layer[-1].parameters(), 'lr': 5e-5},
    {'params': net.cls.parameters(), 'lr': 1e-4}
])

# 損失関数の設定
criterion = nn.CrossEntropyLoss()
# nn.LogSoftmax()を計算してからnn.NLLLoss(negative log likelihood loss)を計算

# 学習・検証

In [18]:
# モデルを学習させる関数を作成


def train_model(net, dataloaders_dict, criterion, optimizer, num_epochs):

    # GPUが使えるかを確認
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("使用デバイス：", device)
    print('-----start-------')

    # ネットワークをGPUへ
    net.to(device)

    # ネットワークがある程度固定であれば、高速化させる
    torch.backends.cudnn.benchmark = True

    # ミニバッチのサイズ
    batch_size = dataloaders_dict["train"].batch_size

    # epochのループ
    for epoch in range(num_epochs):
        # epochごとの訓練と検証のループ
        for phase in ['train', 'val']:
            if phase == 'train':
                net.train()  # モデルを訓練モードに
            else:
                net.eval()   # モデルを検証モードに

            epoch_loss = 0.0  # epochの損失和
            epoch_corrects = 0  # epochの正解数
            iteration = 1

            # データローダーからミニバッチを取り出すループ
            for batch in (dataloaders_dict[phase]):
                # batchはTextとLableの辞書型変数

                # GPUが使えるならGPUにデータを送る
                inputs = batch["ids"][0].to(device)  # 文章
                labels = batch["label"].to(device)  # ラベル

                # optimizerを初期化
                optimizer.zero_grad()

                # 順伝搬（forward）計算
                with torch.set_grad_enabled(phase == 'train'):

                    # BERTに入力
                    outputs = net(inputs, attention_show_flg=False)

                    loss = criterion(outputs, labels)  # 損失を計算

                    _, preds = torch.max(outputs, 1)  # ラベルを予測

                    # 訓練時はバックプロパゲーション
                    if phase == 'train':
                        loss.backward()
                        optimizer.step()

                        if (iteration % 10 == 0):  # 10iterに1度、lossを表示
                            acc = (torch.sum(preds == labels.data)
                                   ).double()/batch_size
                            print('イテレーション {} || Loss: {:.4f} || 10iter. || 本イテレーションの正解率：{}'.format(
                                iteration, loss.item(),  acc))

                    iteration += 1

                    # 損失と正解数の合計を更新
                    epoch_loss += loss.item() * batch_size
                    epoch_corrects += torch.sum(preds == labels.data)

            # epochごとのlossと正解率
            epoch_loss = epoch_loss / len(dataloaders_dict[phase].dataset)
            epoch_acc = epoch_corrects.double(
            ) / len(dataloaders_dict[phase].dataset)

            print('Epoch {}/{} | {:^5} |  Loss: {:.4f} Acc: {:.4f}'.format(epoch+1, num_epochs,
                                                                           phase, epoch_loss, epoch_acc))

    return net

In [19]:
# 学習・検証を実行する。1epochに2分ほどかかります
num_epochs = 4
net_trained = train_model(net, dataloaders_dict,
                          criterion, optimizer, num_epochs=num_epochs)


使用デバイス： cuda:0
-----start-------
イテレーション 10 || Loss: 2.4678 || 10iter. || 本イテレーションの正解率：0.1875
イテレーション 20 || Loss: 2.4160 || 10iter. || 本イテレーションの正解率：0.25
イテレーション 30 || Loss: 2.0287 || 10iter. || 本イテレーションの正解率：0.375
イテレーション 40 || Loss: 1.4768 || 10iter. || 本イテレーションの正解率：0.5625
イテレーション 50 || Loss: 1.1865 || 10iter. || 本イテレーションの正解率：0.5625
イテレーション 60 || Loss: 0.9661 || 10iter. || 本イテレーションの正解率：0.8125
イテレーション 70 || Loss: 1.0505 || 10iter. || 本イテレーションの正解率：0.75
イテレーション 80 || Loss: 0.8078 || 10iter. || 本イテレーションの正解率：0.625
イテレーション 90 || Loss: 0.7783 || 10iter. || 本イテレーションの正解率：0.75
イテレーション 100 || Loss: 0.6145 || 10iter. || 本イテレーションの正解率：0.8125
イテレーション 110 || Loss: 0.3920 || 10iter. || 本イテレーションの正解率：0.9375
イテレーション 120 || Loss: 0.7609 || 10iter. || 本イテレーションの正解率：0.6875
イテレーション 130 || Loss: 0.6976 || 10iter. || 本イテレーションの正解率：0.75
イテレーション 140 || Loss: 0.4656 || 10iter. || 本イテレーションの正解率：0.8125
イテレーション 150 || Loss: 0.9406 || 10iter. || 本イテレーションの正解率：0.625
イテレーション 160 || Loss: 0.8275 || 10iter. || 本イテレーションの正解率：0.

In [20]:
# モデル保存
# CPU版
# save_path = "./drive/MyDrive/Colab_Notebooks/model/single_bert_fine_tuning_livedoor_cpu.pth"
# torch.save(net_trained.to('cpu').state_dict(), save_path)

# GPU版
# save_path = "./drive/MyDrive/Colab_Notebooks/model/single_bert_fine_tuning_livedoor_gpu.pth"
save_path = "./model.pth"
torch.save(net_trained.state_dict(), save_path)

In [21]:
from tqdm import tqdm

# テストデータでの正解率を求める
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

net_trained.eval()   # モデルを検証モードに
net_trained.to(device)  # GPUが使えるならGPUへ送る

# epochの正解数を記録する変数
epoch_corrects = 0

for batch in tqdm(dataloader_test):  # testデータのDataLoader
    # batchはTextとLableの辞書オブジェクト
    # GPUが使えるならGPUにデータを送る
    inputs = batch["ids"][0].to(device)  # 文章
    labels = batch["label"].to(device)  # ラベル

    # 順伝搬（forward）計算
    with torch.set_grad_enabled(False):

        # BertForLivedoorに入力
        outputs = net_trained(inputs, attention_show_flg=False)

        loss = criterion(outputs, labels)  # 損失を計算
        _, preds = torch.max(outputs, 1)  # ラベルを予測
        epoch_corrects += torch.sum(preds == labels.data)  # 正解数の合計を更新

# 正解率
epoch_acc = epoch_corrects.double() / len(dataloader_test.dataset)

print('テストデータ{}個での正解率：{:.4f}'.format(len(dataloader_test.dataset), epoch_acc))

100%|██████████| 93/93 [00:11<00:00,  8.16it/s]

テストデータ1474個での正解率：0.8833





# Limeによる解釈

In [22]:
! pip install lime

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [14]:
import torch.nn.functional as F
import lime
from lime.lime_text import LimeTextExplainer

In [15]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

In [16]:
# モデルのロード
model = BertForLivedoor()
model.load_state_dict(torch.load("./model.pth"))
model.to(device)
print("complete")

complete


In [17]:
class_names = [
    'dokujo-tsushin',
    'it-life-hack',
    'smax',
    'sports-watch',
    'kaden-channel',
    'movie-enter',
    'topic-news',
    'livedoor-homme',
    'peachy'
]

In [18]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

def predictor(texts):
    encoding = tokenizer.batch_encode_plus(texts, padding="max_length", max_length=512)
    
    input_ids = torch.tensor(encoding['input_ids']).to(device)

    with torch.no_grad():
        output = model(input_ids, attention_show_flg=False)
    
    probas = F.softmax(output).cpu().detach().numpy()

    return probas

In [51]:
i = 15
texts = []
texts.append(dataset_test[i]["text"][0:512])
output = predictor(texts)
print(output)
print(output.sum())

[[5.6051284e-01 3.5861065e-04 2.1967221e-02 3.1112099e-02 3.5159837e-04
  3.8099058e-02 1.1599450e-04 3.2289168e-01 2.4590973e-02]]
1.0


  # This is added back by InteractiveShellApp.init_path()


In [52]:
print(class_names[np.argmax(output)])
print(class_names[dataset_test[i]["label"]])
print(dataset_test[i]["text"])


dokujo-tsushin
dokujo-tsushin
「しっかりメイクをしている顔よりも、スッピンのほうがいい」と言う男性は少なくない。しかしメイクを落とすと、たいていの女性はメイク時よりも目は小さくなるし、肌色はくすむし、クマ、シミ、ニキビ跡なども目立つようになる。それでも男たちはスッピンのほうがいいと言ってくれるのだろうか？

「『スッピンのほうがいい』とは、スッピンでもメイク時と同じくらいかわいい女性が好みだという意味です（笑）」とは、営業職のエイジさん（32歳）。言葉の裏に隠された男たちの真意に気づかず、スッピン顔で街を歩くのはとても危険な行為である。このような間違いを犯さぬためにも、男性陣が言いがちなフレーズとその言葉の裏の意味を調べてみた。

●「女の子は多少、太ってるくらいがかわいいよ」
女性は年中、ダイエットと向き合っている。どのレベルなら太っていてもＯＫなのだろう？

「どの程度の体型がＯＫなのかは、各人の主観で決められるでしょうね。ＯＫとＮＧの分岐点は、ずばり連れて歩いて恥ずかしくないレベルかどうか。男って、好みと見栄を両方大事にするものです。いずれにしろ、男がこの言葉をぽっちゃり女子（もしくは自分を太っていると思っている女子）に発言していたら、彼女に好意があるのは間違いないでしょう」（35歳）

●「胸のサイズはぜんぜん気にしない」
ちなみに女性の理想とするカップは「Ｄカップ」だそう。男性誌のグラビアではＦカップ以上が依然、主流である。

「胸の大きさの好みは趣味によって違うから言葉通りに受け取っていいのでは？　ボクも手に収まるくらいがベストだと思っています（笑）。ちなみに、巨乳好きな場合でも、太っているコの巨乳は巨乳に感じないので、好まれないこともあります」（29歳）

「胸のサイズはそれぞれにイイ（笑）。サイズにこだわるのは若いうちだけでしょう。巨乳と富士山は、遠くから眺めて愛でるものです」（37歳）

●「仕事のできる女性って素敵だよね」
バリバリのキャリアで30代で課長昇進！　そんな女性に対する同年代男性陣の思いとは？　実は劣等感を抱いていないのか？

「社会情勢上、大企業に勤めていても高い収入を得ることが難しくなっています。男性が女性に社会的安定を求めることもあるのでは？　言葉通りに受け取っていいと思うし、キャリアを恋人の条件と

In [54]:
explainer = LimeTextExplainer(class_names=class_names)

str_to_predict = texts[0]
exp = explainer.explain_instance(str_to_predict, predictor, num_features=5, num_samples=100)
exp.show_in_notebook(text=str_to_predict)

RuntimeError: ignored

# Attentionの可視化

In [None]:
# BertForIMDbで処理

# ミニバッチの用意
batch = next(iter(dataloader_test))

# GPUが使えるならGPUにデータを送る
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
inputs = batch["ids"][0].to(device)  # 文章
labels = batch["label"].to(device)  # ラベル

outputs, attention_probs = net_trained(inputs, attention_show_flg=True)

_, preds = torch.max(outputs, 1)  # ラベルを予測


In [None]:
attention_probs.size()

torch.Size([16, 12, 512, 512])

In [None]:
id2label = {
    0: 'dokujo-tsushin', 
    1: 'it-life-hack', 
    2: 'smax', 
    3: 'sports-watch', 
    4: 'kaden-channel', 
    5: 'movie-enter', 
    6: 'topic-news', 
    7: 'livedoor-homme', 
    8: 'peachy'
}

In [None]:
# HTMLを作成する関数を実装


def highlight(word, attn):
    '''
    Attentionの値が大きいと文字の背景が濃い赤になるhtmlを出力させる関数
    '''

    html_color = '#%02X%02X%02X' % (
        255, int(255*(1 - attn)), int(255*(1 - attn)))
    return '<span style="background-color: {}"> {}</span>'.format(html_color, word)


def mk_html(index, batch, preds, normlized_weights):
    '''
    HTMLデータを作成する
    '''

    # indexの結果を抽出
    sentence = batch["ids"][0][index]  # 文章
    label = batch["label"][index]  # ラベル
    pred = preds[index]  # 予測

    # ラベルと予測結果を文字に置き換え
    label_str = id2label[label.item()]
    pred_str = id2label[pred.item()]

    # 表示用のHTMLを作成する
    html = f"正解ラベル：{label_str}<br>推論ラベル：{pred_str}<br><br>"

    # Self-Attentionの重みを可視化。Multi-Headが12個なので、12種類のアテンションが存在
    for i in range(12):

        # indexのAttentionを抽出と規格化
        # 0単語目[CLS]の、i番目のMulti-Head Attentionを取り出す
        # indexはミニバッチの何個目のデータかをしめす
        attens = normlized_weights[index, i, 0, :]
        attens /= attens.max()

        html += '[BERTのAttentionを可視化_' + str(i+1) + ']<br>'
        for word, attn in zip(sentence, attens):

            # 単語が[SEP]の場合は文章が終わりなのでbreak
            if tokenizer.convert_ids_to_tokens([word.numpy().tolist()])[0] == "[SEP]":
                break

            # 関数highlightで色をつける、関数tokenizer_bert.convert_ids_to_tokensでIDを単語に戻す
            html += highlight(tokenizer.convert_ids_to_tokens(
                [word.numpy().tolist()])[0], attn)
        html += "<br><br>"

    # 12種類のAttentionの平均を求める。最大値で規格化
    all_attens = attens*0  # all_attensという変数を作成する
    for i in range(12):
        attens += normlized_weights[index, i, 0, :]
    attens /= attens.max()

    html += '[BERTのAttentionを可視化_ALL]<br>'
    for word, attn in zip(sentence, attens):

        # 単語が[SEP]の場合は文章が終わりなのでbreak
        if tokenizer.convert_ids_to_tokens([word.numpy().tolist()])[0] == "[SEP]":
            break

        # 関数highlightで色をつける、関数tokenizer_bert.convert_ids_to_tokensでIDを単語に戻す
        html += highlight(tokenizer.convert_ids_to_tokens(
            [word.numpy().tolist()])[0], attn)
    html += "<br><br>"

    return html


In [None]:
from IPython.display import HTML

index = 2  # 出力させたいデータ
html_output = mk_html(index, batch, preds, attention_probs)  # HTML作成
HTML(html_output)  # HTML形式で出力
