# 前処理


In [None]:
# 単語分割にはJanomeを使用
from janome.tokenizer import Tokenizer

j_t = Tokenizer()


def tokenizer_janome(text):
    return [tok for tok in j_t.tokenize(text, wakati=True)]


In [None]:
# 前処理として正規化をする関数を定義
import re


def preprocessing_text(text):

    # 改行、半角スペース、全角スペースを削除
    text = re.sub('\r', '', text)
    text = re.sub('\n', '', text)
    text = re.sub('　', '', text)
    text = re.sub(' ', '', text)

    # 特定文字を正規表現で検索しい、消去する
    text = re.sub('http://news.livedoor.com/*+0900', '', text) # これがまずいのだろう
    
    # 数字文字の一律「0」化
    text = re.sub(r'[0-9 ０-９]', '0', text)  # 数字

    # 記号と数字の除去
    # 今回は無視。半角記号,数字,英字
    # 今回は無視。全角記号

    return text


In [None]:
# 前処理とJanomeの単語分割を合わせた関数を定義する


def tokenizer_with_preprocessing(text):
    text = preprocessing_text(text)  # 前処理の正規化
    ret = tokenizer_janome(text)  # Janomeの単語分割

    return ret


In [None]:

# 動作確認
text_example_01 = "http://news.livedoor.com/article/detail/6829004/
2012-08-15T10:00:00+0900
インタビュー：又吉直樹（ピース）「自分に対する女心は、自意識が邪魔をしてわからないんです」
　読書好き、考えすぎ、女の子苦手……。数々の内向的な要素を併せ持ち、内向き芸人界のカリスマとして知られる又吉直樹が、映画初主演を果たした。人の心が読めるタバコを手に入れた青年の役を演じた彼も、私生活では女心がわからなくて大いに悩んでいた!?


——初めて映画の主演に抜擢されたお気持ちはいかがでしたか？
又吉：僕はあんまり芝居とか得意な方ではないので「大丈夫なのかな？」というのが最初の印象でしたね。不安の方が大きくて、監督さんとかプロデューサーの方にも「僕、演技めっちゃ下手ですよ。やめた方がいいんじゃないですか？」って相談したんですけど「又吉くんみたいな役だから大丈夫だよ」って言われて。


——素の又吉さんに近い役だったわけですね。
又吉：そうですね。「たどたどしくていい」って言われましたから。ただ、実際に撮影が始まってみるとさすがに、「もうちょっとテンション上げてほしい」と言われましたけど（笑）。


——テンションが低すぎた、と。
又吉：はい。ほんまの自然体で行ったら「もうちょっと大きい声出るかな？」と言われました（笑）。でも、本当に監督さんがすごく良い空気を作ってくれたので、現場の雰囲気は抜群に良かったです。


——実際に演じてみて、主人公の宮内正と又吉さんに共通するところはありましたか？
又吉：女性の気持ちがわからないっていうところは似てると思いましたね。宮内くんほどではないですけど、昔から女の子が何を考えているのかわからないですし。あと、めったにないことですけど、自分が女性から告白めいたことをされたときに「気付いてると思うけど、ずっと好きだった」と言われたことがあるんです。でも、僕は全然気付いてなくて（笑）。


——その予感はなかったんですか？
又吉：めっちゃ仲良い子ではあったんですけど、全然気付かなかったですね。ただ、気付いてなかったと言うのはまずいと思って「うすうす気付いてたけど」という雰囲気にしてごまかしたことはあります。女の子って「実はあのとき好きだった」とか、あとになって言ったりするじゃないですか。僕、そんな可能性は微塵も感じてないですからね。そのときに言ってくれてたら、絶対好きになってたのに、って。


——今も女性の気持ちはわからないですか？
又吉：わかんないです。コンパとかも苦手で。ずっと行ってなかったんですけど、2〜3年前に後輩とコンパらしきものをやってみたことがあるんです。そしたら、そこでずっと僕にケンカを売ってくる女性がいて。大学4年生で、就職活動をしているらしいんですけど、その試験で出た問題を僕に振ってくるんですよ。ちょっと大喜利みたいな内容で「これ、又吉さんだったらどう答えますか？」って。めんどくさいと思いながらも答えていたら、「それ、私も考えてました！」とか言われて。「こいつ、めっちゃ嫌なやつやん」と思ってたんですけど、あとから実は僕に好意を持っていたと聞かされて……。僕は「いや、なんで好意を持ってる相手にそんなことするん？」と思うんですけど、一緒にコンパに行ってた後輩からは「あの感じは一目瞭然でしょう！」って言われました。僕はもう、ほんまにケンカ売られてると思ってたんです。


——又吉さんは小説をよくお読みになると思うんですが、そこでは人間の心の機微が描かれているわけじゃないですか。そういう読書経験を積むことで、女心がわかるようになったりはしないですか？
又吉：みんなで飲んでるとき、誰が何を考えてるかっていうのはすぐに頭に入ってくるんですよ。「こいつ、退屈してるな」とか、「あの人、ずっとしゃべってないな」とか。子供の頃から、嫌われないように人の顔色ばかりうかがってきたので、それはわかるんです。でも、自分に対する女心は、自意識が邪魔してわからないんです。

『全方位型お笑いマガジン　コメ旬』Vol.4
又吉直樹のインタビューは、お笑い評論家・ラリー遠田が編集長をつとめる『全方位型お笑いマガジン　コメ旬』Vol.4（キネマ旬報社・刊）に掲載されています。話題のお笑い芸人インタビューがてんこ盛り！
Amazonで詳細を見る
 1 2
"

print(tokenizer_with_preprocessing(text_example_01))


In [None]:

# 動作確認
text_example_02 = "インタビュー：又吉直樹（ピース）「自分に対する女心は、自意識が邪魔をしてわからないんです」"

print(tokenizer_with_preprocessing(text_example_02))


#  Datasetの作成

In [None]:
# データを読み込んだときに、読み込んだ内容に対して行う処理を定義します
import torchtext


# 文章とラベルの両方に用意します
max_length = 256
TEXT = torchtext.data.Field(sequential=True, tokenize=tokenizer_with_preprocessing, use_vocab=True,
                            lower=True, include_lengths=True, batch_first=True, fix_length=max_length, init_token="<cls>", eos_token="<eos>")
LABEL = torchtext.data.Field(sequential=False, use_vocab=False)


In [None]:
# フォルダ「data/livedoor_text」から各tsvファイルを読み込みます
train_val_ds, test_ds = torchtext.data.TabularDataset.splits(
    path='./data/livedoor_text/', train='livedoor_text_train_val.tsv',
    test='livedoor_text_test.tsv', format='tsv',
    fields=[('Text', TEXT), ('Label', LABEL)])

# 動作確認
print('訓練および検証のデータ数', len(train_val_ds))
print('1つ目の訓練および検証のデータ', vars(train_val_ds[0]))

In [None]:
import random
# torchtext.data.Datasetのsplit関数で訓練データとvalidationデータを分ける

train_ds, val_ds = train_val_ds.split(
    split_ratio=0.8, random_state=random.seed(1234))

# 動作確認
print('訓練データの数', len(train_ds))
print('検証データの数', len(val_ds))
print('1つ目の訓練データ', vars(train_ds[0]))

# ボキャブラリーの作成

In [None]:
# 日本語学習済みword2vec　by https://github.com/Kyubyong/wordvectors

# https://drive.google.com/open?id=0B0ZXk88koS2KMzRjbnE4ZHJmcWM

In [None]:
from gensim.models import Word2Vec

# 一度gensimで読み込んで、word2vecのformatで保存する
model = Word2Vec.load('./data/ja/ja.bin')

# 保存
model.wv.save_word2vec_format('./data/japanese_word2vec_vectors.vec')


In [None]:
# torchtextで単語ベクトルとして読み込みます
from torchtext.vocab import Vectors

japanese_word2vec_vectors = Vectors(
    name='./data/japanese_word2vec_vectors.vec')

# 単語ベクトルの中身を確認します
print("1単語を表現する次元数：", japanese_word2vec_vectors.dim)
print("単語数：", len(japanese_word2vec_vectors.itos)) # 少なくない？？？なんで？？？


In [None]:
# ベクトル化したバージョンのボキャブラリーを作成します
TEXT.build_vocab(train_ds, vectors=japanese_word2vec_vectors, min_freq=1)

# ボキャブラリーのベクトルを確認します
print(TEXT.vocab.vectors.shape)  
TEXT.vocab.vectors


#  DataLorderの作成

In [None]:
# DataLoaderを作成します
train_dl = torchtext.data.Iterator(train_ds, batch_size=24, train=True)

val_dl = torchtext.data.Iterator(
    val_ds, batch_size=24, train=False, sort=False)

test_dl = torchtext.data.Iterator(
    test_ds, batch_size=24, train=False, sort=False)


# 動作確認 
batch = next(iter(val_dl))
print(batch.Text)
print(batch.Label)

# モデル構築
今回はヘッド数6 のTransformer Encoder（6層）で分類を試みます

In [None]:
import math
import numpy as np
import random

import torch
import torch.nn as nn
import torch.nn.functional as F 
import torchtext

In [None]:
# Setup seeds
torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)

In [None]:
class Embedder(nn.Module):
    '''idで示されている単語をベクトルに変換します'''

    def __init__(self, text_embedding_vectors):
        super(Embedder, self).__init__()

        self.embeddings = nn.Embedding.from_pretrained(
            embeddings=text_embedding_vectors, freeze=True)
        # freeze=Trueによりバックプロパゲーションで更新されず変化しなくなります

    def forward(self, x):
        x_vec = self.embeddings(x)
        return x_vec

In [None]:
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
im = Image.open("./data/imimimim.jpg")
im_list = np.asarray(im)
plt.imshow(im_list)
plt.show()

In [None]:
class PositionalEncoder(nn.Module):
    '''入力された単語の位置を示すベクトル情報を付加する'''

    def __init__(self, d_model=300, max_seq_len=256):
        super().__init__()

        self.d_model = d_model  # 単語ベクトルの次元数

        # 単語の順番（pos）と埋め込みベクトルの次元の位置（i）によって一意に定まる値の表をpeとして作成、するための準備
        pe = torch.zeros(max_seq_len, d_model)

        # GPUが使える場合はGPUへ送る
        device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        pe = pe.to(device)

        for pos in range(max_seq_len):
            for i in range(0, d_model, 2): # i は分散表現の何次元目かを表す
                pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
                pe[pos, i + 1] = math.cos(pos /
                                          (10000 ** ((2 * (i + 1))/d_model)))

        # 表peの先頭に、ミニバッチ次元となる次元を足す
        self.pe = pe.unsqueeze(0)

        # 勾配を計算しないようにする
        self.pe.requires_grad = False

    def forward(self, x):

        # 入力xとPositonal Encodingを足し算する
        # xがpeよりも小さいので、大きくする
        ret = math.sqrt(self.d_model)*x + self.pe
        return ret


In [None]:
"""
class Attention(nn.Module):
    '''Transformerは本当はマルチヘッドAttentionですが、
    分かりやすさを優先しシングルAttentionで実装します'''

    def __init__(self, d_model=300):
        super().__init__()

        # 今回は全結合層で特徴量を変換する
        self.q_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)

        # 出力時に使用する全結合層
        self.out = nn.Linear(d_model, d_model)

        # Attentionの大きさ調整の変数
        self.d_k = d_model

    def forward(self, q, k, v, mask):
        # 全結合層で特徴量を変換
        k = self.k_linear(k)
        q = self.q_linear(q)
        v = self.v_linear(v)

        # Attentionの値を計算する
        # 各値を足し算すると大きくなりすぎるので、root(d_k)で割って調整
        weights = torch.matmul(q, k.transpose(1, 2)) / math.sqrt(self.d_k)

        # ここでmaskを計算。<pad>の位置はattention 0 に。Encoderのmaskのはなし。
        mask = mask.unsqueeze(1)
        weights = weights.masked_fill(mask == 0, -1e9) #softmax(-無限大) = 0 であるから。
        
        # softmaxで規格化をする
        normlized_weights = F.softmax(weights, dim=-1)

        # AttentionをValueとかけ算
        output = torch.matmul(normlized_weights, v)

        # 全結合層で特徴量を変換
        output = self.out(output)

        return output, normlized_weights


In [None]:
class MultiheadedAttention(nn.Module):

    def __init__(self, d_model=300, h=6):
        super().__init__()

        # q, v, k を d_model → d_model 写像
        self.q_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)

        # 出力時
        self.out = nn.Linear(d_model, d_model)

        # Embedding/入力次元　と　それをヘッド数で除算したもの
        self.d_model = d_model
        self.h = h
        self.d_k = d_model // h
        

    def forward(self, q, k, v, mask):
        
        bs = q.size(0) #Batchsizeを取っておく
        
        # d_model → d_model 写像
        k = self.k_linear(k) # Batchsize × seq_len × d_model
        q = self.q_linear(q)
        v = self.v_linear(v)
        
        # Embed次元においてhead数個に切る。
        k = k.view(bs, -1, self.h, self.d_k) # Batchsize × seq_len × heads × d_k
        q = q.view(bs, -1, self.h, self.d_k)
        v = v.view(bs, -1, self.h, self.d_k)
        
        # seq_len次元とhead次元を転置
        k = k.transpose(1,2) # Batchsize × heads × seq_len × d_k
        q = q.transpose(1,2)
        v = v.transpose(1,2)
        
        # k の seq_len次元とd_k次元を転置
        k_transpose = k.transpose(-2, -1) # Batchsize × heads × d_k × seq_len 
        
        # logits計算
        logits = torch.matmul(q, k_transpose) /  math.sqrt(self.d_k) # Batchsize × heads × seq_len × seq_len
        
        # logitsにmaskを施す。<pad>の位置はattention_weightが 0 になるよう、予め置換しておくだけ。
        mask_unsq1 = mask.unsqueeze(1) # torch.Size([bs, 1, 256]) の bool
        mask_unsq2 = mask_unsq1.unsqueeze(1) # torch.Size([bs, 1, 1, 256]) の bool

        logits = logits.masked_fill(mask_unsq2 == 0, -1e9) #softmax(-無限大) = 0 であるから。
                
        # Attention_wights計算
        attn = F.softmax(logits, dim=-1) # Batchsize × heads × seq_len × seq_len

        # valueをattnで重み付け
        scores = torch.matmul(attn, v) # Batchsize × heads × seq_len × d_k
        
        # seq_len次元とhead次元を転置
        scores = scores.transpose(1,2) # Batchsize × seq_len × heads × d_k
        
        # Embed次元において、異なるheadのscoresをconcat
        concat = scores.contiguous().view(bs, -1, self.d_model) # Batchsize × seq_len × d_model
        
        # concatに全結合層
        output = self.out(concat)

        
        return output, attn



In [None]:
"""
#実験用

class MultiheadedAttentionExperiment(nn.Module):

    def __init__(self, d_model=300, h=6):
        super().__init__()

        # q, v, k を d_model → d_model 写像
        self.q_linear = nn.Linear(d_model, d_model)
        self.v_linear = nn.Linear(d_model, d_model)
        self.k_linear = nn.Linear(d_model, d_model)

        # 出力時
        self.out = nn.Linear(d_model, d_model)

        # Embedding/入力次元　と　ヘッド数で除算したもの
        self.d_model = d_model
        self.h = h
        self.d_k = d_model // h
        

    def forward(self, q, k, v, mask):
        
        bs = q.size(0) #Batchsizeを取っておく
        
        # d_model → d_model 写像
        k = self.k_linear(k) # Batchsize × seq_len × d_model
        q = self.q_linear(q)
        v = self.v_linear(v)
        
        # Embed次元においてhead数個に切る。
        k = k.view(bs, -1, self.h, self.d_k) # Batchsize × seq_len × heads × d_k
        q = q.view(bs, -1, self.h, self.d_k)
        v = v.view(bs, -1, self.h, self.d_k)
        
        # seq_len次元とhead次元を転置
        k = k.transpose(1,2) # Batchsize × heads × seq_len × d_k
        q = q.transpose(1,2)
        v = v.transpose(1,2)
        
        # k の seq_len次元とd_k次元を転置
        k_transpose = k.transpose(-2, -1) # Batchsize × heads × d_k × seq_len 
        
        # logits計算
        logits = torch.matmul(q, k_transpose) /  math.sqrt(self.d_k) # Batchsize × heads × seq_len × seq_len
        
        # logitsにmaskを施す。<pad>の位置はattention_weightが 0 になるよう、予め置換しておくだけ。
        mask_unsq1 = mask.unsqueeze(1) # torch.Size([bs, 1, 256]) の bool
        mask_unsq2 = mask_unsq1.unsqueeze(1) # torch.Size([bs, 1, 1, 256]) の bool

        logits_masked = logits.masked_fill(mask_unsq2 == 0, -1e9) #softmax(-無限大) = 0 であるから。
                
        # Attention_wights計算
        attn = F.softmax(logits_masked, dim=-1) # Batchsize × heads × seq_len × seq_len

        # valueをattnで重み付け
        scores = torch.matmul(attn, v) # Batchsize × heads × seq_len × d_k
        
        # seq_len次元とhead次元を転置
        scores_trans = scores.transpose(1,2) # Batchsize × seq_len × heads × d_k
        
        # Embed次元において、異なるheadのscoresをconcat
        concat = scores_trans.contiguous().view(bs, -1, self.d_model) # Batchsize × seq_len × d_model
        
        # concatを全結合
        output = self.out(concat)

        
        return k, q, v, k_transpose, logits, logits_masked, attn, scores, scores_trans, concat, output



In [None]:
"""
#実験用

# ダミーのインプット
sample_input = torch.randn([24, 256, 300])
# maskの例
texts_in_1stbatch = batch.Text[0]
input_pad = 1
input_mask = (texts_in_1stbatch != input_pad)

attnattn  = MultiheadedAttentionExperiment(300)
akey, aquery, avalue, ak_transpose, alogits, alogits_masked, aattn, ascores, ascores_trans, aconcat, aoutput = attnattn(sample_input, sample_input, sample_input, input_mask)
print(akey.shape)
print(aquery.shape)
print(avalue.shape)
print(ak_transpose.shape)
print(alogits.shape) 
print(alogits_masked.shape)
print(aattn.shape)
print(ascores.shape)
print(ascores_trans.shape)
print(aconcat.shape)
print(aoutput.shape)

print(input_mask.shape)

In [None]:
import torch
import math

bs = 24
sl = 256
dim_model = 300
heads = 6
dim_k = dim_model // heads

sample_tensor = torch.randn([bs, sl, dim_model])
sample_tensor_split = sample_tensor.view(bs, -1, heads, dim_k)
sample_tensor_split_headfirst = sample_tensor_split.transpose(1,2)
sample_q = sample_k = sample_v = sample_tensor_split_headfirst
sample_k_transpose = sample_k.transpose(-2, -1)
sample_attn = torch.matmul(sample_q, sample_k_transpose) /  math.sqrt(dim_k)
sample_scores = torch.matmul(sample_attn, sample_v)
sample_scores_transpose = sample_scores.transpose(1,2)
sample_concat = sample_scores_transpose.contiguous().view(bs, -1, dim_model)

print(sample_tensor.shape)
print(sample_tensor_split.shape)
print(sample_q.shape)
print(sample_k_transpose.shape)
print(sample_attn.shape)
print(sample_scores.shape)
print(sample_scores_transpose.shape)
print(sample_concat.shape)


In [None]:
class FeedForward(nn.Module):
    def __init__(self, d_model, d_ff=1024, dropout=0.1):
        '''Attention層から出力を単純に全結合層2つで特徴量を変換するだけのユニットです'''
        super().__init__()

        self.linear_1 = nn.Linear(d_model, d_ff)
        self.dropout = nn.Dropout(dropout)
        self.linear_2 = nn.Linear(d_ff, d_model)

    def forward(self, x):
        x = self.linear_1(x)
        x = self.dropout(F.relu(x))
        x = self.linear_2(x)
        return x

In [None]:
"""
class TransformerBlock(nn.Module):
    def __init__(self, d_model, dropout=0.1):
        super().__init__()

        # LayerNormalization層
        # https://pytorch.org/docs/stable/nn.html?highlight=layernorm
        self.norm_1 = nn.LayerNorm(d_model)
        self.norm_2 = nn.LayerNorm(d_model)

        # Attention層
        self.attn = Attention(d_model)

        # Attentionのあとの全結合層2つ
        self.ff = FeedForward(d_model)

        # Dropout
        self.dropout_1 = nn.Dropout(dropout)
        self.dropout_2 = nn.Dropout(dropout)

    def forward(self, x, mask):
        # 正規化とAttention
        x_normlized = self.norm_1(x)
        output, normlized_weights = self.attn(
            x_normlized, x_normlized, x_normlized, mask)
        
        x2 = x + self.dropout_1(output)

        # 正規化と全結合層
        x_normlized2 = self.norm_2(x2)
        output = x2 + self.dropout_2(self.ff(x_normlized2))

        return output, normlized_weights


In [None]:
 class TransformerBlock(nn.Module):
    def __init__(self, d_model, dropout=0.1):
        super().__init__()

        # LayerNormalization層
        # https://pytorch.org/docs/stable/nn.html?highlight=layernorm
        self.norm_1 = nn.LayerNorm(d_model)
        self.norm_2 = nn.LayerNorm(d_model)

        # MultiheadedAttention
        self.attn = MultiheadedAttention(d_model)

        # Attentionのあとの全結合層
        self.ff = FeedForward(d_model)

        # Dropout
        self.dropout_1 = nn.Dropout(dropout)
        self.dropout_2 = nn.Dropout(dropout)

    def forward(self, x, mask):
        # 正規化とAttention
        x_normlized = self.norm_1(x)
        output, attn = self.attn(
            x_normlized, x_normlized, x_normlized, mask)
        
        x2 = x + self.dropout_1(output)

        # 正規化と全結合層
        x_normlized2 = self.norm_2(x2)
        output = x2 + self.dropout_2(self.ff(x_normlized2))

        return output, attn


In [None]:
# TransformerBlockの中身の動作確認

# 必要な層をInstantiation
norm_one = nn.LayerNorm(300)
norm_two = nn.LayerNorm(300)
ffn = FeedForward(300)
attnattn  = MultiheadedAttention(300)
dp_one = nn.Dropout(0.1)
dp_two = nn.Dropout(0.1)

# ダミーのインプット
sample_input = torch.randn([24, 256, 300])
# maskの例
texts_in_1stbatch = batch.Text[0]
input_pad = 1
input_mask = (texts_in_1stbatch != input_pad)

# 順伝播再現
norm1ed = norm_one(sample_input)
after_attn, _ = attnattn(norm1ed, norm1ed, norm1ed, input_mask)
after_dp1_residual = sample_input + dp_one(after_attn)
norm2ed = norm_two(after_dp1_residual)
after_ffn = ffn(norm2ed)
after_dp2_residual = after_dp1_residual + dp_two(after_ffn)

print(input_mask.shape)
print(sample_input.shape)
print(norm1ed.shape)
print(after_attn.shape)
print(after_dp1_residual.shape)
print(norm2ed.shape)
print(after_ffn.shape)
print(after_dp2_residual.shape)

In [None]:
class ClassificationHead(nn.Module):
    '''Transformer_Blockの出力を使用し、最後にクラス分類させる'''

    def __init__(self, d_model=300, output_dim=9): # output_dimはコーパスの9カテゴリ
        super().__init__()

        # 全結合層
        self.linear = nn.Linear(d_model, output_dim)

        # 重み初期化処理
        nn.init.normal_(self.linear.weight, std=0.02)
        nn.init.normal_(self.linear.bias, 0)

    def forward(self, x):
        x0 = x[:, 0, :]  # 各ミニバッチの各文の先頭の単語<CLS>の特徴量（300次元）を取り出す
        out = self.linear(x0)

        return out

In [None]:
# 最終的なTransformerモデルのクラス


class TransformerClassification(nn.Module):
    '''Transformerでクラス分類させる'''

    def __init__(self, text_embedding_vectors, d_model=300, max_seq_len=256, output_dim=2):
        super().__init__()

        # モデル構築
        self.net1 = Embedder(text_embedding_vectors)
        self.net2 = PositionalEncoder(d_model=d_model, max_seq_len=max_seq_len)
        self.net3_1 = TransformerBlock(d_model=d_model)
        self.net3_2 = TransformerBlock(d_model=d_model)
        self.net3_3 = TransformerBlock(d_model=d_model)
        self.net3_4 = TransformerBlock(d_model=d_model)
        self.net3_5 = TransformerBlock(d_model=d_model)
        self.net3_6 = TransformerBlock(d_model=d_model)

        self.net4 = ClassificationHead(output_dim=output_dim, d_model=d_model)

    def forward(self, x, mask):
        x1 = self.net1(x)  # Embedding
        x2 = self.net2(x1)  # PEを加える
        x3_1, attn_1 = self.net3_1(x2, mask)  # Transformer block 一段目
        x3_2, attn_2 = self.net3_2(x3_1, mask)  # Transformer block 二段目
        x3_3, attn_3 = self.net3_3(x3_2, mask)  # Transformer block 三段目
        x3_4, attn_4 = self.net3_4(x3_3, mask)  # Transformer block 四段目
        x3_5, attn_5 = self.net3_5(x3_4, mask)  # Transformer block 五段目
        x3_6, attn_6 = self.net3_6(x3_5, mask)  # Transformer block 六段目

        x4 = self.net4(x3_6)  # カテゴリ次元になってるはず。
        return x4

In [None]:
"""
# 動作確認

# ミニバッチの用意
batch = next(iter(train_dl))

# モデル構築
net = TransformerClassification(
    text_embedding_vectors=TEXT.vocab.vectors, d_model=300, max_seq_len=256, output_dim=2)

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("使用デバイス：", device)
net.to(device)


# 入力
x = batch.Text[0]
# mask作成
input_pad = 1
input_mask = (x != input_pad)
# 出力
out, normlized_weights_1, normlized_weights_2 = net(x, input_mask)

print("出力のテンソルサイズ：", out.shape)
print("出力テンソルのsoftmax：", F.softmax(out, dim=1))

In [None]:
x = batch.Text[0]
print(x)
x.shape

In [None]:
input_pad = 1
input_mask = (x != input_pad)
print(input_mask)
input_mask.shape

In [None]:
"""
sample_tententensor = torch.randn([64, 256, 256]) # Batchsize × seq_len × seq_len (Singleheadedのときのlogits)
print(sample_tententensor.shape)

In [None]:
"""
sample_tentententensor = torch.randn([64, 6, 256, 256]) # Batchsize × head × seq_len × seq_len (Multiheadedのときのlogits)
print(sample_tentententensor.shape)

In [None]:
"""
# logitsにmaskを施す。<pad>の位置はattention_weightが 0 になるよう、予め置換しておくだけ。
input_mask_unsq1 = input_mask.unsqueeze(1)
input_mask_unsq2 = input_mask_unsq1.unsqueeze(1)

print(input_mask_unsq1)
print(input_mask_unsq1.shape)
print(input_mask_unsq2)
print(input_mask_unsq2.shape)

In [None]:
"""
sample_tententensor_masked = sample_tententensor.masked_fill(input_mask_unsq1 == 0, -1e9) #softmax(-無限大) = 0 であるから。
print(sample_tententensor_masked)
print(sample_tententensor_masked.shape)

In [None]:
"""
sample_tentententensor_masked = sample_tentententensor.masked_fill(input_mask_unsq2 == 0, -1e9) #softmax(-無限大) = 0 であるから。
print(sample_tentententensor_masked)
print(sample_tentententensor_masked.shape)

## 学習・推論

In [None]:
import numpy as np
import random

import torch
import torch.nn as nn
import torch.optim as optim

import torchtext


In [None]:
# 乱数のシードを設定
torch.manual_seed(1234)
np.random.seed(1234)
random.seed(1234)

In [None]:
# 辞書オブジェクトにまとめる
# Batchサイズは24のほう
dataloaders_dict = {"train": train_dl, "val": val_dl}


In [None]:
# モデル構築
net = TransformerClassification(
    text_embedding_vectors=TEXT.vocab.vectors, d_model=300, max_seq_len=256, output_dim=9)

# ネットワークの初期化を定義


def weights_init(m):
    classname = m.__class__.__name__
    if classname.find('Linear') != -1:
        # Liner層の初期化
        nn.init.kaiming_normal_(m.weight)
        if m.bias is not None:
            nn.init.constant_(m.bias, 0.0)


# 訓練モードに設定
net.train()

# TransformerBlockモジュールを初期化実行
net.net3_1.apply(weights_init)
net.net3_2.apply(weights_init)


print('ネットワーク設定完了')


In [None]:
# 損失関数の設定
criterion = nn.CrossEntropyLoss()
# nn.LogSoftmax()を計算してからnn.NLLLoss(negative log likelihood loss)を計算

# 最適化手法の設定
learning_rate = 2e-5
optimizer = optim.Adam(net.parameters(), lr=learning_rate)


In [None]:
# モデルを学習させる関数を作成


def train_model(net, dataloaders_dict, criterion, optimizer, num_epochs):

    # GPUが使えるかを確認
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print("使用デバイス：", device)
    print('-----start-------')
    # ネットワークをGPUへ
    net.to(device)

    # ネットワークがある程度固定であれば、高速化させる
    torch.backends.cudnn.benchmark = True

    # epochのループ
    for epoch in range(num_epochs):
        # epochごとの訓練と検証のループ
        for phase in ['train', 'val']:
            if phase == 'train':
                net.train()  # モデルを訓練モードに
            else:
                net.eval()   # モデルを検証モードに

            epoch_loss = 0.0  # epochの損失和
            epoch_corrects = 0  # epochの正解数

            # データローダーからミニバッチを取り出すループ
            for batch in (dataloaders_dict[phase]):
                # batchはTextとLableの辞書オブジェクト

                # GPUが使えるならGPUにデータを送る
                inputs = batch.Text[0].to(device)  # 文章
                labels = batch.Label.to(device)  # ラベル

                # optimizerを初期化
                optimizer.zero_grad()

                # 順伝搬（forward）計算
                with torch.set_grad_enabled(phase == 'train'):

                    # mask作成
                    input_pad = 1  # 単語のIDにおいて、'<pad>': 1 なので
                    input_mask = (inputs != input_pad)

                    # Transformerに入力
                    outputs = net(inputs, input_mask)
                    loss = criterion(outputs, labels)  # 損失を計算

                    _, preds = torch.max(outputs, 1)  # ラベルを予測。maxの第2引数はnumpyでいうaxis。２つめの返り値はindices。

                    # 訓練時はバックプロパゲーション
                    if phase == 'train':
                        loss.backward()
                        optimizer.step()

                    # 結果の計算
                    epoch_loss += loss.item() * inputs.size(0)  # lossの合計を更新
                    # 正解数の合計を更新
                    epoch_corrects += torch.sum(preds == labels.data)

            # epochごとのlossと正解率
            epoch_loss = epoch_loss / len(dataloaders_dict[phase].dataset)
            epoch_acc = epoch_corrects.double(
            ) / len(dataloaders_dict[phase].dataset)

            print('Epoch {}/{} | {:^5} |  Loss: {:.4f} Acc: {:.4f}'.format(epoch+1, num_epochs,
                                                                           phase, epoch_loss, epoch_acc))

    return net


In [None]:
# 学習・検証を実行する 
num_epochs = 15
net_trained = train_model(net, dataloaders_dict,
                          criterion, optimizer, num_epochs=num_epochs)


In [None]:
#テストデータでの推論

# device
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

net_trained.eval()   # モデルを検証モードに
net_trained.to(device)

epoch_corrects = 0  # epochの正解数

for batch in (test_dl):  # testデータのDataLoader
    # batchはTextとLableの辞書オブジェクト
    
    # GPUが使えるならGPUにデータを送る
    inputs = batch.Text[0].to(device)  # 文章
    labels = batch.Label.to(device)  # ラベル

    # 順伝搬（forward）計算
    with torch.set_grad_enabled(False):

        # mask作成
        input_pad = 1  # 単語のIDにおいて、'<pad>': 1 なので
        input_mask = (inputs != input_pad)

        # Transformerに入力
        outputs = net_trained(inputs, input_mask)
        _, preds = torch.max(outputs, 1)  # ラベルを予測。

        # 結果の計算
        # 正解数の合計を更新
        epoch_corrects += torch.sum(preds == labels.data)

# 正解率
epoch_acc = epoch_corrects.double() / len(test_dl.dataset)

print('テストデータ{}個での正解率：{:.4f}'.format(len(test_dl.dataset),epoch_acc))