# RNNLM

*Recurrent Neural Network Language Model*

RNNを用いて言語モデルを作成する。

In [1]:
import os; os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
import tensorflow as tf
import tensorflow_datasets as tfds
import torch
from torch import nn, optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
from torchtext import transforms
from torchtext.vocab import build_vocab_from_iterator
from torchvision.transforms import Compose
import MeCab
from tqdm import tqdm
import random
from typing import List

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

device(type='cuda')


---

## データセット

wiki40b

In [2]:
with tf.device('/cpu:0'):
    ds = tfds.load('wiki40b/ja', split='test')
ds = list(ds.as_numpy_iterator())

In [3]:
data = []
for sample in ds:
    text = sample['text'].decode()
    sections = text.split('_START_SECTION_')
    for section in sections[1:]:
        sentence = section.split('_START_PARAGRAPH_')[1]
        sentence = sentence.replace('_NEWLINE_', '')
        sentence = sentence.replace('\n', '')
        data.append(sentence)

print('num of data:', len(data))
data[:5] # examples

num of data: 89698


['「教科書には決して載らない」日本人の謎やしきたりを多角的に検証し、日本人のDNAを解明する。新春番組として定期的に放送されており、年末の午前中に再放送されるのが恒例となっている。',
 'ライブドア社員であった初代代表取締役社長の山名真由によって企業内起業の形で創業。2005年に株式会社ライブドアから分割されて設立。かつてはライブドアホールディングス（現・LDH）の子会社であったが、ノンコア事業の整理にともない、株式会社ゲオ（現：株式会社ゲオホールディングス）に所有する全株式を譲渡し、同社の完全子会社となった。「ぽすれん」「ゲオ宅配レンタル」のオンラインDVD・CD・コミックレンタルサービス及び「GEO Online」と「ゲオアプリ」のアプリ・ウェブサイト運営の大きく分けて2事業を展開している。以前はDVD販売等のEコマースサービス「ぽすれんストア」、動画配信コンテンツ「ぽすれんBB」や電子書籍配信サービスの「GEO☆Books」事業も行っていた。オンラインDVDレンタル事業では会員数は10万人（2005年9月時点）。2006年5月よりCDレンタルを開始。同業他社には、カルチュア・コンビニエンス・クラブが運営する『TSUTAYA DISCAS』のほか、DMM.comが運営する『DMM.com オンラインDVDレンタル』がある。過去には「Yahoo!レンタルDVD」と「楽天レンタル」の運営を受託していた。',
 '2005年の一時期、東京のラジオ局、InterFMで、「堀江社長も使っているライブドアのぽすれん」というキャッチコピーでラジオCMを頻繁に行っていたことがあった。',
 '香川県内の農業協同組合の信用事業を統括する県域農協系金融機関であり、県内農業協同組合を会員とする。香川県は全県単一農協の香川県農業協同組合となったが、先に単一農協となった奈良県や沖縄県のケースと異なり、信連の統合は行われなかった。通称は「JA香川信連」または「JAバンク香川」。統一金融機関コードは3037。主に法人顧客を中心としており、個人取引は殆どない。県内の大型商業施設にある、他金融機関管理の共同ATMには香川信連の管轄のものがある。',
 '534年（永熙3年）、独孤信の子として生まれた。独孤信が父母妻子を捨てて長安に入ったため、独孤羅は東魏に取り残されて高氏の虜囚となった。独孤

多すぎるので減らす

In [4]:
data = data[:500]


---

## 前処理

やることは2章と同じ。実装方法を若干変えている。

### トークン化

In [5]:
data_tokens = []
tagger = MeCab.Tagger('-Owakati')
def tokenize(text: str) -> List[str]:
    return tagger.parse(text).strip().split()

for sentence in tqdm(data):
    tokens = tokenize(sentence)
    data_tokens.append(tokens)
data_tokens[0][:10] # example

100%|██████████| 500/500 [00:00<00:00, 3890.43it/s]


['「', '教科', '書', 'に', 'は', '決して', '載ら', 'ない', '」', '日本']

### 語彙の学習

特殊トークンを含めた語彙を学習させる。`torchtext.vocab.Vocab`オブジェクトの作成。

In [6]:
bos, eos, unk = '<bos>', '<eos>', '<unk>'
specials = [bos, eos, unk]
vocab = build_vocab_from_iterator(data_tokens, specials=specials)
unk_id = vocab[unk]
vocab.set_default_index(unk_id)
n_vocab = len(vocab)
print('num of vocabrary:', n_vocab)

num of vocabrary: 14491


### 前処理まとめ

In [7]:
transform = Compose([
    transforms.AddToken(bos, begin=True), # 先頭に<BOS>を追加
    transforms.AddToken(eos, begin=False), # 末尾に<EOS>を追加
    transforms.VocabTransform(vocab), # 単語をIDに変換
    transforms.ToTensor() # Tensorに変換
])
data_ids = [transform(tokens) for tokens in data_tokens]
data_ids[0] # example

tensor([    0,    21,  6187,  1046,     5,     9,  6319, 13959,    52,    22,
           94,    54,     3,  3377,    36,  8120,     7, 11268,    34,     5,
         3249,    14,     4,    94,    54,     3,  7390,     7,  4451,    24,
            6, 12246,   145,    11,    14,    10,  1597,    34,     5,   111,
           18,    17,    10,    86,     4, 11684,     3,  3080,    82,     5,
          573,   111,    18,    43,     3,    12,  6085,    11,    39,    10,
           25,     6,     1])


---

## 学習データ

入力と出力のペアを作成する。  
では、どんなペアを作成すれば良いだろうか。

欲しいモデルは、可変長の単語列から次の単語を予測するモデルである。これを考えると、ある時間$t$までの単語列を入力、$t+1$の単語を正解とするペアを作成すれば良さそう。

入力 | 正解
--- | ---
私 | は
私 は | 今日
私 は 今日 | オムライス
私 は 今日 オムライス | を
$\vdots$ | $\vdots$

みたいな感じ。

これでもいいが、もう少しRNNの力を活かす方法がある。  
RNNLMは各時間で予測単語を出力する。例えば、「私 は 今日」という3つの単語を入力した時、RNNLMは「私」の次に来る単語、「私 は」の次に来る単語、「私 は 今日」の次に来る単語、という3つの単語を1度に出力する。ここで、この3つの単語の誤差は一度に求める事ができる。一度に求めてしまえば計算量が減るね。  
ということで、入力と正解のペアは文章ごとに用意すればいい。

入力 | 正解
--- | ---
私 は 今日 オムライス を 食べ | は 今日 オムライス を 食べ た
昨日 は 大雨 だっ | は 大雨 だっ た
YOASOBI の ボーカル が かわい | の ボーカル が かわい い
AI が 人間 の 仕事 を 奪 | が 人間 の 仕事 を 奪 う
$\vdots$ | $\vdots$

こんな感じに、単語を1つずらしたものが正解になるね。

では学習データを作成しよう。PyTorchのDataLoaderのような、入力と正解のペアがtupleで取り出せるイテレータを作成する。なおバッチサイズは1とする。ミニバッチへの対応は後程。

In [8]:
class TextLoader:
    def __init__(self, data_ids):
        self.data = data_ids
        self.n_data = len(data_ids)

    def __iter__(self):
        random.shuffle(self.data)
        for text in self.data:
            yield text[:-1], text[1:]

    def __len__(self):
        return self.n_data

dataloader = TextLoader(data_ids)
sample_y, sample_t = next(iter(dataloader))
sample_y[:20], sample_t[:20] # example

(tensor([   0, 1643,   58,   11,   14,   10,    9, 3407, 2514,    7,  257,    5,
          544,   24, 9478, 1531,   21,  907,  561, 4784]),
 tensor([1643,   58,   11,   14,   10,    9, 3407, 2514,    7,  257,    5,  544,
           24, 9478, 1531,   21,  907,  561, 4784,   22]))


---

## モデル構築

埋め込み層、RNN層、線形層から構築する。

In [9]:
class RNNLM(nn.Module):
    def __init__(self, n_vocab, embed_size, hidden_size):
        super().__init__()
        self.embedding = nn.Embedding(n_vocab, embed_size)
        self.rnn = nn.RNN(embed_size, hidden_size)
        self.fc = nn.Linear(hidden_size, n_vocab)

    def forward(self, x, h=None):
        x = self.embedding(x) # (seq_len, embed_size)
        y, h = self.rnn(x, h) # (seq_len, hidden_size)
        y = self.fc(y) # (seq_len, n_vocab)
        return y, h


---

## 学習

モデルが出力した単語列と正解の単語列の誤差を交差エントロピーで求める。

In [10]:
criterion = nn.CrossEntropyLoss()
def train(model, optimizer, n_epochs):
    model.train()
    for epoch in range(1, n_epochs + 1):
        epoch_loss = 0
        for x, t in dataloader:
            x, t = x.to(device), t.to(device)
            optimizer.zero_grad()
            y, _ = model(x)
            loss = criterion(y, t)
            loss.backward()
            optimizer.step()
            epoch_loss += loss.item()
        print(f'{epoch}/{n_epochs} loss:', epoch_loss / len(dataloader))

In [11]:
model = RNNLM(n_vocab, 1024, 1024).to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-4)

In [12]:
train(model, optimizer, 10)

1/10 loss: 6.62774845123291
2/10 loss: 5.449451437234878
3/10 loss: 4.966115525841713
4/10 loss: 4.586053775906563
5/10 loss: 4.25792608332634
6/10 loss: 3.9587569748163225
7/10 loss: 3.6852002547979357
8/10 loss: 3.4237774131298067
9/10 loss: 3.179357157111168
10/10 loss: 2.950063531279564



---

## 文章生成

学習したモデルを使って文章を生成する。

In [13]:
def token_sampling(y):
    y = y[-1]
    probs = F.softmax(y, dim=-1)
    token = random.choices(range(n_vocab), weights=probs)[0]
    return token


@torch.no_grad()
def generate_sentence(
    model: nn.Module,
    start: str = '',
    max_len: int = 50
) -> str:
    model.eval()
    start_tokens = [bos] + tokenize(start)
    start_ids = vocab(start_tokens)
    start_ids = torch.tensor(start_ids, device=device)

    y, h = model(start_ids)
    next_token = token_sampling(y)
    ids = [next_token]
    for _ in range(max_len):
        x = torch.tensor([next_token], device=device)
        y, h = model(x, h)
        next_token = token_sampling(y)
        ids.append(next_token)
        if next_token == vocab[eos]:
            break
    tokens = [vocab.get_itos()[t] for t in ids[:-1]]
    return start + ''.join(tokens)

In [14]:
generate_sentence(model)

'太字はメインキャラクター。'

In [15]:
generate_sentence(model, start='昨日の夜、')

'昨日の夜、天上はギリシア年（KEK（Rationaris）のオフラインDVDで勝利したルートを見せるが足り・ベンダーとして2リットルボトルベッドの線路で表現するほど'