In [2]:
import tensorflow as tf
import glob, os, time
import numpy as np
import pandas as pd

In [3]:
files = glob.glob('./News_text/*')
for i in files:
    text = i.split()[-1].split('.csv')[0]
    df = pd.read_csv(i)

In [4]:
text = ''
for i in df['コメント']:
    text+=i.replace("\n","")
    text += '\n'
text = text.replace("\u3000","")

In [5]:
print ('Length of text: {} characters'.format(len(text)))

Length of text: 69800 characters


In [6]:
vocab = sorted(set(text))
print ('{} unique characters'.format(len(vocab)))

1553 unique characters


In [7]:
# それぞれの文字からインデックスへの対応表を作成
char2idx = {u:i for i, u in enumerate(vocab)}
idx2char = np.array(vocab)

text_as_int = np.array([char2idx[c] for c in text])

In [8]:
print('{')
for char,_ in zip(char2idx, range(20)):
    print('  {:4s}: {:3d},'.format(repr(char), char2idx[char]))
print('  ...\n}')

{
  '\n':   0,
  ' ' :   1,
  '!' :   2,
  '%' :   3,
  '&' :   4,
  '(' :   5,
  ')' :   6,
  '+' :   7,
  ',' :   8,
  '-' :   9,
  '.' :  10,
  '/' :  11,
  '0' :  12,
  '1' :  13,
  '2' :  14,
  '3' :  15,
  '4' :  16,
  '5' :  17,
  '6' :  18,
  '7' :  19,
  ...
}


In [9]:
# テキストの最初の 13 文字がどのように整数に変換されるかを見てみる
print ('{} ---- characters mapped to int ---- > {}'.format(repr(text[:13]), text_as_int[:13]))

'感染者数の視点からはトレン' ---- characters mapped to int ---- > [ 695  859 1183  782  121 1267  978   87  147  122  192  226  229]


In [10]:
# ひとつの入力としたいシーケンスの文字数としての最大の長さ
seq_length = 100
examples_per_epoch = len(text)//(seq_length+1)

# 訓練用サンプルとターゲットを作る
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)

for i in char_dataset.take(5):
    print(idx2char[i.numpy()])

感
染
者
数
の


In [11]:
sequences = char_dataset.batch(seq_length+1, drop_remainder=True)

for item in sequences.take(5):
    print(repr(''.join(idx2char[item.numpy()])))

'感染者数の視点からはトレンドが減少方向ということを含め、十分解除可能だと思われます。病床の方はどうでしょう。入院すべき人が入院できない状況がどうなっているかが気になります。\nもうオミは無視して決めろよ。'
'もう2回打ったし打った方が良いのなら3回目も打つし行動制限なんてもうええ加減にしろよ。\n毎回遅いねん。２日前に決められても困るしアメリカ行く前に決めろよな…完全に解除なら、通常営業に向けて準備とかあるか'
'ら色々困るんですけど一年以上たってまだわからないんですかね？自分らギリギリの生活した事ないからこんな事出来るんでしょうねー。\n５０才以下のワクチン接種率が５割を超えるまで、解除しない方が良いよ。今の流れ'
'は、４波が終わった頃と似ている。その後１か月足らずで、５波が始まったのを、もう忘れてるね。\nまんえん防止を始めちゃうと，分科会がぐずぐずいうのと，それにまして，知事が調子に乗ってちょっと増えてきたときに'
'国費狙いで特に何の思想もなくお金くれ責任は国に預けるよで緊急事態宣言を要請してきます（特に東京大阪はこれやる，これが現状の社会不安の原因です）。離島であることを考慮し沖縄には対策慎重になるとしても他は解'


In [12]:
def split_input_target(chunk):
    input_text = chunk[:-1]
    target_text = chunk[1:]
    return input_text, target_text

dataset = sequences.map(split_input_target)

In [13]:
for input_example, target_example in  dataset.take(1):
    print ('Input data: ', repr(''.join(idx2char[input_example.numpy()])))
    print ('Target data:', repr(''.join(idx2char[target_example.numpy()])))

Input data:  '感染者数の視点からはトレンドが減少方向ということを含め、十分解除可能だと思われます。病床の方はどうでしょう。入院すべき人が入院できない状況がどうなっているかが気になります。\nもうオミは無視して決めろよ'
Target data: '染者数の視点からはトレンドが減少方向ということを含め、十分解除可能だと思われます。病床の方はどうでしょう。入院すべき人が入院できない状況がどうなっているかが気になります。\nもうオミは無視して決めろよ。'


In [14]:
for i, (input_idx, target_idx) in enumerate(zip(input_example[:5], target_example[:5])):
    print("Step {:4d}".format(i))
    print("  input: {} ({:s})".format(input_idx, repr(idx2char[input_idx])))
    print("  expected output: {} ({:s})".format(target_idx, repr(idx2char[target_idx])))

Step    0
  input: 695 ('感')
  expected output: 859 ('染')
Step    1
  input: 859 ('染')
  expected output: 1183 ('者')
Step    2
  input: 1183 ('者')
  expected output: 782 ('数')
Step    3
  input: 782 ('数')
  expected output: 121 ('の')
Step    4
  input: 121 ('の')
  expected output: 1267 ('視')


In [15]:
# バッチサイズ
BATCH_SIZE = 64

# データセットをシャッフルするためのバッファサイズ
# （TF data は可能性として無限長のシーケンスでも使えるように設計されています。
# このため、シーケンス全体をメモリ内でシャッフルしようとはしません。
# その代わりに、要素をシャッフルするためのバッファを保持しています）
BUFFER_SIZE = 10000

dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)

dataset

<BatchDataset shapes: ((64, 100), (64, 100)), types: (tf.int64, tf.int64)>

In [16]:
# 文字数で表されるボキャブラリーの長さ
vocab_size = len(vocab)

# 埋め込みベクトルの次元
embedding_dim = 256

# RNN ユニットの数
rnn_units = 1024

In [17]:
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
    model = tf.keras.Sequential(
        [tf.keras.layers.Embedding(vocab_size,
                                   embedding_dim,
                                   batch_input_shape=[batch_size, None]),
         tf.keras.layers.GRU(rnn_units,
                             return_sequences=True,
                             stateful=True,
                             recurrent_initializer='glorot_uniform'),
         tf.keras.layers.Dense(vocab_size)
        ])
    return model

In [18]:
model = build_model(
  vocab_size = len(vocab),
  embedding_dim=embedding_dim,
  rnn_units=rnn_units,
  batch_size=BATCH_SIZE)

In [19]:
for input_example_batch, target_example_batch in dataset.take(1):
    example_batch_predictions = model(input_example_batch)
    print(example_batch_predictions.shape, "# (batch_size, sequence_length, vocab_size)")

(64, 100, 1553) # (batch_size, sequence_length, vocab_size)


In [20]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (64, None, 256)           397568    
                                                                 
 gru (GRU)                   (64, None, 1024)          3938304   
                                                                 
 dense (Dense)               (64, None, 1553)          1591825   
                                                                 
Total params: 5,927,697
Trainable params: 5,927,697
Non-trainable params: 0
_________________________________________________________________


In [21]:
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
sampled_indices = tf.squeeze(sampled_indices,axis=-1).numpy()

In [22]:
sampled_indices

array([ 793,  905, 1156,  688,  525,    8,  405, 1464,  586,  504, 1139,
        680, 1017, 1416, 1452, 1371, 1158, 1249, 1470,  597, 1170,  922,
          6,   57,  630,  935,  872,  930,  437,  344,  772, 1427, 1550,
       1140,  611,  138,  994, 1231,  735,  471,  637,  563,  312,  357,
        412,  254, 1448,  789, 1252,  784, 1240,  966, 1304,  527, 1399,
       1328,  640, 1423,  256,  494,  470,  312, 1155, 1101, 1068,  630,
       1030, 1050, 1190,  260,   50,  953, 1204,  197,  782,  722,  459,
         67,  457,  711,  368, 1198, 1502,  766,  450,  102,    1,  446,
       1104, 1143, 1207,  160, 1104,  721,  948, 1334,  580, 1374, 1469,
       1364])

In [23]:
print("Input: \n", repr("".join(idx2char[input_example_batch[0]])))
print()
print("Next Char Predictions: \n", repr("".join(idx2char[sampled_indices ])))

Input: 
 '跡も検査もしようとしない。検査してくれと頼んでも、体調に変化ないなら検査不要という始末。もちろん自分で民間施設で検査して陽性になった人もカウントされない。意図的に数を少なく見せておいて、7月初旬いらい'

Next Char Predictions: 
 '施比緒情奈,化面屈塵組恣生銀隠退締表頃巡罪河)w康派森泥叫光改開､経幌む牛菅招喜引家倉写卒乗隔斬裁敵薬漫論奨避資強鑑乱埋喋倉総立示康疑盛肝争l温脳ノ数承命⇒味戯初胡骨撤否ず 同競絡臆ウ競批添起尚逆頂近'


In [24]:
def loss(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

example_batch_loss  = loss(target_example_batch, example_batch_predictions)
print("Prediction shape: ", example_batch_predictions.shape, " # (batch_size, sequence_length, vocab_size)")
print("scalar_loss:      ", example_batch_loss.numpy().mean())

Prediction shape:  (64, 100, 1553)  # (batch_size, sequence_length, vocab_size)
scalar_loss:       7.3477798


In [25]:
model.compile(optimizer='adam', loss=loss)

In [26]:
# チェックポイントが保存されるディレクトリ
checkpoint_dir = './training_checkpoints'
# チェックポイントファイルの名称
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch}")

checkpoint_callback=tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_prefix,
    save_weights_only=True)

In [28]:
EPOCHS=10

In [30]:
history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [31]:
tf.train.latest_checkpoint(checkpoint_dir)

'./training_checkpoints/ckpt_10'

In [None]:
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)

model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))

model.build(tf.TensorShape([1, None]))
model.summary()

In [None]:
def generate_text(model, start_string):
  # 評価ステップ（学習済みモデルを使ったテキスト生成）

  # 生成する文字数
    num_generate = 1000

  # 開始文字列を数値に変換（ベクトル化）
    input_eval = [char2idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

  # 結果を保存する空文字列
    text_generated = []

  # 低い temperature　は、より予測しやすいテキストをもたらし
  # 高い temperature は、より意外なテキストをもたらす
  # 実験により最適な設定を見つけること
    temperature = 1.0

  # ここではバッチサイズ　== 1
    model.reset_states()
    for i in range(num_generate):
        predictions = model(input_eval)
      # バッチの次元を削除
        predictions = tf.squeeze(predictions, 0)

      # カテゴリー分布をつかってモデルから返された文字を予測 
        predictions = predictions / temperature
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()

      # 過去の隠れ状態とともに予測された文字をモデルへのつぎの入力として渡す
        input_eval = tf.expand_dims([predicted_id], 0)

        text_generated.append(idx2char[predicted_id])

    return (start_string + ''.join(text_generated))

In [None]:
print(generate_text(model, start_string=u"ROMEO: "))