In [1]:
min_input_length = 3
max_input_length = 15
seed = 42

In [2]:
import pandas as pd
path = '../data/corpus.tsv'
raw_corpus = pd.read_csv(path, names=['text'], sep='\t')
raw_corpus

Unnamed: 0,text
0,松田 三徳（まつだ みのり、1886年（明治19年）6月11日 - 1962年（昭和37年）...
1,衆議院議員
2,旧姓・小島
3,経歴.
4,香川県三野郡、のちの三豊郡詫間村（詫間町を経て現三豊市詫間町）で小島家に生まれ、1897年（...
...,...
542705,編集は主に立志社が当たり、大阪市で刊行された
542706,1880年（明治13年）3月に第一編を発行、同年8月からは『愛国新誌』と改題し、1881年（...
542707,発行スタイルは当初は週刊誌、1881年1月の第20号からは月3回刊行に変更された
542708,植木枝盛を、永田一二や坂本南海男、などの自由民権運動家が執筆・編集にあたり、人民主権などの自...


In [3]:
import MeCab
mecab = MeCab.Tagger('-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd')

In [4]:
from word import Feature, Word

def spell(word: Word) -> str:
    if len(word.feature) < 8:
        return ''
    return word.feature[Feature.SPELL]

def words(text: str) -> list[Word]:
    # `[:-2]`で末尾2つの`['EOF', '']`を削除しています
    return map(Word, mecab.parse(text).split('\n')[:-2])

In [5]:
import re

corpus = list(raw_corpus['text'])
corpus = map(lambda text: words(text), corpus)
corpus = map(lambda words: map(spell, words), corpus)
corpus = map(lambda spells: ''.join(spells), corpus)
corpus = map(lambda text: re.sub('[ヰヱ]|[^ァ-ンー]', '', text), corpus)
corpus = filter(lambda text: min_input_length <= len(text) <= max_input_length, corpus)
corpus = list(corpus)
corpus

['シュウギインギイン',
 'キュウセイコジマ',
 'ケイレキ',
 'シュツジ',
 'スナワチ',
 'ケイレキ',
 'ソウキノケイレキ',
 'ゴミンカン',
 'ハセンキョニショウリシタ',
 'サラナルシュッセトシキョ',
 'ジンブツ',
 'ニハカゾクハイナカッタ',
 'エンカク',
 'ジギョウナイヨウ',
 'ゴゲン',
 'コウセイ',
 'レキシ',
 'ショクミンチジダイイゼン',
 'スペインショクミンチジダイ',
 'ガイヨウ',
 'エキコウゾウ',
 'ガイヨウ',
 'シュルイ',
 'レキシ',
 'アフリカデノフキュウ',
 'エガラ',
 'ハイショク',
 'メッセージ',
 'エガラノシュルイ',
 'ヨウト',
 'オモニイフクニシヨウスル',
 'セイサンコクキギョウ',
 'セイサンコク',
 'メーカーブランド',
 'リュウツウ',
 'ビジュツ',
 'シンダイノコショウハセンリョウ',
 'ガイヨウ',
 'トウゲンキョウトノカンレンセイ',
 'レキシ',
 'ジンブツケイレキ',
 'シンゾク',
 'リャクレキ',
 'キュウショウハハブ',
 'ガイヨウ',
 'オキナワケンシュッシン',
 'ポジションハポイントガード',
 'ライレキ',
 'モンテディオヤマガタショゾク',
 'ポジションハフォワード',
 'ライレキ',
 'コジンセイセキ',
 'チメイノユライ',
 'レキシ',
 'チュウセイ',
 'キンセイ',
 'キンダイ',
 'ゲンダイ',
 'サンギョウ',
 'タンゴトウジ',
 'ウガワノアユ',
 'ウガワウシ',
 'キョウイク',
 'ショウガッコウ',
 'チュウガッコウ',
 'コウツウ',
 'メイショキュウセキ',
 'ジチタイノコウセイ',
 'チメイ',
 'ゴゲン',
 'フルイヒョウキ',
 'レキシ',
 'ジチタイセイリツマデ',
 'シチョウソンガッペイ',
 'ジュウミン',
 'ジンコウスイイ',
 'ギョウセイ',
 'ギカイ',
 'シュチョウ',
 'モンショウ',
 'ケイザイトシャカイシホン',
 'ケイザイコウゾウ',
 'キョウイク',
 'リャクレキ',
 'エンターテイメントショゾク',
 'リャクレキ',
 'セ

In [6]:
len(corpus)

94454

In [7]:
import random, string

random.seed(seed)

def random_sentence(n):
   kanas = list(set([chr(i) for i in range(ord('ァ'), ord('ン') + 1)]) - set(['ヰ', 'ヱ']))
   return ''.join(random.choices(kanas, k=n))

In [8]:
def shuffle(word_list) -> list[Word]:
    word_list = list(word_list)
    random.shuffle(word_list)
    return word_list

In [9]:
import re

shuffled_corpus = list(raw_corpus['text'][:40000])
shuffled_corpus = map(words, shuffled_corpus)
shuffled_corpus = map(list, shuffled_corpus)
shuffled_corpus = list(shuffled_corpus)
shuffled_corpus = filter(lambda words: 4 < len(words), shuffled_corpus)
shuffled_corpus = map(shuffle, shuffled_corpus)
shuffled_corpus = map(lambda words: map(spell, words), shuffled_corpus)
shuffled_corpus = map(lambda spells: ''.join(spells), shuffled_corpus)
shuffled_corpus = map(lambda text: re.sub('[ヰヱ]|[^ァ-ンー]', '', text), shuffled_corpus)
shuffled_corpus = filter(lambda text: min_input_length <= len(text) <= max_input_length, shuffled_corpus)
shuffled_corpus = list(shuffled_corpus)
shuffled_corpus

['シタニショウリハセンキョ',
 'シュッセシキョトサラナル',
 'タイハナカッハカゾクニ',
 'フキュウアフリカノデ',
 'ニオモイフクシヨウスルニ',
 'コショウシンダイノリョウハセン',
 'ノトウゲンキョウトカンレンセイ',
 'ハブハキュウショウ',
 'トハンドウフキョウセツリツ',
 'ゲンユタカクケイエイユニュウ',
 'バングミノセイリツケイイマデ',
 'センシュトクチョウトシテノ',
 'ハチチタハアッハハデノ',
 'チチノハデタアッコウムイン',
 'ヒトツキンルイハメノノグン',
 'ブンプカンキョウセイイクト',
 'タネヲトイウトクイセイコレ',
 'エングンキンナ',
 'ミニー',
 'ハノキョウソウバニッポン',
 'クロマルニセンサンネンムサシ',
 'モエルハナクロマルヒビ',
 'ニセンヨネンシュクメイクロマル',
 'キョウツウナイヨウゼンシヨウ',
 'トシテトクチョウノセンシュ',
 'トシテセンシュノトクチョウ',
 'リーガエスシィショゾク',
 'ケイサイノヲスルカイシ',
 'アイアンメイデン',
 'セカンダリースクールシュッシン',
 'メートルアルヒョウコウニ',
 'メートルニヒョウコウアル',
 'メートルヒョウコウニアル',
 'ヒョウコウハメートル',
 'ウマエヤヤマシロゼンマジョ',
 'ノトシテトクチョウセンシュ',
 'アカクハナツカジツニジュクス',
 'センショクタイスウハ',
 'ブンプトカンキョウセイイク',
 'メイメイニヨルマエカワフミオ',
 'ユウビンバンゴウハ',
 'スウセタイトジンコウ',
 'アイショウハアリ',
 'ユウビンバンゴウマイナスニハ',
 'セタイスウトジンコウ',
 'ニナイハチョウナイテツドウエキ',
 'マスヤダマスダヤ',
 'フジオハホンミョウアカツカ',
 'ナサクヒンオモサンカ',
 'ダッエムエフポジションハタ',
 'タニホシャクレハサゴシエ',
 'コドモカズノノコジイン',
 'コドモエイキョウノコルニ',
 'エフワンゼンセイセキニオケル',
 'トウハサンショウショウサイヲ',
 'オキナワケンハデトヨブ',
 'サテキュウシュガキサイイルレ',
 'オキナワケントレルヨバデハ',
 'デトオキナワケンヨバレルハ'

In [10]:
random_corpus = [random_sentence(random.randint(min_input_length, max_input_length)) for _ in range(len(corpus) - len(shuffled_corpus))]
random_corpus

['ユペョシィデリラサゼミキ',
 'エンバゾシモホザボィァョォセウ',
 'ソラプナウザナコホ',
 'キヌンムワゥ',
 'パォオ',
 'ピパベ',
 'マヮポヘイヨオズ',
 'エニノドピ',
 'イハシビガュベァ',
 'ゥザヲヤリ',
 'ババオ',
 'ョリズヅポリバカツチゥ',
 'ムュリゾッペ',
 'ワグァプョケ',
 'ロイヲペゥマトゴ',
 'ヂユオダマヂタエ',
 'ヂエョンオベャバコセクフザツヅ',
 'ヮゴャラフウガキヨベヌ',
 'ゼテネェンカドゼグタツド',
 'ロゼニカレツデチデキャュワカ',
 'メッロズ',
 'ダヲヲ',
 'ホハツァポヌリ',
 'アサゲヒンエナボゾソピムィゥ',
 'ユガザ',
 'ェペゴェケオネメクュョアルツ',
 'ベネグヂセパンパウ',
 'ドヲミフゼリニヂネワバセブウ',
 'ヘィィロァモソヮヒヮ',
 'ヂズタ',
 'ソヨゥチドイエシジキ',
 'グダジペブ',
 'ソクメプサモソァゾレギ',
 'ゲサィュソケ',
 'キェタオ',
 'ワゴラユリサモオテユピテイムギ',
 'ダフオグシニユタョゼベツッナ',
 'エメラアゾョタカピオボケヤゥス',
 'ヂギリッャムゲメ',
 'ケッフワパォウミギ',
 'アョナペメノヒヒマゼブ',
 'ゾテヌヅ',
 'アヲモヒォエタキバツウヲヮメ',
 'ザフミワカダギビカフベゲタノ',
 'ゾベラギ',
 'ゲィウズブャョジョサスソロアモ',
 'ヲジツァサス',
 'スズセネ',
 'ゴタヨモフリ',
 'ベアジベジヒャケゴワィァォ',
 'キトヲヨタセモ',
 'スヲドプフハイイグザュゥチ',
 'グソォヨテンヅフズ',
 'ハヲゼゥポピヮヌ',
 'ホヲン',
 'ザアテナヮデラ',
 'ナジヒンナリジペ',
 'エニヌァナセザムモコ',
 'レクセドマョキンァヘト',
 'ヌメフヮスノレウァエクツポマ',
 'サゲボミホョザロ',
 'ユキウダルボナエ',
 'トィメヌルニ',
 'ヌワジニミンユルドフエラメケォ',
 'シデァャポ',
 'クヨグオフヤヲズメモ',
 'ガデカッレヲ',
 'エゥケモスヤヲル',
 'ムバナポボノジガミガ',
 'ヲプパギゾモロ',
 'セァゼカン',
 'ツヘヒセッ',
 'チルベモガャフボヌ',
 'ケイリキ

In [11]:
meaningless_corpus = shuffled_corpus + random_corpus
meaningless_corpus

['シタニショウリハセンキョ',
 'シュッセシキョトサラナル',
 'タイハナカッハカゾクニ',
 'フキュウアフリカノデ',
 'ニオモイフクシヨウスルニ',
 'コショウシンダイノリョウハセン',
 'ノトウゲンキョウトカンレンセイ',
 'ハブハキュウショウ',
 'トハンドウフキョウセツリツ',
 'ゲンユタカクケイエイユニュウ',
 'バングミノセイリツケイイマデ',
 'センシュトクチョウトシテノ',
 'ハチチタハアッハハデノ',
 'チチノハデタアッコウムイン',
 'ヒトツキンルイハメノノグン',
 'ブンプカンキョウセイイクト',
 'タネヲトイウトクイセイコレ',
 'エングンキンナ',
 'ミニー',
 'ハノキョウソウバニッポン',
 'クロマルニセンサンネンムサシ',
 'モエルハナクロマルヒビ',
 'ニセンヨネンシュクメイクロマル',
 'キョウツウナイヨウゼンシヨウ',
 'トシテトクチョウノセンシュ',
 'トシテセンシュノトクチョウ',
 'リーガエスシィショゾク',
 'ケイサイノヲスルカイシ',
 'アイアンメイデン',
 'セカンダリースクールシュッシン',
 'メートルアルヒョウコウニ',
 'メートルニヒョウコウアル',
 'メートルヒョウコウニアル',
 'ヒョウコウハメートル',
 'ウマエヤヤマシロゼンマジョ',
 'ノトシテトクチョウセンシュ',
 'アカクハナツカジツニジュクス',
 'センショクタイスウハ',
 'ブンプトカンキョウセイイク',
 'メイメイニヨルマエカワフミオ',
 'ユウビンバンゴウハ',
 'スウセタイトジンコウ',
 'アイショウハアリ',
 'ユウビンバンゴウマイナスニハ',
 'セタイスウトジンコウ',
 'ニナイハチョウナイテツドウエキ',
 'マスヤダマスダヤ',
 'フジオハホンミョウアカツカ',
 'ナサクヒンオモサンカ',
 'ダッエムエフポジションハタ',
 'タニホシャクレハサゴシエ',
 'コドモカズノノコジイン',
 'コドモエイキョウノコルニ',
 'エフワンゼンセイセキニオケル',
 'トウハサンショウショウサイヲ',
 'オキナワケンハデトヨブ',
 'サテキュウシュガキサイイルレ',
 'オキナワケントレルヨバデハ',
 'デトオキナワケンヨバレルハ'

In [12]:
import pandas as pd

df = pd.DataFrame(list(map(lambda text: [0, text], meaningless_corpus)) + list(map(lambda text: [1, text], corpus)))
df = df.set_axis(['grammatical', 'text'], axis='columns')
df

Unnamed: 0,grammatical,text
0,0,シタニショウリハセンキョ
1,0,シュッセシキョトサラナル
2,0,タイハナカッハカゾクニ
3,0,フキュウアフリカノデ
4,0,ニオモイフクシヨウスルニ
...,...,...
188903,1,ショウガイ
188904,1,ゴゼンオドリトモヨバレル
188905,1,オヨビタントウシンパンイン
188906,1,シュツジョウキロク


In [13]:
import gensim
from gensim.models import word2vec

kana_model = gensim.models.Word2Vec.load('../data/kana.model')

In [14]:
def spacing(text: str):
    jagged = np.array(list(map(lambda charactor: kana_model.wv.key_to_index[charactor], list(text))))
    return np.concatenate([jagged, np.zeros(max_input_length - len(jagged), dtype=int)])

In [15]:
import numpy as np
from sklearn.model_selection import train_test_split

spacing_df = df.copy()
spacing_df['text'] = spacing_df['text'].map(spacing)

np.random.seed(seed)
train, test = train_test_split(spacing_df, test_size=0.2)

In [16]:
train

Unnamed: 0,grammatical,text
27379,0,"[39, 3, 38, 19, 65, 52, 39, 0, 0, 0, 0, 0, 0, ..."
116627,1,"[37, 25, 9, 13, 15, 6, 9, 54, 2, 47, 2, 12, 8,..."
75492,0,"[58, 44, 79, 18, 46, 34, 43, 75, 57, 48, 54, 1..."
97408,1,"[4, 15, 2, 12, 15, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
144096,1,"[4, 15, 2, 17, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
...,...,...
119879,1,"[5, 25, 72, 1, 52, 1, 4, 1, 58, 16, 0, 0, 0, 0..."
103694,1,"[10, 19, 4, 26, 35, 23, 0, 0, 0, 0, 0, 0, 0, 0..."
131932,1,"[30, 6, 9, 35, 3, 26, 28, 36, 1, 35, 10, 14, 0..."
146867,1,"[38, 3, 31, 13, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"


In [17]:
test

Unnamed: 0,grammatical,text
26383,0,"[50, 49, 38, 23, 61, 58, 4, 0, 0, 0, 0, 0, 0, ..."
61297,0,"[24, 67, 10, 40, 17, 72, 77, 8, 58, 40, 67, 60..."
8917,0,"[24, 51, 64, 37, 39, 19, 69, 2, 0, 0, 0, 0, 0,..."
149397,1,"[3, 23, 5, 23, 10, 3, 38, 1, 13, 15, 2, 4, 22,..."
93524,0,"[34, 9, 12, 16, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
...,...,...
147664,1,"[9, 6, 23, 15, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
51555,0,"[71, 23, 68, 43, 61, 78, 37, 9, 58, 42, 0, 0, ..."
159276,1,"[17, 3, 36, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"
151416,1,"[6, 32, 51, 31, 13, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]"


In [18]:
def get_embedding_matrix(model, word_index):
    """
    keras.layers.Embeddingのweights引数で指定するための重み行列作成
    model: gensim model
    num_word: modelのvocabularyに登録されている単語数
    emb_dim: 分散表現の次元
    word_index: gensim modelのvocabularyに登録されている単語名をkeyとし、token idをvalueとする辞書 ex) {'word A in gensim model vocab': integer token id} 
    """
    # gensim modelの分散表現を格納するための変数を宣言
    embedding_matrix = np.zeros((max(list(word_index.values())) + 1, model.vector_size))
   
    # 分散表現を順に行列に格納する
    for word, label in word_index.items():
        try:
            # gensimのvocabularyに登録している文字列をembedding layerに入力するone-hot vectorのインデックスに変換して、該当する重み行列の要素に分散表現を代入
            embedding_matrix[label] = model.wv[word]
        except KeyError:
            pass
    return embedding_matrix

In [19]:
import tensorflow

word_index = kana_model.wv.key_to_index
word_index['0'] = 0
word_index

{' ': 0,
 'ン': 1,
 'ウ': 2,
 'イ': 3,
 'シ': 4,
 'ニ': 5,
 'ク': 6,
 'ノ': 7,
 'カ': 8,
 'ト': 9,
 'タ': 10,
 'ュ': 11,
 'ジ': 12,
 'キ': 13,
 'ハ': 14,
 'ョ': 15,
 'ル': 16,
 'ガ': 17,
 'セ': 18,
 'テ': 19,
 'ー': 20,
 'コ': 21,
 'ツ': 22,
 'チ': 23,
 'サ': 24,
 'ッ': 25,
 'ナ': 26,
 'リ': 27,
 'ス': 28,
 'デ': 29,
 'ア': 30,
 'レ': 31,
 'ラ': 32,
 'ヲ': 33,
 'オ': 34,
 'マ': 35,
 'ヨ': 36,
 'ネ': 37,
 'ケ': 38,
 'ャ': 39,
 'エ': 40,
 'ド': 41,
 'ヒ': 42,
 'ダ': 43,
 'モ': 44,
 'ロ': 45,
 'メ': 46,
 'ソ': 47,
 'フ': 48,
 'ゴ': 49,
 'ミ': 50,
 'ブ': 51,
 'バ': 52,
 'ワ': 53,
 'ホ': 54,
 'ヤ': 55,
 'ム': 56,
 'ギ': 57,
 'グ': 58,
 'ビ': 59,
 'ゲ': 60,
 'ィ': 61,
 'ザ': 62,
 'ズ': 63,
 'ユ': 64,
 'ヘ': 65,
 'プ': 66,
 'ゾ': 67,
 'ボ': 68,
 'ベ': 69,
 'ピ': 70,
 'パ': 71,
 'ポ': 72,
 'ゼ': 73,
 'ェ': 74,
 'ァ': 75,
 'ペ': 76,
 'ヅ': 77,
 'ヌ': 78,
 'ォ': 79,
 'ゥ': 80,
 'ヂ': 81,
 'ヮ': 82,
 '0': 0}

In [20]:
embedding_matrix = get_embedding_matrix(kana_model, word_index)
embedding_matrix.shape

(83, 8)

In [21]:
from keras.layers import Embedding

input_dim, output_dim = embedding_matrix.shape

embedding = Embedding(input_dim, output_dim, weights=[embedding_matrix], input_length=max_input_length, trainable=False)
embedding

<keras.layers.embeddings.Embedding at 0x7f9f0cea0a00>

In [22]:
import tensorflow as tf

model = tf.keras.Sequential([
    embedding,
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])
model.summary()

2022-02-06 12:05:49.496804: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory
2022-02-06 12:05:49.496883: W tensorflow/stream_executor/cuda/cuda_driver.cc:269] failed call to cuInit: UNKNOWN ERROR (303)
2022-02-06 12:05:49.496909: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (cdd585faf1e2): /proc/driver/nvidia/version does not exist
2022-02-06 12:05:49.497118: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  SSE4.1 SSE4.2 AVX AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 15, 8)             664       
_________________________________________________________________
bidirectional (Bidirectional (None, 128)               37376     
_________________________________________________________________
dense (Dense)                (None, 64)                8256      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 65        
Total params: 46,361
Trainable params: 45,697
Non-trainable params: 664
_________________________________________________________________


In [23]:
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

In [24]:
train_x = np.array(train['text'].to_list())
train_y = np.array(train['grammatical'].to_list())
test_x = np.array(test['text'].to_list())
test_y = np.array(test['grammatical'].to_list())

In [25]:
history = model.fit(x=train_x, y=train_y, epochs=2, validation_data=(test_x, test_y))

2022-02-06 12:05:50.221719: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] None of the MLIR Optimization Passes are enabled (registered 2)


Epoch 1/2
Epoch 2/2


In [26]:
model.save('../data/discriminator_model')

2022-02-06 12:08:17.448193: W tensorflow/python/util/util.cc:348] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.


INFO:tensorflow:Assets written to: ../data/discriminator_model/assets


INFO:tensorflow:Assets written to: ../data/discriminator_model/assets


In [27]:
predicts_text = ['ソレハソウ', 'トリトメル', 'シアワセネコ', 'シアワセナネコ', 'マイニチネコネコ', 'メガナジデ', 'ゲジストリ', 'コッイドウ', 'ンガガガガガガ']
predicts = map(spacing, predicts_text)
predicts = list(predicts)
predicts = np.array(predicts)
predicts

results = model.predict(predicts)
list(zip(predicts_text, results))

[('ソレハソウ', array([1.1238613], dtype=float32)),
 ('トリトメル', array([1.9908972], dtype=float32)),
 ('シアワセネコ', array([-4.8016696], dtype=float32)),
 ('シアワセナネコ', array([-4.2952104], dtype=float32)),
 ('マイニチネコネコ', array([-3.8303678], dtype=float32)),
 ('メガナジデ', array([-1.4876945], dtype=float32)),
 ('ゲジストリ', array([0.3646954], dtype=float32)),
 ('コッイドウ', array([3.6452627], dtype=float32)),
 ('ンガガガガガガ', array([-1.6482111], dtype=float32))]