In [1]:
from janome.tokenizer import Tokenizer

In [14]:
t = Tokenizer()
s = 'おすすめの料理を教えてください'

In [16]:
for token in t.tokenize(s):
    print(token)

おすすめ	名詞,サ変接続,*,*,*,*,おすすめ,オススメ,オススメ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
料理	名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
教え	動詞,自立,*,*,一段,連用形,教える,オシエ,オシエ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
ください	動詞,非自立,*,*,五段・ラ行特殊,命令ｉ,くださる,クダサイ,クダサイ


In [2]:
import codecs
# ファイル読込み、内部表現化
f = codecs.open('sanshiro.txt', "r", "sjis")
text = f.read()
f.close()

# ファイル整形
import re
# ヘッダ部分の除去
text = re.split('\-{5,}',text)[2]
# フッタ部分の除去
text = re.split('底本：',text)[0]
# | の除去
text = text.replace('|', '')
# ルビの削除
text = re.sub('《.+?》', '', text)
# 入力注の削除
text = re.sub('［＃.+?］', '',text)
# 空行の削除
text = re.sub('\n\n', '\n', text) 
text = re.sub('\r', '', text)

# 整形結果確認

# 頭の100文字の表示 
print(text[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(text[-100:])



一

　うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂な声を出して駆け込んで来て、いきなり肌を


取りかかる。与次郎だけが三四郎のそばへ来た。
「どうだ森の女は」
「森の女という題が悪い」
「じゃ、なんとすればよいんだ」
　三四郎はなんとも答えなかった。ただ口の中で迷羊、迷羊と繰り返した。






In [3]:
from janome.tokenizer import Tokenizer
# Tokenneizerインスタンスの生成 
t = Tokenizer()

# テキストを引数として、形態素解析の結果、名詞・動詞原型のみを配列で抽出する関数を定義 
def extract_words(text):
    tokens = t.tokenize(text)
    return [token.base_form for token in tokens 
        if token.part_of_speech.split(',')[0] in['名詞', '動詞']]

#  関数テスト
ret = extract_words('三四郎は京都でちょっと用があって降りたついでに。')
for word in ret:
    print(word)

# 全体のテキストを句点('。')で区切った配列にする。 
sentences = text.split('。')
# それぞれの文章を単語リストに変換(処理に数分かかります)
word_list = [extract_words(sentence) for sentence in sentences]

# 結果の一部を確認 
for word in word_list[0]:
    print(word)

三四郎
京都
ちょっと
用
ある
降りる
ついで
一
する
目
さめる
女
隣
じいさん
話
始める
いる


In [20]:
#  関数テスト
ret = extract_words('勾配降下法')
for word in ret:
    print(word)

勾配
降下
法


In [4]:
# Word2Vecライブラリのロード
from gensim.models import word2vec

# size: 圧縮次元数
# min_count: 出現頻度の低いものをカットする
# window: 前後の単語を拾う際の窓の広さを決める
# iter: 機械学習の繰り返し回数(デフォルト:5)十分学習できていないときにこの値を調整する
# model.wv.most_similarの結果が1に近いものばかりで、model.dict['wv']のベクトル値が小さい値ばかりの 
# ときは、学習回数が少ないと考えられます。
# その場合、iterの値を大きくして、再度学習を行います。

# 事前準備したword_listを使ってWord2Vecの学習実施
model = word2vec.Word2Vec(word_list, size=100,min_count=5,window=5,iter=100)

In [5]:
# 結果の確認1
# 一つ一つの単語は100次元のベクトルになっています。 
# 「世間」のベクトル値を確認します。
print(model.__dict__['wv']['世間'])

[-0.563186   -0.11887318  0.66275764 -0.29098827  0.02309809 -0.20922549
  0.23195629  0.5226636  -0.07885285 -0.50527006 -0.66221255 -0.1025684
  0.05737205 -1.0302899  -0.3289083   0.31853     0.12568839 -0.2614803
 -0.39552355 -0.04434584 -0.03857547 -0.88955194  0.15444139 -0.09106922
  0.25068918  0.48266354 -0.8184265  -0.58586913  0.09914121 -0.22208445
 -0.35135096  0.0709054  -0.08293461  0.01704745 -0.4322672   0.46470514
 -0.2754094  -0.31491783  0.24328439 -0.7093739   0.01978837  0.2636638
 -0.16215883  0.6252992  -0.2530013   0.32801667 -0.00191444 -0.13582203
  0.08644591  0.22770953  0.76143605 -0.5578901   0.60276544  0.04574628
 -0.74351424 -0.67008686 -0.8171414   0.00847305  0.21800551  0.19472255
 -0.0561062  -0.79417884  0.80249584  0.18939157 -0.33254972 -0.03130971
 -0.72211105  0.81497306 -0.29064637 -0.2791048  -0.22808504  0.02607691
  0.4599352   0.3358488  -0.41397086  0.18989086  0.5822133   0.26180425
  0.9677959  -0.07952777  0.42871222 -0.6222144  -0.59

In [11]:
# 結果の確認2
# 関数most_similarを使って「世間」の類似単語を調べます 
ret = model.wv.most_similar(positive=['私']) 
for item in ret:
    print(item[0], item[1])

遊び 0.4558658003807068
御存じ 0.45559656620025635
あなた 0.44520139694213867
御用 0.4353439509868622
おいで 0.42126962542533875
野々宮 0.419454425573349
思える 0.4158669412136078
めんどう 0.41556546092033386
かた 0.4107964038848877
おっかさん 0.4104591906070709


In [2]:
import MeCab
 
sentence = """AWSの有名なサービスにAmazon Elastic Compute Cloud (EC2) とAmazon Simple Storage Service (S3) がある。
これまでのクライアントが保有していた物理的なサーバファームと比較してAWSは大規模な計算処理能力を速やかに提供出来ることが強みである。"""
 
t = MeCab.Tagger('')
print(t.parse(sentence))

AWS	名詞,固有名詞,組織,*,*,*,*
の	助詞,連体化,*,*,*,*,の,ノ,ノ
有名	名詞,形容動詞語幹,*,*,*,*,有名,ユウメイ,ユーメイ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
サービス	名詞,サ変接続,*,*,*,*,サービス,サービス,サービス
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
Amazon	名詞,一般,*,*,*,*,*
Elastic	名詞,一般,*,*,*,*,*
Compute	名詞,一般,*,*,*,*,*
Cloud	名詞,一般,*,*,*,*,*
(	名詞,サ変接続,*,*,*,*,*
EC	名詞,一般,*,*,*,*,*
2	名詞,数,*,*,*,*,*
)	名詞,サ変接続,*,*,*,*,*
と	助詞,並立助詞,*,*,*,*,と,ト,ト
Amazon	名詞,固有名詞,組織,*,*,*,*
Simple	名詞,一般,*,*,*,*,*
Storage	名詞,一般,*,*,*,*,*
Service	名詞,一般,*,*,*,*,*
(	名詞,サ変接続,*,*,*,*,*
S	名詞,一般,*,*,*,*,*
3	名詞,数,*,*,*,*,*
)	名詞,サ変接続,*,*,*,*,*
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
ある	動詞,自立,*,*,五段・ラ行,基本形,ある,アル,アル
。	記号,句点,*,*,*,*,。,。,。
これ	名詞,代名詞,一般,*,*,*,これ,コレ,コレ
まで	助詞,副助詞,*,*,*,*,まで,マデ,マデ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
クライアント	名詞,一般,*,*,*,*,*
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
保有	名詞,サ変接続,*,*,*,*,保有,ホユウ,ホユー
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,イ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
物理	名詞,一般,*,*,*,*,物理,ブツリ,ブツリ
的	名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
サーバ	名詞,一般,*,*,*,*,サーバ,サーバ,サーバ
ファーム	名詞,一般,*

In [3]:
import MeCab
 
sentence = """AWSの有名なサービスにAmazon Elastic Compute Cloud (EC2) とAmazon Simple Storage Service (S3) がある。
これまでのクライアントが保有していた物理的なサーバファームと比較してAWSは大規模な計算処理能力を速やかに提供出来ることが強みである。"""
 
t = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
print(t.parse(sentence))

AWS	名詞,固有名詞,一般,*,*,*,AWS,アマゾンウェブサービス,アマゾンウェブサービス
の	助詞,連体化,*,*,*,*,の,ノ,ノ
有名	名詞,形容動詞語幹,*,*,*,*,有名,ユウメイ,ユーメイ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
サービス	名詞,サ変接続,*,*,*,*,サービス,サービス,サービス
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
Amazon	名詞,固有名詞,一般,*,*,*,Amazon,アマゾン,アマゾン
Elastic	名詞,固有名詞,一般,*,*,*,Elastic,エラスティック,エラスティック
Compute	名詞,一般,*,*,*,*,*
Cloud	名詞,一般,*,*,*,*,*
(	記号,一般,*,*,*,*,*
EC2	名詞,固有名詞,一般,*,*,*,EC2,イーシーツー,イーシーツー
)	記号,一般,*,*,*,*,*
と	助詞,並立助詞,*,*,*,*,と,ト,ト
Amazon	名詞,固有名詞,一般,*,*,*,Amazon,アマゾン,アマゾン
Simple	名詞,固有名詞,一般,*,*,*,Simple,シンプル,シンプル
Storage	名詞,一般,*,*,*,*,*
Service	名詞,一般,*,*,*,*,*
(	記号,一般,*,*,*,*,*
S3	名詞,固有名詞,人名,一般,*,*,S3,エススリーマイルスボニーアンドブレンクシナトラ,エススリーマイルスボニーアンドブレンクシナトラ
)	記号,一般,*,*,*,*,*
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
ある	動詞,自立,*,*,五段・ラ行,基本形,ある,アル,アル
。	記号,句点,*,*,*,*,。,。,。
これ	名詞,代名詞,一般,*,*,*,これ,コレ,コレ
まで	助詞,副助詞,*,*,*,*,まで,マデ,マデ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
クライアント	名詞,固有名詞,一般,*,*,*,client,クライアント,クライアント
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
保有	名詞,サ変接続,*,*,*,*,保有,ホユウ,ホユー
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
い	動詞,非自立,*,*,一段,連用形,いる,イ,

In [15]:
import MeCab
def ExtractText(sentence):
    t = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
    s = preprocessing(sentence)
    out = []
    for chunk in t.parse(s).splitlines()[:-1]:
        (surface,feature) = chunk.split('\t')
        out.append(surface)
#         (surface, feature) = chunk.split('\t')
#         if feature.startswith('名詞'):
#             nouns.append(surface)
    return out

def preprocessing(sentence):
    return sentence.rstrip()

In [16]:
# print(ExtractText("私の名前はトーマスです。"))
nodes = ExtractText("席を外される場合は１時間以内に戻って来ていただけますよう、よろしくお願いいたします。")
nodes

['席',
 'を',
 '外さ',
 'れる',
 '場合',
 'は',
 '１',
 '時間',
 '以内',
 'に',
 '戻っ',
 'て',
 '来',
 'て',
 'いただけ',
 'ます',
 'よう',
 '、',
 'よろしく',
 'お願い',
 'いたし',
 'ます',
 '。']

In [6]:
print(nodes.rstrip())

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
名前	名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
トーマス	名詞,固有名詞,人名,名,*,*,トーマス,トーマス,トーマス
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
EOS


In [8]:
print(nodes)

私	名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
名前	名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
トーマス	名詞,固有名詞,人名,名,*,*,トーマス,トーマス,トーマス
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。
EOS



### BiLSTM + CRF

In [3]:
def load_data_and_labels(filename):
    sents, labels = [], []
    words, tags = [], []
    with open(filename) as f:
        for line in f:
            line = line.rstrip()
            if line:
                word, tag = line.split('\t')
                words.append(word)
                tags.append(tag)
            else:
                sents.append(words)
                labels.append(tags)
                words, tags = [], []
                
    return sents, labels

train_file = './resource/train.txt'
valid_file = './resource/valid.txt'

x_train, y_train = load_data_and_labels(train_file)
x_valid, y_valid = load_data_and_labels(valid_file)
# x_train[0]
# ['EU', 'rejects', 'German', 'call', 'to', 'boycott', 'British', 'lamb', '.']

In [7]:
UNK = '<UNK>'
PAD = '<PAD>'

vocab_word = {PAD: 0, UNK: 1}
vocab_char = {PAD: 0, UNK: 1}
vocab_label = {PAD: 0}

In [8]:
for sent in x_train:
    for w in sent:
        # create char dictionary.
        for c in w:
            if c in vocab_char:
                continue
            vocab_char[c] = len(vocab_char)

        # create word dictionary.
        if w in vocab_word:
            continue
        vocab_word[w] = len(vocab_word)

# create label dictionary.
for labels in y_train:
    for tag in labels:
        if tag in vocab_label:
            continue
        vocab_label[tag] = len(vocab_label)

In [11]:
len(vocab_word)

23625

# keras

## keras-example

In [1]:
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from keras.utils import np_utils
 
# Kerasに含まれるMNISTデータの取得
# 初回はダウンロードが発生するため時間がかかる
(X_train, y_train), (X_test, y_test) = mnist.load_data()
 
# 配列の整形と、色の範囲を0-255 -> 0-1に変換
X_train = X_train.reshape(60000, 784) / 255
X_test = X_test.reshape(10000, 784) / 255
 
# 正解データを数値からダミー変数の形式に変換
# これは例えば0, 1, 2の3値の分類の正解ラベル5件のデータが以下のような配列になってるとして
#   [0, 1, 2, 1, 0]
# 以下のような形式に変換する
#   [[1, 0, 0],
#    [0, 1, 0],
#    [0, 0, 1],
#    [0, 1, 0],
#    [1, 0, 0]]
# 列方向が0, 1, 2、行方向が各データに対応し、元のデータで正解となる部分が1、それ以外が0となるように展開してる
y_train = np_utils.to_categorical(y_train)
y_test = np_utils.to_categorical(y_test)
 
# ネットワークの定義
# 各層や活性関数に該当するレイヤを順に入れていく
# 作成したあとにmodel.add()で追加することも可能
model = Sequential([
        Dense(512, input_shape=(784,)),
        Activation('sigmoid'),
        Dense(10),
        Activation('softmax')
    ])
# 損失関数、 最適化アルゴリズムなどを設定しモデルのコンパイルを行う
model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
 
# 学習処理の実行
model.fit(X_train, y_train, batch_size=200, verbose=1, epochs=20, validation_split=0.1)
 
# 予測
score = model.evaluate(X_test, y_test, verbose=1)
print('test accuracy : ', score[1])

Using TensorFlow backend.


Train on 54000 samples, validate on 6000 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
test accuracy :  0.8901


In [4]:
import numpy as np
from keras.layers import Embedding, Input
from keras.models import Model

from crf import CRFLayer

# Hyperparameter settings.
vocab_size = 20
n_classes = 11
batch_size = 2
maxlen = 2

# Random features.
x = np.random.randint(1, vocab_size, size=(batch_size, maxlen))

# Random tag indices representing the gold sequence.
y = np.random.randint(n_classes, size=(batch_size, maxlen))
y = np.eye(n_classes)[y]

# All sequences in this example have the same length, but they can be variable in a real model.
s = np.asarray([maxlen] * batch_size, dtype='int32')

# Build an example model.
word_ids = Input(batch_shape=(batch_size, maxlen), dtype='int32')
sequence_lengths = Input(batch_shape=[batch_size, 1], dtype='int32')

word_embeddings = Embedding(vocab_size, n_classes)(word_ids)
crf = CRFLayer()
pred = crf(inputs=[word_embeddings, sequence_lengths])
model = Model(inputs=[word_ids, sequence_lengths], outputs=[pred])
model.compile(loss=crf.loss, optimizer='sgd')

# Train first 1 batch.
model.train_on_batch([x, s], y)

# Save the model
model.save('model.h5')

In [11]:
# Random features.
x = np.random.randint(1, vocab_size, size=(batch_size, maxlen))
print("x")
print(x)

# Random tag indices representing the gold sequence.
y = np.random.randint(n_classes, size=(batch_size, maxlen))

print("y1")
print(y)

y = np.eye(n_classes)[y]
print("y2")
print(y)

# All sequences in this example have the same length, but they can be variable in a real model.
s = np.asarray([maxlen] * batch_size, dtype='int32')
print("s")
print(s)


x
[[16 12]
 [18 13]]
y1
[[7 5]
 [1 5]]
y2
[[[0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]]]
s
[2 2]


## keras-practice

In [2]:
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.optimizers import SGD

import numpy as np

In [3]:
# ダミーデータ作成
x_train = np.random.random((1000,20))
y_train = keras.utils.to_categorical(np.random.randint(10, size=(1000, 1)), num_classes=10)
x_test = np.random.random((100, 20))
y_test = keras.utils.to_categorical(np.random.randint(10, size=(100,1)))

In [5]:
model = Sequential()
model.add(Dense(64, activation='relu', input_dim=20))
model.add(Dropout(0.5))
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

In [7]:
sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True)
model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

In [8]:
model.fit(x_train, y_train, epochs=20, batch_size=128)
score = model.evaluate(x_test, y_test, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
