# Kerasによるクレーム分類：Pythonディープラーニングライブラリ

このノートブックでは、請求が自動車保険請求である場合は `1` 、住宅保険請求である場合は `0` を予測する請求テキストの分類モデルをトレーニングします。 モデルは、Kerasライブラリを介してTensorFlowを使用し、Long Short-Term Memory（LSTM）リカレントニューラルネットワークと呼ばれるDNNのタイプを使用して構築されます。

このノートブックでは、以下で構成されるテキスト分析プロセスについて説明します。

- GloVe単語の埋め込みを使用した例の類推
- GloVe単語の埋め込みを使用したトレーニングデータのベクトル化
- LSTMベースの分類モデルの作成とトレーニング
- モデルを使用して分類を予測する

## モジュールを準備する

このノートブックは、Kerasライブラリを使用して分類器を作成およびトレーニングします。

In [None]:
import string
import re
import os
import numpy as np
import pandas as pd
import urllib.request

import tensorflow as tf
import keras
from keras import models, layers, optimizers, regularizers
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding, LSTM
from keras.utils import to_categorical
from keras.preprocessing.sequence import pad_sequences

print('Keras version: ', keras.__version__)
print('Tensorflow version: ', tf.__version__)

**事前トレーニング済みのGloVe単語の埋め込みをダウンロードして、このノートブックにロードしてみましょう。**

これで、サイズが **400,000** ワードの `dictionary`と、辞書内の単語に対応する ` GloVe wordベクトル ` が作成されます。 各単語ベクトルのサイズは50であるため、ここで使用される単語埋め込みの次元は **50** です。

*次のセルの実行には数分かかる場合があります*

In [None]:
words_list_url = ('https://quickstartsws9073123377.blob.core.windows.net/'
                  'azureml-blobstore-0d1c4218-a5f9-418b-bf55-902b65277b85/glove50d/wordsList.npy')

word_vectors_url = ('https://quickstartsws9073123377.blob.core.windows.net/'
                    'azureml-blobstore-0d1c4218-a5f9-418b-bf55-902b65277b85/glove50d/wordVectors.npy')

word_vectors_dir = './word_vectors'

os.makedirs(word_vectors_dir, exist_ok=True)
urllib.request.urlretrieve(words_list_url, os.path.join(word_vectors_dir, 'wordsList.npy'))
urllib.request.urlretrieve(word_vectors_url, os.path.join(word_vectors_dir, 'wordVectors.npy'))

dictionary = np.load(os.path.join(word_vectors_dir, 'wordsList.npy'))
dictionary = dictionary.tolist()
dictionary = [word.decode('UTF-8') for word in dictionary]
print('Loaded the dictionary! Dictionary size: ', len(dictionary))

word_vectors = np.load(os.path.join(word_vectors_dir, 'wordVectors.npy'))
print ('Loaded the word vectors! Shape of the word vectors: ', word_vectors.shape)

**収縮マップという単語を作成します。 マップはコーパスの縮約を拡張するために使用されます（たとえば、 "can't" は"cannot"になります）。**

In [None]:
contractions_url = ('https://quickstartsws9073123377.blob.core.windows.net/'
                    'azureml-blobstore-0d1c4218-a5f9-418b-bf55-902b65277b85/glove50d/contractions.xlsx')
contractions_df = pd.read_excel(contractions_url)
contractions = dict(zip(contractions_df.original, contractions_df.expanded))
print('Review first 10 entries from the contractions map')
print(contractions_df.head(10))

## GloVe単語埋め込みを使用したワードアナロジーの例

GloVeは、辞書内の各単語をベクトルとして表します。 単語の類推を予測するために単語ベクトルを使用できます。

次の類推を解決する以下の例を参照してください。 **man と woman の関係は、king と"何"の関係に対応するか？**

コサイン類似度は、2つの単語の類似度を評価するために使用される尺度です。 このヘルパー関数は、2つの単語のベクトルを取り、-1〜1の範囲のコサイン類似度を返します。同義語の場合、コサイン類似度は1に近く、反意語の場合、コサイン類似度は-1に近くなります。

In [None]:
def cosine_similarity(u, v):
    dot = u.dot(v)
    norm_u = np.linalg.norm(u)
    norm_v = np.linalg.norm(v)
    cosine_similarity = dot/norm_u/norm_v
    return cosine_similarity

単語のベクトルを確認してみましょう **man**, **woman**, and **king**

In [None]:
man = word_vectors[dictionary.index('man')]
woman = word_vectors[dictionary.index('woman')]
king = word_vectors[dictionary.index('king')]
print(man)
print('')
print(woman)
print('')
print(king)

類推を解くには、次の方程式でxを解く必要があります。

**woman – man = x - king**

したがって, **x = woman - man + king**

In [None]:
x = woman - man + king

**次に、単語ベクトルが上記で計算されたベクトルxに最も近い単語を見つけます。**

計算コストを制限するために、辞書全体を検索するのではなく、可能な回答のリストから最適な単語を特定します。

In [None]:
answers = ['woman', 'prince', 'princess', 'england', 'goddess', 'diva', 'empress', 
           'female', 'lady', 'monarch', 'title', 'queen', 'sovereign', 'ruler', 
           'male', 'crown', 'majesty', 'royal', 'cleopatra', 'elizabeth', 'victoria', 
           'throne', 'internet', 'sky', 'machine', 'learning', 'fairy']

df = pd.DataFrame(columns = ['word', 'cosine_similarity'])

# Find the similarity of each word in answers with x
for w in answers:
    sim = cosine_similarity(word_vectors[dictionary.index(w)], x)   
    df = df.append({'word': w, 'cosine_similarity': sim}, ignore_index=True)
    
df.sort_values(['cosine_similarity'], ascending=False, inplace=True)

print(df)

**上記の結果から、単語「queen」のベクトルがベクトル「x」に最も類似していることがわかります。**

数値ばかりで分かりにくいでしょうか？

**【補講】**
単語ベクトル表現のさらなる理解のために、ベクトルを可視化してみましょう。
多次元ベクトルを可視化するためには、次元削減という手法を用います。PCA(主成分分析)を使用すると、元のベクトルが持つ情報をなるべく欠損することなく縮約することができます。今回は50次元のデータを2次元に減らします。これを実行すれば、matplotlib散布図を使用してプロットすることができるようになります。

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# ベクトル同士の演算
man = word_vectors[dictionary.index('man')]
woman = word_vectors[dictionary.index('woman')]
king = word_vectors[dictionary.index('king')]
x = woman - man + king

words = ['king', 'man', 'woman', 'queen']
# GloVe 辞書から指定した単語のベクトルを取り出す
vectors = [word_vectors[dictionary.index(word)] for word in words]

# ベクトル演算結果の確認のため、配列の末尾に演算結果xを追加
vectors.append(x)
words.append('x')

# 50次元を2次元に削減
twodim = PCA(n_components=2).fit_transform(vectors)

plt.figure(figsize=(6,6))
# 散布図を作成
plt.scatter(twodim[:, 0], twodim[:, 1], edgecolors='k', c='b')

for label, x, y in zip(words, twodim[:, 0], twodim[:, 1]):
    labeltitle = label + "(" + str(np.round(x, decimals=1)) + "," + str(np.round(y, decimals=1)) + ")"
    plt.annotate(labeltitle, xy=(x, y), xytext=(5, 0), textcoords="offset points")

plt.show()

「王」から「男性」を引いて「女性」を足したとき、それは「女王」となるであろうという類推が、GloVeベクトルの演算で可能になりました。これは何を意味するかというと、単語間の意味的な関係をベクトルで表現することができるということです。この技術の登場によって、単語をニューラルネットワークのインプットにすることができるようになり、機械翻訳や文章の固有表現抽出など幅広い領域に用いられるようになりました。

それではもっと面白い特徴をお見せしましょう。

In [None]:
# ベクトル同士の演算
man = word_vectors[dictionary.index('man')]
woman = word_vectors[dictionary.index('woman')]
king = word_vectors[dictionary.index('king')]
x = woman - man + king

# GloVe 辞書内に含まれる単語をカテゴリごとに追加（自由に編集してください）
words = ['coffee', 'tea', 'beer', 'wine', 'brandy', 'rum', 'champagne', 
         'spaghetti', 'borscht', 'hamburger', 'pizza', 'falafel', 'sushi', 'meatballs',
         'dog', 'horse', 'cat', 'monkey', 'parrot', 'koala', 'lizard',
         'frog', 'toad', 'monkey', 'ape', 'kangaroo', 'wombat', 'wolf',
         'france', 'germany', 'hungary', 'luxembourg', 'australia', 'japan',
         'homework', 'assignment', 'problem', 'exam', 'test', 'class',
         'school', 'college', 'university', 'institute',
         'king', 'man', 'woman', 'queen']

# GloVe 辞書から指定した単語のベクトルを取り出す
vectors = [word_vectors[dictionary.index(word)] for word in words]

# ベクトル演算結果の確認のため、配列の末尾に演算結果xを追加
vectors.append(x)
words.append('x')

# 50次元を2次元に削減
twodim = PCA(n_components=2).fit_transform(vectors)

plt.figure(figsize=(14,14))
# 散布図を作成
plt.scatter(twodim[:, 0], twodim[:, 1], edgecolors='k', c='b')

for label, x, y in zip(words, twodim[:, 0], twodim[:, 1]):
    labeltitle = label + "(" + str(np.round(x, decimals=1)) + "," + str(np.round(y, decimals=1)) + ")"
    plt.annotate(labeltitle, xy=(x, y), xytext=(5, 0), textcoords="offset points")

plt.show()


似た意味の単語同士がベクトル空間上で近い位置に配置されることがグラフから分かりましたか？これは魔法のようなことです！🧙

## トレーニングデータを準備する

Contoso Ltdは、クレームテキストとして受け取るテキストの例を含む小さなドキュメントを提供しています。 彼らは、これをサンプルクレームごとに1行のテキストファイルで提供しています。

次のセルを実行して、ファイルの内容をダウンロードして確認します。 少し時間をかけてクレームを読んでください（あなたはそれらのいくつかをかなりコミカルに感じるかもしれません！）。

In [None]:
data_location = './data'
base_data_url = 'https://databricksdemostore.blob.core.windows.net/data/05.03/'
filesToDownload = ['claims_text.txt', 'claims_labels.txt']

os.makedirs(data_location, exist_ok=True)

for file in filesToDownload:
    data_url = os.path.join(base_data_url, file)
    local_file_path = os.path.join(data_location, file)
    urllib.request.urlretrieve(data_url, local_file_path)
    print('Downloaded file: ', file)
    
claims_corpus = [claim for claim in open(os.path.join(data_location, 'claims_text.txt'))]
claims_corpus

クレームサンプルに加えて、Contoso Ltdは、提供されたサンプルクレームのそれぞれに0（「住宅保険クレーム」）または1（「自動車保険クレーム」）のいずれかとしてラベルを付けるドキュメントも提供しています。 これは、サンプルごとに1行のテキストファイルとして提示され、クレームテキストと同じ順序で提示されます。

次のセルを実行して、提供されたClaims_labels.txtファイルの内容を調べます。

In [None]:
labels = [int(re.sub("\n", "", label)) for label in open(os.path.join(data_location, 'claims_labels.txt'))]
print(len(labels))
print(labels[0:5]) # first 5 labels
print(labels[-5:]) # last 5 labels

上記の出力からわかるように、値は整数0または1です。これらをモデルのトレーニングに使用するラベルとして使用するには、これらの整数値をカテゴリ値に変換する必要があります（他のプログラミングの列挙型のようなものと考えてください） 言語）。

`keras.utils` の to_categorical メソッドを使用して、これらの値をバイナリのカテゴリ値に変換できます。 次のセルを実行します。

In [None]:
labels = to_categorical(labels, 2)
print(labels.shape)
print()
print(labels[0:2]) # first 2 categorical labels
print()
print(labels[-2:]) # last 2 categorical labels

クレームテキストとラベルが読み込まれたので、テキスト分析プロセスの最初のステップ、つまりテキストを正規化する準備ができました。

### クレームコーパスを処理する

- すべての単語を小文字にします
- 収縮を拡張する（たとえば、 "can't" が "cannot" になる）
- 特殊文字（句読点など）を削除する
- クレームテキスト内の単語のリストを、辞書内のそれらの単語の対応するインデックスのリストに変換します。 書面のクレームに表示される単語の順序は維持されることに注意してください。

次のセルを実行して、クレームコーパスを処理します。

In [None]:
def remove_special_characters(token):
    pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))
    filtered_token = pattern.sub('', token)
    return filtered_token

def convert_to_indices(corpus, dictionary, c_map, unk_word_index = 399999):
    sequences = []
    for i in range(len(corpus)):
        tokens = corpus[i].split()
        sequence = []
        for word in tokens:
            word = word.lower()
            if word in c_map:
                resolved_words = c_map[word].split()
                for resolved_word in resolved_words:
                    try:
                        word_index = dictionary.index(resolved_word)
                        sequence.append(word_index)
                    except ValueError:
                        sequence.append(unk_word_index) #Vector for unkown words
            else:
                try:
                    clean_word = remove_special_characters(word)
                    if len(clean_word) > 0:
                        word_index = dictionary.index(clean_word)
                        sequence.append(word_index)
                except ValueError:
                    sequence.append(unk_word_index) #Vector for unkown words
        sequences.append(sequence)
    return sequences

claims_corpus_indices = convert_to_indices(claims_corpus, dictionary, contractions)

**1つのサンプルクレームのインデックスを確認する**

In [None]:
print(remove_special_characters(claims_corpus[5]).split())
print()
print('Ordered list of indices for the above claim')
print(claims_corpus_indices[5])
print('')
print('For example, the index of second word in the claims text \"pedestrian\" is: ', dictionary.index('pedestrian'))

**固定長ベクトルを作成する**

クレームで使用される単語の数は、クレームによって異なります。 固定サイズの入力ベクトルを作成する必要があります。 `keras.preprocessing.sequence` のユーティリティ関数 ` pad_sequences` を使用して、単語インデックスの固定サイズのベクトル（サイズ= 125）を作成します。

In [None]:
maxSeqLength = 125

X = pad_sequences(claims_corpus_indices, maxlen=maxSeqLength, padding='pre', truncating='post')

print('Review the new fixed size vector for a sample claim')
print(remove_special_characters(claims_corpus[5]).split())
print()
print(X[5])
print('')
print('Lenght of the vector: ', len(X[5]))

## LSTMリカレントニューラルネットワークを構築する

テキストデータのトレーニングから入力特徴を前処理したので、分類器を作成する準備ができました。 この場合、LSTMリカレントニューラルネットワークを構築します。 ネットワークには、単語インデックスをGloVe単語ベクトルに変換する単語埋め込みレイヤーがあります。 次に、GloVeワードベクトルがLSTM層に渡され、その後に二項分類出力層が続きます。

次のセルを実行して、ニューラルネットワークの構造を構築します。

In [None]:
embedding_layer = Embedding(word_vectors.shape[0],
                            word_vectors.shape[1],
                            weights=[word_vectors],
                            input_length=maxSeqLength,
                            trainable=False)
model = Sequential()
model.add(embedding_layer)
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(2, activation='sigmoid'))
model.summary()

## ニューラルネットワークをトレーニングする

最初に、データを2つのセットに分割します：（1）トレーニングセットと（2）検証またはテストセット。 検証セットの精度は、モデルのパフォーマンスを測定するために使用されます。

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=0)

 `Adam` 最適化アルゴリズムを使用してモデルをトレーニングします。 また、問題のタイプが `Binary Classification` であるため、出力層には `Sigmoid` アクティベーション関数を使用し、損失関数には `Binary Crossentropy` を使用しています。

In [None]:
opt = keras.optimizers.Adam(lr=0.001)
model.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])

これで、トレーニングデータとラベルに合わせてDNNに学習させる準備ができました。 トレーニングのバッチサイズとエポック数を定義しました。

次のセルを実行して、モデルをデータに合わせます。

In [None]:
epochs = 100
batch_size = 16
model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, validation_data=(X_test, y_test))

値「val_accuracy」の最終出力を見てください。 これは、検証セットの精度を表しています。 ランダムチャンスを50％の精度であると考える場合、モデルはランダムよりも優れていますか？

この時点でランダムよりも良くない場合でも問題ありません-これは初めてのモデルです！ 典型的なデータサイエンスプロセスは、モデルの精度を向上させるために、次のようなさまざまなアクションを繰り返し実行します。
- トレーニング用にさらにラベルが付けられたドキュメントを取得する
- 過適合を防ぐための正則化
- レイヤー数、レイヤーあたりのノード数、学習率などのモデルハイパーパラメーターの調整

## 分類クレームのテスト

モデルを構築したので、一連のクレームに対してそれを試してください。 最初にテキストを前処理する必要があることを思い出してください。

次のセルを実行して、テストデータを準備します。

In [None]:
test_claim = ['I crashed my car into a pole.', 
              'The flood ruined my house.', 
              'I lost control of my car and fell in the river.']

test_claim_indices = convert_to_indices(test_claim, dictionary, contractions)
test_data = pad_sequences(test_claim_indices, maxlen=maxSeqLength, padding='pre', truncating='post')

次に、モデルを使用して分類を予測します。

In [None]:
pred = model.predict(test_data)
pred_label = pred.argmax(axis=1)
pred_df = pd.DataFrame(np.column_stack((pred,pred_label)), columns=['class_0', 'class_1', 'label'])
pred_df.label = pred_df.label.astype(int)
print('Predictions')
pred_df

## モデルのエクスポートとインポート

これで作業モデルができたので、トレーニング済みモデルをファイルにエクスポートして、デプロイされたWebサービスがダウンストリームで使用できるようにする必要があります。

*次の2つのセルの実行には数分かかる場合があります*

モデルをエクスポートするには、次のセルを実行します。

In [None]:
import joblib

output_folder = './output'
model_filename = 'final_model.hdf5'
os.makedirs(output_folder, exist_ok=True)
model.save(os.path.join(output_folder, model_filename))

同じNotebookインスタンスへのモデルの再ロードをテストするには、次のセルを実行します。

In [None]:
from keras.models import load_model
loaded_model = load_model(os.path.join(output_folder, model_filename))
loaded_model.summary()

前と同じように、モデルを使用して予測を実行できます。

次のセルを実行して、再ロードされたモデルで予測を試みます。

In [None]:
pred = loaded_model.predict(test_data)
pred_label = pred.argmax(axis=1)
pred_df = pd.DataFrame(np.column_stack((pred,pred_label)), columns=['class_0', 'class_1', 'label'])
pred_df.label = pred_df.label.astype(int)
print('Predictions')
pred_df