### chainerのインストール

In [1]:
# !sudo chmod 777 /usr/local/lib/python3.6/dist-packages/__pycache__/
# !pip3 install chainer
# !git clone https://github.com/chainer/chainer.git
# !export PYTHONPATH=chainer/examples/text_classification/

In [41]:
import chainer
# 活性化関数等を管理する関数
import chainer.functions as F
# BiasとWeightを管理する関数
import chainer.links as L
import numpy
from chainer import training
from chainer.training import extensions
import sys
sys.path.append('/home/vagrant/chainer/examples/text_classification')
import nets
import nlp_utils

# 継承クラスの作成、class名はEncoder,別ファイルのchainer.Chainを継承する
class Encoder(chainer.Chain):
    
    # def __init__はコンストラクタ
    # 中には、どのように生成するか、どのようなデータを持たせるかなど、といった情報を定義する
    def __init__(self, w):
        # super(Encoder, self).__init__()で別ファイルのスーパークラス（chainer.Chain）のメソッドを呼び出すことが出来る。
        super(Encoder, self).__init__()
        # 300はWord2Vecの次元数
        self.out_units = 300
        
        # with構文でファイルを扱う
        # Chainクラスで重みの更新がされるのは self.init_scope()内に書いている linkオブジェクト
        with self.init_scope():
            self.embed = lambda x: F.embed_id(x, w)
            # 学習するLSTMの形を設定する
            self.encoder = L.NStepLSTM(n_layers=1, in_size=300, out_size=self.out_units, dropout=0.5)
    
    # 単語のID列をWord2Vecのベクトル列のデータに変換し、LSTMにわたす
    def forward(self, xs):
        exs = nets.sequence_embed(self.embed, xs)
        last_h, last_c, ys = self.encoder(None, None, exs)
        return last_h[-1]
    
# trainでモデルの学習を行う
def train(labels, features, w):
    # set型、集合型に変換する
    n_class = len(set(labels))
    print(f'# data: {len(features)}')
    print(f'# class: {n_class}')
    
    # 学習用データをchainerのiteratorの形にしておく
    pairs = [(vec, numpy.array([cls], numpy.int32)) for vec, cls in zip(features, labels)]
    train_iter = chainer.iterators.SerialIterator(pairs, batch_size=16)
    
    # 学習するモデルをちゃいねｒのサンプルプログラムのTextClassifierクラスを用いて設定する
    # 二値分類であるためカテゴリ数には2を指定、モデルはEncoderクラスのLSTMを指定する
    model = nets.TextClassifier(Encoder(w), n_class)
    
    # 最適化にはAdamを選択
    # ニューラルネットの学習方法を指定します。SGDは最も単純なものです。
    optimizer = chainer.optimizers.Adam()
    # 学習させたいパラメータを持ったChainをオプティマイザーにセットします。
    optimizer.setup(model)
    optimizer.add_hook(chainer.optimizer.WeightDecay(1e-4))
    
    # optimizerを使用してupdatersでパラメータを更新する
    updater = training.updaters.StandardUpdater(train_iter, optimizer, converter=convert_seq)
    # Trainerを用意する。updaterを渡すことで使える。epochを指定する。outはデータを保存する場所。
    trainer = training.Trainer(updater, (8, 'epoch'), out='./result/dl')
    
    # 下記で学習経過を確認する
    trainer.extend(extensions.LogReport())
    trainer.extend(extensions.PrintReport(['epoch', 'main/loss', 'main/accuracy', 'elapsed_time']))
    
    # 学習スタート
    trainer.run()
    return model

# 分類の実行
def classify(features, model):
    with chainer.using_config('train', False), chainer.no_backprop_mode():
        # chainerのpredict関数からは各カテゴリに対数確率値が帰ってくる
        prob = model.predict(features, softmax=True)
    answers = model.xp.argmax(prob, axis=1)
    return answers

# Word2Vecを元に作成したボキャブラリを用いて、単語を単語のIDに変換する
def convert_into_features_using_vocab(sentences, vocab):
    contents = []
    for doc_id, sent, tokens in sentences:
        features = [token['lemma'] for token in tokens]
        contents.append(features)
    features = transform_to_array(contents, vocab, with_label=False)
    return features

In [42]:
# nlp_utilsが読み込めないため持ってくる
import collections
import io

import numpy

import chainer
from chainer.backends import cuda


def split_text(text, char_based=False):
    if char_based:
        return list(text)
    else:
        return text.split()


def normalize_text(text):
    return text.strip().lower()


def make_vocab(dataset, max_vocab_size=20000, min_freq=2):
    counts = collections.defaultdict(int)
    for tokens, _ in dataset:
        for token in tokens:
            counts[token] += 1

    vocab = {'<eos>': 0, '<unk>': 1}
    for w, c in sorted(counts.items(), key=lambda x: (-x[1], x[0])):
        if len(vocab) >= max_vocab_size or c < min_freq:
            break
        vocab[w] = len(vocab)
    return vocab


def read_vocab_list(path, max_vocab_size=20000):
    vocab = {'<eos>': 0, '<unk>': 1}
    with io.open(path, encoding='utf-8', errors='ignore') as f:
        for l in f:
            w = l.strip()
            if w not in vocab and w:
                vocab[w] = len(vocab)
            if len(vocab) >= max_vocab_size:
                break
    return vocab


def make_array(tokens, vocab, add_eos=True):
    unk_id = vocab['<unk>']
    eos_id = vocab['<eos>']
    ids = [vocab.get(token, unk_id) for token in tokens]
    if add_eos:
        ids.append(eos_id)
    return numpy.array(ids, numpy.int32)


def transform_to_array(dataset, vocab, with_label=True):
    if with_label:
        return [(make_array(tokens, vocab), numpy.array([cls], numpy.int32))
                for tokens, cls in dataset]
    else:
        return [make_array(tokens, vocab)
                for tokens in dataset]


def convert_seq(batch, device=None, with_label=True):
    def to_device_batch(batch):
        if device is None:
            return batch
        elif device < 0:
            return [chainer.dataset.to_device(device, x) for x in batch]
        else:
            xp = cuda.cupy.get_array_module(*batch)
            concat = xp.concatenate(batch, axis=0)
            sections = numpy.cumsum([len(x)
                                     for x in batch[:-1]], dtype=numpy.int32)
            concat_dev = chainer.dataset.to_device(device, concat)
            batch_dev = cuda.cupy.split(concat_dev, sections)
            return batch_dev

    if with_label:
        return {'xs': to_device_batch([x for x, _ in batch]),
                'ys': to_device_batch([y for _, y in batch])}
    else:
        return to_device_batch([x for x in batch])

### 学習開始

In [45]:
import gensim
sys.path.append('src')
import sqlitedatastore as datastore
from annoutil import find_xs_in_y
import pandas as pd
import json

def extract_w_and_vocab(model):
    w_ls = []
    vocab = {}
    for word in model.wv.index2word:
        vocab[word] = len(vocab)
        w_ls.append(model[word])
    for word in ['<eos>', '<unk>']:
        vocab[word] = len(vocab)
        w_ls.append(2 * numpy.random.rand(300) - 1)
        
    return numpy.array(w_ls).astype(numpy.float32), vocab

if __name__ == '__main__':
    datastore.connect()
    # Word2Vecをgensimライブラリを用いて読み込み
    w2v_model = gensim.models.Word2Vec.load('./data/ja/ja.bin')
    # chainerで扱いやすいようにwとvocabに分割
    w, vocab = extract_w_and_vocab(w2v_model)
    # ラベル付きデータ読み込み
    sentences = []
    labels = []
    df = pd.read_csv('data/svmdata100.csv', header=0, index_col=0, )
    # dfをzipを使い複数列、1行ずつ取り出す
    for label, doc_id, sent_id in zip(df['#label'].astype('int64'), df['doc_id'], df['sentence_id'].astype('int64')):
        sent = datastore.get_annotation(doc_id, 'sentence')[sent_id]
        tokens = find_xs_in_y(datastore.get_annotation(doc_id, 'token'), sent)
        sentences.append((doc_id, sent, tokens))
        labels.append(label)
        
    # 8割を学習に使用
    num_train = int(len(sentences) * 0.8)
    sentences_train = sentences[:num_train]
    labels_train = labels[:num_train]
    
    # ID変換
    features = convert_into_features_using_vocab(sentences_train, vocab)
    
    # 学習開始
    model = train(labels_train, features, w)
    
    # 学習モデルをファイルに保存
    chainer.serializers.save_npz('result/model_dl.npz', model)
    numpy.save('result/w_dl.npy', w)
    
    with open('result/vocab_dl.json', 'w') as f:
        json.dump(vocab, f)
    
    # 分類の実行
    # テスト用データの作成
    features_test = convert_into_features_using_vocab(sentences[num_train:], vocab)
    # 実行
    predicteds = classify(features_test, model)
    
    for predicted, (doc_id, sent, tokens), label in zip(predicteds, sentences[num_train:], labels[num_train:]):
        # 結果の確認
        text = datastore.get(doc_id, ['content'])['content']
        
        if predicted == label:
            print('correct ', ' ', label, predicted, text[sent['begin']:sent['end']])
        else:
            print('incorrect', ' ', label, predicted, text[sent['begin']:sent['end']])
    
    datastore.close()

  del sys.path[0]


# data: 80
# class: 2
epoch       main/loss   main/accuracy  elapsed_time
[J1           0.708339    0.5375         2.17802       
[J2           0.544473    0.75           4.38155       
[J3           0.471009    0.7875         6.59997       
[J4           0.325815    0.8875         8.89658       
[J5           0.182776    0.95           11.1065       
[J6           0.104519    0.975          13.2824       
[J7           0.0624946   1              15.367        
[J8           0.0207733   1              17.4714       
correct    1 1 農林産品としてはこのほか、カシューナッツや木材の輸出もある
correct    0 0 ヨーロッパ最大の草原のひとつ （ホルトバージ国立公園）
correct    0 0 なお紅茶ではなく中国茶が多く飲まれている[32]
correct    0 0 フィリピン海、南シナ海、セレベス海に囲まれる
incorrect   1 0 オイルパーム（アブラヤシ）から精製されるパームオイル（パーム油、ヤシ油）は、植物油の原料の一つで、1990年代後半日本国内では菜種油・大豆油に次いで第3位で、食用・洗剤・シャンプー・化粧品の原料として需要の増大が見込まれている
correct    0 0 この砂漠は風によって絶えず景色が変化する砂砂漠（エルグ）、ごつごつした石や砂利と乾燥に強い植物がわずかにみられる礫砂漠、または植生のない岩肌がむき出しになっている岩石砂漠が広がっており、砂砂漠は一部であり、大部分は礫砂漠と岩石砂漠で占められている[10]
incorrect   0 1 国土を囲む海域には北極海の一部