### chainerのインストール

In [1]:
# !sudo chmod 777 /usr/local/lib/python3.6/dist-packages/__pycache__/
# !pip3 install chainer
# !git clone https://github.com/chainer/chainer.git
# !export PYTHONPATH=chainer/examples/text_classification/

In [8]:
import chainer
# 活性化関数等を管理する関数
import chainer.function as F
# BiasとWeightを管理する関数
import chainer.links as L
import numpy
from chainer import training
from chainer.training import extensions
import sys
sys.path.append('/home/vagrant/chainer/examples/text_classification/')
import nets
import nlp_utils

# 継承クラスの作成、class名はEncoder,別ファイルのchainer.Chainを継承する
class Encoder(chainer.Chain):
    
    # def __init__はコンストラクタ
    # 中には、どのように生成するか、どのようなデータを持たせるかなど、といった情報を定義する
    def __init__(self, w):
        # super(Encoder, self).__init__()で別ファイルのスーパークラス（chainer.Chain）のメソッドを呼び出すことが出来る。
        super(Encoder, self).__init__()
        # 300はWord2Vecの次元数
        self.out_units = 300
        
        # with構文でファイルを扱う
        # Chainクラスで重みの更新がされるのは self.init_scope()内に書いている linkオブジェクト
        with self.init_scope():
            self.embed = lambda x: F.embed_id(x, w)
            # 学習するLSTMの形を設定する
            self.encoder = L.NStepLSTM(n_layers=1, in_size=300, out_size=self.out_units, dropout=0.5)
    
    # 単語のID列をWord2Vecのベクトル列のデータに変換し、LSTMにわたす
    def forward(self, ws):
        exs = nets.sequence_embed(self.embed, xs)
        last_h, last_c, ys = self.encoder(None, None, exs)
        return last_h[-1]
    
# trainでモデルの学習を行う
def train(labels, features, w):
    # set型、集合型に変換する
    n_class = len(set(labels))
    print(f'# data: {len(features)}')
    print(f'# class: {n_class}')
    
    # 学習用データをchainerのiteratorの形にしておく
    pairs = [(vec, numpy.array([cls], numpy.int32)) for vec, cls in zip(features, labels)]
    train_iter = chainer.iterators.Seriallterator(pairs, batch_size=16)
    
    # 学習するモデルをちゃいねｒのサンプルプログラムのTextClassifierクラスを用いて設定する
    # 二値分類であるためカテゴリ数には2を指定、モデルはEncoderクラスのLSTMを指定する
    model = nets.TextClassifier(Encoder(w), n_class)
    
    # 最適化にはAdamを選択
    # ニューラルネットの学習方法を指定します。SGDは最も単純なものです。
    optimizer = chainer.optimizers.Adam()
    # 学習させたいパラメータを持ったChainをオプティマイザーにセットします。
    optimizer.setup(model)
    optimizer.add_hook(chainer.optimizer.WeightDecay(1e-4))
    
    # optimizerを使用してupdatersでパラメータを更新する
    updater = training.updaters.StandardUpdater(train_iter, optimizer, converter=convert_seq)
    # Trainerを用意する。updaterを渡すことで使える。epochを指定する。outはデータを保存する場所。
    trainer = training.Trainer(updater, (8, 'epoch'), out='./result/dl')
    
    # 下記で学習経過を確認する
    trainer.extend(extensions.LogReport())
    trainer.extend(extensions.PrintReport(['epoch', 'main/loss', 'main/accuracy', 'elapsed_time']))
    
    # 学習スタート
    trainer.run()
    return model

# 分類の実行
def classify(features, model):
    with chainer.using_config('train', False), chainer.no_backprop_model():
        # chainerのpredict関数からは各カテゴリに対数確率値が帰ってくる
        prob = model.predict(features, softmax=True)
    answers = model.xp.argmax(prob, axis=1)
    return answers

# Word2Vecを元に作成したボキャブラリを用いて、単語を単語のIDに変換する
def convert_into_features_using_vocab(sentences, vocab):
    contents = []
    for doc_id, sent, tokens in sentences:
        features = [token['lemma'] for token in tokens]
        contents.append(features)
    features = transform_to_array(contents, vocab, with_label=False)
    return feautures

ModuleNotFoundError: No module named 'convert_seq'

### 学習開始

In [3]:
import gensim
sys.path.append('src')
import sqlitedatastore as datastore
from annoutil import find_xs_in_y
import pandas as pd

def extract_w_and_vocab(model):
    w_ls = []
    vocab = {}
    for word in model.wv.index2word:
        vocab[word] = len(vocab)
        w_ls.append(model[word])
    for word in ['<eos>', '<unk>']:
        vocab[word] = len(vocab)
        w_ls.append(2 * numpy.random.rand(300) - 1)
        
    return numpy.array(w_ls).astype(numpy.float32), vocab

if __name__ == '__main__':
    datastore.connect()
    # Word2Vecをgensimライブラリを用いて読み込み
    w2v_model = gensim.models.Word2Vec.load('./data/ja/ja.bin')
    # chainerで扱いやすいようにwとvocabに分割
    w, vocab = extract_w_and_vocab(w2v_model)
    # ラベル付きデータ読み込み
    sentences = []
    labels = []
    df = pd.read_csv('data/svmdata100.csv', header=0, index_col=0, )
    # dfをzipを使い複数列、1行ずつ取り出す
    for label, doc_id, sent_id in zip(df['#label'].astype('int64'), df['doc_id'], df['sentence_id'].astype('int64')):
        sent = datastore.get_annotation(doc_id, 'sentence')[sent_id]
        tokens = find_xs_in_y(datastore.get_annotation(doc_id, 'token'), sent)
        sentences.append((doc_id, sent, tokens))
        labels.append(label)
        
    # 8割を学習に使用
    num_train = int(len(sentences) * 0.8)
    sentences_train = sentences[:num_train]
    labels_train = labels[:num_train]
    
    # ID変換
    features = convert_into_features_using_vocab(sentences_train, vocab)
    
    # 学習開始
    model = train(labels_train, features, w)
    
    # 学習モデルをファイルに保存
    chainer.serializers.save_npz('result/model_dl.npz', model)
    numpy.save('result/w_dl.npy', w)
    
    with open('result/vocab_dl.json', 'w') as f:
        json.dump(vocab, f)
    
    # 分類の実行
    # テスト用データの作成
    features_test = convert_into_features_using_vocab(sentences[num_train:], vocab)
    # 実行
    predicteds = classify(features_test, model)
    
    for predicted, (doc_id, sent, tokens), label in zip(predicteds, sentences[num_train:], labels[num_train:]):
        # 結果の確認
        text = datastore.get(doc_id, ['content'])['content']
        
        if predected == lavel:
            print('correct ', ' ', label, predicted, text[sent['begin']:sent['end']])
        else:
            print('incorrect', ' ', label, predicted, text[sent['begin']:sent['end']])
    
    datastore.close()

  if sys.path[0] == '':


NameError: name 'transform_to_array' is not defined