# ktrainから使うBERT

ktrainはKerasのラッパーであり、ニューラルネットワークを簡単に学習できます。わずか数行のコードを書くだけでモデルを構築し、最適な学習率を推定し、テキストの読み込みや前処理を行い、モデルを学習できます。

- https://github.com/amaiya/ktrain

## 準備

### パッケージのインストール

In [1]:
!pip3 install ktrain==0.27.3

Collecting ktrain==0.27.3
  Downloading ktrain-0.27.3.tar.gz (25.3 MB)
[K     |████████████████████████████████| 25.3 MB 96 kB/s 
[?25hCollecting scikit-learn==0.23.2
  Downloading scikit_learn-0.23.2-cp37-cp37m-manylinux1_x86_64.whl (6.8 MB)
[K     |████████████████████████████████| 6.8 MB 35.9 MB/s 
Collecting langdetect
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[K     |████████████████████████████████| 981 kB 31.0 MB/s 
Collecting cchardet
  Downloading cchardet-2.1.7-cp37-cp37m-manylinux2010_x86_64.whl (263 kB)
[K     |████████████████████████████████| 263 kB 43.0 MB/s 
Collecting syntok
  Downloading syntok-1.3.1.tar.gz (23 kB)
Collecting seqeval==0.0.19
  Downloading seqeval-0.0.19.tar.gz (30 kB)
Collecting transformers<=4.3.3,>=4.0.0
  Downloading transformers-4.3.3-py3-none-any.whl (1.9 MB)
[K     |████████████████████████████████| 1.9 MB 31.1 MB/s 
[?25hCollecting sentencepiece
  Downloading sentencepiece-0.1.96-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64

### インポート

In [2]:
import ktrain
from ktrain import text

### データセットのダウンロード

データセットは以前にも使ったIMDB映画レビューデータセットを使います。

In [3]:
import tensorflow as tf

dataset = tf.keras.utils.get_file(
    fname="aclImdb.tar.gz",
    origin="http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz",
    extract=True,
)

Downloading data from http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz


In [4]:
%cd /root/.keras/datasets/aclImdb
!ls

/root/.keras/datasets/aclImdb
imdbEr.txt  imdb.vocab	README	test  train


読み込むときのために、フォルダの構造を確認しておきましょう。
`train`と`test`の下に`pos`と`neg`フォルダがあり、その中にプレーンテキストでレビューが格納されています。おおよそ、以下の構造になります。

```bash
├── datadir
│   ├── train
│   │   ├── pos       # 肯定的なレビューのテキストを含むフォルダ
│   │   └── neg       # 否定的なレビューのテキストを含むフォルダ
│   └── test 
│        ├── pos       # 肯定的なレビューのテキストを含むフォルダ
│        └── neg       # 否定的なレビューのテキストを含むフォルダ
```

In [22]:
!ls -F train

labeledBow.feat  pos/	 unsupBow.feat	urls_pos.txt
neg/		 unsup/  urls_neg.txt	urls_unsup.txt


In [5]:
# set path to dataset
import os.path

dataset = "/root/.keras/datasets/aclImdb"
IMDB_DATADIR = os.path.join(os.path.dirname(dataset), "aclImdb")
print(IMDB_DATADIR)

/root/.keras/datasets/aclImdb


## 前処理

`texts_from_folder`関数を使うと、学習用と検証用のデータを指定したフォルダから読み込み、BERTに必要な形式へ自動的に変換してくれます。この関数は、以下のようなフォルダ構造でコーパスが格納されていることを仮定しています。

```bash
├── datadir
│   ├── train
│   │   ├── class0       # folder containing documents of class 0
│   │   ├── class1       # folder containing documents of class 1
│   │   ├── class2       # folder containing documents of class 2
│   │   └── classN       # folder containing documents of class N
│   └── test 
│       ├── class0       # folder containing documents of class 0
│       ├── class1       # folder containing documents of class 1
│       ├── class2       # folder containing documents of class 2
│       └── classN       # folder containing documents of class N
```

各サブフォルダは、プレーンテキスト形式で文書を格納していなければなりません。今回の場合、サブフォルダ名は`pos`と`neg`なので、それを`classes`引数に指定します。

In [11]:
(x_train, y_train), (x_test, y_test), preproc = text.texts_from_folder(
    IMDB_DATADIR,
    maxlen=128,
    preprocess_mode="bert",
    train_test_names=["train", "test"],
    classes=["pos", "neg"],
)

detected encoding: utf-8
preprocessing train...
language: en


Is Multi-Label? False
preprocessing test...
language: en


## 事前学習済みBERTの読み込み

まずは、`text_classifier`関数を使って、テキスト分類モデルを構築します。今回はBERTを使いたいため、関数の第一引数に`bert`と渡しています。それ以外に以下の文字列を渡せます。

- fasttext: FastTextモデル
- nbsvm: NBSVM（ナイーブベイズとSVMの組み合わせ）
- logreg: 埋め込み層を使ったロジスティック回帰
- bigru: 事前学習済み単語埋め込みを使った双方向GRU
- distilbert: DistilBertモデル

その後、`get_learner`関数を呼び出して、モデルを学習するための`Learner`インスタンスを作成します。

In [14]:
model = text.text_classifier("bert", (x_train, y_train), preproc=preproc)
learner = ktrain.get_learner(
    model, train_data=(x_train, y_train), val_data=(x_test, y_test), batch_size=16
)

Is Multi-Label? False
maxlen is 128
done.


## モデルの学習

ここまで来たら、あとは`fit_onecycle`メソッドを呼び出して、モデルを学習します。
第1引数に学習率、第２引数にエポック数を指定しています。

In [15]:
learner.fit_onecycle(2e-5, 4)



begin training using onecycle policy with max lr of 2e-05...
Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4


<keras.callbacks.History at 0x7f63b0ca9e90>