In this notebook, I am training three different machine learning models to predict the author of a book from its title and contents. The three models are:
1. Support vector machine (SVM)
2. Convolutional Neural Network (CNN)
3. Recurrent Neural Network (RNN)

Previously, I have already crawled a corpus named Aozora Bunko (青空文庫) from the Internet (Please see crawl_aozora_bunko.ipynb). So let's just load the corpus first:

In [1]:
import json

In [2]:
corpus_dir = 'data/corpus.json'

with open(corpus_dir, 'r') as file:
    corpus = json.load(file)

# Print one book to see if it is correctly loaded
random_key = list(corpus.keys())[0]
print(corpus[random_key])

{'book_content': None, 'book_title': None, 'author': None}


Oops, if you have not read how I crawled the corpus, this is actually expected because the key is actually the path of the url ranging from 0 to 50000. However, it is not fully distributed, i.e., some of the ids have book contents while some do not. Therefore, our first step here would be to rule out the empty ids first.

In [3]:
clean_corpus = {}
for key in corpus.keys():
    if corpus[key]['book_content'] != None or corpus[key]['book_title'] != None or corpus[key]['author'] != None:
        # if all key are None, the id does not have content, so it is removed
        clean_corpus[key] = corpus[key]

corpus = clean_corpus
del clean_corpus # release memory space

# expect to be 4000
print(len(corpus))

4000


Now let's print again:

In [4]:
# Print one book to see if it is correctly loaded
random_key = list(corpus.keys())[0]
print(corpus[random_key])

{'book_content': 'き 出して 洲 になって ゐる。 しかし それ は 長さ も 幅 も、 \n\nそれほど 大きな もので はない。 流れ はすぐ また 合して \n\n一 つに なって ゐる。 こっちの 岸の 方が 深く、 川の なか \n\nに は 大きな 石が 幾つ もあって、 小さな 淵 を 作ったり、 \n\n流れが 激しく 白く 泡立った りして ゐる。 底 は 見えない _ \n\n向う 岸に 近いと ころ は 浅く、 河床 はすべ すべの 一枚 板 \n\nの やうな 感じの 岩で、 従って 水 は 音 もな く 速く 流れて \n\nゐる。 \n\nぼんやり 見て ゐた私 は その 時、 その 中洲の 上に ふと \n\n一 つの 生き物 を 発見した。 はじめは 土塊 だと さへ 思 は \n\nなかった の だが、 のろのろと それが 動きだし たので、 \n\n\n\nる 害 もない。 しかし 私に は 本能 的な 生の 衝動 以上の も \n\nのが あると しか 思へ なかった。 活動に は ひる 前に ぢっ \n\nと うづく まって ゐた 姿、 急流に 無 一 一 無 三に 突っ込んで \n\n行った 姿、 洲の 端に つかまって ほっとして ゐた 姿、 I \n\nI すべて そこに は 表情が あった。 心理 さへ あった。 そ \n\nれらは 人間の 場合の やうに こっちに 伝 はって 来た。 明 \n\n確な 目的 意志に もとづ いて 行動して ゐる ものから でな \n\nくて は あの 感じ は 来ない。 まして や、 あの 波間に 没し \n\n去った 最後の 瞬間に 至って は。 そこに は 刀 折れ、 矢尽 \n\nきた 感じが あった。 力の 限り 戦って 来、 最後に 運命に \n\n従順な ものの 姿が あった。 さう いふ もの だ けが 持つ 静 \n\n\n\nかで 赤蛙に 逢った。 私 は 夢の なかで 色 を 見る とい ふこ \n\nと はめった にない 人間 だ。 しかし 波間に 没す る 瞬間の \n\nあや \n\n赤蛙の 黄色い 腹と 紅の 斑紋と は 妖しい ばかりに 鮮明 だ \n\nつた。 \n\n(昭和 二十 一 年 一 月) \n\n\n\n底本 ： 「現代 

Good to see the corpus is correctly loaded, however, we can see the next obvious problem already. There are a lot of '\n' in the book contents. This is the line break character and is almost meaningless to the machine learning models. Therefore, let's remove them together with the whitespace. Also there is a common message at the end of each book, i.e. 

* Some people will also remove punctuation marks, but I think they could be useful in some case so I do not.
* Some people will remove stop words (auxilary words that appears with very high frequency but have very limited contribution to the meaning of a sentence, such as in English, is, am, are, a, an, the, etc), but I think it is very difficult to identify these words in Japanese, so I will just leave them there

In [5]:
for book_id in corpus.keys():
    corpus[book_id]['book_content'] = corpus[book_id]['book_content'].replace('\n', '')
    corpus[book_id]['book_content'] = corpus[book_id]['book_content'].replace(' ', '')

In [6]:
# Print one book to see if line breaks are correctly removed
random_key = list(corpus.keys())[0]
print(corpus[random_key]['book_content'])

き出して洲になってゐる。しかしそれは長さも幅も、それほど大きなものではない。流れはすぐまた合して一つになってゐる。こっちの岸の方が深く、川のなかには大きな石が幾つもあって、小さな淵を作ったり、流れが激しく白く泡立ったりしてゐる。底は見えない_向う岸に近いところは浅く、河床はすべすべの一枚板のやうな感じの岩で、従って水は音もなく速く流れてゐる。ぼんやり見てゐた私はその時、その中洲の上にふと一つの生き物を発見した。はじめは土塊だとさへ思はなかったのだが、のろのろとそれが動きだしたので、る害もない。しかし私には本能的な生の衝動以上のものがあるとしか思へなかった。活動にはひる前にぢっとうづくまってゐた姿、急流に無一一無三に突っ込んで行った姿、洲の端につかまってほっとしてゐた姿、IIすべてそこには表情があった。心理さへあった。それらは人間の場合のやうにこっちに伝はって来た。明確な目的意志にもとづいて行動してゐるものからでなくてはあの感じは来ない。ましてや、あの波間に没し去った最後の瞬間に至っては。そこには刀折れ、矢尽きた感じがあった。力の限り戦って来、最後に運命に従順なものの姿があった。さういふものだけが持つ静かで赤蛙に逢った。私は夢のなかで色を見るといふことはめったにない人間だ。しかし波間に没する瞬間のあや赤蛙の黄色い腹と紅の斑紋とは妖しいばかりに鮮明だつた。(昭和二十一年一月)底本：「現代日本文學大系TO武田麟太郎•島木健作•織田作之助•檀一雄集」筑摩書房1970(昭和«)年6月お日初版第ー刷入力-j.utiyamひ校正：かとうかおり1998年8月^日公開2005年に月？^日修正青空文庫作成ファイル"このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんで


Then we can start to analyse the data a bit because it is always a good habit to first look into the data before really training a model.
Let's first look at the distribution of classes given that this is a classification problem.

In [7]:
from collections import Counter

In [8]:
author_count = {}
for book_id in corpus.keys():
    author = corpus[book_id]['author']
    if author not in author_count.keys():
        author_count[author] = 1
    else:
        author_count[author] += 1
print(f'Number of authors: {len(author_count)}')

Number of authors: 122


In [9]:
author_count_sorted = {k.replace(" ", "　"): v for k, v in sorted(author_count.items(), reverse=True, key=lambda item: item[1])}

In [10]:
for author in author_count_sorted.keys():
    print(u'Author: {:\u3000>24s}, Count: {:>4d}'.format(author, author_count_sorted[author]))

Author: 　　　　　　　　　　　　　　　　　ゆりこみやもと, Count:  397
Author: 　　　　　　　　　　　　　りゅうのすけあくたがわ, Count:  343
Author: 　　　　　　　　　　　　　　　　　とらひこてらだ, Count:  271
Author: 　　　　　　　　　　　　　　　　　あんごさかぐち, Count:  269
Author: 　　　　　　　　　　　　　　　　　よしおとよしま, Count:  208
Author: 　　　　　　　　　　　　　　　　　　くにおきしだ, Count:  208
Author: 　　　　　　　　　　　　　　　　　　おさむだざい, Count:  207
Author: 　　　　　　　　　　　　　　　　　きどうおかもと, Count:  169
Author: 　　　　　　　　　　　　　　　　　じゅうざうんの, Count:  161
Author: 　　　　　　　　　　　　　　　　　けんじみやざわ, Count:  106
Author: 　　　　　　　　　　　　　　　　　そうせきなつめ, Count:   86
Author: 　　　　　　　　　　　　　　　　　しんいちまきの, Count:   85
Author: 　　　　　　　　　　　　　　　　こうたろうたなか, Count:   84
Author: 　　　　　　　　　　　　　　　　　　おうがいもり, Count:   78
Author: 　　　　　　　　　　　　　　　　　きょうかいずみ, Count:   75
Author: 　　　　　　　　　　　　　　　　　かのこおかもと, Count:   72
Author: 　　　　　　　　　　　　　　　　きゅうさくゆめの, Count:   67
Author: 　　　　　　　　　　　　　　　　むらさき　しきぶ, Count:   55
Author: 　　　　　　　　　　　　　　　　　　　かんきくち, Count:   48
Author: 　　　　　　　　　　　　　　　　　しろうくにえだ, Count:   48
Author: 　　　　　　　　　　　　　　　　　しのぶおりくち, Count:   47
Author: 　　　　　　　　　　　　　　　　　まさおくすやま, 

The distribution does not look good actually (and yes, I know, this is very often the case). One of the worst things is that some author only have a few books. To be honest, *each book content will become more than one training samples*<sup>1</sup> later, but I am still going to remove these author from the corpus because there will be a **data leakage**<sup>2</sup> problem.

<span style="font-size:12px">1: since most machine learning models take in fixed length input, and the full contents will be way too large as an input, so a common practice is to split the contents into short fragments such that they can be fed into the models<br>
2: data leakage refers to when data with strong connection, i.e. two observation of the same datum, variants originating from a same datum, etc, are put into both training set and validation set (and even test set). This will falsely enhance the performance of a machine learning model by overfitting because what are supposed to be in validation set are leaked and present in training set.</span>

In [11]:
author_with_more_books = set()
for author in author_count.keys():
    if author_count[author] >= 5:
        author_with_more_books.add(author)
print(len(author_with_more_books))

75


In [12]:
sub_corpus = {}
for book_id in corpus.keys():
    if corpus[book_id]['author'] in author_with_more_books:
        sub_corpus[book_id] = corpus[book_id]
corpus = sub_corpus
del sub_corpus

In [13]:
print(len(corpus))

3907


We removed almost 50 authors but since they are authors with too few books, we only removed less than 100 books from the corpus, sound good! The next step would be to transform the corpus into some format which can be trained. But before that, we may want to spilt the corpus into training set, validaiton set and test set first so as to prevent data leakage. The goal is to assign books into train, validation and test set respectively with a ratio of approximately 3:1:1, i.e. 60% in training set, 20% in validation set and 20% in test set. Also, we want the distrubution of author, i.e. class, to be more or less the same amoung the three sets.

This can be done easily with a function of sklean called train_test_split with stratify turned on. However, our corpus now has a bit different structure so let's twist it a bit first

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

Firstly, we transform things into lists. Note we can always retrieve the title, author and contents of a book by its id so we can create the assignment by book ids.

In [29]:
book_id_list = list(corpus.keys())

Then we get the authors into class in form of a number with the help of sklearn's label encoder.

In [30]:
author_list = []
for book_id in corpus.keys():
    author_list.append(corpus[book_id]['author'])

le = LabelEncoder()
le = le.fit(author_list)
author_encoded_list = le.transform(author_list)

In [31]:
print(author_encoded_list)

[29 68 68 ... 45 45 45]


Then we apply the train_test_split function twice to split the corpus into three sets.

Note that 80% X 25% = 20% so at second time the test_size is 0.25.

In [32]:
book_id_train, book_id_test, author_train, author_test = train_test_split(book_id_list, author_list, test_size=0.2, stratify=author_list, random_state=42)
book_id_train, book_id_val, author_train, author_val = train_test_split(book_id_train, author_train, test_size=0.25, stratify = author_train, random_state=42)

The last step is to construct the training set, validation set and test set by book_id with book author, title and content.

In [35]:
title_train = []
content_train = []
author_train = []
for book_id in book_id_train:
    title_train.append(corpus[book_id]['book_title'])
    content_train.append(corpus[book_id]['book_content'])
    author_train.append(corpus[book_id]['author'])

title_val = []
content_val = []
author_val = []
for book_id in book_id_val:
    title_val.append(corpus[book_id]['book_title'])
    content_val.append(corpus[book_id]['book_content'])
    author_val.append(corpus[book_id]['author'])
    
title_test = []
content_test = []
author_test = []
for book_id in book_id_test:
    title_test.append(corpus[book_id]['book_title'])
    content_test.append(corpus[book_id]['book_content'])
    author_test.append(corpus[book_id]['author'])

And let's save them for later use

In [36]:
import pickle

In [39]:
def save_file(file_dir, python_object):
    with open(file_dir, 'wb') as file: # pickle reads and writes in binary
        pickle.dump(python_object, file)
        
save_file('data/title_train.pickle', title_train)
save_file('data/content_train.pickle', content_train)
save_file('data/author_train.pickle', author_train)

save_file('data/title_val.pickle', title_val)
save_file('data/content_val.pickle', content_val)
save_file('data/author_val.pickle', author_val)

save_file('data/title_test.pickle', title_test)
save_file('data/content_test.pickle', content_test)
save_file('data/author_test.pickle', author_test)