# 2. 短命作品の学習と予測

　目次情報を学習して，短命作品を予測してみます．

## 環境構築

```bash
conda env create -f env.yml
```

## 問題設定

　本記事の目的は，2週目から7週目までの掲載順を入力とし，当該作品が短命作品（10週以内に終了する作品）か否かを予測することです．1週目の掲載順を除外したのは，新連載作品はほとんど巻頭に掲載されるためです．また，近年最短とされる作品が8週連載なので，遅くともこの1週間前には打ち切りを予測するため，7週目までの掲載順を入力としました．打ち切りを阻止するためには，もっと早期に打ち切りを予測する必要がありますが，これは今後の課題ということで…．

## 目次データ

　[0_obtain_comic_data_j.ipynb](0_obtain_comic_data_j.ipynb)で取得した`data/wj-api.json`を使います．また，[1_analyze_comic_data_j.ipynb](1_analyze_comic_data_j.ipynb)で定義した`ComicAnalyzer`を`analyze.py`からimportして使います．

In [6]:
import analize

wj = analize.ComicAnalyzer()

## モデル

　以下に，本記事で想定する[多層パーセプトロン](https://en.wikipedia.org/wiki/Multilayer_perceptron)のモデルを示します．多層パーセプトロンについては，[誤差逆伝播法のノート](http://qiita.com/Ugo-Nama/items/04814a13c9ea84978a4c)が詳しいです．

![model.png](fig/model.png)

　本記事では，隠れ層1層の多層パーセプトロンを用います．入力層は6ノード（2週目から7週目までの掲載順），隠れ層は$n$ノード，出力層は1ノード（短命作品である確率）を含みます．隠れ層および出力層の活性化関数として，[Sigmoid関数](https://ja.wikipedia.org/wiki/%E6%B4%BB%E6%80%A7%E5%8C%96%E9%96%A2%E6%95%B0#.E3.82.B7.E3.82.B0.E3.83.A2.E3.82.A4.E3.83.89.E9.96.A2.E6.95.B0)を用います．学習率として，$r$を用います．最適化アルゴリズムとして，オーソドックスな[Stochastic Gradient Descent (SGD)](https://ja.wikipedia.org/wiki/%E7%A2%BA%E7%8E%87%E7%9A%84%E5%8B%BE%E9%85%8D%E9%99%8D%E4%B8%8B%E6%B3%95#cite_note-17)と，人気の[Adam](https://arxiv.org/abs/1412.6980)の両方を使って結果を比較します．
 
　本記事では，以下のハイパーパラメータを調整して，予測性能の最大化を目指します．

|項目|設計空間|補足|
|:--|:--|:--|
|学習率（$r$）| $0 < r < 1$| 大きいほど収束が速いが，大きすぎるとうまく学習しない．|
|隠れ層のノード数（$n$）| $\{1, 2,...,8\}$ |最大でも入力層＋出力層が目安？|
|最適化アルゴリズム| {Gradient descent, Adam}| 前者はオーソドックス，Adamは新しめ．|


## 学習データ，テストデータの生成

In [103]:
import numpy as np

def make_x(anlzr, title='ONE PIECE'):
    worsts = np.array(anlzr.extract_item(title)[1:7])
    bests = np.array(anlzr.extract_item(title, 'best')[1:7])
    worsts_normalized = worsts / (worsts + bests - 1)    
    return worsts_normalized


def make_y(anlzr, title='ONE PIECE', thresh_week=10):
    return float(len(anlzr.extract_item(title)) <=  thresh_week)


def batch_x_y(anlzr, titles, thresh_week=10):
    xs = np.array([make_x(anlzr, title) for title in titles])
    ys = np.array([make_y(anlzr, title, thresh_week) for title in titles])
    return xs, ys

In [104]:
test_x, test_y = batch_x_y(wj, wj.end_titles[-100:])
train_x, train_y = batch_x_y(wj, wj.end_titles[:-100])

## 多層パーセプトロンの構築

　`ComicNet()`は，多層パーセプトロンを管理するクラスです．

In [129]:
import tensorflow as tf

class ComicNet():
    def __init__(self, train_x, train_y, test_x, test_y,
                 r=0.01, n=4, epoch=1000, algo='GD'):
        self.train_x = train_x
        self.train_y = train_y
        self.test_x = test_x
        self.test_y = test_y
        self.learning_rate = r
        self.n_hidden = n
        self.epoch = epoch
        self.algo = algo
                
    def build_network(self):
        n_input = self.test_x.shape[1]
        n_output = self.test_y.shape[0]
        x = tf.placeholder(tf.float32, [None, n_input], name='x')
        y = tf.placeholder(tf.float32, [None, n_output], name='y')
        
        w_hidden = tf.Variable(
            tf.truncated_normal((n_input, self.n_hidden), stddev=0.01))
        b_hidden = tf.Variable(tf.zeros(self.n_hidden))
        layer = tf.add(tf.matmul(x, w_hidden), b_hidden)
        layer = tf.nn.sigmoid(layer)
        
        w_output = tf.Variable(
            tf.truncated_normal((self.n_hidden, n_output), stddev=0.01))
        b_output = tf.Variable(tf.zeros(n_output))
        layer = tf.add(tf.matmul(layer, w_output), b_output)
        layer = tf.nn.sigmoid(layer)
        
        cost = tf.nn.l2_loss(y - layer)
        
        if self.algo == 'GD':
            optimizer = tf.train.GradientDescentOptimizer(
                self.learning_rate).minimize(cost)
        else:
            optimizer = tf.train.AdamOptimizer(
                self.learning_rate).minimize(cost)
        
        accuracy = tf.reduce_mean(y - layer, name='accuracy')

    
    def print_stats(self):
        pass

    
    def train(self):
        pass

    
    def test(self):
        pass

In [130]:
wjnet = ComicNet(train_x, train_y, test_x, test_y)

In [131]:
wjnet.build_network()