<a href="https://colab.research.google.com/github/4may/JupyterNotebooksTips/blob/master/jupyter_tips.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 良いJupyterNotebooksを書くための、10個のルール

Ten simple rules for writing and sharing computational analyses in Jupyter Notebooksの翻訳。

## Introduction

* 再生産性は大事
* JupyterNotebooksを書く = **literal programming**

## Rule1: あなたの物語を観衆に伝えよう

* JupyterNotebooksを使うことで、自分の解析結果を**物語**として伝えることが出来る
* whatに加えて**why**を書く
* **何を目的とするか、誰に見せるか**を意識する

## Rule2: 結果だけでなく過程を残す。

* 結果出すまでにいろんな試行錯誤をするはず。その努力をぜひ残そう。
  * 試した手法
  * 使ったパラメータ
  * **行き止まり**
* あとでノートを見返した時に、どんなことをどんな考えでやったかを思い出せる
* 人に見せるノートと、自分で見返すためのノートを分ける
  * 人に見せるノートは綺麗にする
  * 自分用のノートは過程を残す
* 後回しにせず、すぐに文を書く
* 実験が終わったらリファクタリングしよう

## Rule3: 実験手順を明確にするため、cellを分割しよう

* 処理の意味ごとにcellを分割しよう。1cell１処理。
* cellの説明をcellの上につけよう
* 長いcellは避ける。1cellあたり、多くても100行程度までにしよう。
* 長いノートは複数のノートに分割する。その場合、目次として各ノートへのリンクを張ろう。

## Rule4: コードをモジュール化する

* 重複する処理は関数化しよう。
* 関数化することで、以下のメリットがある。
  * スペースを節約できる
  * メンテしやすい
  * デバッグしやすい

## Rule5: モジュールの依存関係を記録する

* モジュールはpip使って管理しよう
* 本の最後に[実験環境に関する注釈](https://github.com/rasbt/watermark)をつける

## Rule6: バージョンコントロールを使おう

* 何かあった時に備えて、作成したノートはgitに突っ込んでおこう
* JupyterNotebooksの内容はjsonで管理されている。
* デフォルトのGitのGUI上でJsonの比較はできるが、UIの比較はできない。
* UIの比較を行いたい場合は、[nbdime](https://github.com/jupyter/nbdime)が便利
* もしくは、[ReviewNB](https://www.reviewnb.com/). githubのプラグインとしてインストールする。こっちのが一々モジュールインストールしなくて済むし楽かも。

## Rule7: パイプラインを構築しよう

* JupyterNotebooks用のCI環境が用意されている。
* 重要な変数はノートの先頭で宣言しよう
* jupyter notebooksをCLIから実行できるようにする : [papermil](https://github.com/nteract/papermill)
  * google colabでpapermillを動かそうと思った場合、[専用のドライバーが必要](https://colab.research.google.com/github/rjdoubleu/Colab-Papermill-Patch/blob/master/Colab-Papermill-Driver.ipynb)
  * google colabとjupyter notebooksでは、Jsonのフォーマットが微妙に異なっているため、colabのJsonをjupyterのJsonのフォーマットに合わせる必要がある。

* [TravisCI](https://travis-ci.org/)や[CircleCI](https://circleci.com/)を使おう

## Rule8: 実験に使うデータを共有・説明しよう

* 実験の入力データはいろんな方法で共有できる
* ノート上でDLする
* gitのリポジトリに置く
* 外部ストレージを利用する ※入力データが数GB~などデカイ場合
  * [figshare](https://figshare.com/)
  * [zenodo](https://zenodo.org/)

## Rule9: 読めて、実行して、見つけてもらえるようにしよう

* READMEとLicenseをつけよう。

**Read**

* HTML/PDF版を作る
* [Nbviewer](https://nbviewer.jupyter.org/)を使う

**Run**

* [binder](https://mybinder.org/)を使う
  * binderという独自のクラウドサービス上で.ipynbを実行できる
    * GKE使ってるみたい。
  * ブラウザでもええと思うけど

**Explore**

* 読者がパラメータを変えて実験できるようにするために、[ipywidgets](https://ipywidgets.readthedocs.io/en/stable/)を使って、ノートを拡張してみよう。

## Rule10: ノウハウをみんなに共有しよう

大事やで

## Appendix A

実際に、OSSのwartermarkモジュールを使って注釈をつけてみよう。まず、モジュールをインストールする。

In [0]:
!pip install watermark

Collecting watermark
  Downloading https://files.pythonhosted.org/packages/60/fe/3ed83b6122e70dce6fe269dfd763103c333f168bf91037add73ea4fe81c2/watermark-2.0.2-py2.py3-none-any.whl
Installing collected packages: watermark
Successfully installed watermark-2.0.2


次に、watermark extensionをロードする。

In [0]:
%load_ext watermark

The watermark extension is already loaded. To reload it, use:
  %reload_ext watermark


単純なwatermakを表示する。

In [0]:
%watermark

2020-05-11T04:25:39+00:00

CPython 3.6.9
IPython 5.5.0

compiler   : GCC 8.4.0
system     : Linux
release    : 4.19.104+
machine    : x86_64
processor  : x86_64
CPU cores  : 2
interpreter: 64bit


指定パッケージのバージョンを確認する。

In [0]:
%watermark -p numpy,tensorflow

numpy 1.18.4
tensorflow 2.2.0rc4


## Appendix B

google colabで作成した.ipynbをドライバーを使わずにpapermillで実行した結果、以下のようなエラーが出た。

```
  (ml_book) 4may@hanzawanaokinoMacBook-Air ~ % papermill Downloads/ci_test.ipynb output.ipynb -p alpha 0.6 -p ratio 0.1 

Input Notebook:  Downloads/ci_test.ipynb
Output Notebook: output.ipynb
Traceback (most recent call last):
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/ipython_genutils/ipstruct.py", line 132, in __getattr__
    result = self[key]
KeyError: 'language'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/Users/4may/Documents/develop/py_env/ml_book/bin/papermill", line 8, in <module>
    sys.exit(papermill())
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/click/core.py", line 829, in __call__
    return self.main(*args, **kwargs)
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/click/core.py", line 782, in main
    rv = self.invoke(ctx)
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/click/core.py", line 1066, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/click/core.py", line 610, in invoke
    return callback(*args, **kwargs)
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/papermill/cli.py", line 222, in papermill
    execute_notebook(
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/papermill/execute.py", line 83, in execute_notebook
    nb = parameterize_notebook(nb, parameters, report_mode)
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/papermill/parameterize.py", line 74, in parameterize_notebook
    language = nb.metadata.kernelspec.language
  File "/Users/4may/Documents/develop/py_env/ml_book/lib/python3.8/site-packages/ipython_genutils/ipstruct.py", line 134, in __getattr__
    raise AttributeError(key)
AttributeError: language
```

languageというキーが、colabのJsonにはないためにエラーとなっている。ちなみに、colabのjsonの中身は以下。

```
{
  "nbformat": 4,
  "nbformat_minor": 0,
  "metadata": {
    "colab": {
      "name": "ci_test.ipynb",
      "provenance": []
    },
    "kernelspec": {
      "name": "python3",
      "display_name": "Python 3"
    }
  },
  "cells": [
    {
      "cell_type": "code",
      "metadata": {
        "id": "eUNTV-mJGNuX",
        "colab_type": "code",
        "colab": {}
      },
      "source": [
        "#実験用の変数\n",
        "alpha=0.1\n",
        "ratio=0.2"
      ],
      "execution_count": 0,
      "outputs": []
    },
    {
      "cell_type": "code",
      "metadata": {
        "id": "9-VYwyLtGfce",
        "colab_type": "code",
        "colab": {
          "base_uri": "https://localhost:8080/",
          "height": 34
        },
        "outputId": "a0b89338-30a7-48d3-8293-871243dec9e5"
      },
      "source": [
        "print('sum of alpha and ratio:', alpha+ratio)"
      ],
      "execution_count": 2,
      "outputs": [
        {
          "output_type": "stream",
          "text": [
            "sum of alpha and ratio: 0.30000000000000004\n"
          ],
          "name": "stdout"
        }
      ]
    }
  ]
}
```

確かに、metadata.kernelspec.languageという項目は存在しない。なお、変数にはcells.sourceからアクセスできるようだ。