# Literate Computing for Reproducible Infrastructure
<img src="./images/jupyterhub-logo.png" align="left" />

計算機インフラの御守では種々雑多なドキュメンテーションが不可欠です。日々の作業で証跡を残す、手順を整理して共有・再利用する、ユーザマニュアルや教材を整備する.. 国立情報学研究所（NII）のクラウド運用担当では、これらをシームレスに記述・蓄積する方法を研究しています。

表題の *Literate Computing for Reproducible Infrastructure*  は、そのような取り組みのプロジェクト名です。プロジェクトでは [Jupyter Notebook]( http://jupyter.org ) を用いてドキュメンテーションを行うことで、運用作業の信頼性向上、手順やノウハウの蓄積・流通が容易になることを目指しています。

プロジェクトの成果物は GitHub [NII Cloud Operation Team]( https://github.com/NII-cloud-operation )で公開しています。
Hadoop や Elastic Search など学術機関でポピュラーなインフラにに関する構築や**運用の手順を整理したもの**、また、構築や運用の手順を記述するために便利な **Jupyter の機能拡張**を掲載しています。

---
この Notebook では拡張した機能の概要を紹介します。

## Jupyter-run_through - まとめ実行機能

用途:
* 詳細は気にせずNotebook形式の手順を気軽に利用したい。
* 定型的な作業をまとめて実行する。アレンジやカスタマイズはあまり必要がない。
* まとめて実行してエラーが発生した場合には、詳細を確認したい。

<span class='fa fa-fw fa-external-link'></span> [GitHub: Jupyter-LC_run_through](https://github.com/NII-cloud-operation/Jupyter-LC_run_through)

---

**まとめ実行機能** <br>
表題の左側にある <span class='fa fa-fw fa-caret-right' style='color:#a0a0a0;'></span> は、詳細な手順が畳み込まれていることを示しています。  <span class='fa fa-fw fa-caret-right' style='color:#a0a0a0;'></span>  をクリックすると、 <span class='fa fa-fw fa-caret-down' style='color:#a0a0a0;'></span>  に変化し、畳み込まれている内容を表示することができます。

<img src="./images/run_through.png" align="right" width=30% /> 畳みこまれている内容に「手順」が含まれていると、右のように表示されます。<span class='fa fa-fw fa-square' style='color:#cccccc;'></span>の数は畳み込まれている手順のステップ数を示しています。
表示から <span class='fa fa-fw fa-play-circle'></span> を押すと、配下の手順をまとめて実行することができます。

<img src="./images/run_through_OK.png" width=30% align=right /> すべてのステップが終了すると右のように表示が変化します。実行が完了したステップは薄緑 <span class='fa fa-fw fa-square' style='color:#88ff88;'></span>に表示されます。また、完了したステップは、再度 まとめ実行ボタン<span class='fa fa-fw fa-play-circle'></span>をクリックしても実行されないよう凍結 <span class='fa fa-fw fa-snowflake-o' style='background-color:cornflowerblue;color:white;'></span>
されます。

<img src="./images/run_through_NG.png" width=30% align=right /> 途中でエラーが発生した場合は当該のステップが薄紅<span class='fa fa-fw fa-square' style='color:#ff8888;'></span>に表示されるので、 <span class='fa fa-fw fa-caret-right'></span>をクリックして内容を確認します。



### **畳み込んだステップのまとめ実行**

<span class='fa fa-fw fa-play-circle'></span> をクリックすると４ステップをまとめ実行します。実行が終わったステップは薄緑の表示<span class='fa fa-fw fa-square' style='color:#88ff88;'></span>となります。以下の例では３番目がエラーとなり薄紅表示<span class='fa fa-fw fa-square' style='color:#ff8888;'></span>され、実行が中断します。

<span class='fa fa-fw fa-caret-right' style='color:#a0a0a0;'></span> をクリックすることで畳み込み表示が解除され、それぞれのステップの実行内容を確認することができます。実行が終わったセルは凍結 <span class='fa fa-fw fa-snowflake-o' style='background-color:cornflowerblue;color:white;'></span>
されます、そのままでは実行できません。修正する、再度実行する場合にはウインドウ上部の<span class='fa fa-fw fa-snowflake-o' style='color:gray;'></span>をクリックすることで凍結を解除します。

エラーのセル<span class='fa fa-fw fa-square' style='color:#ff8888;'></span>は内容を修正して実行することができます。継続する未実行のセル<span class='fa fa-fw fa-square' style='color:#cccccc;'></span>は、そのまま実行することもできます。

In [None]:
! echo "This is 1st step" > foo; cat foo

In [None]:
! echo ".. 2nd step..." >> foo && cat foo

In [None]:
!echooooo ".. 3rd step... will fail" >> foo && cat foo

"echo" に修正して実行してみましょう。 

In [None]:
! cat foo

## Jupyter-LC_wrapper

用途:
* 大量のログ出力を要約表示する。
* 複数の実行ログを各々ファイルに保存し、後で全体を参照したり、結果を比較できるようにする。

<span class='fa fa-fw fa-external-link'></span> [GitHub: Jupyter-LC_wrapper](https://github.com/NII-cloud-operation/Jupyter-LC_wrapper)

---
例えば、某かのパッケージ群をインストールしたりすると大量のログが出力されますが、JupyetrのWeb UI上で大量の出力を扱うのはなにかと不便です。 Jupyterの Cell の中でログの内容を検索したり、比較したりするのはまどろっこしく手間がかかります。

Jupyter-LC_wrapper を用いると:
* Output Cell には要約されてた結果が出力されるようになります（例：最初10行と最後の10行）。
* オリジナルの出力結果全体はファイルに保存されます。
* 実行毎に各々のファイルに結果が保存されるので出力結果を比較することができます。
* 要約中でも、エラーなど特定のパターン含む行を表示します（lc_wrapper_regex.txt などいくつかの方法でカスタマイズ可）。

Cellでコマンドを実行する際に先頭に "!!" を付加すると、LC_wrapper の機能が有効になります。
Cellで shell を呼び出す場合は "!!!" を付加してください。


In [None]:
%env lc_wrapper 5:10:5:10
# lc_wrapper s:h:e:f
#
# s : Summary starts when # of output lines exceed 's' (default s=1)
# h : Summary displays the first h lines and max 2 x h error lines.
# e : Max # of output lines in progress. 
# f : Summary displays the last f lines (default f=1)

In [None]:
!!from time import sleep
with open("/var/log/dpkg.log", "r") as f:
    count = 0
    limit = 100
    for line in f:
        count = count+1
        if count > limit: break
        print(line),
        sleep(0.05)
print ("after", limit, "lines are ignored")
#
# ここでは擬似的にログが大量に出力される状況を再現しています
#

## Jupyter-code_cell_status

<span class='fa fa-fw fa-external-link'></span> [Jupyter-code_cell_status](https://github.com/NII-cloud-operation/Jupyter-code_cell_status)

## Jupyter-multi_outputs

<span class='fa fa-fw fa-external-link'></span> [Jupyter-multi-outputs](https://github.com/NII-cloud-operation/Jupyter-multi_outputs)

## Jupyter-LC_nblineage

<span class='fa fa-fw fa-external-link'></span> [Jupyter-LC_nblineage](https://github.com/NII-cloud-operation/Jupyter-LC_nblineage)