diff --git a/html.mk b/Makefile
similarity index 100%
rename from html.mk
rename to Makefile
diff --git a/day1/README.md b/day1/README.md
index 79cda03..2f9271b 100644
--- a/day1/README.md
+++ b/day1/README.md
@@ -1,11 +1,13 @@
 # Day 1: 環境構築
 
+<!--- abstract --->
 スパコン上で実行されるプログラムは並列プログラムである。したがって「スパコンを使う」ということは、
 狭義には「並列化されたプログラムを実行する」ということを意味する。したがって、誰かが作った並列プログラムをスパコン上で実行すれば、スパコンは使えることになる。
 それはそれでOKなのだが、本稿のタイトルは「一週間でなれる！スパコンプログラマ」であるから、スパコン上で動くコードを開発できるようになることを目的とする。
 それはすなわち、「並列プログラミングをする」ということである。「並列プログラミング」という字面を見ると「難しそう」という印象を持つかもしれない。
 しかし、(世の中の多くの「一見難しそうなもの」がそうであるように)並列プログラミングはさほど難しくない。
 「一週間でなれる！スパコンプログラマ」の初日は、まずローカルに並列プログラミング環境を構築し、並列プログラミングに触れてみるところからはじめてみよう。
+<!--- end --->
 
 ## MPIとは
 
diff --git a/day1/index.html b/day1/index.html
index ae11ae2..a763966 100644
--- a/day1/index.html
+++ b/day1/index.html
@@ -72,7 +72,8 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-1-環境構築">Day 1: 環境構築</h1>
-<p>スパコン上で実行されるプログラムは並列プログラムである。したがって「スパコンを使う」ということは、 狭義には「並列化されたプログラムを実行する」ということを意味する。したがって、誰かが作った並列プログラムをスパコン上で実行すれば、スパコンは使えることになる。 それはそれでOKなのだが、本稿のタイトルは「一週間でなれる！スパコンプログラマ」であるから、スパコン上で動くコードを開発できるようになることを目的とする。 それはすなわち、「並列プログラミングをする」ということである。「並列プログラミング」という字面を見ると「難しそう」という印象を持つかもしれない。 しかし、(世の中の多くの「一見難しそうなもの」がそうであるように)並列プログラミングはさほど難しくない。 「一週間でなれる！スパコンプログラマ」の初日は、まずローカルに並列プログラミング環境を構築し、並列プログラミングに触れてみるところからはじめてみよう。</p>
+<!--- abstract --->
+<p>スパコン上で実行されるプログラムは並列プログラムである。したがって「スパコンを使う」ということは、 狭義には「並列化されたプログラムを実行する」ということを意味する。したがって、誰かが作った並列プログラムをスパコン上で実行すれば、スパコンは使えることになる。 それはそれでOKなのだが、本稿のタイトルは「一週間でなれる！スパコンプログラマ」であるから、スパコン上で動くコードを開発できるようになることを目的とする。 それはすなわち、「並列プログラミングをする」ということである。「並列プログラミング」という字面を見ると「難しそう」という印象を持つかもしれない。 しかし、(世の中の多くの「一見難しそうなもの」がそうであるように)並列プログラミングはさほど難しくない。 「一週間でなれる！スパコンプログラマ」の初日は、まずローカルに並列プログラミング環境を構築し、並列プログラミングに触れてみるところからはじめてみよう。 <!--- end ---></p>
 <h2 id="mpiとは">MPIとは</h2>
 <p>一口に「並列化」といっても、様々な種類がありえる。一般に使われている並列プログラミングモデルは、「データ並列」「共有メモリ並列」「分散メモリ並列」の三種類であろう。 以後、プロセスやスレッドといった単語についてかなりいい加減な言葉遣いをするため、ちゃんと学びたい人はちゃんとした書籍を参考にされたい。特にWindowsとLinuxのプロセスの違いとか言い出すと話が長くなるので、ここでは説明しない。また、データ並列についてはとりあえずおいておく。</p>
 <p>「共有メモリ並列」とは、並列単位がメモリを共有する並列化方法である。 通常は並列単位としてスレッドを用いるので、ここでは「スレッド並列」と呼ぶ。 逆に「分散メモリ並列」とは、並列単位がメモリを共有しない並列化方法である。 通常は並列単位としてプロセスを用いるので、ここでは「プロセス並列」と呼ぶ。 また、「プロセス並列」と「スレッド並列」を両方行う「ハイブリッド並列」という並列化もある。</p>
@@ -134,7 +135,7 @@ <h2 id="mpiのインストール">MPIのインストール</h2>
 <span class="ex">warranty</span><span class="kw">;</span> <span class="ex">not</span> even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.</code></pre></div>
 <p>したがって、インクルードパスやリンクの設定を明示的にするならば、<code>mpic++</code>を呼び出す必要はない。 スパコンサイトによっては、環境変数でMPIのインクルードパスが設定されている場合もあるだろう。その場合は単に<code>g++</code>でも<code>icpc</code>でも、MPIを用いたコードがそのままコンパイルできる。ただし、リンクのために<code>-lmpi</code>の指定が(場合によっては<code>-lmpi_cxx</code>も)必要なので注意。</p>
 <h2 id="はじめてのmpi">はじめてのMPI</h2>
-<p>環境構築ができたら、こんなコードを書いて、<a href="hello.cpp" class="uri">hello.cpp</a>という名前で保存してみよう。</p>
+<p>環境構築ができたら、こんなコードを書いて、<code>hello.cpp</code>という名前で保存してみよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 
@@ -174,8 +175,7 @@ <h2 id="ランク">ランク</h2>
 <p>MPIでは、起動したプロセスに通し番号が振られる。その通し番号のことを <strong>ランク(rank)</strong> と呼ぶ。 ランクの取得には<code>MPI_Comm_rank</code>関数を使う。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">int</span> rank;
 MPI_Comm_rank(MPI_COMM_WORLD, &amp;rank);</code></pre></div>
-<p>これを実行すると変数<code>rank</code>にランク番号が入る。N並列している場合、ランクは0からN-1までである。 試してみよう。</p>
-<p><a href="rank.cpp" class="uri">rank.cpp</a></p>
+<p>これを実行すると変数<code>rank</code>にランク番号が入る。N並列している場合、ランクは0からN-1までである。 試してみよう。以下を<code>rank.cpp</code>として保存し、コンパイル、実行してみよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 
@@ -235,7 +235,7 @@ <h2 id="標準出力について">標準出力について</h2>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash"><span class="ex">mpirun</span> -np 4 ./a.out</code></pre></div>
 <p>などとしてMPIプログラムを実行したとする。この場合は4プロセス立ち上がり、それぞれにPIDが与えられ、固有のメモリ空間を持つ。しかし、これらのプロセスは標準出力は共有している。 したがって、「せーの」で標準出力に出力しようとしたら競合することになる。 この時、例えば他のプロセスが出力している時に他のプロセスが書き込んだり、出力が混ざったりしないように、 後ろで交通整理が行われる。そもそも画面になにかを表示する、というのはわりと奥が深いのだが、 そのあたりの話は <a href="https://github.com/tanakamura">tanakamura</a> さんの <a href="https://tanakamura.github.io/pllp/docs/">実践的低レベルプログラミング</a> とかを読んでほしい。</p>
 <p>さて、とにかく今は標準出力というリソースは一つしかないのに、4つのプロセスがそこを使う。 この時、「あるひとかたまりの処理については、一つのプロセスが独占して使う」ようにすることで 競合が起きないようにする。 「ひとかたまりの処理」とは、例えば「<code>printf</code>で出力を始めてから終わるまで」である。</p>
-<p>例えば先程の<a href="rank.cpp" class="uri">rank.cpp</a>の例では、</p>
+<p>例えば先程の<code>rank.cpp</code>の例では、</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp">printf(<span class="st">&quot;Hello! My rank is </span><span class="sc">%d\n</span><span class="st">&quot;</span>, rank);</code></pre></div>
 <p>という命令があった。ここでは、まず出力すべき文字列、例えば <code>Hello! My rank is 0</code>を作る。そして、せーので書き出す。 イメージとしては</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp">puts(<span class="st">&quot;Hello! My rank is 0&quot;</span>);
@@ -248,9 +248,7 @@ <h2 id="標準出力について">標準出力について</h2>
 puts(<span class="st">&quot;Hello! My rank is 1&quot;</span>);
 puts(<span class="st">&quot;Hello! My rank is 3&quot;</span>);</code></pre></div>
 <p>とかになるだけで、さほど表示は乱れない。</p>
-<p>さて、同様なプログラムを<code>std::cout</code>で書いてみよう。</p>
-<p>こんな感じになると思う。</p>
-<p><a href="rank_stream.cpp" class="uri">rank_stream.cpp</a></p>
+<p>さて、同様なプログラムを<code>std::cout</code>で書いてみよう。以下を<code>rank_stream.cpp</code>という名前で保存、コンパイル、実行してみよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;iostream&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 
@@ -340,9 +338,7 @@ <h2 id="gdbによるmpiプログラムのデバッグ">GDBによるMPIプログ
 <li>gdbで変数をいじって無限ループを脱出させる</li>
 <li>あとは好きなようにデバッグする</li>
 </ul>
-<p>という方針でいく。なお、なぜかMac OSではMPIプロセスへのgdbのアタッチがうまくいかなかったので、以下はCentOSで実行している。</p>
-<p>こんなコードを書く。</p>
-<p><a href="gdb_mpi.cpp" class="uri">gdb_mpi.cpp</a></p>
+<p>という方針でいく。なお、なぜかMac OSではMPIプロセスへのgdbのアタッチがうまくいかなかったので、以下はCentOSで実行している。以下を<code>gdb_mpi.cpp</code>という名前で保存しよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;sys/types.h&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;unistd.h&gt;</span>
diff --git a/day2/README.md b/day2/README.md
index 064de85..ff833c8 100644
--- a/day2/README.md
+++ b/day2/README.md
@@ -1,8 +1,8 @@
 # Day 2 : スパコンの使い方
 
-## はじめに
-
+<!--- abstract --->
 スパコンを使うのに、必ずしもスパコンがどのように構成されているかを知る必要はない。しかし、せっかくスパコンを使うのだから、スパコンとは何かについて簡単に知っておいても良いであろう。ただし、こういう単語にありがちだが「何がスパコンか」は人によって大きく異なる。ここで紹介するのはあくまで「執筆者が思うスパコンの定義」の説明であり、他の人は他の定義があることを承知されたい。ここは、「読むとなにかができるようになる」というよりは、「スパコンを使ったことがない人が、将来スパコンを使うにあたって知っておくと良さそうなこと」を書いておく。特に手を動かすところはない。読み物として流して読んでいただければ良い。
+<!--- end --->
 
 ## スパコンとは
 
diff --git a/day2/index.html b/day2/index.html
index 2378a93..f818014 100644
--- a/day2/index.html
+++ b/day2/index.html
@@ -72,8 +72,8 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-2-スパコンの使い方">Day 2 : スパコンの使い方</h1>
-<h2 id="はじめに">はじめに</h2>
-<p>スパコンを使うのに、必ずしもスパコンがどのように構成されているかを知る必要はない。しかし、せっかくスパコンを使うのだから、スパコンとは何かについて簡単に知っておいても良いであろう。ただし、こういう単語にありがちだが「何がスパコンか」は人によって大きく異なる。ここで紹介するのはあくまで「執筆者が思うスパコンの定義」の説明であり、他の人は他の定義があることを承知されたい。ここは、「読むとなにかができるようになる」というよりは、「スパコンを使ったことがない人が、将来スパコンを使うにあたって知っておくと良さそうなこと」を書いておく。特に手を動かすところはない。読み物として流して読んでいただければ良い。</p>
+<!--- abstract --->
+<p>スパコンを使うのに、必ずしもスパコンがどのように構成されているかを知る必要はない。しかし、せっかくスパコンを使うのだから、スパコンとは何かについて簡単に知っておいても良いであろう。ただし、こういう単語にありがちだが「何がスパコンか」は人によって大きく異なる。ここで紹介するのはあくまで「執筆者が思うスパコンの定義」の説明であり、他の人は他の定義があることを承知されたい。ここは、「読むとなにかができるようになる」というよりは、「スパコンを使ったことがない人が、将来スパコンを使うにあたって知っておくと良さそうなこと」を書いておく。特に手を動かすところはない。読み物として流して読んでいただければ良い。 <!--- end ---></p>
 <h2 id="スパコンとは">スパコンとは</h2>
 <p>普通のPCは、CPU、メモリ、ネットワーク、ディスクなどから構成されている。スパコンも全く同様に、CPU、メモリ、ネットワーク、ディスクがある。 それぞれちょっと高級品を使っているだけで、基本的には普通のPCと同じと思って良い。ただし、PCとはつなぎ方がちょっと異なる。 スパコンは、CPUとメモリをまとめたものを「ノード」と呼ぶ。このノードをたくさん集めて高速なネットワークでつないだものがスパコン本体である。普通のPCではCPUの近くにディスクがあるが、最近のスパコンのノードはディスクレスの構成にすることが多い。そのかわり、大きなファイルシステムとネットワークでつなぐ。</p>
 <div class="figure">
diff --git a/day3/README.md b/day3/README.md
index 7301b0c..2edb064 100644
--- a/day3/README.md
+++ b/day3/README.md
@@ -1,7 +1,6 @@
 # Day 3 : 自明並列
 
-## 自明並列、またの名を馬鹿パラとは
-
+<!--- abstract --->
 例えば、100個の画像データがあるが、それらを全部リサイズしたい、といったタスクを考える。
 それぞれのタスクには依存関係が全くないので、全部同時に実行してもなんの問題もない。
 したがって、100並列で実行すれば100倍早くなる。
@@ -12,7 +11,8 @@
 その意義は大きい。
 なにはなくとも、まず馬鹿パラができないことには非自明並列もできないわけだし、馬鹿パラができるだけでも、できない人に比べて
 圧倒的な攻撃力を持つことになる。
-ここでは、まず馬鹿パラのやり方を見てみよう。
+本章では、まず馬鹿パラのやり方を見てみよう。
+<!--- end --->
 
 ## 自明並列の例1: 円周率
 
diff --git a/day3/index.html b/day3/index.html
index f0ad5ae..cc9c3ff 100644
--- a/day3/index.html
+++ b/day3/index.html
@@ -73,11 +73,11 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-3-自明並列">Day 3 : 自明並列</h1>
-<h2 id="自明並列またの名を馬鹿パラとは">自明並列、またの名を馬鹿パラとは</h2>
-<p>例えば、100個の画像データがあるが、それらを全部リサイズしたい、といったタスクを考える。 それぞれのタスクには依存関係が全くないので、全部同時に実行してもなんの問題もない。 したがって、100並列で実行すれば100倍早くなる。 このように、並列タスク間で依存関係や情報のやりとりが発生しない並列化のことを自明並列と呼ぶ。 英語では、Trivial Parallelization(自明並列)とか、Embarrassingly parallel(馬鹿パラ)などと表現される。 「馬鹿パラ」とは「馬鹿でもできる並列化」の略で(諸説あり)、その名の通り簡単に並列化できるため、 文字通り馬鹿にされることも多いのだが、並列化効率が100%であり、最も効率的に計算資源を利用していることになるため、 その意義は大きい。 なにはなくとも、まず馬鹿パラができないことには非自明並列もできないわけだし、馬鹿パラができるだけでも、できない人に比べて 圧倒的な攻撃力を持つことになる。 ここでは、まず馬鹿パラのやり方を見てみよう。</p>
+<!--- abstract --->
+<p>例えば、100個の画像データがあるが、それらを全部リサイズしたい、といったタスクを考える。 それぞれのタスクには依存関係が全くないので、全部同時に実行してもなんの問題もない。 したがって、100並列で実行すれば100倍早くなる。 このように、並列タスク間で依存関係や情報のやりとりが発生しない並列化のことを自明並列と呼ぶ。 英語では、Trivial Parallelization(自明並列)とか、Embarrassingly parallel(馬鹿パラ)などと表現される。 「馬鹿パラ」とは「馬鹿でもできる並列化」の略で(諸説あり)、その名の通り簡単に並列化できるため、 文字通り馬鹿にされることも多いのだが、並列化効率が100%であり、最も効率的に計算資源を利用していることになるため、 その意義は大きい。 なにはなくとも、まず馬鹿パラができないことには非自明並列もできないわけだし、馬鹿パラができるだけでも、できない人に比べて 圧倒的な攻撃力を持つことになる。 本章では、まず馬鹿パラのやり方を見てみよう。 <!--- end ---></p>
 <h2 id="自明並列の例1-円周率">自明並列の例1: 円周率</h2>
 <p>まず、自明並列でよく出てくる例として、サンプリング数を並列化で稼ぐ方法を見てみよう。とりあえず定番の、 モンテカルロ法で円周率を計算してみる。</p>
-<p>こんなコードを書いて、<a href="calc_pi.cpp" class="uri">calc_pi.cpp</a>という名前で保存してみよう。</p>
+<p>こんなコードを書いて、<code>calc_pi.cpp</code>という名前で保存してみよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;random&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;algorithm&gt;</span>
@@ -113,7 +113,7 @@ <h2 id="自明並列の例1-円周率">自明並列の例1: 円周率</h2>
 <li>ランク番号を乱数の種に使う</li>
 <li>そのまま<code>calc_pi</code>を呼ぶ。</li>
 </ol>
-<p>以上の修正をしたコードを<a href="calc_pi_mpi.cpp" class="uri">calc_pi_mpi.cpp</a>という名前で作成する。</p>
+<p>以上の修正をしたコードを<code>calc_pi_mpi.cpp</code>という名前で作成する。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;random&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;algorithm&gt;</span>
@@ -178,7 +178,7 @@ <h2 id="自明並列の例1-円周率">自明並列の例1: 円周率</h2>
 <span class="ex">45162</span>  a.out        89.1 00:12.47 3/1   0    15    2620K  0B     0B     45162</code></pre></div>
 <p>4並列実行したので、45162から45165まで4つのプロセスが起動され、実行していることがわかる。 このように、なにか統計平均を取りたい時、並列化によってサンプル数を稼ぐ並列化を<strong>サンプル並列</strong>と呼ぶ。</p>
 <h2 id="自明並列テンプレート">自明並列テンプレート</h2>
-<p>先程の並列プログラム<a href="calc_pi_mpi.cpp" class="uri">calc_pi_mpi.cpp</a>のmain関数はこうなっていた。</p>
+<p>先程の並列プログラム<code>calc_pi_mpi.cpp</code>のmain関数はこうなっていた。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">int</span> main(<span class="dt">int</span> argc, <span class="dt">char</span> **argv) {
   MPI_Init(&amp;argc, &amp;argv);
   <span class="dt">int</span> rank;
@@ -227,8 +227,7 @@ <h2 id="自明並列の例2-多数のファイル処理">自明並列の例2: 
 <p>さて、ファイル数はともかく、プロセス数がハードコーディングされているのが気になる。 MPIのプログラムは、実行時にプロセス数を自由に指定することができる。 実行するプロセス数を変えるたびにコンパイルし直すのは面倒だ。 というわけで、実行時に総プロセス数を取得する関数<code>MPI_Comm_size</code>が用意されている。 使い方は<code>MPI_Comm_rank</code>と同じで、</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">int</span> procs;
 MPI_Comm_size(MPI_COMM_WORLD, &amp;procs)</code></pre></div>
-<p>とすれば、<code>procs</code>にプロセス数が入る。これを使うと、先程のコードは こんな感じにかける。</p>
-<p><a href="processfiles.cpp" class="uri">processfiles.cpp</a></p>
+<p>とすれば、<code>procs</code>にプロセス数が入る。これを使うと、先程のコードは こんな感じにかける(<code>processfiles.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 
@@ -264,7 +263,7 @@ <h2 id="自明並列の例3-統計処理">自明並列の例3: 統計処理</h2>
 <span class="dt">double</span> pi_sum = <span class="fl">0.0</span>;
 MPI_Allreduce(&amp;pi, &amp;pi_sum, <span class="dv">1</span>, MPI_DOUBLE, MPI_SUM, MPI_COMM_WORLD);</code></pre></div>
 <p>第一引数から、「和を取りたい変数」「和を受け取りたい変数」「変数の数」「変数の型」「やりたい演算」「コミュニケータ」の順番で指定する。ここでは一つの変数のみ総和演算を行っているが、配列を渡して一気に複数のデータについて総和を取ることもできる。また、総和だけでなく積や論理演算も実行できる。</p>
-<p>円周率の推定値<code>pi</code>と、その自乗<code>pi2 = pi*pi</code>について総和を取り、定義通りに期待値と標準偏差を求めるコードが<a href="calc_pi_reduce.cpp" class="uri">calc_pi_reduce.cpp</a>である。</p>
+<p>円周率の推定値<code>pi</code>と、その自乗<code>pi2 = pi*pi</code>について総和を取り、定義通りに期待値と標準偏差を求めるコードが以下の<code>calc_pi_reduce.cpp</code>である。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;random&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;algorithm&gt;</span>
diff --git a/day4/README.md b/day4/README.md
index 74e3cad..2dc2f54 100644
--- a/day4/README.md
+++ b/day4/README.md
@@ -1,14 +1,17 @@
 # Day 4 : 領域分割による非自明並列
 
+<!--- abstract --->
+これまでは並列化として、自明並列を扱ってきた。自明並列はほとんど通信を必要とせず、並列化効率が高いため計算資源を最も有効に使える計算方法である。しかし、せっかくスパコンを使うのであるから、本格的に通信を伴う非自明並列に挑戦してみよう。
+<!--- end --->
+
 ## 非自明並列
 
-Day 3では自明並列を扱ってきた。自明並列は別名「馬鹿パラ」と呼ばれ、馬鹿にされる傾向にあるのだが、並列化効率が高いため、「計算資源は」最も有効に使える計算方法である。さて、「スパコンはノードを束ねたもの」であり、「ノードとは本質的にはPCと同じもの」であることは既に述べた。しかし「普通のPCを多数束ねたらスパコンになるか」というとそうではなく、スパコンとして動作をするためには「ネットワーク」と「信頼性」が重要なのであった。実は、馬鹿パラは「ネットワーク」と「信頼性」のどちらも必要としない。
+「スパコンはノードを束ねたもの」であり、「ノードとは本質的にはPCと同じもの」であることは既に述べた。しかし「普通のPCを多数束ねたらスパコンになるか」というとそうではなく、スパコンとして動作をするためには「ネットワーク」と「信頼性」が重要である。これまで扱ってきた自明並列(通称「馬鹿パラ」)は、「ネットワーク」と「信頼性」のどちらも必要としない。
 
 ![fig/bakapara.png](fig/bakapara.png)
 
-パラメタ並列の場合、一番最初に「どのパラメタをどのプロセスが担当すべきか」をばらまくのに通信したあとは通信不要である(計算が終わったら結果をファイルに吐いてしまえばよい)。したがって、各ノードが高速なネットワークで接続されている必要はなく、たとえばイーサネットなどでつないでしまって全く問題ない。
-また、大規模な非自明並列計算を実行するには高い信頼性が求められるが、馬鹿パラは信頼性も要求しない。計算途中でノードが壊れてしまっても、そのノードでしていた計算だけやり直せばよいだけのことである。
-つまり馬鹿パラとは最も計算資源は有効に使えるものの、「ネットワーク」と「信頼性」という、スパコンの重要な特性を全く使わない計算方法なのであった。なので、主に馬鹿パラで計算する場合には、「普通のPCを多数束ねたPCクラスタ」で全く構わない。
+パラメタ並列の場合、一番最初に「どのパラメタをどのプロセスが担当すべきか」をばらまくのに通信したあとは通信不要である(計算が終わったら結果をファイルに吐いてしまえばよい)。したがって、各ノードが高速なネットワークで接続されている必要はなく、たとえばイーサネットなどでつないでしまって全く問題ない。また、大規模な非自明並列計算を実行するには高い信頼性が求められるが、馬鹿パラは信頼性も要求しない。計算途中でノードが壊れてしまっても、そのノードでしていた計算だけやり直せばよいだけのことである。
+つまり馬鹿パラとは最も計算資源は有効に使えるものの、「ネットワーク」と「信頼性」という、スパコンの重要な二大特性を全く使わない計算方法なのであった。なので、主に馬鹿パラで計算する場合には「普通のPCを多数束ねたPCクラスタ」で全く構わない。
 
 さて、馬鹿パラであろうとなんであろうと、スパコンを活用していることにはかわりないし、それで良い科学的成果が出るのならそれで良いのだが、せっかくスパコンを使うのなら、もう少し「スパコンらしさ」を活用してみたい。というわけで、「ネットワーク」と「信頼性」をどちらも要求する **非自明並列 (non-trivial parallel)** に挑戦してみよう。
 
diff --git a/day4/index.html b/day4/index.html
index c86c480..927b5ea 100644
--- a/day4/index.html
+++ b/day4/index.html
@@ -73,13 +73,15 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-4-領域分割による非自明並列">Day 4 : 領域分割による非自明並列</h1>
+<!--- abstract --->
+<p>これまでは並列化として、自明並列を扱ってきた。自明並列はほとんど通信を必要とせず、並列化効率が高いため計算資源を最も有効に使える計算方法である。しかし、せっかくスパコンを使うのであるから、本格的に通信を伴う非自明並列に挑戦してみよう。 <!--- end ---></p>
 <h2 id="非自明並列">非自明並列</h2>
-<p>Day 3では自明並列を扱ってきた。自明並列は別名「馬鹿パラ」と呼ばれ、馬鹿にされる傾向にあるのだが、並列化効率が高いため、「計算資源は」最も有効に使える計算方法である。さて、「スパコンはノードを束ねたもの」であり、「ノードとは本質的にはPCと同じもの」であることは既に述べた。しかし「普通のPCを多数束ねたらスパコンになるか」というとそうではなく、スパコンとして動作をするためには「ネットワーク」と「信頼性」が重要なのであった。実は、馬鹿パラは「ネットワーク」と「信頼性」のどちらも必要としない。</p>
+<p>「スパコンはノードを束ねたもの」であり、「ノードとは本質的にはPCと同じもの」であることは既に述べた。しかし「普通のPCを多数束ねたらスパコンになるか」というとそうではなく、スパコンとして動作をするためには「ネットワーク」と「信頼性」が重要である。これまで扱ってきた自明並列(通称「馬鹿パラ」)は、「ネットワーク」と「信頼性」のどちらも必要としない。</p>
 <div class="figure">
 <img src="fig/bakapara.png" alt="fig/bakapara.png" />
 <p class="caption">fig/bakapara.png</p>
 </div>
-<p>パラメタ並列の場合、一番最初に「どのパラメタをどのプロセスが担当すべきか」をばらまくのに通信したあとは通信不要である(計算が終わったら結果をファイルに吐いてしまえばよい)。したがって、各ノードが高速なネットワークで接続されている必要はなく、たとえばイーサネットなどでつないでしまって全く問題ない。 また、大規模な非自明並列計算を実行するには高い信頼性が求められるが、馬鹿パラは信頼性も要求しない。計算途中でノードが壊れてしまっても、そのノードでしていた計算だけやり直せばよいだけのことである。 つまり馬鹿パラとは最も計算資源は有効に使えるものの、「ネットワーク」と「信頼性」という、スパコンの重要な特性を全く使わない計算方法なのであった。なので、主に馬鹿パラで計算する場合には、「普通のPCを多数束ねたPCクラスタ」で全く構わない。</p>
+<p>パラメタ並列の場合、一番最初に「どのパラメタをどのプロセスが担当すべきか」をばらまくのに通信したあとは通信不要である(計算が終わったら結果をファイルに吐いてしまえばよい)。したがって、各ノードが高速なネットワークで接続されている必要はなく、たとえばイーサネットなどでつないでしまって全く問題ない。また、大規模な非自明並列計算を実行するには高い信頼性が求められるが、馬鹿パラは信頼性も要求しない。計算途中でノードが壊れてしまっても、そのノードでしていた計算だけやり直せばよいだけのことである。 つまり馬鹿パラとは最も計算資源は有効に使えるものの、「ネットワーク」と「信頼性」という、スパコンの重要な二大特性を全く使わない計算方法なのであった。なので、主に馬鹿パラで計算する場合には「普通のPCを多数束ねたPCクラスタ」で全く構わない。</p>
 <p>さて、馬鹿パラであろうとなんであろうと、スパコンを活用していることにはかわりないし、それで良い科学的成果が出るのならそれで良いのだが、せっかくスパコンを使うのなら、もう少し「スパコンらしさ」を活用してみたい。というわけで、「ネットワーク」と「信頼性」をどちらも要求する <strong>非自明並列 (non-trivial parallel)</strong> に挑戦してみよう。</p>
 <p>馬鹿パラではほとんど通信が発生しなかったのに対して、非自明並列は頻繁に通信が必要とする。 科学計算はなんらかの繰り返し計算(例えば時間発展)をすることが多いが、意味のある並列計算を行う場合、毎ステップ通信が必要となる。この時、「計算に関わる全ノードと毎回通信が発生する」タイプと、「論理的に距離が近いノードのみと通信が必要となる」タイプにわかれる。</p>
 <div class="figure">
@@ -132,8 +134,70 @@ <h2 id="一次元拡散方程式-シリアル版">一次元拡散方程式 (シ
   }
   index++;
 }</code></pre></div>
-<p>あとは適当な条件を与えれば時間発展させることができる。ここでは、「一様加熱」と「温度固定」の二通りを試してみよう。コードはこちら。</p>
-<p><a href="thermal.cpp" class="uri">thermal.cpp</a></p>
+<p>あとは適当な条件を与えれば時間発展させることができる。ここでは、「一様加熱」と「温度固定」の二通りを試してみよう。以下のコードを<code>thermal.cpp</code>という名前で保存、実行してみよう。</p>
+<div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;fstream&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;iostream&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;vector&gt;</span>
+
+<span class="at">const</span> <span class="dt">int</span> L = <span class="dv">128</span>;
+<span class="at">const</span> <span class="dt">int</span> STEP = <span class="dv">100000</span>;
+<span class="at">const</span> <span class="dt">int</span> DUMP = <span class="dv">1000</span>;
+
+<span class="dt">void</span> onestep(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice, <span class="at">const</span> <span class="dt">double</span> h) {
+  <span class="at">static</span> <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; orig(L);
+  <span class="bu">std::</span>copy(lattice.begin(), lattice.end(), orig.begin());
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">1</span>; i &lt; L - <span class="dv">1</span>; i++) {
+    lattice[i] += h * (orig[i - <span class="dv">1</span>] - <span class="fl">2.0</span> * orig[i] + orig[i + <span class="dv">1</span>]);
+  }
+  <span class="co">// For Periodic Boundary</span>
+  lattice[<span class="dv">0</span>] += h * (orig[L - <span class="dv">1</span>] - <span class="fl">2.0</span> * lattice[<span class="dv">0</span>] + orig[<span class="dv">1</span>]);
+  lattice[L - <span class="dv">1</span>] += h * (orig[L - <span class="dv">2</span>] - <span class="fl">2.0</span> * lattice[L - <span class="dv">1</span>] + orig[<span class="dv">0</span>]);
+}
+
+<span class="dt">void</span> dump(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;data) {
+  <span class="at">static</span> <span class="dt">int</span> index = <span class="dv">0</span>;
+  <span class="dt">char</span> filename[<span class="dv">256</span>];
+  sprintf(filename, <span class="st">&quot;data</span><span class="sc">%03d</span><span class="st">.dat&quot;</span>, index);
+  <span class="bu">std::</span>cout &lt;&lt; filename &lt;&lt; <span class="bu">std::</span>endl;
+  <span class="bu">std::</span>ofstream ofs(filename);
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; data.size(); i++) {
+    ofs &lt;&lt; i &lt;&lt; <span class="st">&quot; &quot;</span> &lt;&lt; data[i] &lt;&lt; <span class="bu">std::</span>endl;
+  }
+  index++;
+}
+
+<span class="dt">void</span> fixed_temperature(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice) {
+  <span class="at">const</span> <span class="dt">double</span> h = <span class="fl">0.01</span>;
+  <span class="at">const</span> <span class="dt">double</span> Q = <span class="fl">1.0</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; STEP; i++) {
+    onestep(lattice, h);
+    lattice[L / <span class="dv">4</span>] = Q;
+    lattice[<span class="dv">3</span> * L / <span class="dv">4</span>] = -Q;
+    <span class="cf">if</span> ((i % DUMP) == <span class="dv">0</span>) dump(lattice);
+  }
+}
+
+<span class="dt">void</span> uniform_heating(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice) {
+  <span class="at">const</span> <span class="dt">double</span> h = <span class="fl">0.2</span>;
+  <span class="at">const</span> <span class="dt">double</span> Q = <span class="fl">1.0</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; STEP; i++) {
+    onestep(lattice, h);
+    <span class="cf">for</span> (<span class="kw">auto</span> &amp;s : lattice) {
+      s += Q * h;
+    }
+    lattice[<span class="dv">0</span>] = <span class="fl">0.0</span>;
+    lattice[L - <span class="dv">1</span>] = <span class="fl">0.0</span>;
+    <span class="cf">if</span> ((i % DUMP) == <span class="dv">0</span>) dump(lattice);
+  }
+}
+
+<span class="dt">int</span> main() {
+  <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; lattice(L, <span class="fl">0.0</span>);
+  <span class="co">//uniform_heating(lattice);</span>
+  fixed_temperature(lattice);
+}</code></pre></div>
+<p>実行結果は以下のようになる。</p>
 <div class="figure">
 <img src="fig/thermal.png" alt="fig/thermal.png" />
 <p class="caption">fig/thermal.png</p>
@@ -201,8 +265,7 @@ <h2 id="一次元拡散方程式-並列版">一次元拡散方程式 (並列版)
 <li>「一度まとめてから吐く」いちど、ルートプロセス(ランク0番)に通信でデータを集めてしまってから、ルートプロセスが責任を持って一気に吐く。数千プロセスでも速度面で問題なくファイル出力できたが、全プロセスが保持する状態を一度一つのノードに集めるため、数万プロセス実行時にメモリ不足で落ちた。</li>
 </ol>
 <p>とりあえずメモリに問題なければ「3. 一度まとめてから吐く」が楽なので、今回はこれを採用しよう。メモリが厳しかったり、数万プロセスの計算とかする時にはなにか工夫してくださいまし。</p>
-<p>さて、「一度まとめてから吐く」ためには、「各プロセスにバラバラにあるデータを、どこかのプロセスに一括して持ってくる」必要があるのだが、MPIには そのものずばり<code>MPI_Gather</code>という関数がある。使い方は以下のサンプルを見たほうが早いと思う。</p>
-<p><a href="gather.cpp" class="uri">gather.cpp</a></p>
+<p>さて、「一度まとめてから吐く」ためには、「各プロセスにバラバラにあるデータを、どこかのプロセスに一括して持ってくる」必要があるのだが、MPIには そのものずばり<code>MPI_Gather</code>という関数がある。使い方はサンプルを見たほうが早い。以下を<code>gather.cpp</code>という名前で保存、実行しよう。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;vector&gt;</span>
@@ -314,9 +377,101 @@ <h2 id="一次元拡散方程式-並列版">一次元拡散方程式 (並列版)
     <span class="cf">if</span> ((i % DUMP) == <span class="dv">0</span>) dump_mpi(lattice, rank, procs);
   }
 }</code></pre></div>
-<p>これも一様加熱と同じで、「温度を固定している場所がどのプロセスが担当するどの場所か」を調べる必要があるが、それを考えるのはさほど難しくないだろう。</p>
-<p>そんなわけで完成した並列コードがこちら。</p>
-<p><a href="thermal_mpi.cpp" class="uri">thermal_mpi.cpp</a></p>
+<p>これも一様加熱と同じで、「温度を固定している場所がどのプロセスが担当するどの場所か」を調べる必要があるが、それを考えるのはさほど難しくないだろう。そんなわけで完成した並列コードを<code>thermal_mpi.cpp</code>という名前で保存しよう。</p>
+<div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;fstream&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;iostream&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;vector&gt;</span>
+
+<span class="at">const</span> <span class="dt">int</span> L = <span class="dv">128</span>;
+<span class="at">const</span> <span class="dt">int</span> STEP = <span class="dv">100000</span>;
+<span class="at">const</span> <span class="dt">int</span> DUMP = <span class="dv">1000</span>;
+
+<span class="dt">void</span> dump(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;data) {
+  <span class="at">static</span> <span class="dt">int</span> index = <span class="dv">0</span>;
+  <span class="dt">char</span> filename[<span class="dv">256</span>];
+  sprintf(filename, <span class="st">&quot;data</span><span class="sc">%03d</span><span class="st">.dat&quot;</span>, index);
+  <span class="bu">std::</span>cout &lt;&lt; filename &lt;&lt; <span class="bu">std::</span>endl;
+  <span class="bu">std::</span>ofstream ofs(filename);
+  <span class="cf">for</span> (<span class="dt">unsigned</span> <span class="dt">int</span> i = <span class="dv">0</span>; i &lt; data.size(); i++) {
+    ofs &lt;&lt; i &lt;&lt; <span class="st">&quot; &quot;</span> &lt;&lt; data[i] &lt;&lt; <span class="bu">std::</span>endl;
+  }
+  index++;
+}
+
+<span class="dt">void</span> dump_mpi(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;local, <span class="dt">int</span> rank, <span class="dt">int</span> procs) {
+  <span class="at">static</span> <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; global(L);
+  MPI_Gather(&amp;(local[<span class="dv">1</span>]), L / procs, MPI_DOUBLE, global.data(), L / procs, MPI_DOUBLE, <span class="dv">0</span>, MPI_COMM_WORLD);
+  <span class="cf">if</span> (rank == <span class="dv">0</span>) {
+    dump(global);
+  }
+}
+
+<span class="dt">void</span> onestep(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice, <span class="dt">double</span> h, <span class="dt">int</span> rank, <span class="dt">int</span> procs) {
+  <span class="at">const</span> <span class="dt">int</span> size = lattice.size();
+  <span class="at">static</span> <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; orig(size);
+  <span class="bu">std::</span>copy(lattice.begin(), lattice.end(), orig.begin());
+  <span class="co">// ここから通信のためのコード</span>
+  <span class="at">const</span> <span class="dt">int</span> left = (rank - <span class="dv">1</span> + procs) % procs; <span class="co">// 左のランク番号</span>
+  <span class="at">const</span> <span class="dt">int</span> right = (rank + <span class="dv">1</span>) % procs;        <span class="co">// 右のランク番号</span>
+  MPI_Status st;
+  <span class="co">// 右端を右に送って、左端を左から受け取る</span>
+  MPI_Sendrecv(&amp;(lattice[size - <span class="dv">2</span>]), <span class="dv">1</span>, MPI_DOUBLE, right, <span class="dv">0</span>, &amp;(orig[<span class="dv">0</span>]), <span class="dv">1</span>, MPI_DOUBLE, left, <span class="dv">0</span>, MPI_COMM_WORLD, &amp;st);
+  <span class="co">// 左端を左に送って、右端を右から受け取る</span>
+  MPI_Sendrecv(&amp;(lattice[<span class="dv">1</span>]), <span class="dv">1</span>, MPI_DOUBLE, left, <span class="dv">0</span>, &amp;(orig[size - <span class="dv">1</span>]), <span class="dv">1</span>, MPI_DOUBLE, right, <span class="dv">0</span>, MPI_COMM_WORLD, &amp;st);
+
+  <span class="co">//あとはシリアル版と同じ</span>
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">1</span>; i &lt; size - <span class="dv">1</span>; i++) {
+    lattice[i] += h * (orig[i - <span class="dv">1</span>] - <span class="fl">2.0</span> * orig[i] + orig[i + <span class="dv">1</span>]);
+  }
+}
+
+<span class="dt">void</span> uniform_heating(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice, <span class="dt">int</span> rank, <span class="dt">int</span> procs) {
+  <span class="at">const</span> <span class="dt">double</span> h = <span class="fl">0.2</span>;
+  <span class="at">const</span> <span class="dt">double</span> Q = <span class="fl">1.0</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; STEP; i++) {
+    onestep(lattice, h, rank, procs);
+    <span class="cf">for</span> (<span class="kw">auto</span> &amp;s : lattice) {
+      s += Q * h;
+    }
+    <span class="cf">if</span> (rank == <span class="dv">0</span>) {
+      lattice[<span class="dv">1</span>] = <span class="fl">0.0</span>;
+    }
+    <span class="cf">if</span> (rank == procs - <span class="dv">1</span>) {
+      lattice[lattice.size() - <span class="dv">2</span>] = <span class="fl">0.0</span>;
+    }
+    <span class="cf">if</span> ((i % DUMP) == <span class="dv">0</span>) dump_mpi(lattice, rank, procs);
+  }
+}
+
+<span class="dt">void</span> fixed_temperature(<span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; &amp;lattice, <span class="dt">int</span> rank, <span class="dt">int</span> procs) {
+  <span class="at">const</span> <span class="dt">double</span> h = <span class="fl">0.01</span>;
+  <span class="at">const</span> <span class="dt">double</span> Q = <span class="fl">1.0</span>;
+  <span class="at">const</span> <span class="dt">int</span> s = L / procs;
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; STEP; i++) {
+    onestep(lattice, h, rank, procs);
+    <span class="cf">if</span> (rank == (L / <span class="dv">4</span> / s)) {
+      lattice[L / <span class="dv">4</span> - rank * s + <span class="dv">1</span>] = Q;
+    }
+    <span class="cf">if</span> (rank == (<span class="dv">3</span> * L / <span class="dv">4</span> / s)) {
+      lattice[<span class="dv">3</span> * L / <span class="dv">4</span> - rank * s + <span class="dv">1</span>] = -Q;
+    }
+    <span class="cf">if</span> ((i % DUMP) == <span class="dv">0</span>) dump_mpi(lattice, rank, procs);
+  }
+}
+
+<span class="dt">int</span> main(<span class="dt">int</span> argc, <span class="dt">char</span> **argv) {
+  MPI_Init(&amp;argc, &amp;argv);
+  <span class="dt">int</span> rank, procs;
+  MPI_Comm_rank(MPI_COMM_WORLD, &amp;rank);
+  MPI_Comm_size(MPI_COMM_WORLD, &amp;procs);
+  <span class="at">const</span> <span class="dt">int</span> mysize = L / procs + <span class="dv">2</span>;
+  <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; local(mysize);
+  uniform_heating(local, rank, procs);
+  <span class="co">//fixed_temperature(local, rank, procs);</span>
+  MPI_Finalize();
+}</code></pre></div>
 <p>せっかく並列化したので、高速化したかどうか調べてみよう。一様加熱の計算をさせてみる。</p>
 <p>まずはシリアル版の速度。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="fu">clang</span>++ -O3 -std=c++11 thermal.cpp
diff --git a/day5/README.md b/day5/README.md
index d90d49e..46d21f2 100644
--- a/day5/README.md
+++ b/day5/README.md
@@ -1,7 +1,13 @@
 
 # Day 5 :二次元反応拡散方程式
 
-Day 4で一次元拡散方程式を領域分割により並列化した。後はこの応用で相互作用距離が短いモデルはなんでも領域分割できるのだが、二次元、三次元だと、一次元よりちょっと面倒くさい。後、熱伝導方程式は、「最終的になにかに落ち着く」方程式なので、シミュレーションしててあまりおもしろいものではない。そこで、二次元で、差分法で簡単に解けて、かつ結果がそこそこ面白い題材として反応拡散方程式(reaction-diffusion system)を取り上げる。反応拡散方程式とは、拡散方程式に力学系がくっついたような系で、様々なパターンを作る。例えば「reaction-diffusion system」でイメージ検索してみて欲しい。生物の模様なんかがこの方程式系で説明されたりする。
+<!--- abstract --->
+Day 4では一次元拡散方程式を領域分割により並列化した。後はこの応用で相互作用距離が短いモデルはなんでも領域分割できるのだが、二次元、三次元だと、一次元よりちょっと面倒くさい。後、熱伝導方程式は、「最終的になにかに落ち着く」方程式なので、シミュレーションしててあまりおもしろいものではない。そこで、二次元で、差分法で簡単に解けて、かつ結果がそこそこ面白い題材として反応拡散方程式を取り上げる。
+<!--- end --->
+
+## 反応拡散方程式
+
+反応拡散方程式(reaction-diffusion system)とは、拡散方程式に力学系がくっついたような系で、様々なパターンを作る。例えば「reaction-diffusion system」でイメージ検索してみて欲しい。生物の模様なんかがこの方程式系で説明されたりする。
 
 世の中には様々な反応拡散方程式があるのだが、ここでは[Gray-Scottモデル](https://groups.csail.mit.edu/mac/projects/amorphous/GrayScott/)と呼ばれる、以下の方程式系を考えよう。
 
diff --git a/day5/index.html b/day5/index.html
index 2b319dc..7a982fa 100644
--- a/day5/index.html
+++ b/day5/index.html
@@ -73,7 +73,10 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-5-二次元反応拡散方程式">Day 5 :二次元反応拡散方程式</h1>
-<p>Day 4で一次元拡散方程式を領域分割により並列化した。後はこの応用で相互作用距離が短いモデルはなんでも領域分割できるのだが、二次元、三次元だと、一次元よりちょっと面倒くさい。後、熱伝導方程式は、「最終的になにかに落ち着く」方程式なので、シミュレーションしててあまりおもしろいものではない。そこで、二次元で、差分法で簡単に解けて、かつ結果がそこそこ面白い題材として反応拡散方程式(reaction-diffusion system)を取り上げる。反応拡散方程式とは、拡散方程式に力学系がくっついたような系で、様々なパターンを作る。例えば「reaction-diffusion system」でイメージ検索してみて欲しい。生物の模様なんかがこの方程式系で説明されたりする。</p>
+<!--- abstract --->
+<p>Day 4では一次元拡散方程式を領域分割により並列化した。後はこの応用で相互作用距離が短いモデルはなんでも領域分割できるのだが、二次元、三次元だと、一次元よりちょっと面倒くさい。後、熱伝導方程式は、「最終的になにかに落ち着く」方程式なので、シミュレーションしててあまりおもしろいものではない。そこで、二次元で、差分法で簡単に解けて、かつ結果がそこそこ面白い題材として反応拡散方程式を取り上げる。 <!--- end ---></p>
+<h2 id="反応拡散方程式">反応拡散方程式</h2>
+<p>反応拡散方程式(reaction-diffusion system)とは、拡散方程式に力学系がくっついたような系で、様々なパターンを作る。例えば「reaction-diffusion system」でイメージ検索してみて欲しい。生物の模様なんかがこの方程式系で説明されたりする。</p>
 <p>世の中には様々な反応拡散方程式があるのだが、ここでは<a href="https://groups.csail.mit.edu/mac/projects/amorphous/GrayScott/">Gray-Scottモデル</a>と呼ばれる、以下の方程式系を考えよう。</p>
 <p><span class="math display">\[
 \frac{\partial u}{\partial t} = D_u \Delta u + u^2 v - (F+k)u
@@ -152,8 +155,96 @@ <h2 id="シリアル版">シリアル版</h2>
 }</code></pre></div>
 <p>先程述べたように、偶数時刻と奇数時刻で二本の配列を使い分けているのに注意。</p>
 <p><code>save_as_dat</code>は、呼ばれるたびに配列を連番のファイル名で保存する関数である。</p>
-<p>全体のコードはこんな感じになる。</p>
-<p><a href="gs.cpp" class="uri">gs.cpp</a></p>
+<p>全体のコードはこんな感じになる(<code>gs.cpp</code>)。</p>
+<div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;iostream&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;vector&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;fstream&gt;</span>
+
+<span class="at">const</span> <span class="dt">int</span> L = <span class="dv">128</span>;
+<span class="at">const</span> <span class="dt">int</span> TOTAL_STEP = <span class="dv">20000</span>;
+<span class="at">const</span> <span class="dt">int</span> INTERVAL = <span class="dv">200</span>;
+<span class="at">const</span> <span class="dt">double</span> F = <span class="fl">0.04</span>;
+<span class="at">const</span> <span class="dt">double</span> k = <span class="fl">0.06075</span>;
+<span class="at">const</span> <span class="dt">double</span> dt = <span class="fl">0.2</span>;
+<span class="at">const</span> <span class="dt">double</span> Du = <span class="fl">0.05</span>;
+<span class="at">const</span> <span class="dt">double</span> Dv = <span class="fl">0.1</span>;
+
+<span class="kw">typedef</span> <span class="bu">std::</span>vector&lt;<span class="dt">double</span>&gt; vd;
+
+<span class="dt">void</span> init(vd &amp;u, vd &amp;v) {
+  <span class="dt">int</span> d = <span class="dv">3</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = L / <span class="dv">2</span> - d; i &lt; L / <span class="dv">2</span> + d; i++) {
+    <span class="cf">for</span> (<span class="dt">int</span> j = L / <span class="dv">2</span> - d; j &lt; L / <span class="dv">2</span> + d; j++) {
+      u[j + i * L] = <span class="fl">0.7</span>;
+    }
+  }
+  d = <span class="dv">6</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = L / <span class="dv">2</span> - d; i &lt; L / <span class="dv">2</span> + d; i++) {
+    <span class="cf">for</span> (<span class="dt">int</span> j = L / <span class="dv">2</span> - d; j &lt; L / <span class="dv">2</span> + d; j++) {
+      v[j + i * L] = <span class="fl">0.9</span>;
+    }
+  }
+}
+
+<span class="dt">double</span> calcU(<span class="dt">double</span> tu, <span class="dt">double</span> tv) {
+  <span class="cf">return</span> tu * tu * tv - (F + k) * tu;
+}
+
+<span class="dt">double</span> calcV(<span class="dt">double</span> tu, <span class="dt">double</span> tv) {
+  <span class="cf">return</span> -tu * tu * tv + F * (<span class="fl">1.0</span> - tv);
+}
+
+<span class="dt">double</span> laplacian(<span class="dt">int</span> ix, <span class="dt">int</span> iy, vd &amp;s) {
+  <span class="dt">double</span> ts = <span class="fl">0.0</span>;
+  ts += s[ix - <span class="dv">1</span> + iy * L];
+  ts += s[ix + <span class="dv">1</span> + iy * L];
+  ts += s[ix + (iy - <span class="dv">1</span>) * L];
+  ts += s[ix + (iy + <span class="dv">1</span>) * L];
+  ts -= <span class="fl">4.0</span> * s[ix + iy * L];
+  <span class="cf">return</span> ts;
+}
+
+<span class="dt">void</span> calc(vd &amp;u, vd &amp;v, vd &amp;u2, vd &amp;v2) {
+  <span class="cf">for</span> (<span class="dt">int</span> iy = <span class="dv">1</span>; iy &lt; L - <span class="dv">1</span>; iy++) {
+    <span class="cf">for</span> (<span class="dt">int</span> ix = <span class="dv">1</span>; ix &lt; L - <span class="dv">1</span>; ix++) {
+      <span class="dt">double</span> du = <span class="dv">0</span>;
+      <span class="dt">double</span> dv = <span class="dv">0</span>;
+      <span class="at">const</span> <span class="dt">int</span> i = ix + iy * L;
+      du = Du * laplacian(ix, iy, u);
+      dv = Dv * laplacian(ix, iy, v);
+      du += calcU(u[i], v[i]);
+      dv += calcV(u[i], v[i]);
+      u2[i] = u[i] + du * dt;
+      v2[i] = v[i] + dv * dt;
+    }
+  }
+}
+
+<span class="dt">void</span> save_as_dat(vd &amp;u) {
+  <span class="at">static</span> <span class="dt">int</span> index = <span class="dv">0</span>;
+  <span class="dt">char</span> filename[<span class="dv">256</span>];
+  sprintf(filename, <span class="st">&quot;conf</span><span class="sc">%03d</span><span class="st">.dat&quot;</span>, index);
+  <span class="bu">std::</span>cout &lt;&lt; filename &lt;&lt; <span class="bu">std::</span>endl;
+  <span class="bu">std::</span>ofstream ofs(filename, <span class="bu">std::</span>ios<span class="bu">::</span>binary);
+  ofs.write((<span class="dt">char</span> *)(u.data()), <span class="kw">sizeof</span>(<span class="dt">double</span>)*L * L);
+  index++;
+}
+
+<span class="dt">int</span> main() {
+  <span class="at">const</span> <span class="dt">int</span> V = L * L;
+  vd u(V, <span class="fl">0.0</span>), v(V, <span class="fl">0.0</span>);
+  vd u2(V, <span class="fl">0.0</span>), v2(V, <span class="fl">0.0</span>);
+  init(u, v);
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; TOTAL_STEP; i++) {
+    <span class="cf">if</span> (i &amp; <span class="dv">1</span>) {
+      calc(u2, v2, u, v);
+    } <span class="cf">else</span> {
+      calc(u, v, u2, v2);
+    }
+    <span class="cf">if</span> (i % INTERVAL == <span class="dv">0</span>) save_as_dat(u);
+  }
+}</code></pre></div>
 <p>コンパイル、実行してみよう。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -O3 gs.cpp
 $ <span class="bu">time</span> ./a.out
@@ -457,8 +548,8 @@ <h2 id="並列化ステップ2-データの保存">並列化ステップ2: デ
   }
 }</code></pre></div>
 <p>送信前や送信後にデータの処理が必要となるので、やってることが単純なわりにコード量がそこそこの長さになる。 このあたりが「MPIは面倒くさい」と言われる所以かもしれない。筆者も「MPIは面倒くさい」ことは否定しない。 しかし、ここまで読んでくださった方なら「MPIは難しくはない」ということも同意してもらえると思う。 MPIは書いた通りに動く。なので、通信アルゴリズムが決まっていれば、その手順どおりに書くだけである。 実際面倒なのは通信そのものよりも、通信の前処理と後処理だったりする(そもそも今回も通信は一行だけだ)。</p>
-<p>以上をすべてまとめたコードは以下の通り。</p>
-<p><a href="gather2d.cpp" class="uri">gather2d.cpp</a></p>
+<p>以上をすべてまとめたコードを<code>gather2d.cpp</code>としよう。やや大きいので、ウェブへのリンクを貼っておく。</p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day5/gather2d.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day5/gather2d.cpp</a></p>
 <p>main関数だけ書いておくとこんな感じ。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">int</span> main(<span class="dt">int</span> argc, <span class="dt">char</span> **argv) {
   MPI_Init(&amp;argc, &amp;argv);
@@ -536,7 +627,7 @@ <h2 id="並列化ステップ2-のりしろの通信">並列化ステップ2: 
 }</code></pre></div>
 <p>全く同様にy方向の通信も書けるが、先に述べたように「左右からもらったデータも転送」するため、その分がちょっとだけ異なる。</p>
 <p>このアルゴリズムを実装するとこんな感じになる。</p>
-<p><a href="sendrecv.cpp" class="uri">sendrecv.cpp</a></p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day5/sendrecv.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day5/sendrecv.cpp</a></p>
 <p>実行結果はこんな感じ。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">mpic++</span> sendrecv.cpp
 $ <span class="ex">mpirun</span> -np 4 ./a.out
diff --git a/day6/README.md b/day6/README.md
index e313b51..d33371e 100644
--- a/day6/README.md
+++ b/day6/README.md
@@ -1,7 +1,6 @@
 # Day 6 : ハイブリッド並列
 
-## ハイブリッド並列とは
-
+<!--- abstract --->
 これまで、並列化の手段としてMPIを使った「プロセス並列」を行ってきた。
 最初に述べたように、並列化には他にも「スレッド並列」という手段がある。
 プロセス並列が分散メモリ型、スレッド並列が共有メモリ型であり、
@@ -13,10 +12,11 @@
 面倒になるので、できることならやりたくない。しかし、アプリケーションや
 サイズによっては、ハイブリッド並列を選択せざるを得ない場合もあるだろう。
 ここでは、スレッド並列を行うときの注意点や、ハイブリッド並列の実例について見てみよう。
+<!--- end --->
 
 ## 仮想メモリとTLB
 
-さて、プロセス並列ではあまり気にしなくてよかったが、スレッド並列を行う時には
+プロセス並列ではあまり気にしなくてよかったが、スレッド並列を行う時には
 気にしなければいけないものとして「NUMA」というものがある。
 「NUMA」を気にするためには、仮想メモリについて知らないといけない。
 というわけで、仮想メモリについて見てみよう。
diff --git a/day6/index.html b/day6/index.html
index 2ecc231..7d7d1cb 100644
--- a/day6/index.html
+++ b/day6/index.html
@@ -72,10 +72,10 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-6-ハイブリッド並列">Day 6 : ハイブリッド並列</h1>
-<h2 id="ハイブリッド並列とは">ハイブリッド並列とは</h2>
-<p>これまで、並列化の手段としてMPIを使った「プロセス並列」を行ってきた。 最初に述べたように、並列化には他にも「スレッド並列」という手段がある。 プロセス並列が分散メモリ型、スレッド並列が共有メモリ型であり、 スレッド並列だけではノードをまたぐことができないので、普通「スパコンを使う」 というとプロセス並列が必須になる。 さて、MPIを使ったプロセス並列「だけ」による並列化を「flat-MPI」と呼ぶ。 一方、プロセス並列とスレッド並列を併用する並列化を「ハイブリッド並列」と呼ぶ。 当然のことながら、ハイブリッド並列は、プロセス並列単体、スレッド並列単体よりも 面倒になるので、できることならやりたくない。しかし、アプリケーションや サイズによっては、ハイブリッド並列を選択せざるを得ない場合もあるだろう。 ここでは、スレッド並列を行うときの注意点や、ハイブリッド並列の実例について見てみよう。</p>
+<!--- abstract --->
+<p>これまで、並列化の手段としてMPIを使った「プロセス並列」を行ってきた。 最初に述べたように、並列化には他にも「スレッド並列」という手段がある。 プロセス並列が分散メモリ型、スレッド並列が共有メモリ型であり、 スレッド並列だけではノードをまたぐことができないので、普通「スパコンを使う」 というとプロセス並列が必須になる。 さて、MPIを使ったプロセス並列「だけ」による並列化を「flat-MPI」と呼ぶ。 一方、プロセス並列とスレッド並列を併用する並列化を「ハイブリッド並列」と呼ぶ。 当然のことながら、ハイブリッド並列は、プロセス並列単体、スレッド並列単体よりも 面倒になるので、できることならやりたくない。しかし、アプリケーションや サイズによっては、ハイブリッド並列を選択せざるを得ない場合もあるだろう。 ここでは、スレッド並列を行うときの注意点や、ハイブリッド並列の実例について見てみよう。 <!--- end ---></p>
 <h2 id="仮想メモリとtlb">仮想メモリとTLB</h2>
-<p>さて、プロセス並列ではあまり気にしなくてよかったが、スレッド並列を行う時には 気にしなければいけないものとして「NUMA」というものがある。 「NUMA」を気にするためには、仮想メモリについて知らないといけない。 というわけで、仮想メモリについて見てみよう。</p>
+<p>プロセス並列ではあまり気にしなくてよかったが、スレッド並列を行う時には 気にしなければいけないものとして「NUMA」というものがある。 「NUMA」を気にするためには、仮想メモリについて知らないといけない。 というわけで、仮想メモリについて見てみよう。</p>
 <p>OSは実に様々なことをやっているが、特に重要な仕事に「メモリ管理」がある。 物理的には「メモリ」はマザーボードに刺さったDRAMを指すが、 OSの管理下で動くプロセスから見える「メモリ」は、それを仮想化したものである。 プロセスにとっては連続に見えるメモリも、実はDRAM上にバラバラに割り付けられて いるかもしれない。OSは、「プロセスから見えるアドレス」と「物理的にDRAMに割り当てられたアドレス」を うまいこと変換して、プロセスが物理メモリを意識しないで済むようにしている。 このような仕組みを「仮想メモリ (virtual memory)」と呼ぶ。 仮想メモリを扱う利点としては、</p>
 <ul>
 <li>OSがメモリを管理してくれるので複数のプロセスがお互いのメモリを気にしなくて良くなる(セキュリティ上も好ましい)</li>
@@ -83,8 +83,7 @@ <h2 id="仮想メモリとtlb">仮想メモリとTLB</h2>
 <li>メモリが足りない時にハードディスクなどにスワップすることで、物理メモリより大きな論理メモリ空間がとれる</li>
 </ul>
 <p>などが挙げられる。なお、Windowsでは「ハードディスクにスワップする領域の上限」のことを「仮想メモリ」と呼んでいるようなので注意。</p>
-<p>実際に、プロセスごとに固有の仮想メモリが与えられているのを見てみよう。こんなコードを書いてみる。</p>
-<p><a href="vmem.cpp" class="uri">vmem.cpp</a></p>
+<p>実際に、プロセスごとに固有の仮想メモリが与えられているのを見てみよう。こんなコード(<code>vmem.cpp</code>)を書いてみる。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;mpi.h&gt;</span>
 
@@ -182,7 +181,9 @@ <h2 id="openmpの例">OpenMPの例</h2>
 <ul>
 <li>Intel(R) Xeon(R) CPU E5-2680 v3 @ 2.50GHz 12コア x 2ソケット</li>
 </ul>
-<p>まず、シリアルコードとしてDay 4で使ったGray Scottモデルの計算を使おう。純粋に計算のみをカウントするため、途中のファイル出力を削除し、また実行時間を測定するようにしたのが<a href="gs.cpp" class="uri">gs.cpp</a>である。ただし、デバッグのために最終結果だけファイルに出力している。コンパイルして<code>perf</code>でプロファイルをとってみよう。まず、<code>perf record</code>で記録を取る。</p>
+<p>まず、シリアルコードとしてDay 4で使ったGray Scottモデルの計算を使おう。純粋に計算のみをカウントするため、途中のファイル出力を削除し、また実行時間を測定するようにしたものが<code>gs.cpp</code>である。</p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs.cpp</a></p>
+<p>ただし、デバッグのために最終結果だけファイルに出力している。コンパイルして<code>perf</code>でプロファイルをとってみよう。まず、<code>perf record</code>で記録を取る。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -O3 -mavx2 -std=c++11 -fopenmp gs.cpp -o gs.out
 $ <span class="ex">perf</span> record ./gs.out
 <span class="ex">2527</span> [ms]
@@ -217,7 +218,7 @@ <h2 id="openmpの例">OpenMPの例</h2>
 }</code></pre></div>
 <p>二重ループになっている。OpenMPは、並列実行したいループの直前にディレクティブを入れて、「このループを並列化してください」と指示することで並列化する。スレッド並列する時には、ループインデックス間に依存性がないか確認しなければならないのだが、今回はたまたまループインデックス間に全く依存関係がないので、好きなように並列化してよい(たまたまというか、そうなるように題材を選んだわけだが)。</p>
 <p>まずは内側のループにディレクティブを入れてみよう。<code>#pragma omp parallel for</code>というディレクティブを対象ループの直前に入れるだけでよい。</p>
-<p><a href="gs_omp1.cpp" class="uri">gs_omp1.cpp</a></p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_omp1.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_omp1.cpp</a></p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">void</span> calc(vd &amp;u, vd &amp;v, vd &amp;u2, vd &amp;v2) {
   <span class="cf">for</span> (<span class="dt">int</span> iy = <span class="dv">1</span>; iy &lt; L - <span class="dv">1</span>; iy++) {
 <span class="pp">#pragma omp parallel for</span>
@@ -243,7 +244,7 @@ <h2 id="openmpの例">OpenMPの例</h2>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash"><span class="fu">diff</span> conf000.org conf000.dat</code></pre></div>
 <p>問題なさそうですね。</p>
 <p>次に、外側を並列化してみよう。</p>
-<p><a href="gs_omp2.cpp" class="uri">gs_omp2.cpp</a></p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_omp2.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_omp2.cpp</a></p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">void</span> calc(vd &amp;u, vd &amp;v, vd &amp;u2, vd &amp;v2) {
 <span class="pp">#pragma omp parallel for</span>
   <span class="cf">for</span> (<span class="dt">int</span> iy = <span class="dv">1</span>; iy &lt; L - <span class="dv">1</span>; iy++) {
@@ -412,7 +413,9 @@ <h2 id="ハイブリッド並列の実例">ハイブリッド並列の実例</h2
 <span class="co">// なにか時間を計測したい処理</span>
 <span class="at">const</span> <span class="kw">auto</span> e = <span class="bu">std::</span>chrono<span class="bu">::</span>system_clock<span class="bu">::</span>now();
 <span class="at">const</span> <span class="kw">auto</span> elapsed = <span class="bu">std::</span>chrono<span class="bu">::</span>duration_cast&lt;<span class="bu">std::</span>chrono<span class="bu">::</span>milliseconds&gt;(e - s).count();</code></pre></div>
-<p>これで<code>elapsed</code>にミリ秒単位の値が入る。このようにして作ったハイブリッド版の反応拡散方程式ソルバが<a href="gs_hybrid.cpp" class="uri">gs_hybrid.cpp</a>である。 筆者の環境ではMPIにパスが通してあるので、以下のようなオプションでコンパイルできる。</p>
+<p>これで<code>elapsed</code>にミリ秒単位の値が入る。このようにして作ったハイブリッド版の反応拡散方程式ソルバが<code>gs_hybrid.cpp</code>である。</p>
+<p><a href="https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_hybrid.cpp" class="uri">https://github.com/kaityo256/sevendayshpc/blob/master/day6/gs_hybrid.cpp</a></p>
+<p>筆者の環境ではMPIにパスが通してあるので、以下のようなオプションでコンパイルできる。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash"><span class="ex">g++</span> -fopenmp -O3 -mavx2 gs_hybrid.cpp -lmpi -lmpi_cxx</code></pre></div>
 <p>手元のMacで2プロセス x 2スレッドで実行すると以下のような結果を吐く。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="va">OMP_NUM_THREADS=</span>2 <span class="ex">mpiexec</span> -np 2 ./a.out
diff --git a/day7/README.md b/day7/README.md
index 33a28ef..96c0d17 100644
--- a/day7/README.md
+++ b/day7/README.md
@@ -1,9 +1,8 @@
 # Day 7 : SIMD化
 
-## はじめに
-
-ここまで読んだ人、お疲れ様です。ここから読んでいる人、それでも問題ありません。
-これまで、主に並列化についてだらだら書いてきたが、最後はシングルコアでの最適化技術であるSIMD化について説明してみたいと思う。
+<!--- abstract --->
+ここまで読んだ人、お疲れ様です。ここから読んでいる人、問題ありません。スパコンにおける並列化には、プロセス並列、スレッド並列、データ並列の三種類がある。これまでプロセス並列、スレッド並列について述べたので、最後はデータ並列であるSIMD化について紹介しよう。
+<!--- end --->
 
 ## SIMDとは
 
diff --git a/day7/index.html b/day7/index.html
index d290c89..214feb9 100644
--- a/day7/index.html
+++ b/day7/index.html
@@ -73,8 +73,8 @@
 <body>
 <article class="markdown-body">
 <h1 id="day-7-simd化">Day 7 : SIMD化</h1>
-<h2 id="はじめに">はじめに</h2>
-<p>ここまで読んだ人、お疲れ様です。ここから読んでいる人、それでも問題ありません。 これまで、主に並列化についてだらだら書いてきたが、最後はシングルコアでの最適化技術であるSIMD化について説明してみたいと思う。</p>
+<!--- abstract --->
+<p>ここまで読んだ人、お疲れ様です。ここから読んでいる人、問題ありません。スパコンにおける並列化には、プロセス並列、スレッド並列、データ並列の三種類がある。これまでプロセス並列、スレッド並列について述べたので、最後はデータ並列であるSIMD化について紹介しよう。 <!--- end ---></p>
 <h2 id="simdとは">SIMDとは</h2>
 <p>スパコンプログラミングに興味があるような人なら、「SIMD」という言葉を聞いたことがあるだろう。SIMDとは、「single instruction multiple data」の略で、「一回の命令で複数のデータを同時に扱う」という意味である。先に、並列化は大きく分けて「データ並列」「共有メモリ並列」「分散メモリ並列」の三種類になると書いたが、SIMDはデータ並列(Data parallelism)に属す。現在、一般的に数値計算に使われるCPUにはほとんどSIMD命令が実装されている。後述するが、SIMDとは1サイクルに複数の演算を同時に行う技術であり、CPUの「理論ピーク性能」は、SIMDの能力を使い切った場合の性能を指す。したがって、<strong>まったくSIMD化できなければ、ピーク性能が数分の1になることと等価である</strong>。ここでは、なぜSIMDが必要になるか、そしてSIMDとは何かについて見てみよう。</p>
 <p>計算機というのは、要するにメモリからデータと命令を取ってきて、演算器に投げ、結果をメモリに書き戻す機械である。CPUの動作単位は「サイクル」で表される。演算器に計算を投げてから、結果が返ってくるまでに数サイクルかかるが、現代のCPUではパイプライン処理という手法によって事実上1サイクルに1個演算ができる。1サイクル1演算できるので、あとは「1秒あたりのサイクル数=動作周波数」を増やせば増やすほど性能が向上することになる。</p>
@@ -97,8 +97,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="dt">void</span> print256d(__m256d x) {
   printf(<span class="st">&quot;</span><span class="sc">%f</span><span class="st"> </span><span class="sc">%f</span><span class="st"> </span><span class="sc">%f</span><span class="st"> </span><span class="sc">%f\n</span><span class="st">&quot;</span>, x[<span class="dv">3</span>], x[<span class="dv">2</span>], x[<span class="dv">1</span>], x[<span class="dv">0</span>]);
 }</code></pre></div>
-<p><code>_m256d x</code>が、そのまま<code>double x[4]</code>として使えているのがわかると思う。この時、<code>x[0]</code>が一番下位となる。 先程の代入と合わせるとこんな感じになる。</p>
-<p><a href="print.cpp" class="uri">print.cpp</a></p>
+<p><code>_m256d x</code>が、そのまま<code>double x[4]</code>として使えているのがわかると思う。この時、<code>x[0]</code>が一番下位となる。 先程の代入と合わせるとこんな感じになる(<code>print.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
 
@@ -130,8 +129,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
   vaddpd  %ymm1, %ymm0, %ymm0
   <span class="bu">ret</span></code></pre></div>
 <p><code>vaddpd</code>はSIMDの足し算を行う命令であり、ちゃんとYMMレジスタの足し算が呼ばれていることがわかる。</p>
-<p>実際に4要素同時に足し算できることを確認しよう。</p>
-<p><a href="add.cpp" class="uri">add.cpp</a></p>
+<p>実際に4要素同時に足し算できることを確認しよう(<code>add.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
 
@@ -148,8 +146,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -mavx2 add.cpp
 $ <span class="ex">./a.out</span>
 <span class="ex">10.000000</span> 8.000000 6.000000 4.000000</code></pre></div>
-<p><code>(0,1,2,3)</code>というベクトルと、<code>(4,5,6,7)</code>というベクトルの和をとり、<code>(4,6,8,10)</code>というベクトルが得られた。 このように、ベクトル同士の演算に見えるので、SIMD化のことをベクトル化と呼んだりする。ただし、線形代数で出てくる ベクトルの積とは違い、SIMDの積は単に要素ごとの積になることに注意。実際、さっきの和を積にするとこうなる。</p>
-<p><a href="mul.cpp" class="uri">mul.cpp</a></p>
+<p><code>(0,1,2,3)</code>というベクトルと、<code>(4,5,6,7)</code>というベクトルの和をとり、<code>(4,6,8,10)</code>というベクトルが得られた。 このように、ベクトル同士の演算に見えるので、SIMD化のことをベクトル化と呼んだりする。ただし、線形代数で出てくる ベクトルの積とは違い、SIMDの積は単に要素ごとの積になることに注意。実際、さっきの和を積にするとこうなる(<code>mul.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
 
@@ -167,8 +164,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
 $ <span class="ex">./a.out</span>
 <span class="ex">21.000000</span> 12.000000 5.000000 0.000000</code></pre></div>
 <p>それぞれ、<code>0*0</code>、<code>1*5</code>、<code>2*6</code>、<code>3*7</code>が計算されていることがわかる。</p>
-<p>あとSIMD化で大事なのは、SIMDレジスタへのデータの読み書きである。先程はデバッグのために<code>_mm256_set_pd</code>を使ったが、これは極めて遅い。 どんな動作をするか見てみよう。</p>
-<p><a href="setpd.cpp" class="uri">setpd.cpp</a></p>
+<p>あとSIMD化で大事なのは、SIMDレジスタへのデータの読み書きである。先程はデバッグのために<code>_mm256_set_pd</code>を使ったが、これは極めて遅い。どんな動作をするか見てみよう(<code>setpd.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
   
 __m256d setpd(<span class="dt">double</span> a, <span class="dt">double</span> b, <span class="dt">double</span> c, <span class="dt">double</span> d) {
@@ -189,8 +185,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
 </ol>
 <p>ということをしている。ここで、<code>xmm0</code>レジスタと<code>ymm0</code>レジスタの下位128ビットは共有していることに注意。 つまり、<code>xmm0</code>レジスタに読み書きすると、<code>ymm0</code>レジスタの下位128ビットも影響を受ける。 上記の例はそれを利用して、最終的に欲しい情報、つまり4要素をパックしたレジスタを作っている。</p>
 <p>とりあえず4つの要素をYMMレジスタに載せることができれば、あとは4要素同時に計算ができるようになるのだが、 4要素をパックする際に<code>_mm256_set_pd</code>を使うとメモリアクセスが多くなって性能が出ない。 そのため、メモリから連続するデータをごそっとレジスタにとってきたり、書き戻したりする命令がある。 例えば、<code>_mm256_load_pd</code>は、指定されたポインタから連続する4つの倍精度実数をとってきて YMMレジスタに入れてくれる。ただし、そのポインタの指すアドレスは32バイトアラインされていなければならない。</p>
-<p>利用例はこんな感じになる。</p>
-<p><a href="load.cpp" class="uri">load.cpp</a></p>
+<p>利用例はこんな感じになる(<code>load.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
 <span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
 
@@ -211,8 +206,7 @@ <h2 id="simdレジスタを触ってみる">SIMDレジスタを触ってみる</
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -mavx2 load.cpp
 $ <span class="ex">./a.out</span>
 <span class="ex">10.000000</span> 8.000000 6.000000 4.000000</code></pre></div>
-<p><code>_mm256_load_pd</code>が何をやっているか(どんなアセンブリに対応するか)も見てみよう。こんなコードのアセンブリを見てみる。</p>
-<p><a href="loadasm.cpp" class="uri">loadasm.cpp</a></p>
+<p><code>_mm256_load_pd</code>が何をやっているか(どんなアセンブリに対応するか)も見てみよう。こんなコードのアセンブリを見てみる(<code>loadasm.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span><span class="pp">  </span>
 __m256d load(<span class="dt">double</span> *a, <span class="dt">int</span> index) {
   <span class="cf">return</span> _mm256_load_pd(a + index);
@@ -232,8 +226,7 @@ <h2 id="余談アセンブリ言語アセンブラ言語">余談：アセンブ
 <p>繰り返しになるが、現在は「アセンブリ言語 (assembly language)」の方が一般的な用語であると思われるので、「アセンブリ言語をアセンブラがアセンブルして機械語にする」と表現することになんの問題もない。 しかし、誰かが「アセンブラを書く」もしくは「アセンブラ言語」と言ったときに、脊髄反射で「アセンブリ言語が正しい」とマウントを取る前に、上記のような事情を思い出していただけたらと思う。</p>
 <p>余談の余談となるが、アセンブリで書かれたものを手で機械語に翻訳する作業を「ハンドアセンブル」と呼ぶ。昔のアセンブリはほぼ機械語と一対一対応しており、「便利なマクロ付き機械語」といった趣であったため、ハンドアセンブルはさほど難しい作業ではなかった。しかし、現在の機械語、特にx86の機械語はかなり複雑になっており、アセンブリから機械語に翻訳するのはかなり大変になっている。そのあたりは例えば<a href="https://tanakamura.github.io/pllp/docs/x8664_language.html">x86_64機械語入門</a>なんかを参照してほしい。</p>
 <h2 id="簡単なsimd化の例">簡単なSIMD化の例</h2>
-<p>では、実際にSIMD化をやってみよう。こんなコードを考える。 一次元の配列の単純な和のループである。</p>
-<p><a href="func.cpp" class="uri">func.cpp</a></p>
+<p>では、実際にSIMD化をやってみよう。こんなコードを考える。 一次元の配列の単純な和のループである(<code>func.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="at">const</span> <span class="dt">int</span> N = <span class="dv">10000</span>;
 <span class="dt">double</span> a[N], b[N], c[N];
 
@@ -263,8 +256,7 @@ <h2 id="簡単なsimd化の例">簡単なSIMD化の例</h2>
 <li>二つのレジスタを足す</li>
 <li>結果のレジスタを配列cのしかるべき場所に保存する</li>
 </ul>
-<p>ということをすればSIMD化完了である。コードを見たほうが早いと思う。</p>
-<p><a href="func_simd.cpp" class="uri">func_simd.cpp</a></p>
+<p>ということをすればSIMD化完了である。コードを見たほうが早いと思う(<code>func_simd.cpp</code>)。</p>
 <div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
 <span class="dt">void</span> func_simd() {
   <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; N; i += <span class="dv">4</span>) {
@@ -320,8 +312,61 @@ <h2 id="簡単なsimd化の例">簡単なSIMD化の例</h2>
     printf(<span class="st">&quot;</span><span class="sc">%s</span><span class="st"> is NG</span><span class="sc">\n</span><span class="st">&quot;</span>, type);
   }
 }</code></pre></div>
-<p>全部まとめたコードはこちら。</p>
-<p><a href="simdcheck.cpp" class="uri">simdcheck.cpp</a></p>
+<p>全部まとめたコードを<code>simdcheck.cpp</code>として保存、実行してみよう。</p>
+<div class="sourceCode"><pre class="sourceCode cpp"><code class="sourceCode cpp"><span class="pp">#include </span><span class="im">&lt;cstdio&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;random&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;algorithm&gt;</span>
+<span class="pp">#include </span><span class="im">&lt;x86intrin.h&gt;</span>
+
+<span class="at">const</span> <span class="dt">int</span> N = <span class="dv">10000</span>;
+
+<span class="dt">double</span> a[N], b[N], c[N];
+<span class="dt">double</span> ans[N];
+
+<span class="dt">void</span> check(<span class="dt">void</span>(*pfunc)(), <span class="at">const</span> <span class="dt">char</span> *type) {
+  pfunc();
+  <span class="dt">unsigned</span> <span class="dt">char</span> *x = (<span class="dt">unsigned</span> <span class="dt">char</span> *)c;
+  <span class="dt">unsigned</span> <span class="dt">char</span> *y = (<span class="dt">unsigned</span> <span class="dt">char</span> *)ans;
+  <span class="dt">bool</span> valid = <span class="kw">true</span>;
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; <span class="dv">8</span> * N; i++) {
+    <span class="cf">if</span> (x[i] != y[i]) {
+      valid = <span class="kw">false</span>;
+      <span class="cf">break</span>;
+    }
+  }
+  <span class="cf">if</span> (valid) {
+    printf(<span class="st">&quot;</span><span class="sc">%s</span><span class="st"> is OK</span><span class="sc">\n</span><span class="st">&quot;</span>, type);
+  } <span class="cf">else</span> {
+    printf(<span class="st">&quot;</span><span class="sc">%s</span><span class="st"> is NG</span><span class="sc">\n</span><span class="st">&quot;</span>, type);
+  }
+}
+
+<span class="dt">void</span> func() {
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; N; i++) {
+    c[i] = a[i] + b[i];
+  }
+}
+
+<span class="dt">void</span> func_simd() {
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; N; i += <span class="dv">4</span>) {
+    __m256d va = _mm256_load_pd(&amp;(a[i]));
+    __m256d vb = _mm256_load_pd(&amp;(b[i]));
+    __m256d vc = va + vb;
+    _mm256_store_pd(&amp;(c[i]), vc);
+  }
+}
+
+<span class="dt">int</span> main() {
+  <span class="bu">std::</span>mt19937 mt;
+  <span class="bu">std::</span>uniform_real_distribution&lt;<span class="dt">double</span>&gt; ud(<span class="fl">0.0</span>, <span class="fl">1.0</span>);
+  <span class="cf">for</span> (<span class="dt">int</span> i = <span class="dv">0</span>; i &lt; N; i++) {
+    a[i] = ud(mt);
+    b[i] = ud(mt);
+    ans[i] = a[i] + b[i];
+  }
+  check(func, <span class="st">&quot;scalar&quot;</span>);
+  check(func_simd, <span class="st">&quot;vector&quot;</span>);
+}</code></pre></div>
 <p>実際に実行してテストしてみよう。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -mavx2 -O3 simdcheck.cpp
 $ <span class="ex">./a.out</span>
@@ -565,7 +610,7 @@ <h2 id="もう少し実戦的なsimd化">もう少し実戦的なSIMD化</h2>
     <span class="bu">std::</span>cout &lt;&lt; r[i].z &lt;&lt; <span class="bu">std::</span>endl;
   }
 }</code></pre></div>
-<p>時間発展後に座標をダンプして、その結果を比較しよう。シリアル版を<a href="magnetic/mag.cpp">mag.cpp</a>、SIMD版を<a href="magnetic/mag_simd.cpp">mag_simd.cpp</a>としておき、以下のようにコンパイル、実行、結果の比較をする。</p>
+<p>時間発展後に座標をダンプして、その結果を比較しよう。シリアル版を<a href="https://github.com/kaityo256/sevendayshpc/blob/master/day7/magnetic/mag.cpp">mag.cpp</a>、SIMD版を<a href="https://github.com/kaityo256/sevendayshpc/blob/master/day7/magnetic/mag_simd.cpp">mag_simd.cpp</a>としておき、以下のようにコンパイル、実行、結果の比較をする。</p>
 <div class="sourceCode"><pre class="sourceCode sh"><code class="sourceCode bash">$ <span class="ex">g++</span> -std=c++11 -O3 -mavx2 -mfma mag.cpp -o a.out
 $ <span class="ex">g++</span> -std=c++11 -O3 -mavx2 -mfma mag_simd.cpp -o b.out
 $ <span class="bu">time</span> ./a.out <span class="op">&gt;</span> a.txt
@@ -668,7 +713,7 @@ <h2 id="もう少し実戦的なsimd化">もう少し実戦的なSIMD化</h2>
   cmpq  %<span class="kw">rcx</span>, %<span class="kw">rax</span>
   <span class="bu">jne</span> L13</code></pre></div>
 <p><code>vpermpd</code>がシャッフル命令である。ループボディがかなり小さいが、このループは100000回まわるため、25000回しかまわらないコンパイラによる自動SIMD化ルーチンには勝てない。大雑把な話、ループボディの計算コストが半分だが、回転数が4倍なので2倍負けた、という感じである。</p>
-<p>上記の例のように、「いま手元にあるコード」をがんばって「そのままSIMD化」して高速化しても、データ構造を変えるとコンパイラがあっさり自動SIMD化できて負けることがある。多くの場合「SIMD化」はデータ構造のグローバルな変更を伴う。先のコードのAoS版である<a href="md.cpp" class="uri">md.cpp</a>と、SoA版である<a href="md_soa.cpp" class="uri">md_soa.cpp</a>は、全く同じことをしているが <strong>全書き換え</strong> になっている。今回はコードが短いから良いが、10万行とかあるコードだと「やっぱりSoAの方が早いから全書き換えで！」と気軽には言えないだろう。また、デバイスによってデータ構造の向き不向きもある。例えば「CPUではAoSの方が早いが、GPGPUではSoAの方が早い」なんてこともざらにある。こういう場合には、ホットスポットルーチンに入る前にAoS←→SoAの相互変換をしたりすることも検討するが、もちろんその分オーバーヘッドもあるので面倒くさいところである。</p>
+<p>上記の例のように、「いま手元にあるコード」をがんばって「そのままSIMD化」して高速化しても、データ構造を変えるとコンパイラがあっさり自動SIMD化できて負けることがある。多くの場合「SIMD化」はデータ構造のグローバルな変更を伴う。先のコードのAoS版である<a href="https://github.com/kaityo256/sevendayshpc/blob/master/day7/magnetic/mag.cpp">mag.cpp</a>と、SoA版である<a href="https://github.com/kaityo256/sevendayshpc/blob/master/day7/magnetic/mag_soa.cpp">mag_soa.cpp</a>は、全く同じことをしているが <strong>全書き換え</strong> になっている。今回はコードが短いから良いが、10万行とかあるコードだと「やっぱりSoAの方が早いから全書き換えで！」と気軽には言えないだろう。また、デバイスによってデータ構造の向き不向きもある。例えば「CPUではAoSの方が早いが、GPGPUではSoAの方が早い」なんてこともざらにある。こういう場合には、ホットスポットルーチンに入る前にAoS←→SoAの相互変換をしたりすることも検討するが、もちろんその分オーバーヘッドもあるので面倒くさいところである。</p>
 <p>まぁ、以上のようにいろいろ面倒なことを書いたが、ちゃんと手を動かして上記を試してみた方には「SIMD化は(原理的には)簡単だ」ということには同意してもらえると思う。MPIもSIMD化も同じである。いろいろ考えることがあって面倒だが、やること自体は単純なので難しくはない。今回はシャッフル命令を取り上げたが、他にもマスク処理やgather/scatter、pack/unpackなど、SIMDには実に様々な命令がある。しかし、「そういう命令欲しいな」と思って調べたらたいがいある。あとは対応する組み込み関数を呼べばよい。要するに「やるだけ」である。ただし、MPI化は「やれば並列計算ができ、かつプロセスあたりの計算量を増やせばいくらでも並列化効率を上げられる」ことが期待されるのに対して、SIMD化は「やっても性能が向上するかはわからず、下手に手を出すよりコンパイラに任せた方が早い」なんてこともある。全くSIMD化されていないコードに対してSIMD化で得られるゲインは、256bitなら4倍、512ビットでも8倍程度しかなく、現実にはその半分も出れば御の字であろう。SIMD化はやってて楽しい作業であるが、手間とコストが釣り合うかどうかは微妙だな、というのが筆者の実感である。</p>
 </article>
 </body>
diff --git a/makefile b/pdf.mk
similarity index 100%
rename from makefile
rename to pdf.mk
diff --git a/review/config.yml b/review/config.yml
index 0d33197..c258504 100644
--- a/review/config.yml
+++ b/review/config.yml
@@ -79,7 +79,7 @@ date: 2020-02-29
 # 複数指定する場合は次のように記述する
 # [["初版第1刷の日付", "初版第2刷の日付"], ["第2版第1刷の日付"]]
 # 日付の後ろを空白文字で区切り、任意の文字列を置くことも可能。
-history: [["2020-02-25 ver 1.1"]]
+history: [["2020-03-03 ver 1.2"]]
 # [experimental] 新刊を頒布したイベント名（例：「技術書典6（2019年春）新刊」）
 pubevent_name: 
 # 権利表記(配列で複数指定可)
diff --git a/review/pre.rb b/review/pre.rb
index 6be6556..d314b52 100644
--- a/review/pre.rb
+++ b/review/pre.rb
@@ -1,6 +1,5 @@
-
 def escape_underscore(str)
-  str.gsub('_','@<underscore>') 
+  str.gsub("_", "@<underscore>")
 end
 
 def escape_inline_math(str)
@@ -11,8 +10,18 @@ def escape_inline_math(str)
   str
 end
 
+def replace_review_command(line)
+  return line if line !~ /^<!---(.*)--->$/
+
+  key = $1.strip
+  return "//}" if key == "end"
+
+  line = "//#{key}\{"
+  line
+end
+
 def in_math
-  while line=gets
+  while (line = gets)
     if line=~/\$\$/
       puts "//}"
       return
@@ -22,11 +31,12 @@ def in_math
   end
 end
 
-while line=gets
+while (line = gets)
   if line=~/\$\$/
     puts "//texequation{"
     in_math
   else
+    line = replace_review_command(line)
     puts escape_inline_math(line)
   end
 end
diff --git a/sevendayshpc.pdf b/sevendayshpc.pdf
index 5c4e189..0f82afc 100644
Binary files a/sevendayshpc.pdf and b/sevendayshpc.pdf differ