In [13]:
%matplotlib inline
import numpy as np
from scipy.integrate import odeint
import matplotlib.pyplot as plt

## 複製の精度

今回の Question の３番目について考えよう。

- 遺伝の過程に求められる精度とはどの程度のものなのか？

複製が精確すぎると、変異体が生じにくくなるので、進化がすすみにくくなるだろう。

また、**突然変異**は、現在の遺伝情報がランダムに変化するものなので、その多くは**有害**である。（生命のように複雑なシステムを、無計画に改変しても、たいていはうまくいかない。精密機器をその設計を考えることなく適当に改造しても、まず間違いなく壊れるだけなのと同じ）

したがって、複製が不正確すぎると、突然変異によって集団中の個体が次々と「壊れて」しまい、絶滅の危機に瀕することになるだろう。

進化は起こるが、有害突然変異による絶滅は免れる……そんな絶妙な複製精度とは、どの程度のものか、考えてみよう。

### Spiegelman の実験

Spiegelmanらは、試験管内でRNAを進化させる、人類初の**人工分子進化実験**を行った。

その内容は、おおむね以下の通りである。

1. 試験管内に**複製酵素Qβ**を含む反応液を用意する。**Qβは、RNAを複製する**。RNAを合成する材料となる４種類のヌクレオチドも入れておく。
2. 試験管に200塩基ほどの長さのRNAを加える。  
3. Qβによって、RNAが複製される。
Qβの複製精度はあまり高くないので、変異体が生じる。  
合成の材料となるヌクレオチドが不足するまで、RNA複製は繰り返し起こる。
4. 反応液中でRNA分子は折りたたまれて**立体構造**をとる。どのように折りたたまれるかは配列によって決まり、わずかな配列の違いが大きな立体構造の差を生みだすことがしばしばある。  
RNA分子の立体構造によって、Qβによる複製効率に差が生じる。Qβにとって、複製しやすいRNA分子と、複製しにくいRNA分子があるということ。
5. その結果、Qβによって高速に複製されるような配列のRNA分子が、より多くのコピーをつくって数を増やすことになる。
6. 試験管で30分ほど反応すると、材料のヌクレオチドを使い切って反応が進まなくなる。
7. 試験管から反応液の一部を採取し、未使用のQβ反応液を入れた新たな試験管に加え、さらにRNA複製反応を進める。
8. RNA複製反応 → 反応液の一部を新たな試験管に移してさらにRNA複製反応を進める というサイクルを繰り返す。

![Figure 1](17BioSim2-04-2-fig1.png "Fig. 1")

充分にサイクルを繰り返すと、**これ以上Qβによる複製効率が向上しない「完全な」RNA分子**だけが試験管内を独占する。

実際に得られた分子は以下の図のようなものだった。この分子は「**Spiegelman's monster**」と呼ばれた。

![Figure 2](17BioSim2-04-2-fig2.png "Fig. 2")

### Spiegelmanの実験のモデル化

Spiegelmanの実験では、RNA分子が環境要因（Qβ反応液）に依存して複製しているので、これまでみてきた増殖のモデルをあてはめることができそうである。

試験管の中に１種類のRNA分子 $S$ （**S**piegelman's monster）が存在し、その数を $x$ とする。$x$ が複製率 $r_x$ で複製し、複製の際に、確率 $f$ で正確なコピーをつくるものとする。$f$ は**複製精度**といえる。

RNA分子の分解を考えないと、RNA分子 $S$ の数 $x$ の増加速度 $\frac{ dx }{ dt }$ は以下の式で表せる。

$$\frac{ dx }{ dt } = r_xfx \tag{1}$$

不正確なコピー（$S$ 以外のRNA分子）の数を $y$ で表すことにする。不正確なコピーは $S$ よりも小さい複製率 $r_y$（$r_x > r_y$）で増加する。 $S$ 以外のRNA分子に複製エラーが起きても、復帰突然変異で $S$ に戻ることはないとみなすと（稀な現象と考えて無視すると）、$y$ の増加速度 $\frac{ dy }{ dt }$ は以下の式で表せる。

$$\frac{ dy }{ dt } = r_yy + r_x(1-f)x \tag{2}$$

式1と式2を足し合わせると、RNAの総数の変化速度を表す微分方程式を得られる。

$$\frac{ d(x+y) }{ dt } = r_xx + r_yy \tag{3}$$

試験管の中で、RNA分子は無限に複製されることはない。ここでは、RNA分子の合成と分解が釣り合ってRNAの総量が不変であるとする。

RNAの合成と分解が釣り合っているということは、RNAの総数（$x+y$）は不変（$\frac{ d(x+y) }{ dt } = 0$）である。

分解に関しては $S$ も、非$S$ も同じ比率で分解するとする。

式3が、RNA全体の合成速度なので、RNAの分解速度も $r_xx + r_yy$ である。

これを考慮して、式1, 2 を、RNA総量不変の状況を表す式へと変更する。

$$\frac{ dx }{ dt } = r_xfx - \frac{x}{x+y}(r_xx + r_yy) \\
\frac{ dy }{ dt } = r_yy + r_x(1-f)x - \frac{y}{x+y}(r_xx + r_yy) \tag{4}$$

RNA総量だけでなく、$S$ と非$S$ の量も不変となる**平衡状態**が存在し、そのとき$S$ の量が $0$ でない（RNAのすべてが非$S$ にならない）のなら、$\frac{ dx }{ dt } = 0$, $\frac{ dy }{ dt } = 0$ になるので：

$$r_yy + r_x(1-f)x = \frac{y}{x+y}(r_xx + r_yy)\\
= \frac{y}{x}r_xfx\\
= r_xfy$$

したがって：

$$r_x(1-f)x = (r_xf - r_y)y$$

ここで、$r_x$, $1-f$, $x$, $y$ はいずれも正の値を持つので：

$$r_xf - r_y > 0 \\
\therefore f > \frac{r_y}{r_x} \tag{5}$$

この結果から、**平衡状態が存在するためには、複製精度 $f$ が、$\frac{r_y}{r_x}$ より大きくなければならない**ことがわかる。


### モデルの意味を考える

その意味を考えてみよう。

RNA分子 $S$ と非$S$ の複製率 $r_x$, $r_y$ に大きな差がないとき、$\frac{r_y}{r_x}$ は $1$ に近づく。したがって、こうした状況では、複製精度 $f$ も $1$ に近い、高精度を維持しなければならない。

いま考えている平衡状態は、元のRNA分子 $S$ が死滅せずに維持される（$x > 0$）ような状態である。$r_x$, $r_y$ に大きな差がない場合に複製精度が低いと、産まれてくる非$S$ が淘汰されずに次々複製するため、やがて $S$ が死滅し、集団全体が非$S$ に埋めつくされることになる。

逆に、$r_x$, $r_y$ に大きな差がある（$r_x \gg r_y$）場合には、複製精度が低くても $S$ は維持されることになる。

そうした状況では、複製精度は $f > \frac{r_y}{r_x}$ を充たす限り、どんなに低くてもいいのだろうか。

非$S$ との競争がなくても、分解して消滅する $S$ よりも多くの正確な $S$ のコピーを合成しなければ、やがて $S$ は死滅する。すなわち、$\frac{ dx }{ dt } > 0$ でなければならない。

$$\frac{ dx }{ dt } = r_xfx - \frac{x}{x+y}(r_xx + r_yy) > 0$$

$r_x \gg r_y$ のとき、$x \ll y$ でないのなら、$r_xx + r_yy \simeq r_xx$ とみなせるので：

$$r_xfx - \frac{x}{x+y}r_xx > 0 \\
f > \frac{x}{x+y} $$

RNA全体に占める $S$ の比率 $\frac{x}{x+y}$ 程度の複製精度 $f$ がないと、徐々にエラーが蓄積し、$S$を維持することができないことがわかる。


### ゲノムサイズの限界

ここまでの検討の結果から、複製精度の値によって、ゲノムサイズ（生物の持つゲノムが持つ遺伝情報量）の限界が定まることがわかる。

$n$ 塩基のDNAからなるゲノムを考えよう。

１塩基あたりのエラー率（複製の際に誤った塩基で置き換えられる確率）を $\mu$ とすると、ゲノム全体の複製精度 $f$ は以下のように書ける。

$$f = (1-\mu)^n \simeq e^{-n\mu} \tag{6}$$

$n\mu = 1$ のとき、$f \simeq 0.37$、$n\mu = 0.1$ のとき、$f \simeq 0.90$ である。極端に楽観的に見積もっても、$n\mu < 1$ である必要はあるだろう。

実際の拡散の複製精度はおおむね以下の通りである。

||エラー率（$\mu$）|
|:-|:-|
|酵素なしの複製|$0.1$ 〜 $0.01$|
|RNAの複製|$10^{-3}$ 〜 $10^{-4}$|
|DNAの複製（校正あり）|$10^{-9}$ 〜 $10^{-10}$|

これらの事実から、たとえばDNA複製精度が $10^{-10}$ であれば、おおむね $10^9$〜$10^{10}$ 塩基対のゲノムを維持できる精度があるといえる。そして、この推論は、真核生物のゲノムサイズとほぼ一致している。

一方、酵素なしの複製では、せいぜい100塩基を複製するのが精一杯であることがわかる。しかし、100塩基のゲノムに、DNAやRNAを複製する酵素をコードすることのは難しそうである。これでは、最初の複製酵素が進化できない。

この問題は、最初にこれを提唱した科学者の名をとって **Eigenのパラドクス**と呼ばれている。

### 【演習１】

100塩基長のRNA分子の集団がある。RNA分子が複製する際、１塩基当たりのエラー率が0.001である。この時、以下の問いに答えなさい。（解答欄はCodeセルになっているが、Markdownに変えて文章と数式で解答してもよい）

1. １つのRNA分子が１塩基のエラーもなく正確に複製する確率を求めなさい。

In [None]:
# 解答欄

<ol start="2"><li>
ある特定の配列 $S$ が、他のすべての配列よりも 20% 速く複製する。$S$ 以外のRNA分子はすべて同じ複製速度を持つ。この時、自然選択と突然変異が平衡に達した状態では、集団内のRNA分子のうち、どれだけの割合が $S$ になるだろうか。
</li></ol>


In [None]:
# 解答欄

<ol start="3"><li>
平衡状態で $S$ が存在できる（$S > 0$）エラー率の最大値を求めなさい。
</li></ol>


In [None]:
# 解答欄

## 遺伝的浮動

これまでの検討はすべて**決定論的**だった。  
つまり、現象が確率の期待値通りに起こると仮定した議論だった。コインを100回投げると、いつでも正確にぴったり50回表が出ると仮定しているような状況である。  
現実には、確率的な偶然によって、結果は影響を受ける。  
個体数の大きい集団（サイズの大きい集団）では、偶然の影響は小さくなり、決定論の仮定を用いてもほぼ正確な結果を得られる。  
一方、小さい集団では、偶然の影響が無視できなくなる。生物集団への偶然の影響を**遺伝的浮動**という。

### 遺伝的浮動の基礎的な数理

簡単なモデルを考えてみよう。

- $N$ 個体の集団。無性生殖で子を産んで増える。
- 個体には $a$, $A$ の２つの**タイプ**がある。
  - 両者に遺伝的な優劣はなく、自然選択ははたらかない。
- ある世代での $a$ の頻度が $p_a$, $A$ の頻度が $p_A$ だったとする。
- その場合、$a$ の個体数は $p_aN$, $A$ の個体数は $p_AN$ である。
- 子は親と同じタイプとする。

この時、次の世代の $a$, $A$ の頻度を $p'_a$, $p'_A$ とする。  
個体数が無限にいる**無限集団**では、$p'_a = p_a$, $p'_A = p_A$ である。  
個体数が有限の小さな集団では、それぞれの個体が産む子の数が偶然多かったり少なかったりすることの影響が無視できなくなる。

次世代の $a$, $A$ の頻度の**期待値** $E$は、それぞれ $E(p'_a) = p_a$, $E(p'_A) = p_A$ である。  
しかし、実際には偶然によるふらつきがあるため、$p'_a$, $p'_A$ は期待値通りにはならない。（サイコロを２個振った目の合計の期待値は７だが、毎回７になるわけではないのと同じ）

偶然によるふらつきの大きさの指標になるのが**分散**である。$p'_a$ の平均を $\bar{p}'_a$ と書くと、分散 $V$ は以下のように書ける。

$$V_a = E(p'_a-\bar{p}'_a)^2$$

ここで、$\bar{p}'_a = p_a$ なので、$V_a = E(p'_a-p_a)^2$ となる。分散の代わりに**標準偏差** $\sigma$ も指標に用いることができる。

$$\sigma_a = V_a^{\frac{1}{2}}$$

集団中の各個体が正確に１個体の子を産むなら、$p'_a = p_a$ となって、$V = 0$ である。

ある個体が産む子の数についての現実に近い仮定は**[超幾何分布](https://ja.wikipedia.org/wiki/超幾何分布)**に従うというものである。$N$ がある程度大きければ**[ポアソン分布](https://ja.wikipedia.org/wiki/ポアソン分布)**に従うとしても問題ない。  
ポアソン分布に従うとすると、次世代集団のそれぞれの子が $a$ である確率は $p_a$ である。子のうち $0, 1, 2,...,N$ 個体がタイプ $a$ である確率は **二項分布** $(p_a+p_A)^N$ を展開した各項の値に等しい：

$$p_a^N, Np_a^{N-1}p_A, \frac{N(N-1)}{2}p_a^{N-2}p_A^2,..., p_A^N$$

二項分布には以下の表のような性質がある。

||$a$タイプの個体数|$a$タイプの頻度|
|:-:|:-:|:-:|
|平均|$Np_a$|$p_a$|
|分散|$Np_a p_A$|$\frac{p_a p_A}{N}$|
|標準偏差|$\sqrt{Np_a p_A}$|$\sqrt{\frac{p_a p_A}{N}}$|

例えば、$p_a = p_A = 0.5$ の場合、

$$\sigma(p'_a) = \sqrt{\frac{p_a p_A}{N}} = \frac{1}{2\sqrt{N}}$$

これを、いくつかの $N$ について計算すると以下のようになる：

|集団のサイズ $N$|$10$|$100$|$1000$|$10^6$|
|:-|:-|:-|:-|:-|
|$p'_a$の平均|$0.5$|$0.5$|$0.5$|$0.5$|
|$p'_a$の標準偏差|$0.158$|$0.050$|$0.0158$|$0.0005$|

個体数100の集団に $a$ が50個体いたとき、次世代の $a$ の数は、おおむね**平均値±標準偏差**すなわち、45〜55個体の間である。

#### 遺伝的浮動の特徴

1. 有限集団では、自然選択がはたらかなくても、集団を構成する個体の頻度は世代ごとに変動する。  
世代変動のデータから、自然選択の存在を主張する際には、遺伝的浮動の範囲を超える有意な変化が起こっていることを示さなければならない。

2. 集団が小さくなるほど、遺伝的浮動による影響は大きくなり、個体種の頻度のふらつきは大きくなる。

3. 有限集団は、**最終的にはある１つのタイプが集団の全個体を占め、他のタイプはすべて消滅する。**


### 【演習２】遺伝的浮動のシミュレーション

以下の条件・手順で、$N$ 個体からなる集団が、ある１つのタイプに占拠されるまでの系譜をシミュレーションしてみよう。

- 集団の個体数 $N$ は、その都度決められるようにする。
- 初期状態では、$N$ 個の個体が、すべて違うタイプとする。
- 世代交代の際には、次の操作を $N$ 回繰り返して次世代の集団をつくる。
  - 現在の集団から、ランダムに１個体を抽出し、取り出された個体と同じタイプの１個体を、次世代の集団に加える。
- 次世代集団ができたら、集団に含まれる各タイプの個体数を記録する。
- つくった次世代集団を新たな「現在の世代」として、さらにその次の世代をつくる。
- ひとつのタイプが集団を埋めつくすまで、世代交代を繰り返す。
- ひとつのタイプが集団を埋めつくしてシミュレーションが終了したら、最終的に集団を占拠したタイプの個体数が世代ごとにどう変動してきたか、グラフに描画する。

In [14]:
# 解答欄

### 【演習３】

演習２で描いたような、遺伝的浮動のグラフがあったとする。ただし、シミュレーションしたのではなく、実際の生物集団を観察したデータをプロットしたものだという。

そのデータが捏造されたものかどうかを確かめる簡単な統計テストを挙げよ。


In [14]:
# 解答欄

In [11]:
from math import log
e**-0.1


0.9048374180359595

In [12]:
e**-1

0.36787944117144233