# 文字列の進化モデル

ＳＦＣのキャッチフレーズ「未来からの留学生」を「正しい文字列」とする。いまから、「正しい文字列」を目指して、ランダムな文字列からはじまる「文字列の進化」のシミュレーションをしてみる。

文字列に使うことのできる文字は「未」「来」「か」「ら」「の」「留」「学」「生」「慶」「應」「義」「塾」「大」「学」「湘」「南」「藤」「沢」の18文字だけとする。

祖先となる最初の文字列（**祖先文字列**）は、ひとつひとつの文字を先の18文字からランダムに選んだ長さ８文字の文字列とする。ランダムに選ぶので、同じ文字が何回出てきても構わない。

## 1. 祖先文字列は何種類あるか？

文字列の長さは８文字。１ヶ所に使える文字は18種類。１文字なら18通り、２文字なら18×18=324通り。

### Pyrhonによる四則演算
- 加減乗除　「+」「-」「\*」「/」
- べき乗　「\*\*」　例 7<sup>3</sup> = 7 ** 3

In [None]:
# 利用できる文字の数 N_moji、文字列の長さ L
N_moji = 18.0
L = 8.0
L ** N_moji

## 2. 祖先文字列の８文字のうち、少なくとも１つが正しい確率を求めなさい。

### Pythonの数値
- Pythonには数種類の数値のリテラル（データの型）がある。整数（int）、浮動小数点数（float）など。
- ふだんは意識しなくても困らないことが多いが、思いもよらぬ間違いに遭遇することもある。

In [None]:
print 1.0 / 3.0
print 1 / 3

- ８文字すべてが間違っているもの以外のすべてが「少なくとも１つが正しい」
- ある１文字が誤りである確率は 17/18、２文字つづけて誤りである確率は 17/18 × 17/18 ≒ 0.8920

In [None]:
1.0 - (( N_moji - 1.0 )/ N_moji ) ** L

## 3. 祖先文字列の８文字のうち、１つだけが正しい確率を求めなさい。

- 正しい文字が何文字目に入るかで、８通りある。
- 残りの７文字はすべて誤りでなければならない。

In [None]:
L * ( 1.0 / N_moji ) * (( N_moji - 1.0 )/ N_moji )**( L - 1.0)

# 世代交代
祖先文字列のコピーを10個つくる。各文字をコピーする時、0.99（99％）の確率で元と同じ文字が組み込まれるが、0.01（1％）の確率で「突然変異」が起き、元とは違う文字が組み込まれる。文字は、元とは違う７文字の中からランダムに選ばれる。

## 4. 祖先文字列に正しい文字が１つもなかったとする。10個のコピーのうち少なくとも１つのコピーで、少なくとも１文字が正しい確率を求めなさい。

10個のコピーのうち少なくとも１つのコピーで少なくとも１文字が正しい
＝10個のコピーに含まれる80文字のうち１文字以上が正しい
＝80文字すべてが誤っているもの以外のすべて

In [None]:
# 変異確率 p_mut、世代あたりのコピーの数 N_copy
p_mut = 0.01
N_copy = 10

1.0 - ( 1.0 - p_mut ) ** ( L * N_copy )

### 計算のヒント
*x* が小さく *n* が大きい場合に、 ( 1 - *x* )<sup>n</sup> = *e*<sup>-nx</sup> で近似してよい。*e* は自然対数。

## 6. 世代を重ねていくと、やがて、８文字のうち７文字が正しい文字列が「親」になる。そのような「親」からつくられた10個のコピーの中に８文字すべてが正しい文字列が１つある確率を求めなさい。

- まず１つのコピーが８文字すべて正しくなる確率を求める。
- そのためには……
  - 誤っている１文字に変異が起こり、正しい文字に変わらなければならない。
  - すでに正しい７文字が、間違った文字に変わるような突然変異は１つも起こってはならない。

In [None]:
# ある１文字が突然変異によって正しくなる確率 p_mut_correct （変異前が正しい文字でも誤った文字でも同じ）
p_mut_correct = p_mut * ( 1.0 / N_moji )

print p_mut_correct

In [None]:
# ある１文字が突然変異によって誤った文字に変わってしまう確率 p_mut_incorrect （変異前が正しい文字でも誤った文字でも同じ）
p_mut_incorrect = p_mut * ( ( N_moji - 1.0 )/ N_moji )

print p_mut_incorrect

In [None]:
# ７文字正しい文字列が８文字正しくなる確率 p_7to8
p_7to8 = p_mut_correct * ( 1.0 - p_mut_incorrect )**7.0
print p_7to8

In [None]:
# 10個のコピーが１つも８文字正しくならない確率
( 1.0 - p_7to8 )**N_copy

In [None]:
# ７文字が正しい10個のコピーのうち少なくとも１つが８文字正しくなる確率 P_7to8
P_7to8 = 1.0 - ( ( 1.0 - p_7to8 )**N_copy )
print P_7to8

８文字正しい文字列が２つ以上出現する確率は非常に小さいので無視することにする。

P_7to8 = 0.00519

としておく。

Ans. 0.00139

## 7. ７文字が正しい文字列から、８文字すべてが正しくなるまでに、だいたいどのくらいの世代がかかるだろうか。

In [None]:
print "{} 世代".format( 1.0 / P_7to8 )

## 8. １文字も合っていない祖先文字列から、８文字すべてが正しくなるまでに、だいたいどのくらいの世代がかかるだろうか。

In [None]:
# ６文字正しい文字列が７文字（以上）正しくなる確率 p_6to7
p_6to7 = 2.0 * p_mut_correct * ( 1.0 - p_mut_incorrect )**6.0
print p_6to7

In [None]:
# ６文字が正しい10個のコピーにうち少なくとも１つが７文字（以上）正しくなる確率 P_6to7
P_6to7 = 1.0 - ( ( 1.0 - p_6to7 )**N_copy )
print P_6to7

In [None]:
print "{} 世代".format( 1.0 / P_6to7 )

Ans. おおむね 500 世代程度

## 9. 突然変異が起こる確率が0.01（1％）から0.1（10％）に増えると、問8でかかる世代数は短くなるだろうか。考察しなさい。

In [None]:
p_mut = 0.1
p_mut_correct = p_mut * ( 1.0 / N_moji )
p_mut_incorrect = p_mut * ( ( N_moji - 1.0 )/ N_moji )
p_7to8 = p_mut_correct * ( 1.0 - p_mut_incorrect )**7.0
P_7to8 = 1.0 - ( ( 1.0 - p_7to8 )**N_copy )

print "p_7to8 = {}".format( p_7to8 )
print "P_7to8 = {}".format( P_7to8 )
print "{} 世代".format( 1.0 / P_7to8 )