# 超簡単な進化のモデル
* ランダムな文字列が、**正しい** 文字列に向かって進化するモデルをつくり、実際に進化させてみよう。

# 進化とは
* **ある環境** に、**自己複製する個体** がいて、自己複製が完璧にできないために **変異個体** が産まれるようなら、ダーウィンが提唱した **自然選択による進化** が起こる。
* 自己複製する個体は、自己複製に要する時間（繁殖速度）があり、それは、環境によって変化する。
* 個体が、自分の性質に適した環境に置かれていれば繁殖速度は速くなるし、適していなければ遅くなる。
* 変異個体は、オリジナルの個体とは多かれ少なかれ異なるのだから、繁殖速度も変わる。
* 微妙な繁殖速度の差は、世代を重ねるごとに圧倒的な差に広がり、やがて、もっとも環境に適応した繁殖速度の速い個体の子孫が、その環境を支配する。
* ただし、環境が変化すれば、各個体の繁殖速度も変わるため、ある環境での勝者が、永久に勝者でいられるわけではない。
    * 環境中にある種の生物個体が大量に繁殖した、という事実そのものが、環境の変化となりうる。

# 超簡単な進化のモデル
* ランダムな文字列が、**正しい** 文字列に向かって進化するモデルをつくり、実際に進化させてみよう。

## ゴールとなる正しい文字列
* 何でもかまわないが、ここでは **CHARLESROBERTDARWIN**（19文字）を最高の文字列とし、ゴールとなる正しい文字列であるとする。

## 進化の初期状態
* 19文字のランダムな文字列（大文字のA〜Z）を **個体** と呼び、最初の世代とする。
* 個体数は 10 とする。

## １世代の間に起こること
* 個体は **自然選択** を受け、次の世代に生き残る個体と、死に絶える個体に選別される。
    * 自然選択の基準（**選択圧**）は、ここでは、最高の文字列との類似度とする。最高の文字列に近い文字列ほど適応度が高いものとする。
* 生き残った個体は、全体の個体数が 10 になるまで **自己複製** する。
* 自己複製の際、ある確率で **変異** が起こる。

### 自然選択
* 単純のため、**もっとも適応度が高い個体１つだけが生き残る** こととする。
    * 複数の個体が同じ適応度で並んだ場合は、順番が若い個体が生き残ることとする。

### 自己複製
* **生き残った１個体が、10個体のコピーを作る。これを次の世代とする。**
    * 生き残った個体自身は、寿命のため死ぬものとする。

### 変異
* コピーを作る際、19個の文字を１文字ずつ複製していく。
    * その際、**１文字あたり１％の確率でエラーが起こる** こととする。
    * エラーが起こった場合、その文字は、他のアルファベットに置き換わる。
    * 現在の文字と異なる25種類のアルファベットのどれと置き換わるかは、ランダムに決まるものとする。

# モデリング（１）
* ここまでを Python でプログラミングしてみる。

## 利用可能な文字A~Zを含むリストをつくる
* 利用可能な26種類の文字を含むリスト `bases` を定義。
    * 名前の由来：遺伝子のアルファベットは４種類の塩基（base）。

In [None]:
bases = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', \
         'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', \
         'U', 'V', 'W', 'X', 'Y', 'Z' ]

* リスト `bases` の中の文字は、0〜25 の番号で呼び出せる。（プログラミング言語では一般に最初は０番）
* リストをこうせいしているものを **要素** と呼ぶ。`bases` は26個の文字を要素とするリストである。

In [None]:
print( bases[ 11 ] )

In [None]:
print( bases[ 25 ] )

* 存在しない番号の要素を呼びだそうとするとエラーになる

In [None]:
print( bases[ 100 ] )

## リスト `bases` からランダムな１文字を取りだす
* 関数 `random.choice()` を使うと、リストからランダムに１つの要素を取りだしてくれる
* 関数 `random.choice()` を提供するモジュール `random` を `import` すると、関数 `random.choice()` を使えるようになる。

In [None]:
import random
print( random.choice( bases ))

## 19文字の「個体」をつくる
* 繰り返し処理で文字を繋げていけばよい
* 個体を文字列 `genome` とする。
* １文字加えるごとに `print()` で出力してみる。
    *  `format()` は文字列を整形する関数。詳細は省略。

In [None]:
genome = ''

for i in range( 19 ):
    genome = genome + random.choice( bases )
    print( "{:2}: {}".format( i + 1, genome ))


## 個体を初期化する関数 `initialize_genome()` を用意する
* 個体をつくる作業は何度も繰り返すことになるので、関数を用意しておくと便利だし、ケアレスミスの防止になる。

In [None]:
def initialize_genome():
    genome = ''
    for i in range( 19 ):
        genome = genome + random.choice( bases )
    return genome

print( initialize_genome() )

## 個体の集団 `population` をつくる
* 10 個体を要素とするリスト `population` をつくり、これを最初の世代とする

In [None]:
population = [] # 空のリスト
for i in range( 10 ):
   population.append( initialize_genome() ) 

# populationから１要素ずつ取りだして print してみる
for a_genome in population:
    print( a_genome )

## 自然選択する
* 集団 `population` から、もっとも最高の文字列に近い１個体を選ぶ。
* そのためには、個体と最高の文字列の類似度 `homology` を評価する必要がある。
* 最高の文字列を文字列 `perfect_genome` として定義する。
* 個体の文字と、１文字ずつ比較して、合致する文字の数をカウントする。

In [None]:
perfect_genome = "CHARLESROBERTDARWIN"

a_genome = initialize_genome()
print( a_genome )

homology = 0
for i in range( 19 ):
    if a_genome[ i ] == perfect_genome[ i ]:
        homology = homology + 1

print( homology )

* 類似度を計算するプロセスを関数 `get_homology( a_genome )` にまとめる。
    * 引数 `a_genome` の類似度を返す。

In [None]:
def get_homology( a_genome ):
    homology = 0
    for i in range( 19 ):
        if a_genome[ i ] == perfect_genome[ i ]:
            homology = homology + 1
    return homology

sample_genome = initialize_genome()
print( "{}: {}".format( sample_genome, get_homology( sample_genome )))

### 集団の各個体の類似度を評価する

In [None]:
for g in population:
    print( "{}: {}".format( g, get_homology( g )))

### 最大の適応度を持つ生き残り個体を抽出する

In [None]:
max_homology = -1
for g in population:
    h = get_homology( g )
    if h > max_homology:
        survivor = g
        max_homology = h

print( "survivor: {} (homology = {})".format( survivor, max_homology ))

* 生き残りを抽出する関数 `selection( a_population )` をつくる。
    * 引数 `a_population` から、もっとも類似度の高い個体を抽出して返す。

In [None]:
def selection( a_population ):
    max_homology = -1
    for g in a_population:
        h = get_homology( g )
        if h > max_homology:
            survivor = g
            max_homology = h
    return survivor

the_survivor = selection( population )
print( "survivor: {} (homology = {})".format( the_survivor, get_homology( the_survivor ) ))

## 自然選択の生き残りが自己複製し、次の世代の集団をつくる

In [None]:
next_population = []

for i in range( 10 ):
    next_population.append( the_survivor )

for g in next_population:
    print( g )

## 自己複製の際に、１％の確率で突然変異が起こるようにする。
* まず、１文字に突然変異を起こすプログラムを書く。
* 0.0以上、1.0未満の乱数を生成する関数 `random.random()` を使って、１％の確率で突然変異を起こす。

In [None]:
# ランダムな１文字を選ぶ
a_base = random.choice( bases )
print( a_base )

while True:  # 永久ループ
    if random.random() * 100. < 1.0:
        while True:
            mutated_base = random.choice( bases )
            if a_base != mutated_base:
                print( mutated_base )
                break
        break
    else:
        print( a_base )
        continue


* 関数 `single_base_replication( a_base )` にまとめる

In [None]:
def single_base_replication( a_base ):
    if random.random() * 100. < 1.0:
        while True:
            mutated_base = random.choice( bases )
            if a_base != mutated_base:
                a_base = mutated_base
                break
    return a_base


for i in range( 1000 ):
    a_before = random.choice( bases )
    an_after = single_base_replication( a_before )
    print( "{:3}: Before-After: {}-{}".format( i, a_before, an_after ))
    if a_before != an_after:
        break


### 変異を織り込みつつ、１つの個体（19文字の文字列）を自己複製する

In [None]:
print( the_survivor )

a_child = ''
for b in the_survivor:
    a_child =  a_child + single_base_replication( b )

print( a_child )

* 関数 `replicate_genome( a_genome )` にまとめる

In [None]:
def replicate_genome( a_genome ):
    a_child = ''
    for b in the_survivor:
        a_child =  a_child + single_base_replication( b )
    return a_child

print( the_survivor )
print( replicate_genome( the_survivor ))

## 変異を織り込みつつ、生き残った個体から次の世代の集団をつくる

In [None]:
next_population = []

for i in range( 10 ):
    next_population.append( replicate_genome( the_survivor ))


print( the_survivor )
print('')  # 空行
for g in next_population:
    print( g )

* 関数 `next_genaration( a_genome )` にまとめる

In [None]:
def next_genaration( a_genome ):
    next_population = []
    for i in range( 10 ):
        next_population.append( replicate_genome( the_survivor ))
    return next_population

print( the_survivor )
print('')  # 空行
for g in next_genaration( the_survivor ):
    print( g )

## ここまでに作った関数をひととおりの流れにまとめてみる
* 初期集団をつくる
* 自然選択の生き残りを抜き取る
* 次世代の集団をつくる

In [None]:
population = []
for i in range( 10 ):
   population.append( initialize_genome() ) 

for g in population:
    print( g )
print('')  # 空行

the_survivor = selection( population )
population = next_genaration( the_survivor )
for g in population:
    print( g )

# モデリング（２）
* 世代交代を繰り返し、最高の文字列へと進化していく過程を計算する。


## 最高の文字列と５文字合致するまで世代発展させてみる

In [None]:
n_genaration = 1 # 世代数

the_population = []
for i in range( 10 ):
   the_population.append( initialize_genome() ) 

the_survivor = selection( the_population )
the_homology = get_homology( the_survivor )
print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))

while the_homology < 5:
    the_population = next_genaration( the_survivor )
    n_genaration = n_genaration + 1

    the_survivor = selection( the_population )
    the_homology = get_homology( the_survivor )
    print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))


## 最高の文字列に到達するまで世代発展させてみる

In [None]:
n_genaration = 1 # 世代数

the_population = []
for i in range( 10 ):
   the_population.append( initialize_genome() ) 

the_survivor = selection( the_population )
the_homology = get_homology( the_survivor )
print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))

while the_homology < 19:
    the_population = next_genaration( the_survivor )
    n_genaration = n_genaration + 1

    the_survivor = selection( the_population )
    the_homology = get_homology( the_survivor )
    print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))



## 進化過程をグラフに描いてみる
* 必要なモジュールをインポート

In [None]:
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt

### 進化過程をnumpyの２次元配列に記録

In [None]:
n_genaration = 1 # 世代数

the_population = []
for i in range( 10 ):
   the_population.append( initialize_genome() ) 

the_survivor = selection( the_population )
the_homology = get_homology( the_survivor )
print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))

evolution_history = np.array( [[ n_genaration, the_homology ],] )

while the_homology < 19:
    the_population = next_genaration( the_survivor )
    n_genaration = n_genaration + 1

    the_survivor = selection( the_population )
    the_homology = get_homology( the_survivor )
    print( "gen {:4}: {:2} ({})".format( n_genaration, the_homology, the_survivor ))
    evolution_history = np.append( evolution_history, [[ n_genaration, the_homology ],], axis = 0 )


### グラフをプロット

In [None]:
plt.figure()
plt.plot( evolution_history[ :, 0 ], evolution_history[ :, 1 ] )
plt.yticks([0, 5, 10, 15, 19])  # 縦軸の目盛りを設定

## モデリング（３）変異する確率を変えられるようにする

In [None]:
def single_base_replication_2( a_base, mutation_rate ):
    if random.random() * 100. < mutation_rate:
        while True:
            mutated_base = random.choice( bases )
            if a_base != mutated_base:
                a_base = mutated_base
                break
    return a_base

def replicate_genome_2( a_genome, mutation_rate ):
    a_child = ''
    for b in a_genome:
        a_child =  a_child + single_base_replication_2( b, mutation_rate )
    return a_child

def next_genaration_2( a_genome, mutation_rate ):
    next_population = []
    for i in range( 10 ):
        next_population.append( replicate_genome_2( a_genome, mutation_rate ))
    return next_population



In [None]:
n_genaration = 1 # 世代数

the_mutation_rate = 1.0  # 突然変異確率（％）

the_population = []
for i in range( 10 ):
   the_population.append( initialize_genome() ) 

the_survivor = selection( the_population )
the_homology = get_homology( the_survivor )

the_evolution_history = np.array( [[ n_genaration, the_homology ],] )

while the_homology < 19:
    the_population = next_genaration_2( the_survivor, the_mutation_rate )
    n_genaration = n_genaration + 1

    the_survivor = selection( the_population )
    the_homology = get_homology( the_survivor )
    the_evolution_history = np.append( the_evolution_history, [[ n_genaration, the_homology ],], axis = 0 )

    if n_genaration > 10000:  # 10000世代でゴールに達しない場合は打ち切る
        break

plt.figure()
plt.plot( the_evolution_history[ :, 0 ], the_evolution_history[ :, 1 ], label = the_mutation_rate )
plt.yticks([0, 5, 10, 15, 19])      # 縦軸の目盛りを設定
plt.legend( loc = 'lower right' )   # 凡例を表示、場所を右下に指定

### １回の進化過程をひとつの関数にまとめる

In [None]:
def get_an_evolution_history( mutation_rate ):
    n_genaration = 1 # 世代数

    p = []
    for i in range( 10 ):
       p.append( initialize_genome() ) 

    s = selection( p )
    h = get_homology( s )

    evo = np.array( [[ n_genaration, h ],] )

    while h < 19:
        p = next_genaration_2( s, mutation_rate )
        n_genaration = n_genaration + 1

        s = selection( p )
        h = get_homology( s )
        evo = np.append( evo, [[ n_genaration, h ],], axis = 0 )

        if n_genaration > 10000:
            break

    return evo

the_mutation_rate = 1.0  # 突然変異確率（％）
the_evolution_history = get_an_evolution_history( the_mutation_rate )
plt.figure()
plt.plot( the_evolution_history[ :, 0 ], the_evolution_history[ :, 1 ], label = the_mutation_rate )
plt.yticks([0, 5, 10, 15, 19])  # 縦軸の目盛りを設定
plt.legend( loc = 'lower right' )


### 突然変異率を 1〜10％の範囲で変化させてみる

In [None]:
plt.figure()

for r in range( 1, 11 ):
    the_evolution_history = get_an_evolution_history( r )
    plt.plot( the_evolution_history[ :, 0 ], the_evolution_history[ :, 1 ], label = r )


plt.xscale('log')
plt.yticks([0, 5, 10, 15, 19])  # 縦軸の目盛りを設定
plt.legend( loc = 'lower right' )

### 同じ突然変異率で繰り返し試行する
* 確率事象なので毎回結果はことなり、ばらつく

In [None]:
plt.figure()

the_mutation_rate = 1.0

for i in range( 10 ):
    the_evolution_history = get_an_evolution_history( the_mutation_rate )
    plt.plot( the_evolution_history[ :, 0 ], the_evolution_history[ :, 1 ], label = the_mutation_rate )


plt.yticks([0, 5, 10, 15, 19])  # 縦軸の目盛りを設定
plt.title( "mutation rate = {} %".format( the_mutation_rate ), fontsize=20)


## グラフをパネル上に並べる

In [None]:
fig, axes = plt.subplots( 3, 2, figsize=(12, 12), dpi=72 )
ax_x, ax_y = 0, 0

for r in [ 1, 2, 4, 6, 8, 10 ]:
    for i in range( 10 ):
        the_evolution_history = get_an_evolution_history( r )
        axes[ ax_x, ax_y ].plot( the_evolution_history[ :, 0 ], \
                           the_evolution_history[ :, 1 ], \
                           label = the_mutation_rate )

    axes[ ax_x, ax_y ].set_yticks([0, 5, 10, 15, 19])  # 縦軸の目盛りを設定
    axes[ ax_x, ax_y ].set_title( "mutation rate = {} %".format( r ), fontsize=16)

    if ax_y == 1:
        ax_x = ax_x + 1
        ax_y = 0
    else:
        ax_y = 1
