- - - - - - - - - - - - -
# <div style="text-align: center;"> Python 練習問題 </div>

「Python プログラミング例」のテキストは[こちら](2_python_examples.ipynb)（クリックすると、新しいタブが開きます）

-------------------------

以下の計算式はそれぞれ集団遺伝学における統計的指標と関わっています。それらを計算するためのプログラムを作成してください。それぞれの指標が何を計るためのものなのかは別途、皆さん自身で作ったプログラムを動かしてもらいながら解説します。

---

## Exercise 1
Wattersonの*θ*という指標が集団遺伝学には存在します。その式は以下のように計算されます。
$$ \theta_{W} = \frac{S}{a} $$

上記の式における*a*は以下のように求められます。

$$ a = \sum_{i=1}^{n-1}\frac{1}{i} $$

Wattersonの*θ*を求める上で必要な情報は$S$（segregating site数）と$n$（染色体の本数、すなわち配列のサンプル数）です。$θ$ の横にある$W$は添字であって、掛け算ではないことに注意しながら、__Wattersonの$θ$を計算する関数を作成してください。__

```python
# プログラミングのヒント
def watterson_theta(S, n):
    a = 0
    for i in range(n-1):
        a = a + 1/(i+1)
        :
        :
    return theta

theta = watterson_theta(4, 5)
print(theta) # 1.92
```

---

## Exercise 2
$\pi$（塩基多様性）の計算方法について解説します。  
<font face="Osaka">
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（seq０） A T G C A T G  
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（seq１） A T C C A C C  
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（seq２） G A G T A T C  
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（seq３） G T G C A T C  
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（seq４） G T G T A C C  

seq０と同じ塩基数　　　　　　　　　　　　　　　2 4 4 3 5 3 1  
seq０と違う塩基数　　　　　　　　　　　　　　　3 1 1 2 0 2 4  
→上と下を掛け算する　　　　　　　　　　6 4 4 6 0 6 4  
</font>

上の図をみてください。
1. 今回は一番上のseq0を基準配列とします。
2. それぞれのサイト（塩基座）について、基準と同じ塩基の個数と、基準と違う塩基の個数を数えます。
3. それらを、それぞれのサイトに関して掛け算します。
4. 掛け算した結果の和が分子になります。
$$ \pi=\frac{6+4+4+6+0+6+4}{n(n-1)/2} $$

5. _n_  にはサンプルの配列数が入ります。今回はサンプルの配列数が５本なので *n = 5* です。よって、
$$ \pi=\frac{6+4+4+6+0+6+4}{5(5-1)/2}=3 $$

今、基準と同じ塩基の数と、基準と違う塩基の数がそれぞれわかっていて、リストになっています。__それらの２つのリストを引数にとる関数を作成してください。__なお、例における式は```(6+4+4+6+0+6+4)/(5*(5-1)/2)```と計算され、分子や分母に```()```をしていることに注意してください。

```python
# プログラミングのヒント
def diversity(ref, alt):
    nume = 0 # 分子
    for ref_n, alt_n in zip(ref, alt):
        nume = nume + ref_n*alt_n
    n = ref[0] + alt[0]
        :
        :
    return pi

ref = [2,4,4,3,5,3,1] # 基準と同じ塩基の数のリスト
alt = [3,1,1,2,0,2,4] # 基準と違う塩基の数のリスト

pi = diversity(ref, alt)
print(pi) # 3.0
```

---

## Exercise 3
２つの集団間の遺伝的距離を表す方法として$F_{ST}$という指標があります。$F_{ST}$の計算方法は沢山ありますが、ここではNeiの$F_{ST}$を使って計算しましょう。式は以下のようになります。

$$ F_{ST} = \frac{\pi_{12}-(\pi_{1}+\pi_{2})/2}{\pi_{12}} $$

上の式でいうところの$\pi$はExercise2で作ったプログラムで計算できる$\pi$のことです。今、２つの集団をそれぞれ集団１と集団２とします。$\pi_{1}$は集団１に関して計算した$\pi$です。同様に、$\pi_{2}$は集団２に関して計算した$\pi$です。ここで、集団１と集団２が同じ１つの合わさった集団であると仮定します。すなわち、

```python
ref1 = [2,4,5] # 集団１で基準と同じ塩基の数のリスト
alt1 = [3,1,0] # 集団１で基準と違う塩基の数のリスト

ref2 = [2,1,0] # 集団２で基準と同じ塩基の数のリスト
alt2 = [3,4,5] # 集団２で基準と違う塩基の数のリスト
```
という２つの集団が存在した場合、合わさった集団は以下のようになります。
```python
ref12 = [4,5,5] # 全集団で基準と同じ塩基の数のリスト
alt12 = [6,5,5] # 全集団で基準と違う塩基の数のリスト
```
その集団で計算した$\pi$が$\pi_{12}$です。以上をもとに、__$F_{ST}$を計算するプログラムを作成してください。__なお、集団１も集団２も基準配列は同じ配列を使っているとします。

```python
# プログラミングのヒント
def diversity(ref, alt):
    :
    :
    return pi

def nei_fst(ref1, alt1, ref2, alt2):
    ref12 = []
    for ref_n1, ref_n2 in zip(ref1, ref2):
        ref12.append(ref_n1+ref_n2)
        :
    pi1 = diversity(ref1, alt1)
        :
    return fst

ref1 = [2,4,4,3,5,3,1] # 集団１で基準と同じ塩基の数のリスト
alt1 = [3,1,1,2,0,2,4] # 集団１で基準と違う塩基の数のリスト

ref2 = [2,1,1,3,0,3,3] # 集団２で基準と同じ塩基の数のリスト
alt2 = [3,4,4,2,5,2,2] # 集団２で基準と違う塩基の数のリスト

fst = nei_fst(ref1, alt1, ref2, alt2)
print(fst) # 0.184...
```


---

## 質問・要望
質問や要望があれば、メール本文か下のセルに書いてください。

---

## 課題の提出について

今回の課題番号：`03`

提出方法：
1. 課題終了後のノートブックファイルをダウンロードする
1. そのファイルをメールに添付して、下記アドレスに送信する  

    __＊重要＊　  
    メールの件名を `HW[課題番号2桁]+SID[学籍番号(4桁-2桁-４桁)]`（すべて半角英数） にしてください。__  
    
    例） HW03+SID1234-56-7890
    

提出先: cropevol@gmail.com

提出期限: 2018年10月22日（月） 17:00まで