<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L07_mutmap.ipynb)

# Pythonライブラリを使う -実践- [課題]

## 課題で使うサンプルデータ

　第7回の実習で使ったサンプルデータと同じです。イネの葉が「淡緑色（pale green）」となる形質のMutMap解析データです。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/mutmap01.jpg?raw=true" alt="mutmap01" height="300px">

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/mutmap03.jpg?raw=true" alt="mutmap03" height="300px">

サンプルデータのソース

> Abe, A., Kosugi, S., Yoshida, K., Natsume, S., Takagi, H., Kanzaki, H., Matsumura, H., Yoshida, K., Mitsuoka, C., Tamiru, M., Innan, H., Cano, L., Kamoun, S., Terauchi, R. (2012). [Genome sequencing reveals agronomically important loci in rice using MutMap.](https://www.nature.com/articles/nbt.2095) Nature biotechnology, 30(2), 174.

In [1]:
"""
＊重要＊
最初にこのセルを実行してください。
この課題で使うサンプルファイルをダウンロードして、pandasデータフレームを作成します。
"""
#--- データのダウンロード  ---
!wget -q https://raw.githubusercontent.com/CropEvol/lecture/master/data/mutmap_bulk.txt -O mutmap_bulk.txt

#--- pandasを読み込む  ---
import pandas as pd

#--- ファイルを読み込む ---
dataset = 'mutmap_bulk.txt' # 読み込みファイル名

# header=None（列名行なし）を指定した場合、列名として通し番号が付けられます。
# names=[リスト]とすることで、通し番号の代わりに列名を指定することが可能です。
df = pd.read_csv(dataset, sep="\t", header=None, names=['chr', 'pos', 'ref_nucl', 'alt_nucl', 'ref_N', 'alt_N'])

#--- 表示 ---
df

Unnamed: 0,chr,pos,ref_nucl,alt_nucl,ref_N,alt_N
0,chr10,51406,G,A,6,3
1,chr10,59101,A,T,6,3
2,chr10,59112,A,C,7,2
3,chr10,61001,A,T,11,3
4,chr10,161375,A,G,13,5
...,...,...,...,...,...,...
267,chr10,22791355,C,T,10,4
268,chr10,22791771,G,T,6,3
269,chr10,22791897,A,G,5,4
270,chr10,22851514,C,G,10,3


## Exercise 1

　SNP-indexを求めて、新たな列として追加してください。

- ヒント1: SNP-index = alt_N / (ref_N + alt_N)
- ヒント2: 列データの取り出し方 => 第6回の実習内容「1.pandas」
- ヒント3: 第7回の実習内容「1.SNP-indexを求める」

In [2]:
df["SNP-index"] = df["alt_N"] / (df["ref_N"] + df["alt_N"])

df

Unnamed: 0,chr,pos,ref_nucl,alt_nucl,ref_N,alt_N,SNP-index
0,chr10,51406,G,A,6,3,0.333333
1,chr10,59101,A,T,6,3,0.333333
2,chr10,59112,A,C,7,2,0.222222
3,chr10,61001,A,T,11,3,0.214286
4,chr10,161375,A,G,13,5,0.277778
...,...,...,...,...,...,...,...
267,chr10,22791355,C,T,10,4,0.285714
268,chr10,22791771,G,T,6,3,0.333333
269,chr10,22791897,A,G,5,4,0.444444
270,chr10,22851514,C,G,10,3,0.230769


## Exercise2.

　pos列 が 10~15 Mbのデータのみを抽出してください（pos列の単位は bp）。

- ヒント1: 1Mb = 1000 kb = 1000000 bp
- ヒント2: 第7回の実習内容「2.条件に合うデータを抽出する」

In [5]:
df[(df["pos"]>=10000000) & (df["pos"]<=15000000)]

Unnamed: 0,chr,pos,ref_nucl,alt_nucl,ref_N,alt_N,SNP-index
171,chr10,10722248,A,T,16,3,0.157895
172,chr10,10824473,T,C,8,10,0.555556
173,chr10,10824636,A,G,7,8,0.533333
174,chr10,10862892,C,T,6,6,0.5
175,chr10,10862933,G,C,45,31,0.407895
176,chr10,10862950,T,C,50,29,0.367089
177,chr10,10865815,A,G,13,8,0.380952
178,chr10,10885372,A,G,0,7,1.0
179,chr10,11148058,G,A,1,8,0.888889
180,chr10,11150121,G,C,2,4,0.666667


## Exercise3.

 SNP-index全データの散布図を描いてください。その際、x軸はpos列の値、y軸はSNP-indexの値にしてください。 また、10~15 Mbの位置にあるSNP-indexのデータのみを赤色で表示してください。

- ヒント1: 第7回の実習内容「3.SNP-indexのグラフを描く」

In [0]:
import matplotlib.pyplot as plt   

df['snp_index'] = df['alt_N'] / (df['ref_N'] + df['alt_N'])   

x = df['pos']
y = df['snp_index']  

fig = plt.figure(figsize=[16,9])   
plt.scatter(x, y, color='gray')      
plt.title('SNP-index on chromosome 10', fontsize=24)  
plt.xlabel('Position (x 10 Mb)', fontsize=16)  
plt.ylabel('SNP-index', fontsize=16)           

df2 = df[(df["pos"]>=10000000) & (df["pos"]<=15000000)]   

x1 = df2['pos']         
y1 = df2['snp_index']   

plt.scatter(x1, y1, color='red') 

## 課題の提出方法
1. 課題を終えたノートブックをダウンロードする
  - ダウンロード方法: 「ファイル」 > 「.ipynb をダウンロード」
1. メールで課題を提出する
  - 提出先メールアドレス: cropevol@gmail.com
  - メール件名: HW[課題番号(2桁)]+SID[学籍番号(4桁-2桁-４桁)]（**すべて半角英数**） にする
    - 課題番号: 07
    - 例: HW07+1234-56-7890
  - メール本文: 未入力でも構いません
  - 添付ファイル: ダウンロードしたノートブックファイル（.ipynb）を添付する
  - 提出締切: 11月25日（月）

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/submit_homework_L07.png?raw=true" alt="課題提出" height="400px" align="middle">