<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# 大規模データ解析入門 - MutMap解析 - [課題]

実習テキスト（大規模データ解析入門 - MutMap解析 -）は [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2020/L07_mutmap.ipynb)


## サンプルデータの説明

　この実習では、イネの草丈が「短稈」になる遺伝子のマッピング（**MutMap解析**; Abe et al., 2012）をおこないます。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3fspjuKnYXReTMqxoFhGjNWsvLnBFEPpncZ5L7mcSyHXlqPZwudy8JZkNrSfpDDoTJ8DIY7ENb428TWD3Rzjd5-K1vhKsI9fAkeK_hM-EeujXhe-I65h27f3x89XAtp6K1JD4AH5XJ8Fk5ZWAriBjPr=w899-h556-no?authuser=0" alt="mutmap_trait" height="200px">

　MutMap解析は、バルクDNAシーケンス中の突然変異塩基の割合（**SNP-index**と呼ばれる指標）をゲノムにわたって調べることで、突然変異の原因遺伝子の領域を探索する解析です。MutMap解析の詳細は、[実習テキスト](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2020/L07_mutmap.ipynb)や原著論文(下記)を参照してください。

> Abe, A., Kosugi, S., Yoshida, K., Natsume, S., Takagi, H., Kanzaki, H., Matsumura, H., Yoshida, K., Mitsuoka, C., Tamiru, M., Innan, H., Cano, L., Kamoun, S., Terauchi, R. (2012). [Genome sequencing reveals agronomically important loci in rice using MutMap.](https://www.nature.com/articles/nbt.2095)  Nature biotechnology, 30(2), 174.

　「サンプルデータのダウンロード」で読み込むサンプルデータには、次のような情報が書かれています。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3d0Rc_FTfGGaL3hATWKRmqgm6uf9icjTE1psTp9sdJGaqa2n_coL2VMET1oZCeTF-bz7514D0rWF-8MCIZ_Q4v1F2k1rPT9bOHEeo79-I5viTWK8nalr2xb2JIeleNxL2GlBpkiPnFlxB8NRo78f2E7=w1222-h908-no?authuser=0" alt="mutmap_dataset" height="350px">


## サンプルデータのダウンロード


　課題をおこなう前に、下記のコードセルを実行してください。[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_hw_dataset_mini.txt)のダウンロードと読み込みがおこなわれます。

　読み込まれたデータは、データフレーム変数`df`に格納されます。

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
この課題で使うサンプルファイルをダウンロードします。
"""
!wget -q -O mutmap_dataset.txt https://raw.githubusercontent.com/CropEvol/lecture/master/data/mutmap_chr12.txt

# pandasでサンプルデータを読み込む
import pandas as pd
df = pd.read_csv("mutmap_dataset.txt", sep=",", header=0)
# 表示
df

---
## 課題1

　データフレーム`df`中の2つの列データ`N_REF`と`N_ALT`を使って、突然変異塩基の割合（**SNP-index**）の計算をおこなってください。また、その計算結果を新しい列`SNP_index`としてデータフレームに追加してください。

$$ SNP\_index = \frac{N\_ALT}{N\_REF + N\_ALT} $$



#### 解答例

- 計算につかう列データを取り出す
- 取り出した列データを使って、SNP-indexの計算をおこなう
- 新しい列としてデータフレームに追加する
```python
データフレーム[新しい列名] = 追加したいデータ
```

In [None]:
# 列データの取り出し
n_ref = df["N_REF"]
n_alt = df["N_ALT"]
# SNP-indexの計算
snp_index = n_alt / (n_ref + n_alt)
# 新しい列として追加
df["SNP_index"] = snp_index
# 確認
df

In [None]:
# 1行で記述してもOK
df["SNP_index"] = df["N_ALT"] / (df["N_REF"] + df["N_ALT"])

## 課題2

 下記のコードセルに追記して、染色体中のSNP-index情報を散布図で表現してください。
- x軸: 染色体上の位置（列データ:`POS`）
- y軸: SNP-index（列データ:`SNP_index`）

In [None]:
# Matplotlibライブラリを準備する
import matplotlib.pyplot as plt

# x軸座標、y軸座標のデータを準備する
x = 
y = 

# SNP-indexのグラフを描く
plt.figure(figsize=[12,4])    # グラフサイズの設定
# (散布図を描くコード)

plt.title('SNP-index on chromosome 12', fontsize=18)  # グラフタイトル
plt.xlabel('Position (x10Mb)', fontsize=12)  # x軸ラベル
plt.ylabel('SNP-index', fontsize=12)           # y軸ラベル
plt.show()                    # グラフ表示

#### 解答例

- 散布図を描くためのデータ（x軸座標とy軸座標のリスト）を用意する 
  - `POS`列
  - `SNP_index`列
- 散布図を描く

```python
plt.scatter(x軸座標リスト, y軸座標リスト, <オプション>)
```

In [None]:
# Matplotlibライブラリを準備する
import matplotlib.pyplot as plt

# x軸座標、y軸座標のデータを準備する
x = df["POS"]
y = df["SNP_index"]

# SNP-indexのグラフを描く
plt.figure(figsize=[12,4])    # グラフサイズの設定
# (散布図を描くコード)
plt.scatter(x, y)
plt.title('SNP-index on chromosome 12', fontsize=18)  # グラフタイトル
plt.xlabel('Position (x10Mb)', fontsize=12)  # x軸ラベル
plt.ylabel('SNP-index', fontsize=12)           # y軸ラベル
plt.show()                    # グラフ表示

## 課題3

　課題2の散布図に重ねる形で、「SNP-indexが0.8より大きいデータ」の散布図（赤色プロット）を描画してください。

In [None]:
# 「SNP-indexが0.8より大きいデータ」
df2 = 

# 「SNP-indexが0.8より大きいデータ」のx軸座標、y軸座標
x2 = 
y2 = 

# SNP-indexのグラフを描く
plt.figure(figsize=[12,4])    # グラフサイズの設定
# (全SNP-indexの散布図; 課題2と同じコード)

# (「SNP-indexが0.8より大きいデータ」の散布図)

plt.title('SNP-index on chromosome 12', fontsize=18)  # グラフタイトル
plt.xlabel('Position (x10Mb)', fontsize=12)  # x軸ラベル
plt.ylabel('SNP-index', fontsize=12)           # y軸ラベル
plt.show()                    # グラフ表示

#### 解答例

- 「SNP-indexが0.8より大きいデータ」を取り出す
- 散布図を描くためのデータ（x軸座標とy軸座標のリスト）を用意する 
  - 「SNP-indexが0.8より大きいデータ」の`POS`列
  - 「SNP-indexが0.8より大きいデータ」の`SNP_index`列
- 散布図（赤色指定）を描く

```python
plt.scatter(x軸座標リスト, y軸座標リスト, color="red")
```

In [None]:
# 「SNP-indexが0.8より大きいデータ」
df2 = df[df["SNP_index"]>0.8]

# 「SNP-indexが0.8より大きいデータ」のx軸座標、y軸座標
x2 = df2["POS"]
y2 = df2["SNP_index"]

# SNP-indexのグラフを描く
plt.figure(figsize=[12,4])    # グラフサイズの設定
# (全SNP-indexの散布図; 課題2と同じコード)
plt.scatter(x, y)
# (「SNP-indexが0.8より大きいデータ」の散布図)
plt.scatter(x2, y2, color="red")
plt.title('SNP-index on chromosome 12', fontsize=18)  # グラフタイトル
plt.xlabel('Position (x10Mb)', fontsize=12)  # x軸ラベル
plt.ylabel('SNP-index', fontsize=12)           # y軸ラベル
plt.show()                    # グラフ表示

---
## 課題提出について

**提出期限: 11月30日（月）**

　次の手順で、課題を提出してください。

1. 課題取り組み後のノートブックの共有リンクを発行する。  
  共有リンク発行手順:
  1. ノートブックを保存する
    - 「ファイル」 > 「保存」または「ドライブにコピーを保存」
  1. 共有リンクを発行する  
    - 右上の「共有」ボタンをクリックする
    - 「リンクを知っている全員に変更」をクリックする
    - 権限が「閲覧者」になっているか確認する
    - 共有リンクをコピーする
1. [PandAのゲノム情報解析入門ページ](https://panda.ecs.kyoto-u.ac.jp/portal/site/2020-111-5323-000)にアクセスする
1. 今回の課題提出ページに移動する  
  - 「課題」 > 「第7回（11月24日）の課題」
1. 上で発行した共有リンクを提出フォームに貼り付ける
1. 提出する



<img src="https://lh3.googleusercontent.com/pw/ACtC-3fY_OEQDEDFt6jq8EwbeBH0LU2rT6Ik-7tELLlaBPYI8dyOwcQ7PKSMLuaG9YYydjEBJ4ZyG86ScnKpRY6OLc0QZpjxa0sztcZ3xNprpFY92ogPWOjedJ8P72tgi397k4_vbp8Pa9lqTNapwf6RT_M7=w1326-h1094-no?authuser=0" alt="課題提出フォームへの入力例" height="500px" align="middle">