<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2022/images/logo.png?raw=true" alt="2022年度ゲノム情報解析入門" height="100px" align="middle">

<div align="right"><a href="https://github.com/CropEvol/lecture#section2">実習表ページに戻る</a></div>

[課題] QTL-seq入門 (3): SNP-indexの算出、グラフ描画
---

　課題をはじめる前に、次のコードセルを一度実行してください。サンプルファイルのダウンロードと読み込み、グラフ描画用関数の準備がおこなわれます。 



In [None]:
#########################
##  実習の前に実行してください。 ##
#########################
## サンプルファイルのダウンロードと読み込み
!wget -q -O wheat_qtlseq_dataset.csv https://github.com/CropEvol/lecture/raw/master/textbook_2022/datasets/wheat_qtlseq_dataset.csv
import pandas as pd
df  = pd.read_csv("wheat_qtlseq_dataset.csv")
display(df)   # 表示

## グラフ描画用の関数
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
mpl.style.use('seaborn-darkgrid')
def draw_QTLseq(data, window_size=20, fs=20, lw=4, a=0.3):
    ## グラフ用データ
    x = data["pos"]    # x座標データ: POS
    y1= data["bulk1"]  # サブグラフ1のy座標データ: Bulk1 SNP-index
    y2= data["bulk2"]  # サブグラフ2のy座標データ: Bulk2 SNP-index
    y3= data["delta"]  # サブグラフ3のy座標データ: delta SNP-index
    win_x = x.rolling(window_size).mean()   # POS移動平均
    win_y1= y1.rolling(window_size).mean() # Bulk1 SNP-index移動平均
    win_y2= y2.rolling(window_size).mean() # Bulk2 SNP-index移動平均
    win_y3= y3.rolling(window_size).mean() # delta SNP-index移動平均

    ## グラフ設定
    fig = plt.figure(figsize=[12, 8])
    ax1 = fig.add_subplot(3,1,1) # サブグラフ1
    ax2 = fig.add_subplot(3,1,2) # サブグラフ2
    ax3 = fig.add_subplot(3,1,3) # サブグラフ3
    ## サブグラフ1（Bulk1のグラフ）
    ax1.scatter(x, y1, c="#636EFA", alpha=a)
    ax1.plot(win_x, win_y1, c="#EF553B", linewidth=lw)
    ax1.set_ylabel("SNP-index\nof Bulk1", fontsize=fs)
    ax1.tick_params(labelsize=fs)
    ax1.set_ylim([-0.1, 1.1])
    ## サブグラフ2（Bulk2のグラフ）
    ax2.scatter(x, y2, c="#00CC96", alpha=a)
    ax2.plot(win_x, win_y2, c="#AB63FA", linewidth=lw)
    ax2.set_ylabel("SNP-index\nof Bulk2", fontsize=fs)
    ax2.tick_params(labelsize = fs)
    ax2.set_ylim([-0.1, 1.1])
    ## サブグラフ3（delta-indexのグラフ）
    ax3.scatter(x, y3, c="#FFA15A", alpha=a)
    ax3.plot(win_x, win_y3, c="#19D3F3", linewidth=lw)
    ax3.set_xlabel("Position (Mb)", fontsize=fs)
    ax3.set_ylabel("delta of\nSNP-index", fontsize=fs)
    ax3.tick_params(labelsize = fs)
    ax3.set_ylim([-1.1, 1.1])
    plt.tight_layout()
    plt.show()

## サンプルファイルについて

　この課題で使用するサンプルファイルは、二倍体コムギの「穂が短い系統A」と「穂が長い系統B」を交配して得られた分離集団のQTL-seqのSNPデータセットです。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2022/images/wheat_qtlseq_dataset.png?raw=true" alt="wheat_qtlseq_dataset" height="250px" align="middle">

それぞれの列情報は次の通りです。
- SNP位置情報: 
  - `CHROM`: 染色体名（今回はchr5という名前の染色体のみ）
  - `POS`: 染色体上の塩基場所
- SNP塩基情報: 
  - `REF`: 参照配列上の塩基（系統Bの塩基）
  - `ALT`: 対立塩基（系統Aの塩基に相当する）
- Bulk1のSNPアリル情報:
  - Bulk1は、系統Aと同じ形質（穂が短い）をもつF2個体のバルク
  - `Bulk1_REF`: Bulk1リード内の`REF`塩基の個数
  - `Bulk1_ALT`: Bulk1リード内の`ALT`塩基の個数
- Bulk2のSNPアリル情報:
  - Bulk2は、系統Bと同じ形質（穂が長い）をもつF2個体のバルク
  - `Bulk2_REF`: Bulk2リード内の`REF`塩基の個数
  - `Bulk2_ALT`: Bulk2リード内の`ALT`塩基の個数

# 課題1

　次のコードセルの3行目と4行目に、各バルクのSNP-indexを算出するコードを追記して実行し、SNP-indexのグラフを描画してください。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2022/images/calculate_snp_index_of_bulk1.png?raw=true" alt="calculate_snp_index" height="60px" align="middle">

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2022/images/calculate_snp_index_of_bulk2.png?raw=true" alt="calculate_snp_index" height="60px" align="middle">

In [None]:
## SNP-index算出
## -------追記箇所 ---------------------------
bulk1_index = 
bulk2_index = 
## ----------------------------------------------
delta_index = bulk1_index - bulk2_index
position     = df["POS"] / 1000000   # Mbp単位に変換
data = {"pos": position, "bulk1": bulk1_index, "bulk2": bulk2_index, "delta": delta_index}
## グラフ描画
draw_QTLseq(data)

# 課題2

　課題1の結果から、どこに原因遺伝子があると考えられるでしょうか？


In [None]:
#@title { vertical-output: true, display-mode: "form" }
Answer = "" #@param {type:"string"}

# 課題3

　課題1と同様の交配分離集団についてQTL-seq解析をおこなったところ、別のゲノム領域に下図のようなSNP-indexのグラフ（delta SNP-indexが `-1.0` に近づく領域があるグラフ）が得られました。

　この結果はどのように解釈すれば良いでしょうか？

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2022/images/wheat_qtlseq_example.png?raw=true" alt="wheat_qtlseq_example" height="350px" align="middle">


In [None]:
#@title { vertical-output: true, display-mode: "form" }
Answer = "" #@param {type:"string"}

---
# 課題の提出について

提出期限： 2022年12月5日（月） 12:00まで

提出方法：
1. ノートブックをGoogleドライブに保存する
1. 保存後、ノートブック画面右上の「共有」ボタンから共有リンクURLを作成する
  1. アクセス設定を「リンクを知っている全員」に変更する
  1. 「リンクをコピー」をクリックする
  1. 「完了」を押して共有設定ウィンドウを閉じる
1. [Panda課題ページ](https://panda.ecs.kyoto-u.ac.jp/portal/directtool/1d1d1bd9-928d-440c-a745-9b97b2a4bc04/)のフォームに共有リンクURLを貼り付けて、課題を提出する


<div align="right"><a href="https://github.com/CropEvol/lecture#section2">実習表ページに戻る</a></div>