<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# 大規模データ解析入門 - Sliding Window解析 - [課題]

実習テキスト（大規模データ解析入門 - Sliding Window解析 -）は [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2020/L08_sliding_window.ipynb)


### Sliding window解析の概要

　Sliding window解析は、任意の値（ここではSNP-index）の区間平均をゲノム全域にわたって調べて、区間平均（推定される理論値）が極端に低くなる場所や高くなる場所を探す解析手法です。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3euwLsOQQgwmqJWLWTeSROFjby5RYnNH_UdqTE9SEpefx_XkZILIKAdrOsq0bzT_7L6RZQFwAFgexYRUupN8c6EdZVUyNN96gSXsj6mTM8v26qaCZs2HCllVzuWexZZ2t8J_tAN80NbuloO79WWK5IR=w720-h405-no?authuser=0" alt="sliding_window_overview" height="300px">

　Sliding window解析は次の手順でおこないます。
1. 区間サイズとステップサイズ（次の区間への移動サイズ）、各区間の代表値を決める。  
<small>※ 代表値として「平均値」が使われることが多い。</small>
1. 1区間内に含まれるデータを取り出す。
1. 代表値を求める。
1. 区間をステップサイズ分だけ移動させる。
1. 手順2-4を繰り返し、全区間を調べる。


## サンプルデータのダウンロード


　課題をおこなう前に、下記のコードセルを実行してください。[サンプルデータ](https://raw.githubusercontent.com/CropEvol/lecture/master/data/pandas_hw_dataset_mini.txt)のダウンロードと読み込みがおこなわれます。

<img src="https://lh3.googleusercontent.com/pw/ACtC-3d0Rc_FTfGGaL3hATWKRmqgm6uf9icjTE1psTp9sdJGaqa2n_coL2VMET1oZCeTF-bz7514D0rWF-8MCIZ_Q4v1F2k1rPT9bOHEeo79-I5viTWK8nalr2xb2JIeleNxL2GlBpkiPnFlxB8NRo78f2E7=w1222-h908-no?authuser=0" alt="mutmap_dataset" height="350px">

　読み込まれたデータは、データフレーム変数`df`に格納されます。また、各SNP座のSNP-indexも算出されて、`SNP_index`列として追加されます。

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
この課題で使うサンプルファイルをダウンロードします。
"""
!wget -q -O mutmap_dataset.txt https://raw.githubusercontent.com/CropEvol/lecture/master/data/mutmap_chr12.txt

# pandasでサンプルデータを読み込む
import pandas as pd
df = pd.read_csv("mutmap_dataset.txt", sep=",", header=0)
# SNP-indexを計算する
df["SNP_index"] = df["N_ALT"] / (df["N_REF"] + df["N_ALT"])
# データフレームの表示
df

---
## 課題1

　区間サイズを2 Mbとして、最初の1区間（1-2,000,000 bp）の区間平均を求めてください。
- 区間内の`POS`の平均値
- 区間内の`SNP_index`の平均値



In [None]:
# 区間内に含まれるデータを取り出す
sub = 

# POSの区間平均
p = 
# SNP_indexの区間平均
s = 

print("mean POS: ", p)
print("mean SNP-index: ", s)

## 課題2

　区間サイズ 2 Mb、ステップサイズ 0.4 Mbとして、1区画目から6区間目までの各区間について、区間平均（`POS`の平均値、`SNP_index`の平均値）を算出し、リスト`x_win`と`y_win`にそれぞれの区間平均を追加してください。

なお、最初の3区間の始点と終点は次のとおりです。参考にしてください。
- 最初の区間(1区間目): 1 - 2,000,000 bp
- 2区間目: 400,001 - 2,400,000 bp
- 3区間目: 800,001 - 2,800,000 bp

<small>※ コードセルには、最初の区間平均を得るコード（6行目〜11行目）を事前に書いていますが、適宜編集・削除をおこなってもかまいません。</small>

In [None]:
# Sliding window用リスト
x_win = []  # POSの平均値を入れるリスト
y_win = []  # SNP_indexの平均値を入れるリスト

# 各区間（1区間目）の平均値を調べる
sub = df[ (df["POS"]>=1) & (df["POS"]<=2000000) ]
p = sub["POS"].mean()
s = sub["SNP_index"].mean()

x_win.append(p) # リストへの追加
y_win.append(s)

# 2区間目〜6区画目までの各区間の平均値を調べる





# リストの中身を確認
print(x_win)
print(y_win)

## 課題3

　次のコードセルに、1区画目から6区間目までの区間平均の折れ線グラフ（赤色）を描くコードを追記してください。

In [None]:
# === グラフ描画 ===
import matplotlib.pyplot as plt
plt.figure(figsize=[12,4])    # グラフサイズの設定

# 全SNP-indexの散布図
x = df["POS"]
y = df["SNP_index"]
plt.scatter(x, y)

plt.title('SNP-index on chromosome 12', fontsize=18)  # グラフタイトル
plt.xlabel('Position (x 10 Mb)', fontsize=12)  # x軸ラベル
plt.ylabel('SNP-index', fontsize=12)           # y軸ラベル
plt.show()

---
## 課題提出について

**提出期限: 12月7日（月）**

　次の手順で、課題を提出してください。

1. 課題取り組み後のノートブックの共有リンクを発行する。  
  共有リンク発行手順:
  1. ノートブックを保存する
    - 「ファイル」 > 「保存」または「ドライブにコピーを保存」
  1. 共有リンクを発行する  
    - 右上の「共有」ボタンをクリックする
    - 「リンクを知っている全員に変更」をクリックする
    - 権限が「閲覧者」になっているか確認する
    - 共有リンクをコピーする
1. [PandAのゲノム情報解析入門ページ](https://panda.ecs.kyoto-u.ac.jp/portal/site/2020-111-5323-000)にアクセスする
1. 今回の課題提出ページに移動する  
  - 「課題」 > 「第8回（12月1日）の課題」
1. 上で発行した共有リンクを提出フォームに貼り付ける
1. 提出する



<img src="https://lh3.googleusercontent.com/pw/ACtC-3fY_OEQDEDFt6jq8EwbeBH0LU2rT6Ik-7tELLlaBPYI8dyOwcQ7PKSMLuaG9YYydjEBJ4ZyG86ScnKpRY6OLc0QZpjxa0sztcZ3xNprpFY92ogPWOjedJ8P72tgi397k4_vbp8Pa9lqTNapwf6RT_M7=w1326-h1094-no?authuser=0" alt="課題提出フォームへの入力例" height="500px" align="middle">