# 大規模データ解析入門 (1)　課題解答例

---
## データ

### サンプルデータのソース

Abe, A., Kosugi, S., Yoshida, K., Natsume, S., Takagi, H., Kanzaki, H., Matsumura, H., Yoshida, K., Mitsuoka, C., Tamiru, M., Innan, H., Cano, L., Kamoun, S., Terauchi, R. (2012). [Genome sequencing reveals agronomically important loci in rice using MutMap.](https://www.nature.com/articles/nbt.2095) _Nature biotechnology_, 30(2), 174.

In [None]:
"""
＊重要＊
最初にこのセルを実行してください。
この課題で使うサンプルファイルをダウンロードします。
"""
!wget https://raw.githubusercontent.com/CropEvol/lecture/master/data/mutmap_for_hw.txt -O mutmap_for_hw.txt

---

課題用のサンプルファイルは、イネ品種"Hitomebore"とその突然変異系統（草丈が短くなる系統）のMutMap解析データです。  
突然変異形質を持つF2個体（20個体分）と親系統のDNAを次世代シーケンシングして、その後の解析で得られたデータです。

データはテーブル状になっており、各列には次の情報が入っています。
- 0列目: 染色体名  
- 1列目: 変異が検出された場所（塩基座の場所）
- 2列目: "Hitomebore"の塩基
- 3列目: 突然変異で生じた塩基 
- 4列目: 突然変異形質を持つF2個体（20個体分）のシーケンスに含まれる、"Hitomebore"と同じ塩基の個数  
- 5列目: 突然変異形質を持つF2個体（20個体分）のシーケンスに含まれる、突然変異と同じ塩基の個数  

中身はこちらで確認してください。 => [課題用のデータ](mutmap_for_hw.txt)

---
## Exercise 1. 塩基座数をカウントする

ヒント: 行数をカウントする。

```python
dataset = 'mutmap_for_hw.txt'
f_in = open(dataset, 'r')
    
counter = 0
for line in f_in:
    ...
    ...
    ...

print(counter)
```

In [None]:
"""
プログラム作成方針
1. ファイルを開く（＆閉じる）
2. 行数用のカウンターを用意する。カウンターの初期値は0。
3. 行数を読み込むたびに、カウンターに1を追加する。
4. カウンターの値を出力する。
"""

dataset = 'mutmap_for_hw.txt'   # ファイル名
f_in = open(dataset, 'r')       # ファイルを開く

counter = 0  # カウント用変数

for line in f_in:
    counter = counter + 1  # counterに1を追加する

print(counter)  # カウンタの最終値を表示
f_in.close() # ファイルを閉じる

---
## Exercise 2. 突然変異により塩基が A => G または G => Aに変わった塩基座数をカウントする

ヒント: 「2列目がA」かつ「3列目がG」の行を`if文`で抽出する。

In [None]:
"""
プログラム作成方針
1. ファイルを開く（＆閉じる）
2. カウンターを用意する。カウンターの初期値は0。
3. 行を読み込むたびに、行をタブ文字で分割して、2列目と3列目の値を調べる。
4. 「2列目がA」かつ「3列目がG」の時、カウンターに1を追加する。
    または、「2列目がG」かつ「3列目がA」の時、カウンタに1を追加する。
     それ以外の時は何もしない。
     （Pythonでは列番号が0から始まることに注意してください: 0列目,1列目,...）
5. それぞれのカウンターの値を出力する。
"""

dataset = 'mutmap_for_hw.txt'   # ファイル名
f_in = open(dataset, 'r')       # ファイルを開く

counter = 0  # カウント用変数

# 一行ずつ読み込む
for line in f_in:
    
    line = line.rstrip()  # 改行コードを除去
    items = line.split('\t')  # タブコードで一行を分割する
    
    # 「2列目がA」かつ「3列目がG」の時、
    # A => G用のカウンタに1を追加する
    if items[2] == 'A' and items[3] == 'G':
        counter = counter + 1
    
    # 「2列目がG」かつ「3列目がA」の時、
    # G => A用のカウンタに1を追加する
    elif items[2] == 'G' and items[3] == 'A':
        counter = counter + 1


print(counter) # カウンタの最終値を表示
f_in.close() # ファイルを閉じる

---
## Exercise 3. 各塩基座のSNP-indexを求める

ヒント: SNP-index = 5列目の数値 / (4列目の数値 + 5列目の数値)

In [None]:
"""
プログラム作成方針
1. ファイルを開く（＆閉じる）
2. 行を読み込むたびに、行をタブ文字で分割して、2列目と3列目の値を調べる。
3. 「4列目」と「5列目」の数字を使って、SNP-indexを計算する。
4. 計算したSNP-indexを出力する。
"""

dataset = 'mutmap_for_hw.txt'   # ファイル名
f_in = open(dataset, 'r')       # ファイルを開く

# 一行ずつ読み込む
for line in f_in:
    
    line = line.rstrip()  # 改行コードを除去
    items = line.split('\t')  # タブコードで一行を分割する
    
    # SNP-indexを計算する
    snpindex = int(items[5]) / (int(items[4]) + int(items[5]))
    
    print(snpindex) # 確認

f_in.close() # ファイルを閉じる

---
## Exercise 4. SNP-index=1.0の行のみをファイルに書き出す

ヒント: なし

In [None]:
"""
プログラム作成方針
1. ファイルを開く（＆閉じる）
2. 行を読み込むたびに、行をタブ文字で分割して、2列目と3列目の値を調べる。
3. 「4列目」と「5列目」の数字を使って、SNP-indexを計算する。
4. SNP-indexが1.0のとき、その行をファイルに書き込む。
"""

dataset = 'mutmap_for_hw.txt'   # ファイル名
f_in = open(dataset, 'r')       # ファイルを開く
f_out = open('snpindex.txt', 'w')  #　出力ファイルを開く

# 一行ずつ読み込む
for line in f_in:
    
    line = line.rstrip()  # 改行コードを除去
    items = line.split('\t')  # タブコードで一行を分割する
    
    # SNP-indexを計算する
    snpindex = int(items[5]) / (int(items[4]) + int(items[5]))
    
    # SNP-indexが1.0のとき、f_outに指定したファイルに出力
    if snpindex == 1.0:    
        #print(snpindex)
        print(line)  # 確認用に画面に出力
        f_out.write('%s\n' % (line))   # ファイルに書き込み

f_in.close() # ファイルを閉じる
f_out.close()