# memeを使ってmotifの検出
**各生物種のTTNイントロン領域からMotif配列の検出を試みる**<br>
<br>
<検出ツール><br>
https://meme-suite.org/meme/<br>
MEME(Multiple Em for Motif Elicitation)を使って配列中のモチーフを検出する

<マニュアル><br>
https://meme-suite.org/meme/doc/meme.html<br>

<解析結果><br>
result/memeにhtmlファイルとして出力

In [1]:
# オリジナルモジュールのインポート
from lib.gbkparse import Seq_count
import subprocess

## ヒトTTNのイントロン配列からモチーフを検出する

In [2]:
# ヒトTTN情報の取得
gbk = Seq_count()
gbk.get_gbk('7273')

# 各イントロンに配列をfasta形式で保存
file_path = '../data/fasta/ttn_intron_human.fasta'
with open(file_path,'w') as f:
    for i in range(gbk.intron_num()):
        seq = str(gbk.intron_seq(i+1))
        f.write(f'>intron_{i+1}'+'\n')
        f.write(seq+'\n')    

# パラメータ設定 
mtf_n = 4
min_w = 8
max_w = 20
mode = "zoops"

# memeの実行
dir = "../result/meme/human/ttn"
cmd1 = f"rm -rf {dir}"
cmd2= f"meme {file_path} -dna -o {dir} -maxsize 200000 -nmotifs {mtf_n} -minw {min_w} -maxw {max_w} -mod {mode}"
subprocess.run(cmd1.split())
subprocess.run(cmd2.split())

デフォルト値として、最もエクソンの多いNM_001267550.2を設定


Writing results to output directory '../result/meme/human/ttn'.
Initializing the motif probability tables for 2 to 362 sites...
nsites = 362
Done initializing.
SEEDS: highwater mark: seq 361 pos 232

seqs=   362, min=  80, max=11202, total=   172211

motif=1
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 362, iter=  40     
motif=2
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 362, iter=  40     
motif=3
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 362, iter=  40     
motif=4
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 362, iter=  40     


CompletedProcess(args=['meme', '../data/fasta/ttn_intron_human.fasta', '-dna', '-o', '../result/meme/human/ttn', '-maxsize', '200000', '-nmotifs', '4', '-minw', '8', '-maxw', '20', '-mod', 'zoops'], returncode=0)

## マウスTTNのイントロン配列からモチーフを検出する

In [3]:
# マウスTTN情報の取得
gbk = Seq_count()
gbk.get_gbk('22138')

# 各イントロンに配列をfasta形式で保存
file_path = '../data/fasta/ttn_intron_mouse.fasta'
with open(file_path,'w') as f:
    for i in range(gbk.intron_num()):
        seq = str(gbk.intron_seq(i+1))
        f.write(f'>intron_{i+1}'+'\n')
        f.write(seq+'\n')    

# パラメータ設定 
mtf_n = 4
min_w = 8
max_w = 20
mode = "zoops"

# memeの実行
dir = "../result/meme/mouse/ttn"
cmd1 = f"rm -rf {dir}"
cmd2= f"meme {file_path} -dna -o {dir} -maxsize 200000 -nmotifs {mtf_n} -minw {min_w} -maxw {max_w} -mod {mode}"
subprocess.run(cmd1.split())
subprocess.run(cmd2.split())

デフォルト値として、最もエクソンの多いNM_001385708.1を設定


Writing results to output directory '../result/meme/mouse/ttn'.
Initializing the motif probability tables for 2 to 348 sites...
nsites = 348
Done initializing.
SEEDS: highwater mark: seq 347 pos 805

seqs=   348, min=  81, max=11597, total=   170902

motif=1
SEED WIDTHS: 8 11 15 20
starts: w=8, seq=120, l=383           

em: w=  20, psites= 348, iter=  40     
motif=2
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 348, iter=  40     
motif=3
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 348, iter=  40     
motif=4
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 348, iter=  40     


CompletedProcess(args=['meme', '../data/fasta/ttn_intron_mouse.fasta', '-dna', '-o', '../result/meme/mouse/ttn', '-maxsize', '200000', '-nmotifs', '4', '-minw', '8', '-maxw', '20', '-mod', 'zoops'], returncode=0)

## チンパンジーTTNのイントロン配列からモチーフを検出する

In [5]:
# チンパンジーTTN情報の取得
gbk = Seq_count()
gbk.get_gbk('459784')

# 各イントロンに配列をfasta形式で保存
file_path = '../data/fasta/ttn_intron_chimp.fasta'
with open(file_path,'w') as f:
    for i in range(gbk.intron_num()):
        seq = str(gbk.intron_seq(i+1))
        f.write(f'>intron_{i+1}'+'\n')
        f.write(seq+'\n')    

# パラメータ設定 
mtf_n = 4
min_w = 8
max_w = 20
mode = "zoops"

# memeの実行
dir = "../result/meme/chimp/ttn"
cmd1 = f"rm -rf {dir}"
cmd2= f"meme {file_path} -dna -o {dir} -maxsize 200000 -nmotifs {mtf_n} -minw {min_w} -maxw {max_w} -mod {mode}"
subprocess.run(cmd1.split())
subprocess.run(cmd2.split())

ValueError: invalid literal for int() with base 10: '2B'

## ラットTTNのイントロン配列からモチーフを検出する

In [6]:
# ラットTTN情報の取得
gbk = Seq_count()
gbk.get_gbk('84015')

# 各イントロンに配列をfasta形式で保存
file_path = '../data/fasta/ttn_intron_rat.fasta'
with open(file_path,'w') as f:
    for i in range(gbk.intron_num()):
        seq = str(gbk.intron_seq(i+1))
        f.write(f'>intron_{i+1}'+'\n')
        f.write(seq+'\n')    

# パラメータ設定 
mtf_n = 4
min_w = 8
max_w = 20
mode = "zoops"

# memeの実行
dir = "../result/meme/rat/ttn"
cmd1 = f"rm -rf {dir}"
cmd2= f"meme {file_path} -dna -o {dir} -maxsize 200000 -nmotifs {mtf_n} -minw {min_w} -maxw {max_w} -mod {mode}"
subprocess.run(cmd1.split())
subprocess.run(cmd2.split())

デフォルト値として、最もエクソンの多いXM_039106385.1を設定


Writing results to output directory '../result/meme/rat/ttn'.
Initializing the motif probability tables for 2 to 335 sites...
nsites = 335
Done initializing.
SEEDS: highwater mark: seq 334 pos 240

seqs=   335, min=  80, max=10889, total=   166245

motif=1
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 335, iter=  40     
motif=2
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 335, iter=  40     
motif=3
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 335, iter=  40     
motif=4
SEED WIDTHS: 8 11 15 20
em: w=  20, psites= 335, iter=  40     


CompletedProcess(args=['meme', '../data/fasta/ttn_intron_rat.fasta', '-dna', '-o', '../result/meme/rat/ttn', '-maxsize', '200000', '-nmotifs', '4', '-minw', '8', '-maxw', '20', '-mod', 'zoops'], returncode=0)