## 20-REVP The Billion-Year-War
### 課題コンセプト
- バクテリアとウイルスの戦争は10億年前から起こっている
- バクテリオファージの目的 : DNAをバクテリアに挿入し、増殖する
- バクテリアの防御 : 制限酵素を持ち、viral DNAをカットする
- 制限酵素の特徴
    - ホモダイマーである
    - 4-12のヌクレオチドを標的とする
    - ウイルスDNAを挟み込むように結合する構造をとると最も切断活性が高い

### 課題内容
- reverse palindrome なDNA 配列　= 逆相補も同じ配列
- Given : 1kb以上の 部分的な reverse palindrome を含む配列, Fasta 形式
- Return : 4-12bp の長さの reverse palindrome 配列を探索し、そのスタート位置と長さを出力する

### 解法
- 4-12bp のsubstringを抽出し、それらの逆総補鎖と比較する


In [1]:
# header は今回一つしかないので、一行目だけ飛ばして後を全部結合すればok
def load_fasta_file(fasta_path):
    with open(fasta_path, "r") as fasta_file:
        seqs = []
        seq = ""
        for line in fasta_file:
            if line.startswith(">"):
                continue
            seq = line.strip()
            seqs.append(seq)
        sequence = "".join(seqs)
    return sequence

In [2]:
def get_reverse_complement(seq):
    complement_map = {"A": "T", "T": "A", "C": "G", "G": "C"}
    rev_comp_seq = "".join(complement_map[base] for base in reversed(seq))
    return rev_comp_seq

In [3]:
def find_reverse_palindrome_substrings(seq:str) -> list[tuple]:
    reverse_palindromes = []
    for base in range(len(seq)):
        for subs_len in range(4,13): # 4-12bp の部分文字列を調べる
            if base + subs_len > len(seq):
                continue
            seq_subs = seq[base:base+subs_len]
            if seq_subs == get_reverse_complement(seq_subs):
                reverse_palindromes.append((base+1, subs_len)) # Rosalindは1-based index
    return reverse_palindromes

In [4]:
sample_sequence = "TCAATGCATGCGGGTCTATATGCAT"
reverse_palindromes = find_reverse_palindrome_substrings(sample_sequence)
print(reverse_palindromes)

[(4, 6), (5, 4), (6, 6), (7, 4), (17, 4), (18, 4), (20, 6), (21, 4)]


In [None]:
fasta_path = "path/to/your/fasta/file.fasta"
sequence = load_fasta_file(fasta_path)
print(f"length of original sequence : {len(sequence)}")
reverse_palindromes = find_reverse_palindrome_substrings(sequence)