# 007-PROT
担当: 松本生成

# 目的
- コドン表に従い、RNA配列をアミノ酸配列に翻訳する

# 翻訳ルールの確認
- tRNAはRNAの3塩基 (triplet)を認識し、対応するアミノ酸を重合させる
- triplet-amino acidの対応はコドン表によって規定されている
- RNAの翻訳は必ず `AUG` から始まる
- RNAの翻訳は`UAA`, `UAG`,`UGA`のいずれかが出現すると終了する 

# Rosalindでの問題設定について
- input配列は必ずAUGから始まる
- input配列は必ず終止コドンで終わる

# 解法1
- input文字列から3文字ずつ取り出し、コドン表の辞書を使って変換する
- 一度リストにしておいて最後に文字列として結合するほうが文字列を足していくよりも効率的らしい（？）

In [6]:
codon_dict = {
    "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
    "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L",
    "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
    "GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V",
    "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S",
    "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
    "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T",
    "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
    "UAU": "Y", "UAC": "Y", "UAA": "Stop", "UAG": "Stop",
    "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q",
    "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
    "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E",
    "UGU": "C", "UGC": "C", "UGA": "Stop", "UGG": "W",
    "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R",
    "AGU": "S", "AGC": "S", "AGA": "R", "AGG": "R",
    "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G"
}

rna_sequence = 'AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA'

def translate_rna_to_protein(rna_sequence:str) :
    protein_list = []
    i = 0
    for _ in range(len(rna_sequence)//3):
        codon = rna_sequence[i:i+3]
        if codon_dict[codon] != 'Stop':
            protein_list.append(codon_dict[codon])
            i += 3
        else:break 
    protein_sequence = ''.join(protein_list)
    return protein_sequence

print(translate_rna_to_protein(rna_sequence))

MAMAPRTEINSTRING


## 問題点
- 翻訳開始点がinputの1番目でない場合
- コドン表に存在しないトリプレットが存在する場合にエラーを返すとよい
- get()を使うのがベスト？

## 別解
- biopythonの`Seq()`を使う

In [12]:
from Bio.Seq import Seq
rna_sequence = Seq('AUGGCCAUGGCGCCCAGAACUGAGAUCAAUAGUACCCGUAUUAACGGGUGA')
rna_sequence.translate()

Seq('MAMAPRTEINSTRING*')