In [None]:
# 코돈 → 아미노산 매핑
# - 입력된 3염기 문자열(`cod`)을 `codon_table` 딕셔너리에서 검색하여, 해당 아미노산 문자를 반환.
# - 없는 코돈이면 `None` 또는 에러 처리.
    
def translate_codon (cod): #input은 DNA 코돈. 
    #이건 IUPAC 표를 딕셔너리로 저장한 것임.  key가 코돈이고 value가 아미노산. 
    #GCT라는 키의 밸류는 A
    #대응하는 밸류를 리턴한다. 
    """Translates a codon into an aminoacid using an internal dictionary with the standard genetic code."""
    tc = {"GCT":"A", "GCC":"A", "GCA":"A", "GCG":"A", 
      "TGT":"C", "TGC":"C",
      "GAT":"D", "GAC":"D",
      "GAA":"E", "GAG":"E",
      "TTT":"F", "TTC":"F",
      "GGT":"G", "GGC":"G", "GGA":"G", "GGG":"G",
      "CAT":"H", "CAC":"H",
      "ATA":"I", "ATT":"I", "ATC":"I",
      "AAA":"K", "AAG":"K",
      "TTA":"L", "TTG":"L", "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L",
      "ATG":"M", 
      "AAT":"N", "AAC":"N",
      "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P",
      "CAA":"Q", "CAG":"Q",
      "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R", "AGA":"R", "AGG":"R",
      "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S", "AGT":"S", "AGC":"S",
      "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
      "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V",
      "TGG":"W",
      "TAT":"Y", "TAC":"Y",
      "TAA":"_", "TAG":"_", "TGA":"_"}
    if cod in tc: return tc[cod] #input DNA 코돈이 tc에 있으면 그것의 밸류인 아미노산을 리턴하라.
    else: return None #없으면 None 리턴.



In [None]:
cod1 = "ATG" #시작코돈.
translate_codon (cod1)

'M'

In [None]:
# DNA 서열을 아미노산 서열로 변환

def validate_dna (dna_seq):
    """ Checks if DNA sequence is valid. Returns True is sequence is valid, or False otherwise. """
    seqm = dna_seq.upper()
    valid = seqm.count("A") + seqm.count("C") + seqm.count("G") + seqm.count("T")
    if valid == len(seqm): return True
    else: return False 

def translate_seq (dna_seq, ini_pos = 0): #initial position은 어디서 부터 번역할건지. 0부터 시작함.
    """ Translates a DNA sequence into an aminoacid sequence. """
    assert validate_dna(dna_seq), "Invalid DNA sequence" #valid 한지 체크.
    seqm = dna_seq.upper() #질문 : 위에서 upper했는데 또 하는건가요? ㅇㅇ 위에서는 검사만 하는거고, 여기서는 진짜 데이터를 바꿈.
    seq_aa = ""
    #pos는 코돈의 시작 포지션. 
    for pos in range(ini_pos,len(seqm)-2,3): # 3의 간격으로 서열을 순차적으로 번역
        cod = seqm[pos:pos+3] #번역할 3자리를 cod라는 변수에 넣음.
        seq_aa += translate_codon(cod)  # 추출된 cod(코돈)를 translate_codon 함수를 사용하여 아미노산으로 변환하고, 그 결과를 seq_aa에 추가
    return seq_aa



In [22]:
seq = "aaccggggt"
translate_seq(seq)

'NRG'

In [None]:
# 주어진 DNA 서열에서 특정 아미노산(aa)을 암호화하는 각 코돈의 사용 빈도(frequency)를 계산하는 함수
# 아미노산 -> DNA 서열변환 할 때 코돈 사용 빈도 계산.


def codon_usage(dna_seq, aa):
    """Provides the frequency of each codon encoding a given aminoacid, in a DNA sequence ."""
    assert validate_dna(dna_seq), "Invalid DNA sequence" #유효성 체크후
    seqm = dna_seq.upper() #대문자로 변환.
    dic = {} #코돈들이 key가 되고, 빈도가 value가 된다. 
    total = 0 #total은 aa로 번역되는 DNA의 총 빈도를 나타내는 변수.
    for i in range(0, len(seqm)-2, 3): #3씩 끊어가면서 읽음.
        cod = seqm[i:i+3]
        if translate_codon(cod) == aa: #앞에서 만든 함수 써서 아미노산과 똑같은지 조건문으로 확인.
            if cod in dic:  #만약 얘가 이미 딕셔너리에 있으면 
                dic[cod] += 1 #딕셔너리의 value를 1로 증가
            else: dic[cod] = 1 #딕셔너리에 없었다면 value를 1로 설정.
            total += 1
    if total >0: # 토탈에 값이 하나라도 있다면
        for k in dic:
            dic[k] /= total #총 aa로 번역되는 코돈의 비율.
    return dic #토탈에 값이 없다면 원래 값인 0출력.



In [40]:
seq = "aaccggggtaataac"
translate_seq(seq)

'NRGNN'

In [None]:

codon_usage(seq, "N") #N이라는 아미노산의 코돈 사용 빈도
#이 시퀀스에 N으로 번역되는 코돈은 어떤게 있고, 이것들의 비율은 어떤지 계산.
#N으로 번역되는게 저 서열에서 aac, aat임.
#aac가 두번, aat가 한번 나오기에 아래와 같은 빈도가 나옴.

# 바꾸기 쉬운 문제임. 시험용으로
# 비율이 아니라 빈도로 print되게 할 수도 있고,
# 조건을 복잡하게 : N 혹은 R로  번역되는 코돈 usage를 프린트되게 
# 기본적인 idea 

# 타이핑임. (저 엄청난 아미노산 코돈표 타이핑은 안시킬거임.)

{'AAC': 0.6666666666666666, 'AAT': 0.3333333333333333}