In [1]:
# 코돈 → 아미노산 매핑
# - 입력된 3염기 문자열(`cod`)을 `codon_table` 딕셔너리에서 검색하여, 해당 아미노산 문자를 반환.
# - 없는 코돈이면 `None` 또는 에러 처리.
    
def translate_codon (cod): #input은 DNA 코돈. 
    #이건 IUPAC 표를 딕셔너리로 저장한 것임.  key가 코돈이고 value가 아미노산. 
    #GCT라는 키의 밸류는 A
    #대응하는 밸류를 리턴한다. 
    """Translates a codon into an aminoacid using an internal dictionary with the standard genetic code."""
    tc = {"GCT":"A", "GCC":"A", "GCA":"A", "GCG":"A", 
      "TGT":"C", "TGC":"C",
      "GAT":"D", "GAC":"D",
      "GAA":"E", "GAG":"E",
      "TTT":"F", "TTC":"F",
      "GGT":"G", "GGC":"G", "GGA":"G", "GGG":"G",
      "CAT":"H", "CAC":"H",
      "ATA":"I", "ATT":"I", "ATC":"I",
      "AAA":"K", "AAG":"K",
      "TTA":"L", "TTG":"L", "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L",
      "ATG":"M", 
      "AAT":"N", "AAC":"N",
      "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P",
      "CAA":"Q", "CAG":"Q",
      "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R", "AGA":"R", "AGG":"R",
      "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S", "AGT":"S", "AGC":"S",
      "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
      "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V",
      "TGG":"W",
      "TAT":"Y", "TAC":"Y",
      "TAA":"_", "TAG":"_", "TGA":"_"}
    if cod in tc: return tc[cod] #input DNA 코돈이 tc에 있으면 그것의 밸류인 아미노산을 리턴하라.
    else: return None #없으면 None 리턴.



In [2]:
cod1 = "ATG" #시작코돈.
translate_codon (cod1)

'M'

In [None]:
# DNA 서열을 아미노산 서열로 변환

def validate_dna (dna_seq):
    """ Checks if DNA sequence is valid. Returns True is sequence is valid, or False otherwise. """
    seqm = dna_seq.upper()
    valid = seqm.count("A") + seqm.count("C") + seqm.count("G") + seqm.count("T")
    if valid == len(seqm): return True
    else: return False 

def translate_seq (dna_seq, ini_pos = 0): #initial position은 어디서 부터 번역할건지. 0부터 시작함.
    """ Translates a DNA sequence into an aminoacid sequence. """
    assert validate_dna(dna_seq), "Invalid DNA sequence" #valid 한지 체크.
    seqm = dna_seq.upper()
    seq_aa = ""
    #pos는 코돈의 시작 포지션. 
    for pos in range(ini_pos,len(seqm)-2,3): # 3의 간격으로 서열을 순차적으로 번역
        cod = seqm[pos:pos+3] #번역할 3자리를 cod라는 변수에 넣음.
        seq_aa += translate_codon(cod)  # 추출된 cod(코돈)를 translate_codon 함수를 사용하여 아미노산으로 변환하고, 그 결과를 seq_aa에 추가
    return seq_aa


In [4]:
seq = "aaccggggt"
translate_seq(seq)

'NRG'

In [None]:
# 주어진 DNA 서열에서 특정 아미노산(aa)을 암호화하는 각 코돈의 사용 빈도(frequency)를 계산하는 함수
# 아미노산 -> DNA 서열변환 할 때 코돈 사용 빈도 계산.


def codon_usage(dna_seq, aa):
    """Provides the frequency of each codon encoding a given aminoacid, in a DNA sequence ."""
    assert validate_dna(dna_seq), "Invalid DNA sequence" #유효성 체크후
    seqm = dna_seq.upper() #대문자로 변환.
    dic = {} #코돈들이 key가 되고, 빈도가 value가 된다. 
    total = 0 #total은 aa로 번역되는 DNA의 총 빈도를 나타내는 변수.
    for i in range(0, len(seqm)-2, 3): #3씩 끊어가면서 읽음.
        cod = seqm[i:i+3]
        if translate_codon(cod) == aa: #앞에서 만든 함수 써서 아미노산과 똑같은지 조건문으로 확인.
            if cod in dic:  #만약 얘가 이미 딕셔너리에 있으면 
                dic[cod] += 1 #딕셔너리의 value를 1로 증가
            else: dic[cod] = 1 #딕셔너리에 없었다면 value를 1로 설정.
            total += 1
    if total >0: # 토탈에 값이 하나라도 있다면
        for k in dic:
            dic[k] /= total #총 aa로 번역되는 코돈의 비율.
    return dic 

In [6]:
seq = "aaccggggtaataac"
translate_seq(seq)

'NRGNN'

In [8]:
codon_usage(seq, "N") #N이라는 아미노산의 코돈 사용 빈도
#이 시퀀스에 N으로 번역되는 코돈은 어떤게 있고, 이것들의 비율은 어떤지 계산.
#N으로 번역되는게 저 서열에서 aac, aat임.
#aac가 두번, aat가 한번 나오기에 아래와 같은 빈도가 나옴.

{'AAC': 0.6666666666666666, 'AAT': 0.3333333333333333}

In [9]:
# 내가 만든 함수
# DNA 서열에서 특정 아미노산으로 번역되는 코돈의 종류와 개수!! 구하는 함수

def codon_count(dna_seq, aa):
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    dic = {}
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        if translate_codon(cod) == aa:
            if cod in dic:
                dic[cod] += 1
            else:
                dic[cod] = 1
    return dic

In [10]:
seq = "aaccggggtaataac"
codon_count(seq, "N")

{'AAC': 2, 'AAT': 1}

In [11]:
### 내가 만든 함수
### 여러 아미노산에 해당하는 코돈들의 종류와 비율 반환

def codon_usage_multi(dna_seq, aa_list):
    """Returns the frequency of each codon encoding any amino acid in aa_list."""
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    dic = {}
    total = 0
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        aa = translate_codon(cod)
        if aa in aa_list:  # 여러 아미노산 중 하나라도 해당하면
            dic[cod] = dic.get(cod, 0) + 1
            total += 1
    if total > 0:
        for k in dic:
            dic[k] /= total
    return dic

In [12]:
dna_seq = "ATGAATAAAGGCAACCGGCGTAA"
target_aas = ["N", "R"]  # 아스파라긴(N), 아르기닌(R)

codon_usage_multi(dna_seq, target_aas)

{'AAT': 0.25, 'AAC': 0.25, 'CGG': 0.25, 'CGT': 0.25}

In [13]:
### 내가 만든 함수
### 여러 아미노산에 해당하는 코돈들의 종류와 개수 반환

def codon_count_multi(dna_seq, aa_list):
    """Returns the count of each codon encoding any amino acid in aa_list."""
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    dic = {}
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        aa = translate_codon(cod)
        if aa in aa_list:
            dic[cod] = dic.get(cod, 0) + 1
    return dic

In [14]:
dna_seq = "ATGAATAAAGGCAACCGGCGTAA"
target_aas = ["N", "R"]

codon_count_multi(dna_seq, target_aas)

{'AAT': 1, 'AAC': 1, 'CGG': 1, 'CGT': 1}

In [15]:
### 예상문제 1: DNA 서열에서 아미노산 aa로 번역되는 코돈의 전체 개수만 반환하라.
def codon_total_count(dna_seq, aa):
    """Returns the total number of codons encoding the given amino acid."""
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    count = 0
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        if translate_codon(cod) == aa:
            count += 1
    return count

In [16]:
dna_seq = "ATGAATAAAGGCAACCGGCGTAA"
aa = "N"
codon_total_count(dna_seq, aa)

2

In [17]:
### 예상문제 2: DNA 서열에서 전체 코돈 사용 비율을 계산하라 (아미노산 구분 없이 모든 코돈 대상으로)
def codon_usage_all(dna_seq):
    """Returns the frequency of all codons in the DNA sequence."""
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    dic = {}
    total = 0
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        dic[cod] = dic.get(cod, 0) + 1
        total += 1
    if total > 0:
        for k in dic:
            dic[k] /= total
    return dic

In [18]:
dna_seq = "ATGAATAAAGGCAACCGGCGTAA"
codon_usage_all(dna_seq)

{'ATG': 0.14285714285714285,
 'AAT': 0.14285714285714285,
 'AAA': 0.14285714285714285,
 'GGC': 0.14285714285714285,
 'AAC': 0.14285714285714285,
 'CGG': 0.14285714285714285,
 'CGT': 0.14285714285714285}

In [19]:
###  예상문제 3: DNA 서열에서 번역된 아미노산 서열 중 특정 아미노산이 나온 위치(index)를 리스트로 반환하라
def aa_position_list(dna_seq, target_aa):
    """Returns a list of positions where the given amino acid appears in the translated sequence."""
    assert validate_dna(dna_seq), "Invalid DNA sequence"
    seqm = dna_seq.upper()
    positions = []
    for i in range(0, len(seqm)-2, 3):
        cod = seqm[i:i+3]
        aa = translate_codon(cod)
        if aa == target_aa:
            positions.append(i//3)  # 아미노산 서열 상의 위치
    return positions


In [20]:
dna_seq = "ATGAATAAAGGCAACCGGCGTAA"
target_aa = "N"
aa_position_list(dna_seq, target_aa)

[1, 4]