# Sequences objects 2
## Translation
번역은 전사(transcription) 과정을 통해 생성된 mRNA(메신저 RNA)의 정보를 바탕으로 리보솜이 단백질을 합성하는 과정입니다. 이 과정은 세포질에서 이루어지며, 세포 내에서 단백질의 구조와 기능을 결정하는 핵심 단계입니다.

---

## 번역 과정
### 1. 개시 단계 (Initiation)
- **리보솜 조립**: 소단위 리보솜이 mRNA의 시작 코돈(AUG)에 결합합니다.
- **tRNA 결합**: 개시 tRNA가 메싸이오닌(Methionine)을 운반하며 시작 코돈에 결합합니다.
- **대단위 리보솜 결합**: 대단위 리보솜이 소단위 리보솜에 결합해 번역 복합체를 형성합니다.

---

### 2. 신장 단계 (Elongation)
- **코돈-안티코돈 상호작용**: tRNA의 안티코돈이 mRNA의 코돈과 결합합니다.
- **아미노산 연결**: 리보솜이 펩타이드 결합을 형성하여 아미노산을 연결합니다.
- **리보솜 이동**: 리보솜이 mRNA를 따라 이동하며 다음 코돈을 읽습니다.

---

### 3. 종결 단계 (Termination)
- **종결 코돈 도달**: UAA, UAG, UGA와 같은 종결 코돈에 도달하면 번역이 종료됩니다.
- **방출 인자 작용**: 방출 인자가 리보솜에 결합하여 번역 복합체를 분리합니다.
- **단백질 방출**: 완성된 폴리펩타이드가 리보솜에서 방출됩니다.

---

## 번역의 생물학적 중요성
1. **단백질 합성**: 번역 과정은 세포 기능을 담당하는 단백질을 생성하는 핵심 단계입니다.
2. **정확성**: 코돈-안티코돈 매칭을 통해 단백질 합성의 정확성이 유지됩니다.
3. **다양성**: 한 개의 mRNA는 여러 번 번역되어 동일한 단백질을 다량으로 생성할 수 있습니다.

---

## 관련 용어
- **mRNA (메신저 RNA)**: 단백질 합성 정보를 담고 있는 RNA.
- **tRNA (전이 RNA)**: 아미노산을 운반하고 코돈에 결합하는 RNA.
- **리보솜**: 단백질 합성 공장이며, 소단위와 대단위로 구성.
- **코돈**: mRNA의 3개 염기로 구성된 단백질 암호화 단위.
- **안티코돈**: tRNA가 가지고 있는 mRNA 코돈과 상보적인 3개 염기 서열.

---

### 예시
**mRNA 서열**: AUG GGC UUU UGA  
**번역된 아미노산 서열**: Methionine - Glycine - Phenylalanine

### .translate()
mRNA 시퀀스를 번역하는 메소드

In [1]:
from Bio.Seq import Seq
m_rna = Seq("AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG")
m_rna

Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG')

In [2]:
m_rna.translate()

Seq('MAIVMGR*KGAR*')

In [3]:
coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG")
coding_dna

Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG')

In [4]:
coding_dna.translate()

Seq('MAIVMGR*KGAR*')

In [None]:
# 번역은 NCBI의 변환표를 기반으로 만들어졌다.
coding_dna.translate(table="Vertebrate Mitochondrial")

Seq('MAIVMGRWKGAR*')

In [None]:
# NCBI 테이블 번호를 사용하여 테이블을 지정할 수 있다.
coding_dna.translate(table=2)

Seq('MAIVMGRWKGAR*')

#### NCBI 번역 테이블 (Genetic Code Tables)

NCBI 번역 테이블은 생물종에 따라 다양한 유전 암호를 제공합니다. 각 테이블은 코돈(3개 염기)과 대응하는 아미노산의 관계를 정의합니다.

---

##### 주요 번역 테이블

##### 1. **표준 유전 암호 (The Standard Code)**
- **테이블 번호**: 1  
- **설명**: 대부분의 생명체(원핵생물, 진핵생물, 바이러스)에서 사용.  
- **특징**:  
  - AUG: Methionine (시작 코돈)  
  - UAA, UAG, UGA: 종결 코돈  

---

##### 2. **척추동물 미토콘드리아 유전 암호 (Vertebrate Mitochondrial Code)**
- **테이블 번호**: 2  
- **설명**: 척추동물의 미토콘드리아에서 사용.  
- **특징**: 일부 코돈이 표준 암호와 다르게 해석됨.  
  - 예: AUA → Methionine (표준 코드에서는 Isoleucine)

---

##### 3. **효모 미토콘드리아 유전 암호 (Yeast Mitochondrial Code)**
- **테이블 번호**: 3  
- **설명**: 효모 미토콘드리아에 특화된 유전 암호.  
- **특징**: 미토콘드리아에서만 사용됨.

---

##### 4. **곰팡이 및 원생생물 미토콘드리아 유전 암호**
- **테이블 번호**: 4  
- **설명**: 곰팡이, 원생생물, 자포동물(Coelenterates)의 미토콘드리아에서 사용.  

---

##### 5. **고세균 유전 암호 (Archaeal Code)**
- **테이블 번호**: 11  
- **설명**: 고세균 및 일부 세균에서 사용.  
- **특징**: 표준 유전 암호와 유사하지만 세부 차이가 있음.

---

##### 6. **섬모충 유전 암호 (The Ciliate Code)**
- **테이블 번호**: 6  
- **설명**: 섬모충류(Ciliates)에서 사용.  
- **특징**:  
  - UAA, UAG: 아미노산으로 번역 (종결 코돈이 아님)

---

##### 7. **세균, 고세균 및 식물 엽록체 암호 (Bacterial, Archaeal and Plant Plastid Code)**
- **테이블 번호**: 11  
- **설명**: 세균, 고세균 및 식물 엽록체에서 사용.  

---

##### 번역 테이블의 사용 목적
1. **생물 다양성 이해**: 각 생물종의 특수 유전 암호 분석.  
2. **유전자 주석**: 다양한 생물군의 유전자와 단백질 연구.  
3. **생물학적 진화 연구**: 유전 암호의 변형과 진화적 적응 분석.

---

##### 참고
NCBI에서 번역 테이블의 전체 목록과 상세 내용은 [NCBI 공식 문서](https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi)에서 확인할 수 있습니다.

In [7]:
coding_dna.translate()

Seq('MAIVMGR*KGAR*')

In [None]:
# 정지 코돈의 첫 번째까지 번역하게 할 수 있다.
# 종료 코돈 자체를 번역하지 않는다.
coding_dna.translate(to_stop=True)

Seq('MAIVMGR')

In [9]:
coding_dna.translate(table=2)

Seq('MAIVMGRWKGAR*')

In [10]:
coding_dna.translate(table=2, to_stop=True)

Seq('MAIVMGRWKGAR')

In [None]:
# stop_symbol로 종료 코돈을 표시할 수 있다.
coding_dna.translate(table=2, stop_symbol="@")

Seq('MAIVMGRWKGAR@')

In [13]:
gene = Seq(
    "GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCA"
    "GCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGAT"
    "AATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACAT"
    "TATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCAT"
    "AAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA"
)
print(gene)
gene.translate(table="Bacterial")

GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCAGCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGATAATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACATTATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCATAAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA


Seq('VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HR*')

In [14]:
gene.translate(table="Bacterial", to_stop=True)

Seq('VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR')

In [None]:
gene.translate(table="Bacterial", cds=True)
"""박테리아 유전 코드에는 GTG 유효한 시작코돈이 있으나, 일반적으로 메티오닌으로 번역되는데 cds를 이용해 메티오닌으로 번역되도록 한다."""


Seq('MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR')

### 번역표
biopython에서 사용하는 번역표를 출력할 수 있다. 이는 NCBI 정보를 토대로 만들어져 있다.

In [None]:
from Bio.Data import CodonTable
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]
# or = CodonTable.unambiguous_dna_by_id[1]
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]
# or = CodonTable.unambiguous_dna_by_id[2]

In [17]:
print(standard_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

In [18]:
print(mito_table)

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

In [None]:
# 직접 유전자 코드를 입력하거나 메서드로 유전코드를 검색할 수 있다.
mito_table.start_codons

['ATT', 'ATC', 'ATA', 'ATG', 'GTG']

In [20]:
mito_table.stop_codons

['TAA', 'TAG', 'AGA', 'AGG']

In [21]:
mito_table.forward_table["ACG"]

'T'

## Seq 객체 비교
시퀀스 비교는 실제로 매우 복잡한 내용이다. 두 시퀀스가 같은지 여부를 쉽게 판단할 수 있는 방법은 없다. 기본적인 문제는 시퀀스의 문자의 의미가 맥락에 따라 달라진다.

In [22]:
seq1 = Seq("ACGT")
"ACGT" == seq1

True

In [23]:
seq1 == "ACGT"

True

## 알 수 없는 시퀀스 내용이 있는 시퀀스
어떤 경우에는