# 4. 유전자 서열 다루어보기_Sequence 객체
## 4.3 Sequence 객체소개
### 4.3.1 Sequence 객체 만들기

In [1]:
# 4.3.1.make_sequence.py 
from Bio.Seq import Seq 

tatabox_seq = Seq("tataaaggcAATATGCAGTAG") 
print(tatabox_seq)  #  tataaaggcAATATGCAGTAG 가 출력된다. 
print(type(tatabox_seq)) # <class 'Bio.Seq.Seq'> 

tataaaggcAATATGCAGTAG
<class 'Bio.Seq.Seq'>


In [2]:
from Bio.Seq import Seq
tatabox_seq = Seq("tataaaggcAATATGCAGTAG")
print(tatabox_seq)  #  tataaaggcAATATGCAGTAG 가 출력된다. 
print(type(tatabox_seq)) # <class 'Bio.Seq.Seq'> 

tataaaggcAATATGCAGTAG
<class 'Bio.Seq.Seq'>


### 4.3.2 Alphabet 모듈

- 내가 넣어준 서열이 DNA, RNA, 아미노산 서열 중 어느 것인지 알 수 있도록 해주는 모듈
- **모듈이 삭제됨**

In [3]:
pip install Bio.Alphabet

Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement Bio.Alphabet (from versions: none)
ERROR: No matching distribution found for Bio.Alphabet


In [24]:
from Bio.Seq import Seq 


tatabox_seq = Seq("tataaaggcAATATGCAGTAG")
print(tatabox_seq) # tataaaggcAATATGCAGTAG 가 출력된다. 
print(type(tatabox_seq)) # <class 'Bio.Seq.Seq'> 

tataaaggcAATATGCAGTAG
<class 'Bio.Seq.Seq'>


In [15]:
Bio.__version__

'1.79'

## 4.4 Sequence 객체 다루기
### 4.4.1 Sequence 객체에 포함된 서열 세기

In [18]:
from Bio.Seq import Seq 

exon_seq = Seq("ATGCAGTAG") 
count_a = exon_seq.count("A") 
print(count_a) # 3 이 출력된다. 

3


### 4.4.2 Sequence 객체의 GC-contents(%) 계산하기

In [21]:
from Bio.Seq import Seq 

exon_seq = Seq("ATGCAGTAG") 
g_count = exon_seq.count("G") 
c_count = exon_seq.count("C") 
gc_contents = (g_count + c_count) / len(exon_seq) * 100 
print(gc_contents)  # 44.44 

44.44444444444444


### 4.4.3 Sequence 객체 서열 대소문자 변환하기

In [22]:
from Bio.Seq import Seq 

tatabox_seq = Seq("tataaaggcAATATGCAGTAG") 
print(tatabox_seq.upper())  # TATAAAGGCAATATGCAGTAG 
print(tatabox_seq.lower())  # tataaaggcaatatgcagtag

TATAAAGGCAATATGCAGTAG
tataaaggcaatatgcagtag


### 4.4.4 Sequence 객체 전사, 번역하기

In [23]:
from Bio.Seq import Seq 

dna = Seq("ATGCAGTAG") 
mrna = dna.transcribe() 
ptn = dna.translate() 
print(mrna)  # AUGCAGUAG 
print(ptn)  # MQ* 

AUGCAGUAG
MQ*


### 4.4.5 첫 번째 종결 코돈에서 번역 종료하기

In [25]:
from Bio.Seq import Seq 

mRNA = Seq("AUGAACUAAGUUUAGAAU") 
ptn = mRNA.translate() 
print(ptn)  ## MN*V*N 

MN*V*N


In [26]:
from Bio.Seq import Seq 

mRNA = Seq("AUGAACUAAGUUUAGAAU") 
ptn = mRNA.translate(to_stop=True) 
print(ptn) ## MN 

MN


### 4.4.6 종결 코돈 기준으로 서열 나누기

In [27]:
from Bio.Seq import Seq 

mrna = Seq("AUGAACUAAGUUUAGAAU") 
ptn = mrna.translate() 
print(ptn)  ## MN*V*N 
for seq in ptn.split("*"): 
    print(seq) 

MN*V*N
MN
V
N


In [28]:
type(ptn)

Bio.Seq.Seq

### 4.4.7 DNA Sequence 상보적, 역상보적 서열 만들기

순수 파이썬 구현으로 DNA Sequence 상보적, 역상보적 서열 만들기

In [5]:
# 4.4.7. complement.py
seq = "TATAAAGGCAATATGCAGTAG"
comp_dic = {'A':'T', 'C':'G', 'G':'C', 'T':'A'} # 상보적 염기를 키-값응로 하는 사전을 만든다
comp_seq = ""
for s in seq: # 서열에서 하나씩 읽어
    comp_seq += comp_dic[s] # 상보적 염기를 추가해준다
revcomp_seq = comp_seq[::-1] # 파이썬 문자열을 뒤집어 준다
print(comp_seq)
print(revcomp_seq)
    

ATATTTCCGTTATACGTCATC
CTACTGCATATTGCCTTTATA


바이오파이썬으로 DNA Sequence 상보적, 역상보적 서열 만들기

In [9]:
# 4.4.7.complement.bio.py 
from Bio.Seq import Seq 

seq = Seq("TATAAAGGCAATATGCAGTAG") 
ㅁcomp_seq = seq.complement()
rev_comp_seq = seq.reverse_complement() 
print(comp_seq)  # ATATTTCCGTTATACGTCATC 
print(rev_comp_seq)  # CTACTGCATATTGCCTTTATA 

ATATTTCCGTTATACGTCATC
CTACTGCATATTGCCTTTATA


### 4.4.8 코돈 테이블

바이오 파이썬을 이용하여 코든 테이블을 출력할 수 있다.

In [10]:
# 4.4.8 codonTable.py
from Bio.Data import CodonTable

codon_table = CodonTable.unambiguous_dna_by_name["Standard"]
print(codon_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

Standard라고 부르는 테이블 이외의 테이블도 출력할 수 있다. 다음은 미토콘드리아가 사용하는 코돈 테이블

In [11]:
# 4.4.8 codonTable.py
from Bio.Data import CodonTable

codon_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]
print(codon_table)

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

### 4.4.9 Sequnce 객체에서 ORF 찾기

ORF(Open Reading Frame)은 시작 코돈인 ATG부터 시작하여 3개 염기서열씩 읽다가 TAA, TAG, TGA 중 하나를 만나면 하나의 단백질을 만들 가능성이 있는 코돈을 의미

In [13]:
# 4.4.9.orf_finder.py

from Bio.Seq import Seq

tatabox_seq = Seq("tataaaggcAATATGCAGTAG")
start_idx = tatabox_seq.find("ATG")   
end_idx = tatabox_seq.find("TAG", start_idx)  # 예문의 편의상 TAG 로 하였다.  
orf = tatabox_seq[start_idx:end_idx+3]  # 파이썬 문자열과 같은 방법으로 슬라이싱이 가능하다. 
print(orf)  # ATGCAGTAG

ATGCAGTAG


## 4.5 Bio.SeqUtils 모듈 활용

Bio.SeqUils 모듈은 GC-contents(%)를 간단히 계산해주거나 서열의 무게 계산, 유전서열에서 나올 수 있는 모든 아미노산 서열을 정리하여 보여주는 메서드들을 담고있음

### 4.5.1 Bio.SeqUtils로 GC-contents(%) 계산하기

In [14]:
# 4.5.1.gc_contents.py
from Bio.Seq import Seq
from Bio.SeqUtils import GC

exon_seq = Seq("ATGCAGTAG")
gc_contents = GC(exon_seq)
print(gc_contents)  # 44.44

44.44444444444444


### 4.5.2 Bio.SeqUtils로 서열의 무게 계산하기

Bio.SeqUtils의 molecular_weight 메서드로 서열의 무게를 계산할 수 있다.

아래처럼 서열은 같지만 DNA와 단백질 서열의 차이 때문에 무게가 다르다.

In [None]:
# 4.5.2.calc_molecular_weight.py 
from Bio.Seq import Seq 
from Bio.Alphabet import IUPAC 
from Bio.SeqUtils import molecular_weight 

seq1 = Seq("ATGCAGTAG") 
seq2 = Seq("ATGCAGTAG", IUPAC.unambiguous_dna) 
seq3 = Seq("ATGCAGTAG", IUPAC.protein) 

print(molecular_weight(seq1))  # 2842.82 가 출력된다 
print(molecular_weight(seq2))  # 2842.82 가 출력된다 
print(molecular_weight(seq3))  # 707.75 가 출력된다 

### 4.5.3 Bio.SeqUtils로 가능한 모든 번역 구하기

Bio.SeqUtils의 six_frame_translations 메서드로 DNA 서열에서 가능한 모든 6개의 번역된 서열을 구할 수 있다.

서열에 맞추어 가능한 6가지 번역이 한 줄씩 깔끔히 정리됨. 또한 서열 내 포함된 염기를 세어주고 길이와 GC-contents(%)도 계산해줌

In [1]:
# 4.5.3.make_six_frame_translations.py 
from Bio.Seq import Seq 
from Bio.SeqUtils import six_frame_translations 

seq1 = Seq("ATGCCTTGAAATGTATAG") 
print(six_frame_translations(seq1))

GC_Frame: a:6 t:6 g:4 c:2 
Sequence: atgccttgaaatgtatag, 18 nt, 33.33 %GC


1/1
  A  L  K  C  I
 C  L  E  M  Y
M  P  *  N  V  *
atgccttgaaatgtatag   33 %
tacggaactttacatatc
G  Q  F  T  Y 
 H  R  S  I  Y  L
  A  K  F  H  I




### 4.5.4 Bio.SeqUtils로 DNA 서열 Tm 계산하기

Bio.SeqUtils의 MeltingTemp 메서드로 DNA 서열의 Tm을 계산할 수 있음\
DNA의 이중 나선은 온도를 가하면 단일 사슬로 분리되는데, Tm이란 이중 나선의 절반이 단일 나선이 될 때의 온도임\
GC 간 결합이 AT 간 결합보다 결합 힘이 세기 때문에 GC-contents(%)가 높을수록 Tm값이 올라간다.

In [2]:
# 4.5.4.calc_melting_temperature.py 
from Bio.SeqUtils import MeltingTemp as mt 
from Bio.Seq import Seq 

myseq = Seq("AGTCTGGGACGGCGCGGCAATCGCA") 
print(mt.Tm_Wallace(myseq))  # 84.0 이 출력된다. 

84.0


### 4.5.5 Bio.SeqUtils로 아미노산 서열의 약자와 기호간 변환하기

Bio.SeqUtils의 seq1 메서드와 seq3 메서드로 아미노산 서열의 약자와 기호간 상호변환을 할 수 있음

In [3]:
# 4.5.5.convert_aminoacid_1to3.py 
from Bio.SeqUtils import seq1 

essential_amino_acid_3 = "LeuLysMetValIleThrTrpPhe" 
print(seq1(essential_amino_acid_3))  ## LKMVITWF 가 출력된다. 

LKMVITWF


In [4]:
# 4.5.5.convert_aminoacid_3to1.py 
from Bio.SeqUtils import seq3 

essential_amino_acid_1 = "LKMVITWF" 
print(seq3(essential_amino_acid_1))  ## LeuLysMetValIleThrTrpPhe 가 출력된다. 

LeuLysMetValIleThrTrpPhe


### 4.6 정리

In [5]:
# 바이오 파이썬 Seq 라이브러리를 불러오는 방법
from Bio.Seq import Seq

# Seq 객체를 만드는 방법
seq = Seq("ACGT")

객체에는 속성과 메서드가 있으며 Seq 객체는 파이썬 문자열처럼 count 메서드로 염기수를 셀 수 있다.\
Seq 객체의 transcribe, translate 메서드로 서열을 전사, 번역할 수 있고, \
complement, reverse_complement 메서드로 서열의 상보 서열, 역상보 서열을 구할 수 있다

In [6]:
# 코돈 테이블을 출력하는 방법
from Bio.Data import CodonTable
print(CodonTable.unambiguous_rna_by_name["Standard"])

Table 1 Standard, SGC0

  |  U      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
U | UUU F   | UCU S   | UAU Y   | UGU C   | U
U | UUC F   | UCC S   | UAC Y   | UGC C   | C
U | UUA L   | UCA S   | UAA Stop| UGA Stop| A
U | UUG L(s)| UCG S   | UAG Stop| UGG W   | G
--+---------+---------+---------+---------+--
C | CUU L   | CCU P   | CAU H   | CGU R   | U
C | CUC L   | CCC P   | CAC H   | CGC R   | C
C | CUA L   | CCA P   | CAA Q   | CGA R   | A
C | CUG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | AUU I   | ACU T   | AAU N   | AGU S   | U
A | AUC I   | ACC T   | AAC N   | AGC S   | C
A | AUA I   | ACA T   | AAA K   | AGA R   | A
A | AUG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GUU V   | GCU A   | GAU D   | GGU G   | U
G | GUC V   | GCC A   | GAC D   | GGC G   | C
G | GUA V   | GCA A   | GAA E   | GGA G   | A
G | GUG V   | GCG A   | GAG E   | GGG G   | G
--+---------

### 4.7 연습문제

문항 1. 다음 서열을 Sequence 객체로 만들어 대문자로 변환하시오.\
\
서열: aagtGACAGggatTG


In [8]:
seq = Seq("aagtGACAGggatTG").upper()
seq

Seq('AAGTGACAGGGATTG')

문항 2. 다음 서열을 첫 번째 종결 코돈까지 번역하시오.\
\
서열: AAGTGACAGGGATTG

In [19]:
seq.translate(to_stop=True)

Seq('K')

문항 3. 다음 서열의 역상보 서열의 GC(%)와 녹는 점(Tm)을 계산하시오\
\
서열: AAGTGACAGGGATTG

In [15]:
seq_reverse = seq.reverse_complement() #역상보서열
print("Tm:", mt.Tm_Wallace(seq_reverse))
print("GC-contents(%): ", GC(seq_reverse))

Tm: 44.0
GC-contents(%):  46.666666666666664


문항 4. 바이오파이썬의 코돈 테이블을 참고하여 인간과 미토콘드리아의 종결 코돈을 알아보시오.

In [16]:
print(CodonTable.unambiguous_rna_by_name["Standard"])

Table 1 Standard, SGC0

  |  U      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
U | UUU F   | UCU S   | UAU Y   | UGU C   | U
U | UUC F   | UCC S   | UAC Y   | UGC C   | C
U | UUA L   | UCA S   | UAA Stop| UGA Stop| A
U | UUG L(s)| UCG S   | UAG Stop| UGG W   | G
--+---------+---------+---------+---------+--
C | CUU L   | CCU P   | CAU H   | CGU R   | U
C | CUC L   | CCC P   | CAC H   | CGC R   | C
C | CUA L   | CCA P   | CAA Q   | CGA R   | A
C | CUG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | AUU I   | ACU T   | AAU N   | AGU S   | U
A | AUC I   | ACC T   | AAC N   | AGC S   | C
A | AUA I   | ACA T   | AAA K   | AGA R   | A
A | AUG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GUU V   | GCU A   | GAU D   | GGU G   | U
G | GUC V   | GCC A   | GAC D   | GGC G   | C
G | GUA V   | GCA A   | GAA E   | GGA G   | A
G | GUG V   | GCG A   | GAG E   | GGG G   | G
--+---------

인간의 종결 코돈: TAA, TAG, TGA

In [17]:
print(CodonTable.unambiguous_rna_by_name["Vertebrate Mitochondrial"])

Table 2 Vertebrate Mitochondrial, SGC1

  |  U      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
U | UUU F   | UCU S   | UAU Y   | UGU C   | U
U | UUC F   | UCC S   | UAC Y   | UGC C   | C
U | UUA L   | UCA S   | UAA Stop| UGA W   | A
U | UUG L   | UCG S   | UAG Stop| UGG W   | G
--+---------+---------+---------+---------+--
C | CUU L   | CCU P   | CAU H   | CGU R   | U
C | CUC L   | CCC P   | CAC H   | CGC R   | C
C | CUA L   | CCA P   | CAA Q   | CGA R   | A
C | CUG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | AUU I(s)| ACU T   | AAU N   | AGU S   | U
A | AUC I(s)| ACC T   | AAC N   | AGC S   | C
A | AUA M(s)| ACA T   | AAA K   | AGA Stop| A
A | AUG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GUU V   | GCU A   | GAU D   | GGU G   | U
G | GUC V   | GCC A   | GAC D   | GGC G   | C
G | GUA V   | GCA A   | GAA E   | GGA G   | A
G | GUG V(s)| GCG A   | GAG E   | GGG G   

미토콘드리아의 종결 코돈: TAA, TAG, AGA, AGG