# 5. Sequence record 객체

Sequence record 객체의 속성을 배우고,\
FASTA 파일과 GenBank파일을 읽어 SeqRecord 객체를 만드는 법을 배울 예정

## 5.1 SeqRecord 객체

Sequence record 객체는 SeqRecord 객체라고도 불리는데 4장에서 학습한 Seq 객체에 추가적인 정보들을 넣을 수 있는 객체\
\
단순히 서열만 다룬다면 간단히 Seq 객체를 사용하면 되지만 서열 외에 서열의 이름, NCBI의 ID 등과 같이 추가적인 정보들을 한 객체 안에 넣어야 한다면 SeqRecord 객체를 사용하는 것이 좋음

가장 간단한 SeqRecord 객체 만들기

In [3]:
# 5.1.simple_seqrecord_object_example_1.py 

from Bio.Seq import Seq 
from Bio.SeqRecord import SeqRecord # Bio.SeqRecord에서 SeqRecord를 import 하였다. 

seq = Seq("ACGT") # 먼저 Sequence 객체를 만든다. 
seqRecord = SeqRecord(seq) # SeqRecord 객체를 만든다. 

print(seqRecord) 

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('ACGT')


속성 값을 넣은 SeqRecord 객체 만들기

In [4]:
# 5.1.simple_seqrecord_object_example_2.py 

from Bio.Seq import Seq 
from Bio.SeqRecord import SeqRecord 

simple_seq = Seq("ACGT") 
simple_seqRecord = SeqRecord(simple_seq, id="NC_1111", name="Test") 
# SeqRecord 객체를 만들 때, id와 name에 각각 값을 집어넣었다. 

print(simple_seqRecord) 

ID: NC_1111
Name: Test
Description: <unknown description>
Number of features: 0
Seq('ACGT')


초기에 넣은 속성값을 수정하기

In [5]:
# 5.1.simple_seqrecord_object_example_3.py 

from Bio.Seq import Seq 
from Bio.SeqRecord import SeqRecord 

simple_seq = Seq("ACGT") 
simple_seqRecord = SeqRecord(simple_seq, id="NC_1111", name="Test") 
simple_seqRecord.name = "Another name" 

print(simple_seqRecord) 

ID: NC_1111
Name: Another name
Description: <unknown description>
Number of features: 0
Seq('ACGT')


## 5.2 SeqRecord 객체의 속성

![image.png](attachment:image.png)

## 5.3 SeqRecord 객체 만들기

SeqRecord 객체 만들기 3가지

### 5.3.1 문자열로부터 SeqRecord 객체 만들기

SeqRecord 객체의 Annotation의 경우, 파이썬 사전 형태로 키-값 쌍으로 넣을 수 있어 여러개 값을 넣을 수 있음을 확인하였다.

In [6]:
# 5.3.1.seqRecord_example.py 

from Bio.Seq import Seq 
from Bio.SeqRecord import SeqRecord 

seq = Seq("ACGT") 
seqRecord = SeqRecord(seq) 
print(seqRecord) 
print("----------") 

# SeqRecord 객체에 설명을 넣어준다. 
seqRecord.id = "NC_1111" 
seqRecord.name = "GeneA" 
seqRecord.description = "This is a description." 
seqRecord.annotations["Annotation_Key1"] = "Annotation_Value1" 
seqRecord.annotations["Annotation_Key2"] = "Annotation_Value2" 
print(seqRecord)

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('ACGT')
----------
ID: NC_1111
Name: GeneA
Description: This is a description.
Number of features: 0
/Annotation_Key1=Annotation_Value1
/Annotation_Key2=Annotation_Value2
Seq('ACGT')


### 5.3.2  FASTA 파일로부터 SeqRecord 객체 만들기

예시로 준비한 파일은 생물학의 주요 모델 생물 중 하나인 Escherichia coli(대장균)의 lac 오페론 유전자의 FASTA 서열

참고로 lac 오페론은 Escherichia coli는 포도당이 주 에너지원으로 포도당이 많은 환경에서는 포도당을 주 에너지원으로 사용한다.

만약 포도당이 모자라고 젖당이 많은 환경이라면 젖당 분해효소(lactase)를 분비하여 젖당을 에너지원으로 사용한다. 

다음은 lac 오페론의 작용을 그림으로 표현한 것

![image.png](attachment:image.png)

FASTA 파일을 읽어 SeqRecord 객체로 만들기 위해 바이오파이썬의 SeqIO.read() 메서드를 사용할 것

SeqIO.read() 메서드는 파일과 파일 종류를 인자로 넣어준다

In [8]:
#5.3.2.seqRecord_FASTA_example.py 

from Bio import SeqIO 

record = SeqIO.read("J01636.1.fasta","fasta") 
print(type(record)) 
print(record) 

<class 'Bio.SeqRecord.SeqRecord'>
ID: J01636.1
Name: J01636.1
Description: J01636.1 E.coli lactose operon with lacI, lacZ, lacY and lacA genes
Number of features: 0
Seq('GACACCATCGAATGGCGCAAAACCTTTCGCGGTATGGCATGATAGCGCCCGGAA...GAC')
