# FASTA, FASTQ, GenBank file - read Sequence

이번 장에서는 SeqIO 모듈에 대해서 학습합니다. 
SeqIO 모듈 안에는 2가지 파일 읽기에 관련된 메서드를 제공합니다. 
    1. SeqIO.parse()
    2. SeqIO.read()
        

## 1. FASTA파일의 Sequence 읽기

### 1) SeqIO.parse() 로 읽기
SeqIO.parse('파일 이름', '파일 종류')
이 '파일 종류'는 https://biopython.org/wiki/SeqIO 에서 확인 할 수 있으며 
대표적으로 
1. clustal
2. fasta
3. fastq
4. genbank
등이 있습니다. 

In [3]:
#1. read parse_example with SeqIO.parse()

from Bio import SeqIO

seq = SeqIO.parse("sample_1.fasta", "fasta")
print(type(seq))

for s in seq:#s가 각 레코드를 순환하면서 읽음 
    print(type(s))
    print(s)

<class 'generator'>
<class 'Bio.SeqRecord.SeqRecord'>
ID: AF501235.1
Name: AF501235.1
Description: AF501235.1 Influenzavirus A (A/duck/Shanghai/1/2000) hemagglutinin gene, complete cds
Number of features: 0
Seq('ATGGAGAAAATAGTGCTTCTTCTTGCAATAGTCAGTCTTGTTAAAAGTGATCAG...AGA', SingleLetterAlphabet())


In [13]:
seq2 = SeqIO.parse("sample_2.fasta", "fasta")
print(type(seq2))

for s in seq2: #s가 각 레코드를 순환하면서 읽음
    print(type(s))
    print(s)
    print("")

<class 'generator'>
<class 'Bio.SeqRecord.SeqRecord'>
ID: MH464856.1
Name: MH464856.1
Description: MH464856.1 Hepatitis B virus isolate MA134, complete genome
Number of features: 0
Seq('TTCCACAACATTCCACCAAGCTCTGCAGGATCCCAGAGTAAGAGGCCTGTATTT...GGG', SingleLetterAlphabet())

<class 'Bio.SeqRecord.SeqRecord'>
ID: CP002925.1
Name: CP002925.1
Description: CP002925.1 Streptococcus pseudopneumoniae IS7493, complete genome
Number of features: 0
Seq('TTGAAAGAAAAACAATTTTGGAATCGTATATTAGAATTTGCTCAAGAAAGACTG...ATC', SingleLetterAlphabet())



In [16]:
#2. read parse_example with SeqIO.read()

seq1 = SeqIO.read("sample_1.fasta", "fasta")
print(type(seq1))
print(seq1)

<class 'Bio.SeqRecord.SeqRecord'>
ID: AF501235.1
Name: AF501235.1
Description: AF501235.1 Influenzavirus A (A/duck/Shanghai/1/2000) hemagglutinin gene, complete cds
Number of features: 0
Seq('ATGGAGAAAATAGTGCTTCTTCTTGCAATAGTCAGTCTTGTTAAAAGTGATCAG...AGA', SingleLetterAlphabet())


In [18]:
seq2 = SeqIO.read("sample_2.fasta", "fasta")
print(type(seq2))
print(seq2)

ValueError: More than one record found in handle

레코드가 2개 이상인 경우, SeqIO.read()를 사용하면 More than one record found in handle 에러가 납니다. 

이게 SeqIO.parse()와 SeqIO.read()의 큰 차이로, 

SeqIO.parse() 메서드로 파일을 읽으면 레코드 개수만큼 SeqRecored 객체가 iterable한 generator가 객체로 생성되지만

SeqIO.read() 메서드로 파일을 읽으면 1개의 SeqRecord 객체가 만들어지므로 여러 개의 레코드가 담긴 파일을 읽으면 오류가 발생하는 것입니다. 

## 2. FASTQ파일의 Sequence 읽기
위에서 알아본 차이에 근거하면, 일반적으로 FASTQ파일은 1개의 레코드라기보다 여러 개의 read들이 1개의 파일에 들어 있습니다. 따라서 SeqIO.read()메서드로 읽으면 오류가 발생하므로 SeqIO.parse() 메서드를 사용해야 합니다. 

In [29]:
#3 SeqIO.parse() 메서드로 fASTQ파일 읽기
from Bio import SeqIO

seq = SeqIO.parse("sample_1.fasta", "fasta")
print(type(seq))
for s in seq:
    print(type(s))
    print(s)
    print(" ")

<class 'generator'>
<class 'Bio.SeqRecord.SeqRecord'>
ID: AF501235.1
Name: AF501235.1
Description: AF501235.1 Influenzavirus A (A/duck/Shanghai/1/2000) hemagglutinin gene, complete cds
Number of features: 0
Seq('ATGGAGAAAATAGTGCTTCTTCTTGCAATAGTCAGTCTTGTTAAAAGTGATCAG...AGA', SingleLetterAlphabet())
 


In [28]:
#SeqIO.parse()를 이용해서 fastq의 서열 부분만 가져오기
seq = SeqIO.parse("sample_1.fasta", "fasta")
for s in seq:
    print(s.seq)

ATGGAGAAAATAGTGCTTCTTCTTGCAATAGTCAGTCTTGTTAAAAGTGATCAGATTTGCATTGGTTACCATGCAAACAACTCGACAGAGCAGGTTGACACAATAATGGAAAAGAACGTTACTGTTACACATGCCCAAGA


연구나 업무에서 다루게 되는 FASTQ파일은 대부분 압축된 형태입니다. 압축형태는 GNU Zip이라고 불리는 gzip 파일 형태로, **파이썬의 gzip모듈을 사용하면 압축된 FASTQ파일인 fastq.gz 파일을 읽을 수 있습니다.**

In [31]:
#4. SeqIO.parse() 로 압축된 FASTQ 파일 읽기 - 방법1
import gzip
from Bio import SeqIO

handle = gzip.open("sample_1.fastq.gz", "rt")
seq = SeqIO.parse(handle, "fastq")

for s in seq:
    print(s.seq)#서열만 출력

AAGGCACCATGCAGAGATGCAAGGCCCCTTTCTAAGCCCTAGACTTCTGGATGACACTTCTAGAAACACCCTGGGCCAGAAGTGAACCTGCTGCCTTGAAGGGAATAACTCAG
ATCTCTACCCAAAGATTAATGGGGATTGGTGTGATATACGGCTGAATTGTACC


In [32]:
#4. SeqIO.parse() 로 압축된 FASTQ 파일 읽기 - 방법2
import gzip
from Bio import SeqIO

with gzip.open("sample_1.fastq.gz", "rt") as handle:
    seq = SeqIO.parse(handle, "fastq")
    
    for s in seq:
        print(s.seq)


AAGGCACCATGCAGAGATGCAAGGCCCCTTTCTAAGCCCTAGACTTCTGGATGACACTTCTAGAAACACCCTGGGCCAGAAGTGAACCTGCTGCCTTGAAGGGAATAACTCAG
ATCTCTACCCAAAGATTAATGGGGATTGGTGTGATATACGGCTGAATTGTACC


## 3. GenBank의 파일 읽기
SeqIO.parse() 또는 SeqIO.read() 메서드를 활용하여 GenBank파일에 들어있는 여러 정보들을 매우 손쉽게 파싱할 수 있습니다. 

In [41]:
#5. GenBank 파일 읽기

from Bio import SeqIO

gbk = SeqIO.read("NC_005816.gb", "genbank")#1개의 레코드만 들어있으면 SeqIO.read(), 아니면 SeqIO.parse()
print(type(gbk))
print(gbk)

<class 'Bio.SeqRecord.SeqRecord'>
ID: NC_005816.1
Name: NC_005816
Description: Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence
Database cross-references: Project:58037
Number of features: 41
/molecule_type=DNA
/topology=circular
/data_file_division=BCT
/date=21-JUL-2008
/accessions=['NC_005816']
/sequence_version=1
/gi=45478711
/keywords=['']
/source=Yersinia pestis biovar Microtus str. 91001
/organism=Yersinia pestis biovar Microtus str. 91001
/taxonomy=['Bacteria', 'Proteobacteria', 'Gammaproteobacteria', 'Enterobacteriales', 'Enterobacteriaceae', 'Yersinia']
/references=[Reference(title='Genetics of metabolic variations between Yersinia pestis biovars and the proposal of a new biovar, microtus', ...), Reference(title='Complete genome sequence of Yersinia pestis strain 91001, an isolate avirulent to humans', ...), Reference(title='Direct Submission', ...), Reference(title='Direct Submission', ...)]
/comment=PROVISIONAL REFSEQ: This record has not yet been 

In [42]:
#6. 몇 가지 정보만 추려내기 
print(gbk.id)
print(gbk.description)
print(gbk.annotations['molecule_type'])
print(gbk.annotations['organism'])

NC_005816.1
Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence
DNA
Yersinia pestis biovar Microtus str. 91001


> gbk에 있는 정보들 목록 (바이오파이썬으로 만나는 생물정보학 101~102p)
1. id: GenBank 파일의 ID를 말하며, 버전 정보를 포함
2. seq: GenBank 파일의 서열을 말함
3. name: GenBank 파일의 LOCUS를 말함
4. description: GenBank 파일을 설명하는 내용이 들어간다. 
5. dbxrefs: 추가 데이터베이스 내용이 들어간다. 
6. features: GenBank 파일의 각  REFERENCE 항목들이 들어간다. 
7. annotation: GenBank 파일의 각 정보들이 파이썬 사전형 형태로 들어간다. 
8. letter_annotation: GenBank 파일에 추가 정보를 더 넣기 위해 만든 속성으로 파이썬 사전형 형태로 들어간다. 

## 4. 인터넷을 통한 파일 읽기
바이오파이썬의  Entrez 모듈을 활용하여 인터넷상의 데이터를 받아와 SeqIO 모듈로 읽는 방법에 대해 알아봅니다. 

> 사용하는 데이터: CCR5유전자 데이터 

> CCR5란: 면역 세포의 표면에서 발현하는 단백질입니다. HIV는 T 세포의 CCR5 수용체를 통해 인체에 감염됩니다. 그런데 CCR5에 변이가 있는 경우, HIV가 감염되지 못한다는 것입니다. 즉, 정상 CCR5(총 길이 1059bp) 에서 32pb가 deletion(총 길이 1027bp)된 mutation genedms HIV에 저항성이 있습니다. 

> Entrez 모듈이란: NCBI 정보를 웹을 통해 접근하여 정보를 가져오는 모듈입니다. 자세한 것은 뒤에서 더 배우겠지만 현재는 Entrez 모듈의 efetch 메서드를 사용하여 넷상 정보를 받아오도록 합니다. 
    >> Entrez.efetch(데이터베이스 이름, 데이터 형식, 아이디, 반환 형식)

In [None]:
#7. Entrez 모듈
from Bio import Entrez

Entrez.email = 'jhjyj5414@naver.com'










