# Capítulo 5 - Sequências Input/Output

Neste capítulo, discuriremos mais sobre o módulo `Bio.SeqIO`, cjo teve uma breve introdução no Capítulo 2 (https://github.com/GTL98/biopython_br/tree/main/Cap%202%20-%20O%20que%20podemos%20fazer%20com%20o%20Biopython) e usamos algumas de suas funções no Capítulo 4 (https://github.com/GTL98/biopython_br/tree/main/Cap%204%20-%20Objetos%20de%20anota%C3%A7%C3%A3o%20de%20sequ%C3%AAncia). Esse módulo fornece uma interface simples para trabalhar com variados formatos de arquivos de sequência em um caminho uniforme. Para saber mais, acesse o link https://biopython.org/wiki/SeqIO e a documentação online https://biopython.org/docs/1.79/api/Bio.SeqIO.html:

In [1]:
from Bio import SeqIO
help(SeqIO)

Help on package Bio.SeqIO in Bio:

NAME
    Bio.SeqIO - Sequence input/output as SeqRecord objects.

DESCRIPTION
    Bio.SeqIO is also documented at SeqIO_ and by a whole chapter in our tutorial:
    
      - `HTML Tutorial`_
      - `PDF Tutorial`_
    
    .. _SeqIO: http://biopython.org/wiki/SeqIO
    .. _`HTML Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.html
    .. _`PDF Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf
    
    Input
    -----
    The main function is Bio.SeqIO.parse(...) which takes an input file handle
    (or in recent versions of Biopython alternatively a filename as a string),
    and format string.  This returns an iterator giving SeqRecord objects:
    
    >>> from Bio import SeqIO
    >>> for record in SeqIO.parse("Fasta/f002", "fasta"):
    ...     print("%s %i" % (record.id, len(record)))
    gi|1348912|gb|G26680|G26680 633
    gi|1348917|gb|G26685|G26685 413
    gi|1592936|gb|G29385|G29385 471
    
    Note that the parse(

O "problma" é que você tem que trabalhar com objetos **SeqRecords** (visto no Capítulo 4: https://github.com/GTL98/biopython_br/tree/main/Cap%204%20-%20Objetos%20de%20anota%C3%A7%C3%A3o%20de%20sequ%C3%AAncia) que contêm o objeto **Seq** (visto no Capítulo 3: https://github.com/GTL98/biopython_br/tree/main/Cap%203%20-%20Objetos%20de%20Sequ%C3%AAncia) mais as anotações como a identificação e descrição. Observe quando estamos trabalhando com grandes arquivos FASTA ou FASTQ, a sobrecarga que trabalhar com todos esses objetos deixará o script lento. Nesse caso, considere usar os analisadores **SimpleFastaParser** e **FastqGeneralIterator** que retornarão uma tupla de strings para cada registro (ver a **Seção 5.6**).

## 5.1 Analisar ou ler as sequências

A função **parse** do módulo `Bio.SeqIO` é usada para ler uma sequência em objetos **SeqRecord**. Essa função necessita de dois argumentos:
1. O primeiro argumento é um *identificador* para ler os dados ou um nome de arquivo. Um identificador típico abre o arquivo para leitura, mas pode ser a saída de um programa de linha de comando, ou um conjunto de dados baixados da internet (ver a **Seção 5.3**). Veja a **Seção 24.1** para mais informações sobre os identificadores (Capítulo 24: ***link do capítulo 24***).

2. O segundo argumento é uma string de caractéres minúsculos para especificar o formato de arquivo. Para saber todos os formatos suportados, acesse: https://biopython.org/wiki/SeqIO.

A função **parse** retorna um *iterador* que contém objetos **SeqRecord**. Iteradores são usados nos loops (mostrados ao decorrer deste capítulo).

Muitas vezes você encontrará arquivos com um único registro. Para esta situação, use a função **read** do módulo `Bio.SeqIO` que possui os mesmos argumentos. Use essa função desde que haja somente um registro no arquivo, caso contrário, será retornado um erro.

### 5.1.1 Lendo os arquivos de sequência

De modo geral, a função **parse** é usada para ler os objetos **SeqRecord** em um loop como o seguinte:

In [2]:
from Bio import SeqIO
for registro_seq in SeqIO.parse('ls_orchid.fasta', 'fasta'):
    print(registro_seq.id)
    print(repr(registro_seq.seq))
    print(len(registro_seq))

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
gi|2765654|emb|Z78529.1|CLZ78529
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
gi|2765652|emb|Z78527.1|CYZ78527
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
gi|2765651|emb|Z78526.1|CGZ78526
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
gi|2765650|emb|Z78525.1|CAZ78525
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
gi|2765649|emb|Z78524.1|CFZ78524
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
gi|2765648|emb|Z78523.1|CHZ78523
Seq('CGTAACCAGGTTTCCGT

O exemplo acima é o mesmo apresentado na **Seção 2.4** do Capítulo 2 (https://github.com/GTL98/biopython_br/tree/main/Cap%202%20-%20O%20que%20podemos%20fazer%20com%20o%20Biopython), onde carregamos as sequências de DNA no formato FASTA. Se você quiser carregar um arquivo no formato GenBank, basta mudar a extensão do arquivo e o segundo parâmetro:

In [3]:
from Bio import SeqIO
for registro_seq in SeqIO.parse('ls_orchid.gbk', 'genbank'):
    print(registro_seq.id)
    print(repr(registro_seq.seq))
    print(len(registro_seq))

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740
Z78532.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
753
Z78531.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
748
Z78530.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
744
Z78529.1
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
733
Z78527.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
718
Z78526.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
730
Z78525.1
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
704
Z78524.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
740
Z78523.1
Seq('CGTAACCAGGTTTCCGTAGGTGAACCTGCGGCAGGATCATTGTTGAGACAGCAG...AAG')
709
Z78522.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...GAG')
700
Z78521.1
Seq('GTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAGAATATATGATCGAGT...ACC')
726
Z78520.1
Seq('CGTAACAAGGTTTC

De modo silimar, se você quiser ler um outro formato de arquivo, assumindo que seja suportado pela função, basta mudar o segundo argumento, por exemplo: 'swiss' para arquivos SwissProt ou 'embl' para arquivos de texto EMBL. Na wiki do Biopython (https://biopython.org/wiki/SeqIO) há uma lista completa com os formatos de arquivos suportados, bem como a documentação *built in* (https://biopython.org/docs/1.79/api/Bio.SeqIO.html).

Outra maneira de usar os iteradores em Python é com *list comprehension*. Por exemplo, se você quiser extrair uma lista de identificadores de um arquivo, você pode facilmente fazer isso com *list comprehension*:

In [4]:
from Bio import SeqIO
identificadores = [registro_seq.id for registro_seq in SeqIO.parse('ls_orchid.gbk', 'genbank')]
identificadores

['Z78533.1',
 'Z78532.1',
 'Z78531.1',
 'Z78530.1',
 'Z78529.1',
 'Z78527.1',
 'Z78526.1',
 'Z78525.1',
 'Z78524.1',
 'Z78523.1',
 'Z78522.1',
 'Z78521.1',
 'Z78520.1',
 'Z78519.1',
 'Z78518.1',
 'Z78517.1',
 'Z78516.1',
 'Z78515.1',
 'Z78514.1',
 'Z78513.1',
 'Z78512.1',
 'Z78511.1',
 'Z78510.1',
 'Z78509.1',
 'Z78508.1',
 'Z78507.1',
 'Z78506.1',
 'Z78505.1',
 'Z78504.1',
 'Z78503.1',
 'Z78502.1',
 'Z78501.1',
 'Z78500.1',
 'Z78499.1',
 'Z78498.1',
 'Z78497.1',
 'Z78496.1',
 'Z78495.1',
 'Z78494.1',
 'Z78493.1',
 'Z78492.1',
 'Z78491.1',
 'Z78490.1',
 'Z78489.1',
 'Z78488.1',
 'Z78487.1',
 'Z78486.1',
 'Z78485.1',
 'Z78484.1',
 'Z78483.1',
 'Z78482.1',
 'Z78481.1',
 'Z78480.1',
 'Z78479.1',
 'Z78478.1',
 'Z78477.1',
 'Z78476.1',
 'Z78475.1',
 'Z78474.1',
 'Z78473.1',
 'Z78472.1',
 'Z78471.1',
 'Z78470.1',
 'Z78469.1',
 'Z78468.1',
 'Z78467.1',
 'Z78466.1',
 'Z78465.1',
 'Z78464.1',
 'Z78463.1',
 'Z78462.1',
 'Z78461.1',
 'Z78460.1',
 'Z78459.1',
 'Z78458.1',
 'Z78457.1',
 'Z78456.1',

Há mais exemplos usando a função **parse** com *list comprehension* na **Seção 20.2**, como pltar o tamanho das sequências ou o conteúdo GC. (Capítulo 20: ***link do capítulo 20***).

### 5.1.2 Iterando sobre os registros em um arquivo de sequência

Nos exemplos acima, nós usamos um loop para iterar sobre os registros um por um. Você pode usar o loop com todos os objetos Python (incluindo listas, tuplas e strings) que suporte iteração.

O objeto retornado pelo `Bio.SeqIO` é atualmente um interador que retorna objetos **SeqRecord**. Você consegue ver cada registro, mas somente uma vez. O ponto positivo disso é qe você salva grandes quantidades de memória quando trabalha com arquivos grandes.

Ao invés de usar um loop, você pode usar a função **next** em um iterador para percorrer as entradas desse modo:

In [5]:
from Bio import SeqIO
iterador_registro = SeqIO.parse('ls_orchid.fasta', 'fasta')

primeiro_registro = next(iterador_registro)
print(primeiro_registro.id)
print(primeiro_registro.description)

segundo_registro = next(iterador_registro)
print(segundo_registro.id)
print(segundo_registro.description)

gi|2765658|emb|Z78533.1|CIZ78533
gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
gi|2765657|emb|Z78532.1|CCZ78532
gi|2765657|emb|Z78532.1|CCZ78532 C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA


Note que se você usar a função **next** e não obtiver mais resultados, uma exceção é retornada (**StopIteration**).

Mais um caso especial a considerar é quando o seu arquivo possui vários registros, mas você quer somente o primeiro. Nessa situação, o código é bem conciso:

In [6]:
from Bio import SeqIO
primeiro_registro = next(SeqIO.parse('ls_orchid.gbk', 'genbank'))
primeiro_registro

SeqRecord(seq=Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC'), id='Z78533.1', name='Z78533', description='C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA', dbxrefs=[])

Um pequeno aviso. Usar a função **next** como mostrado, ignorará reistros adicionais do arquivo. Se o seu arquivo possuir somente um registro, como arquivos GenBank com um único cromossomo, é aconselhável que seja usada a função **read**. Isso verificará se não há registros extras inesperados presentes.

### 5.1.3 Obtendo uma lista de registros em um arquivo de sequência

Na seção anterior, nós falamos sobre o fato da função **parse** retornar um iterador **SeqRecord** que mostra os registros um a um. Muitas vezes, você precisa ser capaz de acessar os registros em qualquer ordem. Uma lista Python é perfeita para isso. Pode os transformar um registro iterado em ma lista de objetos **SeqRecord** usando a função **list** nativa do Python:

In [7]:
from Bio import SeqIO
registros = list(SeqIO.parse('ls_orchid.gbk', 'genbank'))

print(f'Encontrado {len(registros)} registros')

print('Último registro:')
ultimo_registro = registros[-1]  # usamos alguns truques de lista
print(repr(ultimo_registro.seq))
print(len(ultimo_registro))

print('Primeiro registro:')
primeiro_registro = registros[0]  # lembre-se que o Python começa a contar do zero
print(repr(primeiro_registro.seq))
print(len(primeiro_registro))

Encontrado 94 registros
Último registro:
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC')
592
Primeiro registro:
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
740


É óbvio que você pode continuar usando um loop para os objetos **SeqRecord**, mas usar uma lista é mais flexível do que um iterador (por exemplo, você pode determinar o número de registros o comprimento da lista), mas você precisa de mais memória pois manterá todos os registros na memória de uma só vez.

### 5.1.4 Extraindo dados

**pag 51**