In [None]:
## Não se preocupem com essa célula. Ela é só pra essa aula funcionar no Google Colab
## Se estiver rodando isso no Colab, Descomente e rode o código abaixo:

#!git clone https://github.com/gavieira/curso_programacao

#import os
#os.chdir('/content/curso_programacao')
#git pull
#pip install biopython

# Biopython

## Importando módulos

**Módulos** são arquivos que contém funções/métodos geralmente não estão disponíveis por padrão no python. Os módulos podem ser carregados e usados no seu código (e te salvar muito tempo).

Para carregar um módulo, usamos a palavra-chave **import**:

In [5]:
# Importando módulo 'math'

import math

print(math.sqrt(25)) # Raiz quadrada
print(math.perm(3)) # Permutação

5.0
6


Adicionamente, podemos usar duas palavras-chave combinadas com o **import**:

- **from**: Nos permite carregar apenas um ou alguns métodos/funções do módulo.
- **as**: Nos permite renomear o módulo o funções/métodos importados

In [3]:
# Importando apenas método 'sqrt' do módulo 'math'

from math import sqrt   # E se adicionarmos o método 'perm' ao import?

print(sqrt(25))
print(perm(3))

5.0
120


In [4]:
# Importando módulo 'math' com nome customizado

import math as matematica

print(matematica.sqrt(25))
print(matematica.perm(3))

5.0
120


In [6]:
# Importando métodos com nome customizado

from math import sqrt as raiz_quadrada, perm as permutacao

print(raiz_quadrada(25))
print(permutacao(3))

5.0
6


## Manipulação de sequências de DNA sem módulos

Obviamente, como sequências de DNA são strings, podemos fazer várias operações sobre elas usando apenas os recursos básicos do Python:

In [75]:
# Salvando uma sequência à variável "seq"
seq = "ATGGTATAA"

In [97]:
# Imprimindo o tamanho da sequência
print("Essa sequencia tem {} nucleotídeos.".format(len(seq)))

Essa sequencia tem 9 nucleotídeos.


In [78]:
# Podemos pegar cada um dos nucleotídeos e o manusear como quisermos:
for nt in range(len(seq)):
    print("Index: {}: {}".format(nt, seq[nt]))

Index: 0: A
Index: 1: T
Index: 2: G
Index: 3: G
Index: 4: T
Index: 5: A
Index: 6: T
Index: 7: A
Index: 8: A


In [79]:
# Podemos também separa a sequência em trincas (códons):
contador = 0
for nt in range(0, len(seq), 3):
    contador += 1
    print("Trinca {}: {}".format(contador, seq[nt:nt+3]))

Trinca 1: ATG
Trinca 2: GTA
Trinca 3: TAA


Entretanto, há várias outras operações mais avançadas (como traduzir uma sequência de nucleotídeos em uma de aminoácidos) que são facilitadas por um módulo específico: o **Biopython**.

## Biopython

[**Biopython**](https://biopython.org/) é um módulo que possui várias ferramentas prontas para o manuseio de dados biológicos.

### Objeto `Seq`

O objeto mais simples em Biopython é o objeto Seq, que possui vários métodos interessantes:

In [86]:
# Primeiro, vamos importar o que precisamos
from Bio.Seq import Seq

# E agora, criar nosso objeto Seq
dnaseq = Seq("ATGGTATAA")

print(type(dnaseq))
print(dir(dnaseq))

<class 'Bio.Seq.Seq'>
['__add__', '__class__', '__contains__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__imul__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__radd__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_data', '_get_seq_str_and_check_alphabet', 'alphabet', 'back_transcribe', 'complement', 'count', 'count_overlap', 'encode', 'endswith', 'find', 'index', 'join', 'lower', 'lstrip', 'reverse_complement', 'rfind', 'rindex', 'rsplit', 'rstrip', 'split', 'startswith', 'strip', 'tomutable', 'transcribe', 'translate', 'ungap', 'upper']


Com um objeto `Seq`, podemos, dentre outras coisas:

In [81]:
# Gerar o reverso complementar da sequência
print("DNA original: {}".format(dnaseq))
print("Reverso complementar: {}".format(dnaseq.reverse_complement()))

DNA original: ATGGTATAA
Reverso complementar: TTATACCAT


In [83]:
# Podemos transcrevê-la ou mesmo retrotranscrevê-la

rnaseq = dnaseq.transcribe()

print("RNA transcrito a partir desse DNA: {}".format(rnaseq))
print("Retrotranscrevendo o RNA: {}".format(rnaseq.back_transcribe()))

RNA transcrito a partir desse DNA: AUGGUAUAA
Retrotranscrevendo o RNA: ATGGTATAA


In [84]:
# A tradução pode ser feita tanto a partir de DNA quanto de RNA

print("Proteína traduzida a partir de DNA: {}".format(dnaseq.translate()))
print("Proteína traduzida a partir de RNA: {}".format(rnaseq.translate()))

Proteína traduzida a partir de DNA: MV*
Proteína traduzida a partir de RNA: MV*


In [99]:
# Podemos também obter o tamanho das sequências (DNA, RNA ou proteína)

# Gerando objeto com sequencia de aa
aaseq = dnaseq.translate()

print("Tamanho da sequência de DNA: {}".format(len(dnaseq)))
print("Tamanho da sequência de RNA: {}".format(len(rnaseq)))
print("Tamanho da sequência de proteína: {}".format(len(aaseq))) #OBS: Inclui stop codon!!

Tamanho da sequência de DNA: 9
Tamanho da sequência de RNA: 9
Tamanho da sequência de proteína: 3


Será que conseguimos converter a informação da proteína para dna que nem na retrotranscrição do RNA? Vamos tentar!

In [87]:
# Tentando retrotraduzir a sequência.
# Como não há um método back_translate(), iremos tentar com o back_transcribe()
print(aaseq.back_transcribe())

ValueError: Proteins cannot be back transcribed!

#### Não conseguimos retrotraduzir?

Por que deu erro?

O código genético é **degenerado**: Mais de um códon traduz para um mesmo aminoácido.

Ou seja, na ida da informação do DNA para proteína, só há uma tradução possível. Na volta para o DNA, há múltiplas.

### CodonTable

Para entender melhor a questão da degeneração do DNA, podemos acessar o código genético, que está disponível dentro do Biopython:

In [89]:
from Bio.Data import CodonTable
print(CodonTable.unambiguous_dna_by_id.get(1)) # É um dicionário

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

#### Código genético é universal?

A maioria dos pesquisadores trabalham com genes codificados pelo Código Padrão (*Standard - Genetic Codon Table* 1). Mas há inúmeras variações do código dito "universal".

In [90]:
for tabela in CodonTable.unambiguous_dna_by_id.values():
    print(tabela)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

Até agora, nós brincamos somente com dados já presentes no Biopython ou com sequências curtas de DNA criadas na hora por nós mesmos.

Mas ao se trabalhar com bioinformática, precisamos ler arquivos que possuem sequências reais de organismos. Essas sequências geralmente são bem grandes (milhares de nt's) e podem possuir outras informações associadas (anotação de genes).

Vamos ver agora como trabalhar com sequências presentes em arquivos.

### SeqIO

Iremos agora aprender um pouco sobre o [**SeqIO**](https://biopython.org/wiki/SeqIO), um conjunto de ferramentas do Biopython que permite a leitura e `parsing` (extração das informações) dos mais diversos tipos de arquivos em bioinformática.

Aqui, focaremos em usar o **SeqIO para a análise de um arquivo *genbank***. Um arquivo genbank é muito mais complexo que um fasta, sendo dividido em 3 partes:

- **Header**: metadados sobre a sequência
- **Feature Table**: Anotações (no nosso caso, de genes)
- **Sequência**: Sequência de DNA

Vamos dar uma olhada nesse tipo de arquivo:

In [10]:
# Abrindo arquivo genbank

with open("arquivos/pgracilis_mitocondria.gb", "r") as genbank:
    for line in genbank:
        print(line, end='')

LOCUS       BK010472               15704 bp    DNA     circular INV 05-APR-2019
DEFINITION  TPA_asm: Pseudomyrmex gracilis mitochondrion, complete genome.
ACCESSION   BK010472
VERSION     BK010472.1
DBLINK      Sequence Read Archive: SRR1742979
KEYWORDS    Third Party Data; TPA; TPA:assembly.
SOURCE      mitochondrion Pseudomyrmex gracilis
  ORGANISM  Pseudomyrmex gracilis
            Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Hexapoda; Insecta;
            Pterygota; Neoptera; Holometabola; Hymenoptera; Apocrita; Aculeata;
            Formicoidea; Formicidae; Pseudomyrmecinae; Pseudomyrmex.
REFERENCE   1  (bases 1 to 15704)
  AUTHORS   Vieira,G.A. and Prosdocimi,F.
  TITLE     Accessible molecular phylogenomics at no cost: obtaining 14 new
            mitogenomes for the ant subfamily Pseudomyrmecinae from public data
  JOURNAL   PeerJ 7, e6271 (2019)
   PUBMED   30697483
  REMARK    Publication Status: Online-Only
REFERENCE   2  (bases 1 to 15704)
  AUTHORS   Vieira,G.A. and Prosdoci

Sendo um arquivo complexo, é mais difícil extrair informação de um genbank do que de um fasta, por exemplo. 

Mas o SeqIO consegue 'quebrar' o genbank em cada uma de suas informações ([*parsing* ou análise sintática](https://pt.wikipedia.org/wiki/An%C3%A1lise_sint%C3%A1tica_(computa%C3%A7%C3%A3o))), que podem ser acessadas individualmete. Isso facilita muito o uso desses arquivos.

Vamos ver isso com mais calma a seguir:

### `SeqIO`

Obviamente, para usar o SeqIO, precisamos primeiro importá-lo:

In [91]:
from Bio import SeqIO

Para ler um arquivo genbank (ou qualquer outro arquivo suportado, na verdade), precisamos criar um **objeto SeqIO**. Para isso, precisamos usar o método `SeqIO.parse()`:

In [13]:
genbank = SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank")
print(genbank)

<generator object InsdcScanner.parse_records at 0x7f46de457190>


Como podemos ver, esse objeto é na verdade um **gerador**. Um gerador é um **iterável**, ou seja, um tipo de dado no qual podemos usar loops para acessar todos os seus elementos, um por vez. Além disso, o gerador é **exaurível**, então iremos recriar o objeto toda vez que formos precisar dele.

Iterando sobre o objeto (que no caso possui apenas um elemento, já que o genbank continha apenas uma sequência), obtemos muita informação sobre o arquivo:

In [15]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record)

ID: BK010472.1
Name: BK010472
Description: TPA_asm: Pseudomyrmex gracilis mitochondrion, complete genome
Database cross-references: Sequence Read Archive:SRR1742979
Number of features: 75
/molecule_type=DNA
/topology=circular
/data_file_division=INV
/date=05-APR-2019
/accessions=['BK010472']
/sequence_version=1
/keywords=['Third Party Data', 'TPA', 'TPA:assembly']
/source=mitochondrion Pseudomyrmex gracilis
/organism=Pseudomyrmex gracilis
/taxonomy=['Eukaryota', 'Metazoa', 'Ecdysozoa', 'Arthropoda', 'Hexapoda', 'Insecta', 'Pterygota', 'Neoptera', 'Holometabola', 'Hymenoptera', 'Apocrita', 'Aculeata', 'Formicoidea', 'Formicidae', 'Pseudomyrmecinae', 'Pseudomyrmex']
/references=[Reference(title='Accessible molecular phylogenomics at no cost: obtaining 14 new mitogenomes for the ant subfamily Pseudomyrmecinae from public data', ...), Reference(title='Direct Submission', ...)]
/structured_comment=OrderedDict([('Assembly-Data', OrderedDict([('Assembly Method', 'MIRA v. 4.0.2; NOVOPlasty v. 

Podemos notar que toda a informação já está categorizada em campos como `ID` ou `Description`. Ou seja, o método `SeqIO.parse()` faz o *parsing* do arquivo ao mesmo tempo em que cria o objeto SeqIO.

Note que esse objeto é muito mais complexo que o objeto `Seq`, o qual continha basicamente uma sequência de DNA, RNA ou proteína.

Vamos agora olhar para os **atributos** (logo falamos mais sobre o que é isso) e **métodos** desse objeto. Muitos desses nos permitem acesso direto aos dados do arquivo genbank:

In [16]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(dir(record))

['__add__', '__bool__', '__class__', '__contains__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__le___', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__radd__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_per_letter_annotations', '_seq', '_set_per_letter_annotations', '_set_seq', 'annotations', 'dbxrefs', 'description', 'features', 'format', 'id', 'letter_annotations', 'lower', 'name', 'reverse_complement', 'seq', 'translate', 'upper']


Vamos começar com o atributo `seq`, que contém a sequência nucleotídica do arquivo genbank:

In [21]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record.seq)

ATGAACAAATGATTATACTCAACTAATCACAAAGATATTGGAATCCTATACTTTATATTTGCTATATGAGCAGGAATAATTGGATCATCAATAAGAATAATTATTCGAATTGAATTAGGATCCTGTGGATCCATTATTAATAATGACCAACTGTATAACTCTATCGTAACAGGACATGCATTTATCATAATTTTCTTTATAGTTATACCATTTATAATCGGAGGATTTGGTAACTTTTTAATTCCACTAATAATTGGGTCACCAGATATAGCTTACCCCCGTATAAATAACATAAGATTTTGACTCTTACCCCCATCAATTATACTACTCACCTTAAGAAGATTTATTAATTCAGGTGCGGGAACTGGTTGAACTGTATACCCTCCCTTATCCTCAAGAATTTTCCATAGGGGAGCCTCAGTAGATTTAGCAATTTTTTCTCTCCATATTGCAGGTATTTCATCAATCATAGGAGCTATCAACTTCATCTCTACAATTATTAACATAACCCATAAAAATCTTTCAATAGATAAAACCCCTCTCATAGTATGATCTATTCTAATTACAGCAGTCCTTCTCCTCCTTTCCCTTCCTGTATTAGCCGGAGCAATTACAATACTACTAACAGATCGAAACCTTAATACTTCATTTTTTGACCCAGCAGGGGGAGGAGATCCTATTCTTTACCAACATTTATTTTGATTTTTTGGACACCCAGAAGTTTATATTTTAATCCTCCCAGGATTTGGAATAATCTCCCACATTATTATAAGAGAAAGGGGTAAAAAAGAAACATTTGGATCACTAGGAATAATTTATGCAATAATAGCTATTGGATTCCTAGGATTTATTGTCTGAGCTCACCACATATTTACAATTGGAATAGATGTAGATACACGAGCATACTTCACTTCAGCAACAATAATTATTGCTGTACCCACAGGAATTAAAGTCTTTAGATGAATTACAACATTACATGGAACCAAAATAAACCTAAACT

#### Adendo: Atributos

Repare que na segunda linha da célula anterior

    print(record.seq)
    
`record.seq` não especifica um método, pois não tem os parênteses típicos da sintaxe de uma função/método. Em vez disso, ele especifica um **atributo**.

Da mesma forma que um método é uma função associada a um objeto, **um atributo é uma variável associada a um objeto**. Ela não modifica valores, apenas os guarda.

Se imprimirmos o atributo **"annotation"**, nós obteremos um **dicionário**, que pode ser usado para obter informações específicas:

In [19]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record.annotations) # Não é um método
    print(type(record.annotations))

{'molecule_type': 'DNA', 'topology': 'circular', 'data_file_division': 'INV', 'date': '05-APR-2019', 'accessions': ['BK010472'], 'sequence_version': 1, 'keywords': ['Third Party Data', 'TPA', 'TPA:assembly'], 'source': 'mitochondrion Pseudomyrmex gracilis', 'organism': 'Pseudomyrmex gracilis', 'taxonomy': ['Eukaryota', 'Metazoa', 'Ecdysozoa', 'Arthropoda', 'Hexapoda', 'Insecta', 'Pterygota', 'Neoptera', 'Holometabola', 'Hymenoptera', 'Apocrita', 'Aculeata', 'Formicoidea', 'Formicidae', 'Pseudomyrmecinae', 'Pseudomyrmex'], 'references': [Reference(title='Accessible molecular phylogenomics at no cost: obtaining 14 new mitogenomes for the ant subfamily Pseudomyrmecinae from public data', ...), Reference(title='Direct Submission', ...)], 'structured_comment': OrderedDict([('Assembly-Data', OrderedDict([('Assembly Method', 'MIRA v. 4.0.2; NOVOPlasty v. 2.6.3; MITObim v. 1.8'), ('Sequencing Technology', 'Illumina')]))])}
<class 'dict'>


Se nós quisermos obter o nome da espécie, por exemplo, teremos que retirá-lo daí. "Organism" é uma chave nesse dicionário, e seu valor é o nome da espécie. Logo, podemos extrair essa informação usando o método `get()`:

In [31]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record.annotations.get("organism"))

Pseudomyrmex gracilis


Nós também podemos usar a função `len()` no objeto SeqIO. Nesse caso, obteremos o tamanho do atributo `seq`. Ou seja, obteremos o tamanho da sequência.

In [29]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(len(record))
    print("O mitogenoma da formiga Pseudomyrmex gracilis possui {} nucleotídeos".format(len(record)))

15704
O mitogenoma da formiga Pseudomyrmex gracilis possui 15704 nucleotídeos


Também podemos usar o método `format()` para converter o genbank em fasta:

In [32]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record.format("fasta"))

>BK010472.1 TPA_asm: Pseudomyrmex gracilis mitochondrion, complete genome
ATGAACAAATGATTATACTCAACTAATCACAAAGATATTGGAATCCTATACTTTATATTT
GCTATATGAGCAGGAATAATTGGATCATCAATAAGAATAATTATTCGAATTGAATTAGGA
TCCTGTGGATCCATTATTAATAATGACCAACTGTATAACTCTATCGTAACAGGACATGCA
TTTATCATAATTTTCTTTATAGTTATACCATTTATAATCGGAGGATTTGGTAACTTTTTA
ATTCCACTAATAATTGGGTCACCAGATATAGCTTACCCCCGTATAAATAACATAAGATTT
TGACTCTTACCCCCATCAATTATACTACTCACCTTAAGAAGATTTATTAATTCAGGTGCG
GGAACTGGTTGAACTGTATACCCTCCCTTATCCTCAAGAATTTTCCATAGGGGAGCCTCA
GTAGATTTAGCAATTTTTTCTCTCCATATTGCAGGTATTTCATCAATCATAGGAGCTATC
AACTTCATCTCTACAATTATTAACATAACCCATAAAAATCTTTCAATAGATAAAACCCCT
CTCATAGTATGATCTATTCTAATTACAGCAGTCCTTCTCCTCCTTTCCCTTCCTGTATTA
GCCGGAGCAATTACAATACTACTAACAGATCGAAACCTTAATACTTCATTTTTTGACCCA
GCAGGGGGAGGAGATCCTATTCTTTACCAACATTTATTTTGATTTTTTGGACACCCAGAA
GTTTATATTTTAATCCTCCCAGGATTTGGAATAATCTCCCACATTATTATAAGAGAAAGG
GGTAAAAAAGAAACATTTGGATCACTAGGAATAATTTATGCAATAATAGCTATTGGATTC
CTAGGATTTATTGTCTGAGCTCACCACATATTTACAATTGGAATAGATGTAGATACACGA
GCATACTTCAC

Ou obter o reverso complementar da sequência com o método `reverse_complement()`:

In [93]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(record.reverse_complement()) # Precisa usar o atributo seq
    print()
    print("Fita genbank:\n 5' {} 3'\n".format(record.seq[-10:])) # Fim da fita do genbank
    print("Reverso complementar:\n 5' {} 3'".format(record.reverse_complement().seq[:10])) # Começo da fita reversa

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 75
Seq('TATTCTTATTGATGATCCAATTATTCCTGCTCATATAGCAAATATAAAGTATAG...CAT', IUPACAmbiguousDNA())

Fita genbank:
 5' AATAAGAATA 3'

Reverso complementar:
 5' TATTCTTATT 3'


Com um pouco mais de esforço, podemos obter o reverso complementar em formato fasta:

In [57]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(">{} (REVERSE COMPLEMENT)\n{}".format(record.description, record.seq[:500])) # Só os primeiros 500 nts

>TPA_asm: Pseudomyrmex gracilis mitochondrion, complete genome (REVERSE COMPLEMENT)
ATGAACAAATGATTATACTCAACTAATCACAAAGATATTGGAATCCTATACTTTATATTTGCTATATGAGCAGGAATAATTGGATCATCAATAAGAATAATTATTCGAATTGAATTAGGATCCTGTGGATCCATTATTAATAATGACCAACTGTATAACTCTATCGTAACAGGACATGCATTTATCATAATTTTCTTTATAGTTATACCATTTATAATCGGAGGATTTGGTAACTTTTTAATTCCACTAATAATTGGGTCACCAGATATAGCTTACCCCCGTATAAATAACATAAGATTTTGACTCTTACCCCCATCAATTATACTACTCACCTTAAGAAGATTTATTAATTCAGGTGCGGGAACTGGTTGAACTGTATACCCTCCCTTATCCTCAAGAATTTTCCATAGGGGAGCCTCAGTAGATTTAGCAATTTTTTCTCTCCATATTGCAGGTATTTCATCAATCATAGGAGCTATCAACTTCATCTCTACAATTAT


Além disso, podemos procurar por genes específicos dentro do arquivo genbank acessando o atributo `features` (que armazena uma lista de objetos chamados `objetos SeqFeature`):

In [60]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    print(type(record.features))
    print(record.features)

<class 'list'>
[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(15704), strand=1), type='source'), SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1533), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(1533), strand=1), type='CDS'), SeqFeature(FeatureLocation(ExactPosition(1533), ExactPosition(1599), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(1533), ExactPosition(1599), strand=1), type='tRNA'), SeqFeature(FeatureLocation(ExactPosition(1599), ExactPosition(2271), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(1599), ExactPosition(2271), strand=1), type='CDS'), SeqFeature(FeatureLocation(ExactPosition(2287), ExactPosition(2359), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(2287), ExactPosition(2359), strand=1), type='tRNA'), SeqFeature(FeatureLocation(ExactPosition(2359), ExactPosition(2422), strand=1), type='gene'), SeqFeature(FeatureLocation(ExactPosition(2359), Exac

Com isso podemos, por exemplo, ver as informações associadas a todos os genes de rRNA presentes no genbank:

In [61]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    for gene in record.features: # Há vários genes (features), cada um em um objeto SeqFeature
        if gene.type == "rRNA":
            print(gene)

type: rRNA
location: [11249:12527](-)
qualifiers:
    Key: gene, Value: ['rrnL']
    Key: product, Value: ['large subunit ribosomal RNA']

type: rRNA
location: [12625:13401](-)
qualifiers:
    Key: gene, Value: ['rrnS']
    Key: product, Value: ['small subunit ribosomal RNA']



Cada um dos objetos SeqFeature possui tanto o nome quanto a extensão dos genes. Sabendo isso, podemos imprimir todos os genes em formato fasta:

In [63]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    for gene in record.features: # Há vários genes (features), cada um em um objeto SeqFeature
        if gene.type in ["rRNA", "CDS", "tRNA"]:
            cabecalho = gene.qualifiers.get('product')[0] # Extraindo nomes dos genes
            sequencia = gene.location.extract(record.seq) # Extraindo as sequências dos genes
            print(">{}\n{}\n".format(cabecalho, sequencia)) # Imprimindo o fasta na tela

>cytochrome c oxidase subunit I
ATGAACAAATGATTATACTCAACTAATCACAAAGATATTGGAATCCTATACTTTATATTTGCTATATGAGCAGGAATAATTGGATCATCAATAAGAATAATTATTCGAATTGAATTAGGATCCTGTGGATCCATTATTAATAATGACCAACTGTATAACTCTATCGTAACAGGACATGCATTTATCATAATTTTCTTTATAGTTATACCATTTATAATCGGAGGATTTGGTAACTTTTTAATTCCACTAATAATTGGGTCACCAGATATAGCTTACCCCCGTATAAATAACATAAGATTTTGACTCTTACCCCCATCAATTATACTACTCACCTTAAGAAGATTTATTAATTCAGGTGCGGGAACTGGTTGAACTGTATACCCTCCCTTATCCTCAAGAATTTTCCATAGGGGAGCCTCAGTAGATTTAGCAATTTTTTCTCTCCATATTGCAGGTATTTCATCAATCATAGGAGCTATCAACTTCATCTCTACAATTATTAACATAACCCATAAAAATCTTTCAATAGATAAAACCCCTCTCATAGTATGATCTATTCTAATTACAGCAGTCCTTCTCCTCCTTTCCCTTCCTGTATTAGCCGGAGCAATTACAATACTACTAACAGATCGAAACCTTAATACTTCATTTTTTGACCCAGCAGGGGGAGGAGATCCTATTCTTTACCAACATTTATTTTGATTTTTTGGACACCCAGAAGTTTATATTTTAATCCTCCCAGGATTTGGAATAATCTCCCACATTATTATAAGAGAAAGGGGTAAAAAAGAAACATTTGGATCACTAGGAATAATTTATGCAATAATAGCTATTGGATTCCTAGGATTTATTGTCTGAGCTCACCACATATTTACAATTGGAATAGATGTAGATACACGAGCATACTTCACTTCAGCAACAATAATTATTGCTGTACCCACAGGAATTAAAGTCTTTAGATGAATTAC

Também podemos imprimir os genes como sequências de RNA, usando o método `transcribe()`:

In [72]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    for gene in record.features: # Há vários genes (features), cada um em um objeto SeqFeature
        if gene.type in ["rRNA", "CDS", "tRNA"]:
            cabecalho = gene.qualifiers.get('product')[0] # Extraindo nomes dos genes
            sequencia = gene.location.extract(record.seq).transcribe() # Extraindo as sequências dos genes e transcrevendo-as
            print(">{}\n{}\n".format(cabecalho, sequencia)) # Imprimindo o fasta na tela

>cytochrome c oxidase subunit I
AUGAACAAAUGAUUAUACUCAACUAAUCACAAAGAUAUUGGAAUCCUAUACUUUAUAUUUGCUAUAUGAGCAGGAAUAAUUGGAUCAUCAAUAAGAAUAAUUAUUCGAAUUGAAUUAGGAUCCUGUGGAUCCAUUAUUAAUAAUGACCAACUGUAUAACUCUAUCGUAACAGGACAUGCAUUUAUCAUAAUUUUCUUUAUAGUUAUACCAUUUAUAAUCGGAGGAUUUGGUAACUUUUUAAUUCCACUAAUAAUUGGGUCACCAGAUAUAGCUUACCCCCGUAUAAAUAACAUAAGAUUUUGACUCUUACCCCCAUCAAUUAUACUACUCACCUUAAGAAGAUUUAUUAAUUCAGGUGCGGGAACUGGUUGAACUGUAUACCCUCCCUUAUCCUCAAGAAUUUUCCAUAGGGGAGCCUCAGUAGAUUUAGCAAUUUUUUCUCUCCAUAUUGCAGGUAUUUCAUCAAUCAUAGGAGCUAUCAACUUCAUCUCUACAAUUAUUAACAUAACCCAUAAAAAUCUUUCAAUAGAUAAAACCCCUCUCAUAGUAUGAUCUAUUCUAAUUACAGCAGUCCUUCUCCUCCUUUCCCUUCCUGUAUUAGCCGGAGCAAUUACAAUACUACUAACAGAUCGAAACCUUAAUACUUCAUUUUUUGACCCAGCAGGGGGAGGAGAUCCUAUUCUUUACCAACAUUUAUUUUGAUUUUUUGGACACCCAGAAGUUUAUAUUUUAAUCCUCCCAGGAUUUGGAAUAAUCUCCCACAUUAUUAUAAGAGAAAGGGGUAAAAAAGAAACAUUUGGAUCACUAGGAAUAAUUUAUGCAAUAAUAGCUAUUGGAUUCCUAGGAUUUAUUGUCUGAGCUCACCACAUAUUUACAAUUGGAAUAGAUGUAGAUACACGAGCAUACUUCACUUCAGCAACAAUAAUUAUUGCUGUACCCACAGGAAUUAAAGUCUUUAGAUGAAUUAC

Por último, genes codificadores de proteínas (*Coding Sequences* ou CDS) podem ser traduzidos usando o método `translate()`:

In [66]:
for record in SeqIO.parse("arquivos/pgracilis_mitocondria.gb", "genbank"):
    for gene in record.features: # Há vários genes (features), cada um em um objeto SeqFeature
        if gene.type == "CDS":
            cabecalho = gene.qualifiers.get('product')[0] # Extraindo nomes dos genes
            sequencia = gene.location.extract(record.seq).translate(5) # Extraindo as sequências dos genes e traduzindo para o código genético 5 (mitocondria de invertebrados)
            print(">{}\n{}\n".format(cabecalho, sequencia)) # Imprimindo o fasta na tela

>cytochrome c oxidase subunit I
MNKWLYSTNHKDIGILYFMFAMWAGMIGSSMSMIIRIELGSCGSIINNDQLYNSIVTGHAFIMIFFMVMPFMIGGFGNFLIPLMIGSPDMAYPRMNNMSFWLLPPSIMLLTLSSFINSGAGTGWTVYPPLSSSIFHSGASVDLAIFSLHIAGISSIMGAINFISTIINMTHKNLSMDKTPLMVWSILITAVLLLLSLPVLAGAITMLLTDRNLNTSFFDPAGGGDPILYQHLFWFFGHPEVYILILPGFGMISHIIMSESGKKETFGSLGMIYAMMAIGFLGFIVWAHHMFTIGMDVDTRAYFTSATMIIAVPTGIKVFSWITTLHGTKMNLNSTMLWSLGFVFMFTMGGLTGIMLSNSSIDIVLHDTYYVVAHFHYVLSMGAVFSIIAGFIHWFPLITGYTLNNFLLNIQFLTMFIGVNMTFFPQHFLGLSGMPRRYSDYPDSFLSWNIISSMGSLISITSLILLTFIIWESLASKRKIISMFHQNSSMEWMHSYPPLFHSYNEIPSTN*

>cytochrome c oxidase subunit II
INTWILGLQNSNTPIYDMMIFFHDFTMMILIFITTLIFLIMMSFSMNNSTNRFLLEGNIIEILWTIIPMITLIFIAIPSIKILYLTDEMLMNNMTIKSLGHQWFWSYEYSDIKNLEFDSFMINENTSSFRLLDVDNRCIIPYNYPIRMLTTSTDVIHSWTVPSLGIKMDSTPGRLNQSMIWMNRPGLFFGQCSEICGINHSFMPIVVESTSIKNFKKWILSNS*

>ATP synthase F0 subunit 8
IPQMGPLYWMPLLCLNMILLYFVISSIHYTIMISPKKSMKKSLKPNIKWSYSY*

>ATP synthase F0 subunit 6
MMMNLFSVFDPSTSNSLSLNWMSMMIFTLMIPMTFWLIPSRNYMLINLITSFIFKEFKTLLQYSFSNIILFYSMFLFILFNNFMGL

Isso é o bastante sobre o SeqIO aplicado a arquivos genbank. Vale lembrar que o método `SeqIO.parse()` também pode ser usado para arquivos fasta:

In [71]:
for record in SeqIO.parse("arquivos/multifasta.fasta", "fasta"):
    print(record) # Multifasta. Logo, há vários records diferentes
    print()

ID: seq1
Name: seq1
Description: seq1
Number of features: 0
Seq('ATGTTGAGTCTTCAGATCTGATTTAAGCCTAGTTCAGCTACGATCCGACTACGA...ACA', SingleLetterAlphabet())

ID: seq2
Name: seq2
Description: seq2
Number of features: 0
Seq('ATGGATCGATCAGCTACGACTACGACTACATCAGCTACGACTAGCACTCAGCAT...TCG', SingleLetterAlphabet())

ID: seq3
Name: seq3
Description: seq3
Number of features: 0
Seq('GCTAGCATCTAGCATGCTAGCTACGTACGTTCAGCATCAGCATCAGCATCAGCA...GCT', SingleLetterAlphabet())



Vários dos métodos/funcionalidades encontrados para os arquivos genbank e objetos Seq também são válidos aqui, como: `len()`, `reverse_complement()`, `transcribe()` e `translate()`.

Isso é tudo, pessoal!

Espero que tenham curtido aprender um pouco sobre programação em si e como ela pode ser aplicada para lidar com dados biológicos.

Forte abraço e tudo de bom! ;)