## Introdução

### O que é o Biopython?

O Biopython é uma biblioteca facilita o uso da linguagem python para sua aplicação na bioinformática. O site do [Biopython](http://www.biopython.org/) fornece toda a documentação necessária para entender e exemplos para aplicar o modulos e classes da biblioteca.

### O que tem no pocote Biopyhon

O Biopython tem diversas funcionalidades, entre elas temos:

1. Parsers para os principais tipos de arquivos utilizados em bioinformática
   - Blast output
   - Clustalw
   - FASTA
   - GenBank
   - PubMed and Medline
   - ExPASy
   - SCOP
   - UniGene
   - SwissProt

2. Suporte para executar ferramentas online e standalone de bioinformática:
   - Blast (online, standalone)
   - ExPASy (online)
   - Clustalw
   - EMBOSS

3. Operações com arquivos de sequências (transcrição, tradução, cálculos de pesos)

4. Algoritmos de classificação de dados (K Nearest, Naive Bayes ou Support Vector Machines)

E estas são apenas algumas das funcionalidades do Biopython.

### Instalação do Biopython

A forma mais fácil de instalar o Biopython é utilizando o gerenciador de pacotes Anaconda:

``` conda install -c anaconda biopython```

## 1 Classe Seq

Neste etapa vamos aprender como trabalhar com as sequências, que são um dos principais tipo de dados que usamos em bioinformática. A primeira pergunta que pode ocorrer é por que ter uma classe Seq e não trabalhar com uma string do python? E a resposta é simples, é porque elas são classes diferentes. Apesar da classe Seq ter quase todos os métodos da classe string, ela possuí alguns métodos diferentes, como o translate() que faz a tradução biológica e o método reverse_complement() que também é bastante útil. Outra diferença importante é que a classe Seq possuí um atributo Alphabet() que indica se a sequência é de DNA, RNA ou aminoácios.

### 1.1 Sequências e Alfabetos

Vamos a alguns exemplos de como criar sequências usando biopython:

Inicialmente vamos importar a classe Seq do Biopython e em seguida definir uma sequência

In [2]:
from Bio.Seq import Seq
help(Seq)

Help on class Seq in module Bio.Seq:

class Seq(builtins.object)
 |  Read-only sequence object (essentially a string with an alphabet).
 |  
 |  Like normal python strings, our basic sequence object is immutable.
 |  This prevents you from doing my_seq[5] = "A" for example, but does allow
 |  Seq objects to be used as dictionary keys.
 |  
 |  The Seq object provides a number of string like methods (such as count,
 |  find, split and strip), which are alphabet aware where appropriate.
 |  
 |  In addition to the string like sequence, the Seq object has an alphabet
 |  property. This is an instance of an Alphabet class from Bio.Alphabet,
 |  for example generic DNA, or IUPAC DNA. This describes the type of molecule
 |  (e.g. RNA, DNA, protein) and may also indicate the expected symbols
 |  (letters).
 |  
 |  The Seq object also provides some biological methods, such as complement,
 |  reverse_complement, transcribe, back_transcribe and translate (which are
 |  not applicable to sequenc

In [3]:
my_seq = Seq("AGTACACTGGGGT")
my_seq

Seq('AGTACACTGGGGT')

In [4]:
my_seq.alphabet

Alphabet()

Podemos notar que essa sequência não possui um alfabeto. Como podemos saber se a sequência acima é de DNA ou aminoácidos?
Para definirmos um alfabeto na criação da sequência precisamos primeiro importar a classe IUPAC da biblioteca Alphabet do Biopython. O IUPAC contém as nomenclaturas e terminologias usadas em química. No nosso caso podemos definir o alfabeto específico para DNA ou aminoácidos.

| Código de nucleotídeos IUPAC | Base                |
|------------------------------|---------------------|
| A                            | Adenine             |
| C                            | Cytosine            |
| G                            | Guanine             |
| T (or U)                     | Thymine (or Uracil) |
| R                            | A or G              |
| Y                            | C or T              |
| S                            | G or C              |
| W                            | A or T              |
| K                            | G or T              |
| M                            | A or C              |
| B                            | C or G or T         |
| D                            | A or G or T         |
| H                            | A or C or T         |
| V                            | A or C or G         |
| N                            | any base            |
| . or -                       | gap                 |


| Código de aminoácidos IUPAC | Código de três letras | Aminoácido    |
|-----------------------------|-----------------------|---------------|
| A                           | Ala                   | Alanine       |
| C                           | Cys                   | Cysteine      |
| D                           | Asp                   | Aspartic Acid |
| E                           | Glu                   | Glutamic Acid |
| F                           | Phe                   | Phenylalanine |
| G                           | Gly                   | Glycine       |
| H                           | His                   | Histidine     |
| I                           | Ile                   | Isoleucine    |
| K                           | Lys                   | Lysine        |
| L                           | Leu                   | Leucine       |
| M                           | Met                   | Methionine    |
| N                           | Asn                   | Asparagine    |
| P                           | Pro                   | Proline       |
| Q                           | Gln                   | Glutamine     |
| R                           | Arg                   | Arginine      |
| S                           | Ser                   | Serine        |
| T                           | Thr                   | Threonine     |
| V                           | Val                   | Valine        |
| W                           | Trp                   | Tryptophan    |
| Y                           | Tyr                   | Tyrosine      |

In [5]:
from Bio.Alphabet import IUPAC
print("Aminoácidos: "+IUPAC.protein.letters)
print("DNA: "+IUPAC.unambiguous_dna.letters)
print("RNA: "+IUPAC.unambiguous_rna.letters)

Aminoácidos: ACDEFGHIKLMNPQRSTVWY
DNA: GATC
RNA: GAUC


In [5]:
my_seq = Seq("AGTACACTGGGGT", IUPAC.unambiguous_dna)
my_seq.alphabet

IUPACUnambiguousDNA()

In [6]:
my_prot = Seq("AGTACACGGGGT", IUPAC.protein)
my_prot.alphabet

IUPACProtein()

### 1.2 Operações sobre sequências
#### 1.2.1 Iterar sobre sequência
A classe Seq também tem comportamento similar ao da classe string do Python. Sendo assim podemos iterar sobre elas:

In [6]:
my_seq = Seq("AGTACACTGGGGT", IUPAC.unambiguous_dna)
for index, letter in enumerate(my_seq):
    print("%i %s" % (index, letter))

0 A
1 G
2 T
3 A
4 C
5 A
6 C
7 T
8 G
9 G
10 G
11 G
12 T


Aqui é um ponto interessante para lembrar que os índices das sequências começam em Zero.

#### 1.2.2 Retornar o tamanho da sequência
Também podemos utilizar o método len() para verificar o tamanho da sequência.

In [8]:
print(len(my_seq))

13


#### 1.2.3 Retornar determinada posição da sequência
O acesso a qualquer caracter da sequência pode ser feito exatamente como em uma string, sendo que o índice -1 retorna o último caracter da sequência.

In [9]:
print(my_seq[0])
print(my_seq[4])
print(my_seq[-1])

A
C
T


#### 1.2.4 Contar o número de vezes que uma subsequência aparece
A classe sequência também implementa o método count(), onde é possível contar o número de ocorrência de uma string na sua sequência. Aqui é importante ressaltar que existem dois métodos para contar, um sem overlap e outro com overlap. Quando estamos contando apenas um caracter os dois métodos terão o mesmo resultado.

In [10]:
my_seq = Seq("AGTACACTGGGGT", IUPAC.unambiguous_dna)
print("Sem overlap: "+str(my_seq.count('G')))
print("Com overlap: "+str(my_seq.count_overlap('G')))

Sem overlap: 5
Com overlap: 5


Porém, quando contamos mais que um caracter podemos ter resultados distintos. No exemplo abaixo, enquanto o método ser overlap vai contando os 'GG' e dando um passo de tamanho 2, no método com overlap ele conta os 'GG' e sempre dá um passo de tamanho 1.

In [11]:
print("Sem overlap: "+str(my_seq.count('GG')))
print("Com overlap: "+str(my_seq.count_overlap('GG')))

Sem overlap: 2
Com overlap: 3


Uma aplicação simples do uso do método count() é para calcular o conteúdo GC de uma sequência. Simplesmente somando o número de Gs e Cs e dividindo pelo tamanho total da sequência, que como vimos antes pode ser obtido pelo método len().

In [12]:
100 * float(my_seq.count("G") + my_seq.count("C")) / len(my_seq)

53.84615384615385

Mas o Biopython também tem um método já pronto para calcular o conteúdo GC de uma sequência dentro do pacote SeqUtils.

In [13]:
from Bio.SeqUtils import GC
GC(my_seq)

53.84615384615385

#### 1.2.5 Slicing com sequências
Assim como a classe string, a classe Seq também aceita slices. Aqui vale lembrar que a primeira posição é 0 e que o intervalo é fechado na posição inicial e aberto na posição final.

In [14]:
my_seq = Seq("AGTACACTGGGGT", IUPAC.unambiguous_dna)
my_seq[4:7]

Seq('CAC', IUPACUnambiguousDNA())

Outra aplicação interessante do slice é inverter a sequência de maneira simples.

In [15]:
my_seq_rev = my_seq[::-1]
print(my_seq)
print(my_seq_rev)

AGTACACTGGGGT
TGGGGTCACATGA


#### 1.2.6 Concatenar sequências
A classe Seq também pode te salvar de cometer o erro ao concatenar duas sequências de alfabetos diferentes. Se estivessemos trabalhando com a classe string a operação abaixo seria permitada, porém a classe Seq lança um erro:

TypeError: Incompatible alphabets IUPACProtein() and IUPACUnambiguousDNA()

In [16]:
protein_seq = Seq("EVRNAK", IUPAC.protein)
dna_seq = Seq("ACGT", IUPAC.unambiguous_dna)
protein_seq + dna_seq

TypeError: Incompatible alphabets IUPACProtein() and IUPACUnambiguousDNA()

#### 1.2.7 Mascarar sequências utilizando os métodos upper() e lower()
A tarefa de mudar a sequência para caixa alta ou baixa também pode ser facilmente feita utilizando os métodos upper() e lower(). Esses métodos podem ser úteis para mascarar sequências repetitivas ou de baixa complexidade, que normalmente são representadas por letras minúsculas.

In [17]:
my_seq.upper()

Seq('AGTACACTGGGGT', IUPACUnambiguousDNA())

In [18]:
my_seq.lower()

Seq('agtacactggggt', DNAAlphabet())

#### 1.2.8 Reverso complementar
O reverso complementar de uma sequência também pode ser retornado pelo método reverse_complement().

In [19]:
print("Sequência original: "+my_seq)

print("Sequência complementar: "+my_seq.complement())

print("Sequência reversa complementar: "+my_seq.reverse_complement())

Sequência original: AGTACACTGGGGT
Sequência complementar: TCATGTGACCCCA
Sequência reversa complementar: ACCCCAGTGTACT


E aqui somos salvos mais uma vez de cometer um erro. Se tentamos gerar o reverso complementar de uma sequência de aminoácidos ele lança o erro:

ValueError: Proteins do not have complements!

In [20]:
protein_seq = Seq("EVRNAK", IUPAC.protein)
protein_seq.reverse_complement()

ValueError: Proteins do not have complements!

#### 1.2.9 Transcrição

A transcrição é obtida utilizando o método transcribe(). O que ele realmente faz é apenas trocar os Ts por Us.

In [21]:
coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG", IUPAC.unambiguous_dna)
messenger_rna = coding_dna.transcribe()
messenger_rna

Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

#### 1.2.10 Tradução

Utilizando a sequência transcrita acima podemos gerar a tradução dela utilizando o método translate()

In [22]:
protein = messenger_rna.translate()
protein

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

Mas a tradução não precisa ser feita a partir de uma sequência de RNA, ela pode ser obtida também diretamente da sequência de DNA.

In [23]:
coding_dna.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

Como visto no exemplo acima, a tradução é feita na sequência toda, então a tradução pode ter multiplos * que é o símbolo que representa o STOP CODON. Se quisermos fazer tradução somente até o primeiro STOP, podemos adicionar o parâmetro to_stop=True no método translate().

In [24]:
coding_dna.translate(to_stop=True)

Seq('MAIVMGR', IUPACProtein())

Outro parâmetro interessante do método translate() é o table. Com ele você pode especificar qual tabela de codons será utilizada. Esse parâmetro pode ser o número ou nome da tabela. Essa tabelas são baseadas nesta tabela do [NCBI](https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi).

In [25]:
coding_dna.translate(table="Vertebrate Mitochondrial")

Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

In [26]:
print("Tradução: "+coding_dna.translate())
print("Tradução até o STOP: "+coding_dna.translate(to_stop=True))
print("Tradução usando uma tabela diferente: "+coding_dna.translate(table=2))
print("Tradução até o STOP usando uma tabela de diferente: "+coding_dna.translate(table=2, to_stop=True))

Tradução: MAIVMGR*KGAR*
Tradução até o STOP: MAIVMGR
Tradução usando uma tabela diferente: MAIVMGRWKGAR*
Tradução até o STOP usando uma tabela de diferente: MAIVMGRWKGAR


#### 1.2.11 Tabela de códons

As tabelas de códons também podem ser importadas do pacote Data do Biopython. Assim é possível visualiza-la  com um layout bem amigável.

In [27]:
from Bio.Data import CodonTable
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]
print(standard_table)
print(mito_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

Também é possível acessar outros atríbutos da tabela que podem ser úteis em outras aplicações.

In [28]:
mito_table.stop_codons

['TAA', 'TAG', 'AGA', 'AGG']

In [29]:
mito_table.start_codons

['ATT', 'ATC', 'ATA', 'ATG', 'GTG']

## 2 SeqRecord

Até aqui vimos como trabalhar com um tipo bem simples de dado que a sequência e classe Seq é muito útil para isso, mas na prática somente a sequência é pouco informativa. Normalmente essa sequência precisa de um id, nome, descrição, ... . Para essas aplicações temos a classe SeqRecord que possuí esses atributos e muitos mais.
Então por que aprender a classe Seq? Por que um dos atributos da classe SeqRecord é justamente um objeto da classe Seq. No help abaixo vocês podem ver que os principais atributos são id e seq e esses são os atributos básico que um arquivo no formato FASTA tem.

In [30]:
from Bio.SeqRecord import SeqRecord
help(SeqRecord)

Help on class SeqRecord in module Bio.SeqRecord:

class SeqRecord(builtins.object)
 |  A SeqRecord object holds a sequence and information about it.
 |  
 |  Main attributes:
 |   - id          - Identifier such as a locus tag (string)
 |   - seq         - The sequence itself (Seq object or similar)
 |  
 |  Additional attributes:
 |   - name        - Sequence name, e.g. gene name (string)
 |   - description - Additional text (string)
 |   - dbxrefs     - List of database cross references (list of strings)
 |   - features    - Any (sub)features defined (list of SeqFeature objects)
 |   - annotations - Further information about the whole sequence (dictionary).
 |     Most entries are strings, or lists of strings.
 |   - letter_annotations - Per letter/symbol annotation (restricted
 |     dictionary). This holds Python sequences (lists, strings
 |     or tuples) whose length matches that of the sequence.
 |     A typical use would be to hold a list of integers
 |     representing sequenc

### 2.1 Criando um objeto SeqRecord
Vamos colocar a mão na massa e criar um objeto SeqRecord. Primeiro criamos um objeto Seq e em seguida criamos um objeto SeqRecord passando como parâmetro o objeto Seq.

In [31]:
simple_seq = Seq("GATC")

simple_seq_r = SeqRecord(simple_seq)
simple_seq_r

SeqRecord(seq=Seq('GATC'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

Percebam que esse SeqRecord tem apenas a sequência, mas podemos ir adicionando os outros atributos como id e descrição.

In [32]:
simple_seq_r.id = "AC12345"
simple_seq_r.description = "Made up sequence I wish I could write a paper about"
simple_seq_r

SeqRecord(seq=Seq('GATC'), id='AC12345', name='<unknown name>', description='Made up sequence I wish I could write a paper about', dbxrefs=[])

#### 2.1.1 Adicionando anotações
Também podemos adicionar uma anotação para esse SeqRecord. O atributo anotação é um dicionário, assim qualquer tipo de anotação pode ser adicionado composto por uma chave e um valor. No exemplo abaixo adicionamos uma anotação onde a chave é "evidence" e o valor é "None. I just made it up."

In [33]:
simple_seq_r.annotations["evidence"] = "None. I just made it up."
print(simple_seq_r.annotations)

print(simple_seq_r.annotations["evidence"])

{'evidence': 'None. I just made it up.'}
None. I just made it up.


#### 2.1.2 Adicionando anotações por letras
Outro tipo de anotação que pode ser bem interessante é a anotação das letras da sequência que também é um dicionário. Um exemplo prático é adicionar a qualidade de cada uma das bases. Assim adicionamos a chave "phred_quality" e passamos como valor uma lista com a qualidade de cada base.

In [34]:
simple_seq_r.letter_annotations["phred_quality"] = [40, 40, 38, 40]
print(simple_seq_r.letter_annotations)

print(simple_seq_r.letter_annotations["phred_quality"])



{'phred_quality': [40, 40, 38, 40]}
[40, 40, 38, 40]


### 2.2 Carregando um SeqRecord completo
Vamos carregar um exemplo com mais atributos. Aqui vamos utiliza a Biblioteca SeqIO para carregar as informações diretamente de um arquivo com anotação do Genbank. Mais para frente vamos falar sobre o SeqIO, mas por enquanto vamos apenas entender que o comando abaixo faz um parser do arquivo Genbank [nc_005816](https://www.ncbi.nlm.nih.gov/nuccore/NC_005816.1?report=gbwithparts&log$=seqview) e cria um objeto SeqRecord com as informações.

In [35]:
from Bio import SeqIO
record = SeqIO.read("sequence.gb", "genbank")
record

SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG', IUPACAmbiguousDNA()), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=['BioProject:PRJNA224116', 'BioSample:SAMN02602970', 'Assembly:GCF_000007885.1'])

In [36]:
record.annotations

{'molecule_type': 'DNA',
 'topology': 'circular',
 'data_file_division': 'CON',
 'date': '11-JAN-2018',
 'accessions': ['NC_005816'],
 'sequence_version': 1,
 'gi': '45478711',
 'keywords': ['RefSeq'],
 'source': 'Yersinia pestis biovar Microtus str. 91001',
 'organism': 'Yersinia pestis biovar Microtus str. 91001',
 'taxonomy': ['Bacteria',
  'Proteobacteria',
  'Gammaproteobacteria',
  'Enterobacterales',
  'Yersiniaceae',
  'Yersinia'],
 'references': [Reference(title='Genetics of metabolic variations between Yersinia pestis biovars and the proposal of a new biovar, microtus', ...),
  Reference(title='Complete genome sequence of Yersinia pestis strain 91001, an isolate avirulent to humans', ...),
  Reference(title='Direct Submission', ...)],
 'comment': 'REFSEQ INFORMATION: The reference sequence was derived from\nAE017046.\nAnnotation was added by the NCBI Prokaryotic Genome Annotation\nPipeline (released 2013). Information about the Pipeline can be\nfound here: https://www.ncbi.nl

In [37]:
record.annotations["taxonomy"]

['Bacteria',
 'Proteobacteria',
 'Gammaproteobacteria',
 'Enterobacterales',
 'Yersiniaceae',
 'Yersinia']

In [38]:
record.dbxrefs

['BioProject:PRJNA224116',
 'BioSample:SAMN02602970',
 'Assembly:GCF_000007885.1']

### 2.3 Acessando as SeqFeature do objeto SeqRecord

A classe SeqRecord tem o atributo features. Este atributo recebe um objeto da classe SeqFeature, sendo que ele basicamente marca regiões de interesse no sua sequência, por exemplo, a região de um gene.

In [39]:
for feature in record.features:
    print(feature)

type: source
location: [0:9609](+)
qualifiers:
    Key: biovar, Value: ['Microtus']
    Key: db_xref, Value: ['taxon:229193']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Yersinia pestis biovar Microtus str. 91001']
    Key: plasmid, Value: ['pPCP1']
    Key: strain, Value: ['91001']
    Key: sub_species, Value: ['microtus']

type: gene
location: [86:1109](+)
qualifiers:
    Key: locus_tag, Value: ['YP_RS22210']
    Key: old_locus_tag, Value: ['pPCP01', 'YP_pPCP01']

type: CDS
location: [86:1109](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GI:446178089']
    Key: inference, Value: ['COORDINATES: similar to AA sequence:RefSeq:WP_000627495.1']
    Key: locus_tag, Value: ['YP_RS22210']
    Key: note, Value: ['Derived by automated computational analysis using gene prediction method: Protein Homology.']
    Key: old_locus_tag, Value: ['pPCP01', 'YP_pPCP01']
    Key: product, Value: ['IS21-like element IS100 family transposase']
    K

No exemplo abaixo verificamos se um SNP em uma determinada posição está dentro de um intervalo do CDS de um gene.

In [40]:
my_snp = 4360
for feature in record.features:
    if my_snp in feature and feature.type == 'CDS':
        print("%s %s %s" % (type(feature),feature.type, feature.qualifiers.get("locus_tag")))

<class 'Bio.SeqFeature.SeqFeature'> CDS ['YP_RS22225']


A classe SeqFeature tem o atributo location. Este atributo recece um objeto da classe FeatureLocation, sendo que ele basicamente marca o inicio e fim de uma feature, como no exemplo abaixo.

In [41]:
from Bio.SeqFeature import SeqFeature, FeatureLocation
example_feature = SeqFeature(FeatureLocation(1, 18), type="gene", strand=-1)

### 2.4 Extraindo a sequência de um gene
Agora imagine que você tem uma sequência de um genoma e queira pegar somente a sequência da feature acima. Uma das formas é pegar o início e fim da feature e usar o slice como já vimos. No final gera o reverso complementar, pois o gene está na fita oposta (strand=-1).

In [42]:
example_parent = Seq("ACCGAGACGGCAAAGGCTAGCATAGGTATGAGACTTCCTTCCTGCCAGTGCTGAGGAACTGGGAGCCTAC")
feature_seq = example_parent[example_feature.location.start:example_feature.location.end].reverse_complement()
print(feature_seq)

AGCCTTTGCCGTCTCGG


Mas a classe SeqFeature já implementa um método chamado extract() onde é possível passar uma sequência e ele retorna somente a sequência do intervalo da feature.

In [43]:
feature_seq = example_feature.extract(example_parent)
print(feature_seq)

AGCCTTTGCCGTCTCGG


Utilizar o método extract() começa a fazer mais sentido quando nossa feature tem mais de um intervalo. Vamos ao exemplo abaixo onde temos duas FeatureLocation que podem ser os intervalos de dois exons de um gene. Podemos combina-los utilizando o operador '+' e dessa forma criamos um novo objeto que chamamos de join. Esse objeto guarda esses dois FeatureLocation em um objeto da classe CompoundLocation. Sem seguida podemos atribuir essas localizações ao SeqFeture.

In [44]:
f1 = FeatureLocation(0,10)
f2 = FeatureLocation(20,30)
join = f1 + f2
join

CompoundLocation([FeatureLocation(ExactPosition(0), ExactPosition(10)), FeatureLocation(ExactPosition(20), ExactPosition(30))], 'join')

In [45]:
example_feature = SeqFeature(join, type="gene", strand=1)
example_feature

SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(0), ExactPosition(10), strand=1), FeatureLocation(ExactPosition(20), ExactPosition(30), strand=1)], 'join'), type='gene', location_operator='join')

Em seguida podemos utilizar o método extract() para pegar as sequências dos dois exons.

In [46]:
feature_seq = example_feature.extract(example_parent)
print(feature_seq)

ACCGAGACGGCATAGGTATG


In [47]:
print(len(join))
print(len(feature_seq))

20
20


### Exercício 1
Abra o arquivo "sequence.gb" do exemplo anterior e para cada feature 'CDS' extraia a sequência de DNA. Em seguida calcule o conteúdo GC dessa sequência e se ele for maior ou igual a 45 então traduza elas utilizando a tabela de códons de número 11 até o primeiro STOP códon. No final retorne a sequência da proteína no formato FASTA, sendo que o identificar será o atríbuto 'locus_tag' dos qualifiers da classe Seqfeature e a descrição terá o conteúdo GC.
Ex:


\>YP_RS22210 GC=52.78592375366569
MVTFETVMEIKILHKQGMSSRAIARELGISRNTVKRYLQAKSEPPKYTPRPAVASLLDEYRDYIRQRIADAHPYKIPATVIAREIRDQGYRGGMTILRAFIRSLSVPQEQEPAVRFETEPGRQMQVDWGTMRNGRSPLHVFVAVLGYSRMLYIEFTDNMRYDTLETCHRNAFRFFGGVPREVLYDNMKTVVLQRDAYQTGQHRFHPSLWQFGKEMGFSPRLCRPFRAQTKGKVERMVQYTRNSFYIPLMTRLRPMGITVDVETANRHGLRWLHDVANQRKHETIQARPCDRWLEEQQSMLALPPEKKEYDVHLDENLVNFDKHPLHHPLSIYDSFCRGVA'

In [48]:
from Bio import SeqIO
record = SeqIO.read("sequence.gb", "genbank")