## Introdução

### O que é o Biopython?

O Biopython é uma biblioteca facilita o uso da linguagem python para sua aplicação na bioinformática. O site do [Biopython](http://www.biopython.org/) fornece toda a documentação necessária para entender e exemplos para aplicar o modulos e classes da biblioteca.

### O que tem no pocote Biopyhon

O Biopython tem diversas funcionalidades, entre elas temos:

1. Parsers para os principais tipos de arquivos utilizados em bioinformática
   - Blast output
   - Clustalw
   - FASTA
   - GenBank
   - PubMed and Medline
   - ExPASy
   - SCOP
   - UniGene
   - SwissProt

2. Suporte para executar ferramentas online e standalone de bioinformática:
   - Blast (online, standalone)
   - ExPASy (online)
   - Clustalw
   - EMBOSS

3. Operações com arquivos de sequências (transcrição, tradução, cálculos de pesos)

4. Algoritmos de classificação de dados (K Nearest, Naive Bayes ou Support Vector Machines)

E estas são apenas algumas das funcionalidades do Biopython.

### Instalação do Biopython

A forma mais fácil de instalar o Biopython é utilizando o gerenciador de pacotes Anaconda:

``` conda install -c anaconda biopython```

## Sequências

Neste etapa vamos aprender como trabalhar com as sequências, que são um dos principais tipo de dados que trabalhamos em bioinformática. A primeira pergunta que pode ocorrer é por que ter uma classe Seq e não trabalhar com uma string do python? E a resposta é simples, é porque elas classes diferentes. Apesar da classe Seq ter quase todos os métodos da classe string, ela possuí alguns métodos diferentes, como o translate() que faz a tradução biológica e o método reverse_complement() que também é bastante útil. Outra diferença importante é que a classe Seq possuí um atríbuto Alphabet() que indica se a sequência é de DNA, RNA ou aminoácios.

### Sequências e alfabetos

Vamos a alguns exemplos de como criar sequências usando biopython:

Inicialmente vamos importar a classe Seq do Biopython e em seguida definir uma sequência

In [7]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGGGT")
my_seq

Seq('AGTACACTGGGGT')

In [80]:
my_seq.alphabet

Alphabet()

Podemos notar que essa sequência não possui um alfabeto. Para definirmos um alfabeto na criação da sequência precisamos primeiro importar a classe IUPAC da biblioteca Alphabet do Biopython.

In [81]:
from Bio.Alphabet import IUPAC
my_seq = Seq("AGTACACTGGGGT", IUPAC.unambiguous_dna)
my_seq

Seq('AGTACACTGGGGT', IUPACUnambiguousDNA())

In [82]:
my_seq.alphabet

IUPACUnambiguousDNA()

In [83]:
my_prot = Seq("AGTACACGGGGT", IUPAC.protein)
my_prot

Seq('AGTACACGGGGT', IUPACProtein())

In [84]:
my_prot.alphabet

IUPACProtein()

Agora sim podemos ver que nossa sequência pode ter uma alfabeto de DNA, Aminoácidos, ...

A classe Seq também tem comportamento similar ao da classe string do Python. Sendo assim podemos iterar sobre elas:

In [85]:
for index, letter in enumerate(my_seq):
    print("%i %s" % (index, letter))

0 A
1 G
2 T
3 A
4 C
5 A
6 C
7 T
8 G
9 G
10 G
11 G
12 T


Aqui é um ponto interessante para lembrar que os índices das sequências começam em Zero.

Também podemos utilizar o método len para verificar o tamanho da sequência.

In [86]:
print(len(my_seq))

13


O acesso a qualquer caracter da sequência pode ser ser feito exatamente como em uma string, sendo que o índice -1 pega o último caracter da sequência.

In [87]:
print(my_seq[0])
print(my_seq[4])
print(my_seq[-1])

A
C
T


A classe sequência também implementa o método count, onde é possível contar o número de ocorrência de uma string na sua sequência. Aqui é importante ressaltar que existem dois métodos para contar, um sem overlap e outro com overlap. Quando estamos contando apenas um caracter os dois métodos terão o mesmo resultado.

In [88]:
print("Sem overlap: "+str(my_seq.count('GG')))
print("Com overlap: "+str(my_seq.count_overlap('GG')))

Sem overlap: 2
Com overlap: 3


In [89]:
print("Sem overlap: "+str(my_seq.count('G')))
print("Com overlap: "+str(my_seq.count_overlap('G')))

Sem overlap: 5
Com overlap: 5


Uma aplicação simples do uso do método count é para calcular o conteúdo GC de uma sequência. Simplesmente somando o número de Gs e Cs e divindo pelo tamanho total da sequência que como vimos antes pode ser obtido pelo método len.

In [90]:
100 * float(my_seq.count("G") + my_seq.count("C")) / len(my_seq)

53.84615384615385

In [91]:
from Bio.SeqUtils import GC
GC(my_seq)

53.84615384615385

In [92]:
my_seq[4:7]

Seq('CAC', IUPACUnambiguousDNA())

In [93]:
my_seq[::-1]

Seq('TGGGGTCACATGA', IUPACUnambiguousDNA())

In [94]:
str(my_seq)

'AGTACACTGGGGT'

In [95]:
print(my_seq)

AGTACACTGGGGT


In [96]:
protein_seq = Seq("EVRNAK", IUPAC.protein)
dna_seq = Seq("ACGT", IUPAC.unambiguous_dna)
protein_seq + dna_seq

TypeError: Incompatible alphabets IUPACProtein() and IUPACUnambiguousDNA()

In [97]:
from Bio.Alphabet import generic_alphabet
protein_seq.alphabet = generic_alphabet
dna_seq.alphabet = generic_alphabet
protein_seq + dna_seq

Seq('EVRNAKACGT')

In [98]:
my_seq.upper()

Seq('AGTACACTGGGGT', IUPACUnambiguousDNA())

In [99]:
my_seq.lower()

Seq('agtacactggggt', DNAAlphabet())

In [100]:
print("Sequência original: "+my_seq)

print("Sequência complementar: "+my_seq.complement())

print("Sequência reversa complementar: "+my_seq.reverse_complement())

Sequência original: AGTACACTGGGGT
Sequência complementar: TCATGTGACCCCA
Sequência reversa complementar: ACCCCAGTGTACT


In [101]:
my_seq[::-1]

Seq('TGGGGTCACATGA', IUPACUnambiguousDNA())

In [106]:
protein_seq = Seq("EVRNAK", IUPAC.protein)
protein_seq.complement()

ValueError: Proteins do not have complements!

In [108]:
coding_dna = Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG", IUPAC.unambiguous_dna)
coding_dna.transcribe()

Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

In [111]:
messenger_rna = coding_dna.transcribe()
messenger_rna.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

In [112]:
coding_dna.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(IUPACProtein(), '*'))

In [113]:
coding_dna.translate(table="Vertebrate Mitochondrial")

Seq('MAIVMGRWKGAR*', HasStopCodon(IUPACProtein(), '*'))

In [116]:
print("Tradução: "+coding_dna.translate())
print("Tradução até o STOP: "+coding_dna.translate(to_stop=True))
print("Tradução usando uma tabela diferente: "+coding_dna.translate(table=2))
print("Tradução até o STOP usando uma tabela de diferente: "+coding_dna.translate(table=2, to_stop=True))

Tradução: MAIVMGR*KGAR*
Tradução até o STOP: MAIVMGR
Tradução usando uma tabela diferente: MAIVMGRWKGAR*
Tradução até o STOP usando uma tabela de diferente: MAIVMGRWKGAR


In [8]:
from Bio.Alphabet import generic_dna
gene = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCAGCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGATAATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACATTATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCATAAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA", generic_dna)

In [9]:
gene.translate(table="Bacterial")

Seq('VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HR*', HasStopCodon(ExtendedIUPACProtein(), '*'))

In [11]:
gene.translate(table="Bacterial", cds=True)

Seq('MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR', ExtendedIUPACProtein())

In [4]:
from Bio.Data import CodonTable
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]
print(CodonTable.unambiguous_dna_by_id[1])


Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

In [122]:
print(standard_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

In [123]:
print(mito_table)

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

In [124]:
mito_table.stop_codons

['TAA', 'TAG', 'AGA', 'AGG']

In [125]:
mito_table.start_codons

['ATT', 'ATC', 'ATA', 'ATG', 'GTG']

### Trabalhando diretamente com Strings

In [129]:
from Bio.Seq import reverse_complement, transcribe, back_transcribe, translate
my_string = "GCTGTTATGGGTCGTTGGAAGGGTGGTCGTGCTGCTGGTTAG"
print("Sequência: "+my_string)
print("Reverso complementar: "+reverse_complement(my_string))
print("Transcrição: "+transcribe(my_string))
print("Transcrição reversa: "+back_transcribe(my_string))
print("Tradução: "+translate(my_string))

Sequência: GCTGTTATGGGTCGTTGGAAGGGTGGTCGTGCTGCTGGTTAG
Reverso complementar: CTAACCAGCAGCACGACCACCCTTCCAACGACCCATAACAGC
Transcrição: GCUGUUAUGGGUCGUUGGAAGGGUGGUCGUGCUGCUGGUUAG
Transcrição reversa: GCTGTTATGGGTCGTTGGAAGGGTGGTCGTGCTGCTGGTTAG
Tradução: AVMGRWKGGRAAG*


In [12]:
from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet())
740
gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC', SingleLetterAlphabet())
753
gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA', SingleLetterAlphabet())
748
gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT', SingleLetterAlphabet())
744
gi|2765654|emb|Z78529.1|CLZ78529
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA', SingleLetterAlphabet())
733
gi|2765652|emb|Z78527.1|CYZ78527
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC', SingleLetterAlphabet())
718
gi|2765651|emb|Z78526.1|CGZ78526
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT', SingleLetterAlphabet())
730
gi|2765650|emb|Z78525.1|CAZ78525
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GC

In [133]:
identifiers = [seq_record.id for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta")]
identifiers

['gi|2765658|emb|Z78533.1|CIZ78533',
 'gi|2765657|emb|Z78532.1|CCZ78532',
 'gi|2765656|emb|Z78531.1|CFZ78531',
 'gi|2765655|emb|Z78530.1|CMZ78530',
 'gi|2765654|emb|Z78529.1|CLZ78529',
 'gi|2765652|emb|Z78527.1|CYZ78527',
 'gi|2765651|emb|Z78526.1|CGZ78526',
 'gi|2765650|emb|Z78525.1|CAZ78525',
 'gi|2765649|emb|Z78524.1|CFZ78524',
 'gi|2765648|emb|Z78523.1|CHZ78523',
 'gi|2765647|emb|Z78522.1|CMZ78522',
 'gi|2765646|emb|Z78521.1|CCZ78521',
 'gi|2765645|emb|Z78520.1|CSZ78520',
 'gi|2765644|emb|Z78519.1|CPZ78519',
 'gi|2765643|emb|Z78518.1|CRZ78518',
 'gi|2765642|emb|Z78517.1|CFZ78517',
 'gi|2765641|emb|Z78516.1|CPZ78516',
 'gi|2765640|emb|Z78515.1|MXZ78515',
 'gi|2765639|emb|Z78514.1|PSZ78514',
 'gi|2765638|emb|Z78513.1|PBZ78513',
 'gi|2765637|emb|Z78512.1|PWZ78512',
 'gi|2765636|emb|Z78511.1|PEZ78511',
 'gi|2765635|emb|Z78510.1|PCZ78510',
 'gi|2765634|emb|Z78509.1|PPZ78509',
 'gi|2765633|emb|Z78508.1|PLZ78508',
 'gi|2765632|emb|Z78507.1|PLZ78507',
 'gi|2765631|emb|Z78506.1|PLZ78506',
 

In [134]:
len(identifiers)

94