# Biopython básico

## Antes de começar

- Devemos instalar o Biopython via conda:
    - Abra o menu "Iniciar";
    - Busque por "Anaconda prompt (miniconda3)" e clique;
    - Execute o comando ``conda install -c conda-forge biopython``
- Ou instalar diretamente no PyCharm.

## O que é Biopython?

- Uma biblioteca em linguagem de programação Python utilizada no desenvolvimento de aplicações open source para a biologia computacional;
- Projeto iniciado em agosto de 1999 por Jeff Chang e Andrew Dalke; 
- Em 2000, contou com a coordenação do biólogo Brad Chapman (que só começou a programar em Python em 1999😉);
- Atualmente, conta com quase 100 colaboradores;
- É o projeto Bio* mais usado no mundo.

<script type="text/javascript" src="https://ssl.gstatic.com/trends_nrtr/2431_RC04/embed_loader.js"></script> <script type="text/javascript"> trends.embed.renderExploreWidget("TIMESERIES", {"comparisonItem":[{"keyword":"/m/02q0x2","geo":"","time":"2004-01-01 2021-02-24"},{"keyword":"/m/02q0w1","geo":"","time":"2004-01-01 2021-02-24"},{"keyword":"/m/02q0wd","geo":"","time":"2004-01-01 2021-02-24"}],"category":0,"property":""}, {"exploreQuery":"date=all&q=%2Fm%2F02q0x2,%2Fm%2F02q0w1,%2Fm%2F02q0wd","guestPath":"https://trends.google.com.br:443/trends/embed/"}); </script>

## Para quê serve Biopython?

- Análises e anotações de sequências biológicas; 
- Métodos para acessar bancos de dados biológicos online;
- Métodos para análises de:
    - Alinhamentos de sequências;
    - Estruturas de proteínas;
    - Genética de populações;
    - Filogenia;
    - Visualização de dados biológicos;
    - Regiões motivos em sequências;
    - Aprendizagem de máquina.

## Objeto Seq

- Objetos Seq do Biopython são utilizados para representar sequências biológicas e fornece diversas operações relacionadas.
- O construtor Seq(string_seq) da classe Seq recebe como argumentos uma sequência (string_seq)

In [2]:
from Bio.Seq import Seq

stringSeq1 = "ATCGTTGGATGCCACATA"
stringSeq2 = "ATGGTAGGCAGCCACGGC"

sequencia1 = Seq(stringSeq1)
sequencia2 = Seq(stringSeq2)

print("Sequência 1: %s" % sequencia1)
print("Sequência 2: %s" % sequencia2)

Sequência 1: ATCGTTGGATGCCACATA
Sequência 2: ATGGTAGGCAGCCACGGC


### Operações básicas

- A partir do objeto Seq criado, podemos realizar diversas operações. Exemplo:
    - Complemento (``Seq.complement()``): sequência formada por bases que pareiam com as bases da outra fita de DNA, ou seja,  bases que realizam ligações de hidrogênio na formação da dupla hélice do DNA (A com T e C com G)
    - Complemento reverso (``Seq.reverse_complement()``): sequência considerando duplo sentido de transcrição.
    - Conteúdo GC: % de guaninas + citosinas em uma sequência de DNA
    - Busca de padrão exato: identificar a presença de um motivo em uma sequência biológica.
- __Importante__: lembre-se que métodos são específicos de classes/objetos. Não podemos usar métodos de objetos do tipo Seq com strings.

In [3]:
if not isinstance(sequencia1,str):
    print("Objeto sequencia1 não é uma instância ou objeto da classe String")
else:
    print("Objeto sequencia1 é uma instância ou objeto da classe String")

if isinstance(sequencia1,Seq):
    print("Objeto sequencia1 é uma instância ou objeto da classe Seq")
else:
    print("Objeto sequencia1 não é uma instância ou objeto da classe Seq")

Objeto sequencia1 não é uma instância ou objeto da classe String
Objeto sequencia1 é uma instância ou objeto da classe Seq


### Complemento e Complemento Reverso

In [4]:
"""

Complemento

"""

stringSeq1 = "ATCGTTGGATGCCACATA"
stringSeq2 = "ATGGTAGGCAGCCACGGC"

sequencia1 = Seq(stringSeq1)
sequencia2 = Seq(stringSeq2)

print("Sequência 1: %s" % sequencia1)
print("Sequência 2: %s" % sequencia2)

##### complemento de um sequência:
# sequência formada por bases que pareiam com as bases da outra fita de DNA, ou seja,
# bases que realizam ligações de hidrogênio na formação da dupla hélice do DNA.
# A pareia com T
# C pareia com G

## método complement() da classe Seq permite esta conversão
complemento_sequencia1 = sequencia1.complement()
complemento_sequencia2 = sequencia2.complement()

print("Complemento da Sequência 1: %s" % complemento_sequencia1)
print("Complemento da Sequência 2: %s" % complemento_sequencia2)

Sequência 1: ATCGTTGGATGCCACATA
Sequência 2: ATGGTAGGCAGCCACGGC
Complemento da Sequência 1: TAGCAACCTACGGTGTAT
Complemento da Sequência 2: TACCATCCGTCGGTGCCG


In [3]:
"""

Complemento reverso

"""

stringSeq1 = "ATCGTTGGATGCCACATA"
stringSeq2 = "ATGGTAGGCAGCCACGGC"

sequencia1 = Seq(stringSeq1)
sequencia2 = Seq(stringSeq2)

rev_complemento_sequencia1 = sequencia1.reverse_complement()
rev_complemento_sequencia2 = sequencia2.reverse_complement()

print("Complemento reverso da Sequência 1: %s" % rev_complemento_sequencia1)
print("Complemento reverso da Sequência 2: %s" % rev_complemento_sequencia2)

Complemento reverso da Sequência 1: TATGTGGCATCCAACGAT
Complemento reverso da Sequência 2: GCCGTGGCTGCCTACCAT


- O que acontece se tentamos aplicar ``complement()`` numa string qualquer:

In [5]:
stringQualquer = "ATCGTTGGATGCCACG"

try:
    print("Testando complement() em uma string...")
    print(stringQualquer.complement())
except AttributeError as e:
    print("ERRO:", e)
    print("ERRO: complement() é um método da classe Seq!!!")

    ### restante código

Testando complement() em uma string...
ERRO: 'str' object has no attribute 'complement'
ERRO: complement() é um método da classe Seq!!!


- Obviamente não vai funcionar, porque objetos do tipo String não tem em sua definição o método ``complement()``!

- Porém temos operações que são aplicadas a strings que também funcionam com objetos do tipo Seq.
- Por exemplo, veja abaixo exemplos de comparação e concatenação de sequências:

In [9]:
"""

Comparação

"""

stringSeq1 = "ATCGTTGGATGCCACATA"
stringSeq2 = "ATGGTAGGCAGCCACGGC"
stringSeq3_igual_a_seq1 = "ATCGTTGGATGCCACATA"

sequencia1 = Seq(stringSeq1)
sequencia2 = Seq(stringSeq2)
sequencia3 = Seq(stringSeq3_igual_a_seq1)

print("Sequência 1: %s" % sequencia1)
print("Sequência 2: %s" % sequencia2)
print("Sequência 3: %s" % sequencia3)


if sequencia1 == sequencia2:
    print("Sequência 1 é igual à Sequência 2")
else:
    print("Sequência 1 é diferente da Sequência 2")

if sequencia1 == sequencia3: ### não funcionaria em outras linguagens
    print("Sequência 1 é igual à Sequência 3")
else:
    print("Sequência 1 é diferente da Sequência 3")

Sequência 1: ATCGTTGGATGCCACATA
Sequência 2: ATGGTAGGCAGCCACGGC
Sequência 3: ATCGTTGGATGCCACATA
Sequência 1 é diferente da Sequência 2
Sequência 1 é igual à Sequência 3


In [10]:
"""

Concatenação

"""

stringSeq1 = "ATCGTTGGATGCCACATA"
stringSeq2 = "ATGGTAGGCAGCCACGGC"

sequencia1 = Seq(stringSeq1)
sequencia2 = Seq(stringSeq2)

print("Sequência 1: %s" % sequencia1)
print("Sequência 2: %s" % sequencia2)

sequencia_concatenada = sequencia1 + sequencia2

print("Sequência concatenada: %s" % sequencia_concatenada)

Sequência 1: ATCGTTGGATGCCACATA
Sequência 2: ATGGTAGGCAGCCACGGC
Sequência concatenada: ATCGTTGGATGCCACATAATGGTAGGCAGCCACGGC


### Conteúdo GC

In [14]:
from Bio.SeqUtils import GC

stringSeq1 = "ATCGTTGGATGCCACATA"

sequencia1 = Seq(stringSeq1)

## conteudo GC
print(GC(sequencia1), "%")


44.44444444444444 %


### Busca de padrão exato

- Caso encontre a substring, retorna-se uma lista onde o primeiro elemento é a substring buscada e os elementos seguintes são as posições onde se encontram. Caso contrário, retorna apenas uma lista com um elemento (a própria substring).
- Note que a busca é realizada com um objeto do tipo ``String`` e não ``Seq``!

In [24]:
from Bio.SeqUtils import nt_search

stringSeq1 = "ATCGTTGGATTGCCACATTA"

sequencia1 = Seq(stringSeq1)

## buscando sub-sequencia
print(nt_search(str(sequencia1), "TCGA"))

## buscando sub-sequencia
print(nt_search(str(sequencia1), "TT"))

['TCGA']
['TT', 4, 9, 17]


### Métodos para fluxo da informação genética

In [11]:
stringSeq1 = "ATCGTTGGATGCCACATA"

sequencia1 = Seq(stringSeq1)

print("Sequencia 1: {}".format(sequencia1))

################### Transcrição #################
rna_sequencia1 = sequencia1.transcribe()
print("RNA da Sequência 1: %s" % rna_sequencia1)

#################### Transcrição reversa #################

dna2 = rna_sequencia1.back_transcribe()
print("Sequência 1 original\tSequência 1 após transcrição reversa")
print("%s\t%s" %(sequencia1,dna2))

################### Tradução #######################
# Possíveis erros: comprimento da sequência não é múltiplo de 3.

proteina_sequencia1 = sequencia1.translate()
print("Sequência de aminoácidos do RNA de Sequência 1: %s" % proteina_sequencia1)
print("Sequência de aminoácidos da Sequência 1: %s" % sequencia1.translate())

Sequencia 1: ATCGTTGGATGCCACATA
RNA da Sequência 1: AUCGUUGGAUGCCACAUA
Sequência 1 original	Sequência 1 após transcrição reversa
ATCGTTGGATGCCACATA	ATCGTTGGATGCCACATA
Sequência de aminoácidos do RNA de Sequência 1: IVGCHI
Sequência de aminoácidos da Sequência 1: IVGCHI


- O método dettradução ``translate`` usa o código genético padrão do NCBI (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi).
- Podemos definir um código genético específico usando o argumento ``table``.

In [8]:
print("Sequência de aminoácidos da Sequência 1: %s" % sequencia1.translate(table="Vertebrate Mitochondrial"))

Sequência de aminoácidos da Sequência 1: IVGCHM


### Lendo arquivos com sequências biológicas (FASTA)

- Biopython disponibiliza também várias ferramentas para otimizar e facilitar a leitura de diferentes formatos de arquivos comumente utilizados em biociências.

In [12]:
from Bio import SeqIO

refArquivoEntrada1 = open("TcCLB.506717.80_AA.fasta", "r")

for i in SeqIO.parse(refArquivoEntrada1, "fasta"):

    # imprime o cabecalho
    print(i.id)

    # imprime a sequencia
    print(i.seq)

    # imprime o tamanho da sequencia
    print(len(i))


TcCLB.506717.80:mRNA-p1
MLSRVAAVKAPNKHNRRRVTGSSGRRREGRVSEQQMPNMSRRVFTSAVLLLLVFVLMCCDVGGAHAGESNVKKAVDALRGIKWEELDKWEEIDNAGGKYGSLFSPSLVEVQGHVFAIAEAHCTDGGKCSDVSLTGIASKHLDLSGVGSTEISAANAGASIFGTDLLKEESEGISARNGITRPTTLVLGDSVYMLLGNYRRRAAGTQLTKIQGKNERGLLLVRGTVAEENGKKKIRWNETHVMNPQAIGYSHSLTELIGGGGSGAVMRDGTLVFPMQAKNKYGQHVLLSMSFNPSDKKWRLSSETPGKGCRDPTLVKWEENEDDERLFMMAHCAGGYYDVYRSTENGGNWYTLGEPINRVWGNSHNRAGHGVQSGFTTAIIEGKKVMLVTAPVYAKDNEGGKGRLHLWVTDNARVYDVGPVSRENDDAAASSLLMKSGRDNKELVSLHEKKKGDGSYNLVAVRLTEKLERIKKVVKTWADLDSALQSCSSVSIGTVGLPKKGMCNGRVPTERLVGFLSGNSTQTEWRDEYLCVNATVTNGERRVPNGLTFKGSGAGAVWPVGDMGQTVPYYFANNEFTLVATVSIHEVPKGDSSSIPLMGVRMNDTDSTVLFGLSYTHDKKWLAIPENSGNMEDVDYWEPNKTYQVVLRMDSDFWTVIVDKREIHHKKYDASLFDLHRISHFYIGGDSKDQSATGGHVTVTNVMLYNEKLFGSELYELNASKVTIPSLGAEKQPTGPVNGTGLSVAPESNSKESTASHEELTEDDTDKQEEGIVHDLVPAVPPSTVAGGSSVSESAIAAQSAENSLPENNAQFHQGETSQQTTPHEAKESMQRDSDVQPRELPSTKSTEVADVEGSAESNDTQQPVEEGEADDRSGGSTSSVGASLSMDTATETVGSEHQVQQSTEPATENDDVRSTGTGTTGAEESLSLEAGDSDSERTMGSDSSLTSSKSDAEPTSAEDTDNISWTEGAEFSFED

### Escrevendo arquivos com sequências biológicas (FASTA)

- Similarmente, também temos funções e métodos otimizados para facilitar a escrita de arquivos em formatos comumente utilizados em biociências.

In [34]:
refArquivoEntrada = open("TriTrypDB-47_TcruziCLBrenerEsmeraldo-like_AnnotatedProteins.fasta", "r")

refArquivoSaida = open("TriTrypDB-47_TcruziCLBrenerEsmeraldo-like_AnnotatedProteins_maiorQue2000AA.fasta", "w")

In [35]:
### parse do arquivo multi-FASTA
for i in SeqIO.parse(refArquivoEntrada, "fasta"):

    ## testa se o comprimento é maior que 2000 aminoácidos
    ## e se o primeiro aminoácido da sequência é uma metionina.

    if ((len(i.seq) > 2000) and (i.seq[0] == 'M')):
        ## escreve o identificador id e a sequência seq na tela
        print("%s\t%s" % (i.id, i.seq))

        ## cada objeto i é relativo a classe Seq
        ## a cada iteração seus atributos são escritos no arquivo refArquivoSaida
        ## no formato definido "fasta"
        SeqIO.write(i, refArquivoSaida, "fasta")

refArquivoEntrada.close()
refArquivoSaida.close()

TcCLB.506533.34:mRNA-p1	MSLPVNNQTFSTSSPSLIGFFDTPAASALAAPVMVADTAMLKARLTAIVNDVQMPNPKEAQKSLSDLRLFLDAVAEQSGTHIQNIFGQHVTNNILFVVMDSVVRPALTQYCSAAGRRRSMATRAAGRGANATSRRQHELTALAATSSASLVAEEELDALRNNKAKKLCTDVVRPWRALVETLHHNLPSSLLLAPASSSLGTSSNADNEEAHMAAVGAAASGTRGGQGGHAEEESAASNAFDGQWMTSRAAANRTEMSSVAGSLSTRHLWARTANHTSLPLLWKNAVPLFSITRHALEVLQSEVLVAVCGQEYAKLLLHLFLFNGYLSNLQPGIIMEMIMRLLELIERTVYEVNSTDTTIATATNRTSLPLLAAMSPHSDVGNQTPHGVEGRVEDDVYHPHVEQGTTFAALLVQLFRAPQLMNAFTPFEDEATLLLSTSTANNGTMPFIMQRLVRLTTQRHMRPTSALRLETHLLIALKLLVTVARDDCPLTSAMPLELVKPLCHFFYTTTRRDGWRMEALTFMTTQLCVCFSAVLGRSVRADIERHRPYGVRCSQEAAPNETNNEKGLGGNMSEGMTSACDSVLVSPYSLTLLHETVLPFMLQLFKVVRSEFGHVSRRELFYFPCPPLAPLFEFGAVVFYLACSTHEAYMKLPSLSSFVTPAASPAPAVSASVTRIPTVSDDALSKRVFAQEKQREQKGIKRSREEEDVMGEKTGEHSRRKKRETPPQPGETLLQLFRSLFFLDSVRDDVTSGTTGKTRATGGKDDVGNLTEKETETERDTDCLLRVSAAAGGSLSAAAVQDLVKDGSLFMLHLLAHPGTTLGCSESQCTLLVEHGVLPLFPYYGVRLETLLLAVLLAVTPRASLMCQQDVFRWLVRRYMPTVTTQRDDESQPKEHVYRLLSVLLGRGVVGRWPLWVNGEERARLQAAAHFSAISTRIRAVLYGVSKSLPKTVANVPQHTAALPPAMMASLIATAT

TcCLB.508831.250:mRNA-p1	MVDGASVTYHDGPVGTCLGWWMWCAVGACPRGRHRVRRMAIAAVRAALLVVLALVAAAAWMPAVHAVVLRLRGGTVDRAITVGRAVDTVLMDGVSVTNGVAVVFDVPAMLPGALRIELRNCVCDGGAQIYVRGYSGEPASDRSLEVGVSGLSGSYCSLVLMHNLPAHTNVTVRDSKIVTAGPMRYSQLSGLTEAVASPLVLHATSLLQSQLRVSNTVLRSSQAGGSAVYVGGGVDLLSSAVVFDGVSLEASGGATASAMHVASLSILSLRSHSVFSVTNVSVVSSGGGIVLGERVTVSDSVLRLVGVEGSVASSLVRCDGGTVGAGGWLDMHDVWAVGEASLVASLSGVTLSGGTVSIARCAATGATLVSGLAITSGAVSVQCNRAGGRVLQSSGDYRMAGLPSVSVVPCDGCAAALACFDALTASFSDCVCSCRAGGMGEACLPFNVPPARAGGGGGAEGCVSGVMLTESVTVGGGRATACFDSVVFSGPITVTVDLRSMDVFADALNVTLRHCVLAGGAQLRIGGLSESTARPMPRAFVNMTNVTSLEGTIVLHGAMPLHSSVLLANSTLRATVGGSQYVPTTRGHEGSRYGTALVLDGVRLLSTRFVMTRSTLVCYGGSCAAILVERGLGVNLSSAFYMDNCAVSSRAHVMYALASDLRVSGGSVFSIQNSSWIAPSIDFYKGACMFKEVAVDGGSVLQIVSSTFRLGFAMLIANMLTVTDGSWLVHRNNEFHTAYVVYVANENGVVFCDRSVWSILDNSFTYGSYSSTAYMTSIWSLSSDARPIIYGMCNELRGSVVTNYQEDLYIRIPVRVLDCGACTVDAVCFAARTSSISGCECVCAAGGYGGTCLPAAVPDGLGPLPLPDADDTEVRCVHGGSISSVDDPDPGVRGLCFVNVTFTSAIVLDLSLFEAPKQTLNITLLQCVLIGLSIRGSGACVHVSVFSSILDLGALEFEGDFGMSSQILVAGSAIV

### Busca por homologia baseada em sequência usando BLAST

- _Basic Local Alignment Search Tool_ (BLAST) foi publicado por Stephen Altschul e colaboradores em 1990;
- Ferramenta muito citada dentro da bioinformática (> 87 mil citações);
- Desenvolvido para realizar buscas comparando sequências biológicas contra banco de dados de sequências em grande escala;
- Retorna sequências mais similares com a(s) sequência(s) buscada(s) e significância estatística da busca;
- Versão web: https://blast.ncbi.nlm.nih.gov/Blast.cgi

#### Executando BLAST com Biopython localmente

- ``NcbiblastpCommandline`` - proteina vs proteina
- ``NcbiblastnCommandline`` - nucleotideo vs nucleotideo
- ``NcbiblastxCommandline`` - nucleotideo -> traduz para proteina vs proteina

#### Instalando o BLAST em Windows

- Infelizmente, para instalar o BLAST no Windows não temos a opção de instalação via conda.
- Então, baixe ncbi-blast-2.10.1+-win64.exe em https://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST/ e instale.


In [13]:
from Bio.Blast.Applications import NcbiblastpCommandline

In [14]:
## Sequência desconhecida
sequencia = "SequenciaDesconhecida_AA.fasta"

## Arquivo com várias sequências de aminoácidos que
## tenham relação com nossa sequência desconhecida
baseDeDados_AA = "TriTrypDB-47_TcruziCLBrenerEsmeraldo-like_AnnotatedProteins.fasta"

## arquivo de saída do blast em formato nº 6
meuOutput = "output.blastp.outfmt6.txt"

In [15]:
blastp_path = "C:\\Program Files\\NCBI\\blast-2.10.1+\\bin\\blastp"

linha_de_comando_blastp = NcbiblastpCommandline(query=sequencia, ## o que quero buscar
                                                subject=baseDeDados_AA,  ##  onde quero buscar
                                                outfmt=6, ## formato do arquivo de saida
                                                out=meuOutput, ## arquivo de saida
                                                evalue=0.05, ## e-valor
                                                cmd = blastp_path) ## caminho para o executável

In [16]:
print("Executando busca local:")

stdout, stderr = linha_de_comando_blastp()

print("Fim da busca local...")

# Abrindo o arquivo de output que armazena o resultado
blast_result = open(meuOutput, "r")

Executando busca local:
Fim da busca local...


- Vamos verificar o resultado abrindo o arquivo de saída ``output.blastp.outfmt6.txt``.

- Em seguida, vamos verificar os resultados iterando as linhas do arquivo:

In [75]:
##### indíces para os resultados do blast em formato 6 ("outfmt=6")

qseqid = 0 #query (e.g., unknown gene) sequence id
sseqid = 1 # subject (e.g., reference genome) sequence id
pident = 2 # percentage of identical matches
length = 3 # alignment length (sequence overlap)
mismatch = 4 # number of mismatches
gapopen = 5 # number of gap openings
qstart = 6 # start of alignment in query
qend = 7 # end of alignment in query
sstart = 8 # start of alignment in subject
send = 9 # end of alignment in subject
evalue = 10 # expect value
bitscore = 11 # bit score

In [76]:
## Imprimindo os resultados
results = blast_result.read()
s = results.split('\n')

for linha in s:
    hit = linha.split('\t') 

    if len(hit) != 12: ### o formato nº6 tem 12 campos
        break

    print("Sequência de busca: %s" % hit[qseqid])
    print("Sequência encontrada: %s" % hit[sseqid])
    print("Score = %s" % float(hit[bitscore]))
    print("Identidade = %s" % hit[pident])
    print("E-value = %s" % float(hit[evalue]))
    print("________________________________________________")
blast_result.close()

Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.506717.80:mRNA-p1
Score = 2173
Identidade = 100.000
E-value = 0.0
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.507555.50:mRNA-p1
Score = 1446
Identidade = 72.873
E-value = 0.0
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.508515.150:mRNA-p1
Score = 1433
Identidade = 72.642
E-value = 0.0
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.510125.20:mRNA-p1
Score = 1424
Identidade = 70.544
E-value = 0.0
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.507759.10:mRNA-p1
Score = 1409
Identidade = 71.913
E-value = 0.0
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: Tc

Identidade = 30.615
E-value = 1.00e-58
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.506377.10:mRNA-p1
Score = 198
Identidade = 65.979
E-value = 1.51e-58
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.508229.10:mRNA-p1
Score = 202
Identidade = 42.994
E-value = 5.00e-58
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.429185.31:pseudogenic_transcript-p1
Score = 203
Identidade = 35.198
E-value = 1.07e-57
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.504239.434:mRNA-p1
Score = 202
Identidade = 36.725
E-value = 1.74e-57
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.510049.10:mRNA-p1
Score = 202
Identidade = 29.859
E-value = 2

Sequência encontrada: TcCLB.507995.10:pseudogenic_transcript-p1
Score = 88.2
Identidade = 75.806
E-value = 2.47e-18
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.510365.10:pseudogenic_transcript-p1
Score = 87.0
Identidade = 70.313
E-value = 2.95e-18
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.510365.10:pseudogenic_transcript-p1
Score = 47.0
Identidade = 28.177
E-value = 1.87e-05
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.506597.9:mRNA-p1
Score = 79.7
Identidade = 47.328
E-value = 4.49e-18
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.511371.5:pseudogenic_transcript-p1
Score = 87.8
Identidade = 31.715
E-value = 5.80e-18
________________________________________________
Sequência de busca:

Sequência encontrada: TcCLB.423205.10:mRNA-p1
Score = 58.9
Identidade = 41.818
E-value = 1.69e-10
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.511627.20:pseudogenic_transcript-p1
Score = 60.8
Identidade = 61.644
E-value = 7.79e-10
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.511627.20:pseudogenic_transcript-p1
Score = 45.4
Identidade = 44.898
E-value = 5.35e-05
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.510211.10:pseudogenic_transcript-p1
Score = 58.2
Identidade = 39.048
E-value = 1.07e-09
________________________________________________
Sequência de busca: TcCLB.506717.80:mRNA-p1
Sequência encontrada: TcCLB.508367.70:pseudogenic_transcript-p1
Score = 60.8
Identidade = 28.902
E-value = 1.33e-09
________________________________________________
Sequência de busc

## Considerações finais

- Biopython oferece uma gama de funcionalidades para as mais diversas aplicações em biociências;
- Vimos um pequeno conjunto de ferramentas que podem auxiliar na construção de soluções mais arrojadas para automatizar algumas tarefas cotidianas de análise de sequências biológicas.

# Links para códigos:

- https://github.com/vitorlimac2/vitor_programacao_biociencias_2020_1/blob/master/Biopython/sample/introducaoBiopython.py

- https://github.com/vitorlimac2/vitor_programacao_biociencias_2020_1/blob/master/Biopython/sample/comparandoSequencias.py

- https://github.com/vitorlimac2/vitor_programacao_biociencias_2020_1/blob/master/Biopython/sample/entradaSaidaBiopython.py

- https://github.com/vitorlimac2/vitor_programacao_biociencias_2020_1/blob/master/Biopython/sample/buscaSequenciaNCBI_remoto.py

- https://github.com/vitorlimac2/vitor_programacao_biociencias_2020_1/blob/master/Biopython/sample/buscaSequenciaNCBI_local.py