## BLAST com Biopython

Extraído de https://github.com/lanadominkovic/12-days-of-biopython

BLAST significa Basic Local Alignment Search Tool. Uma busca BLAST permite que um pesquisador compare uma proteína ou sequência de nucleotídeos (chamada de query) com uma biblioteca ou banco de dados de sequências.

O Biopython fornece o módulo Bio.Blast para acessar o BLAST do NCBI. Você pode executar o BLAST em conexão local ou por conexão com a Internet.

####Executando consultas na versão online do BLAST

Usamos a função qblast() no módulo Bio.Blast.NCBIWWW para chamar a versão online do BLAST. Ela tem três argumentos não opcionais:

- O primeiro argumento é o programa blast a ser usado para a busca. Atualmente, o qblast só funciona com blastn, blastp, blastx, tblast e tblastx

- O segundo argumento especifica os bancos de dados para pesquisa

- O terceiro argumento é uma string contendo sua sequência (query). Pode ser a sequência em si, a sequência no formato fasta ou um identificador único do NCBI

In [None]:
# Instalando o Biopython
!pip install biopython

Collecting biopython
  Downloading biopython-1.84-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Downloading biopython-1.84-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: biopython
Successfully installed biopython-1.84


In [None]:
# Importando a biblioteca
from Bio.Blast import NCBIWWW
help(NCBIWWW.qblast)

Help on function qblast in module Bio.Blast.NCBIWWW:

qblast(program, database, sequence, url_base='https://blast.ncbi.nlm.nih.gov/Blast.cgi', auto_format=None, composition_based_statistics=None, db_genetic_code=None, endpoints=None, entrez_query='(none)', expect=10.0, filter=None, gapcosts=None, genetic_code=None, hitlist_size=50, i_thresh=None, layout=None, lcase_mask=None, matrix_name=None, nucl_penalty=None, nucl_reward=None, other_advanced=None, perc_ident=None, phi_pattern=None, query_file=None, query_believe_defline=None, query_from=None, query_to=None, searchsp_eff=None, service=None, threshold=None, ungapped_alignment=None, word_size=None, short_query=None, alignments=500, alignment_view=None, descriptions=500, entrez_links_new_window=None, expect_low=None, expect_high=None, format_entrez_query=None, format_object=None, format_type='XML', ncbi_gi=None, results_file=None, show_overview=None, megablast=None, template_type=None, template_length=None, username='blast', password=No

In [None]:
# Nossa sequência
query = "ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatattctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc"
# Programa
prog = "blastn"
# Banco de dados
db = "nt"

# Monta a busca
result_handle = NCBIWWW.qblast(prog, db, query)

####Analisando a resposta

In [None]:
# O BLAST gera uma saída no formato XML e precisamos analisá-la!
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)

In [None]:
# Passa para uma lista
blast_records = list(blast_records)

In [None]:
blast_records

[<Bio.Blast.NCBIXML.Blast at 0x7a65cdbd4cd0>]

In [None]:
# Interando em blast_records e usando o conceito de e-value
# O e-value do BLAST é o número de acertos esperados de qualidade semelhante (pontuação) que podem ser encontrados por acaso

E_VALUE_THRESH = 0.00000000001
count = 0
for record in blast_records:
  for alignment in record.alignments:
    for hsp in alignment.hsps:
      if hsp.expect < E_VALUE_THRESH:
        count += 1
        print("****Alignment****")
        print("sequence:", alignment.title)
        print("length:", alignment.length)
        print("score:",hsp.score)
        print("e-value:", hsp.expect)
        print(hsp.query[0:100] + "...")
        print(hsp.match[0:100] + "...")
        print(hsp.sbjct[0:100] + "...")
        print()

print(f"There are {count} similar sequences in Blast output")

****Alignment****
sequence: gi|380251597|emb|HE603227.1| Chlamydia trachomatis L2b/UCH-2 plasmid pL2bUCH2 complete sequence
length: 7473
score: 240.0
e-value: 1.89542e-52
GGTAAGTCCTCTAGTACAAACACCCCCAATATTGTGATATAATTAAAATTATATTCATATTCTGTTGCCAGAAAAAACACTTTTAGGCTATATTAGAGCC...
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
GGTAAGTCCTCTAGTACAAACACCCCCAATATTGTGATATAATTAAAATTATATTCATATTCTGTTGCCAGAAAAAACACTTTTAGGCTATATTAGAGCC...

****Alignment****
sequence: gi|2317634782|gb|CP106986.1| Chlamydia trachomatis strain L2f plasmid p7Kb, complete sequence
length: 7500
score: 240.0
e-value: 1.89542e-52
GGTAAGTCCTCTAGTACAAACACCCCCAATATTGTGATATAATTAAAATTATATTCATATTCTGTTGCCAGAAAAAACACTTTTAGGCTATATTAGAGCC...
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
GGTAAGTCCTCTAGTACAAACACCCCCAATATTGTGATATAATTAAAATTATATTCATATTCTGTTGCCAGAAAAAACACTTTTAGGCTATATTAGAGCC...

****Alignment****
sequence: gi|158