**Source of the materials**: Biopython cookbook (Adapted)
<font color='red'>
New status: Draft</font>


**Fonte dos materiais** : livro de receitas Biopython (adaptado)

 &lt;font color = &#39;red&#39;&gt;

 Novo status: Rascunho &lt;/font&gt;


BLAST
===
[Running BLAST over the Internet](#Running-BLAST-over-the-Internet)

[Saving blast output](#Saving-blast-output)

[Running BLAST locally](#Running-BLAST-locally)

[Parsing BLAST output](#Parsing-BLAST-output)

[The BLAST record class](#The-BLAST-record-class)

[Parsing plain-text BLAST output](#Deprecated-BLAST-parsers)

Hey, everybody loves BLAST right? I mean, geez, how can it get any
easier to do comparisons between one of your sequences and every other
sequence in the known world? But, of course, this section isn’t about
how cool BLAST is, since we already know that. It is about the problem
with BLAST – it can be really difficult to deal with the volume of data
generated by large runs, and to automate BLAST runs in general.

Fortunately, the Biopython folks know this only too well, so they’ve
developed lots of tools for dealing with BLAST and making things much
easier. This section details how to use these tools and do useful things
with them.

Dealing with BLAST can be split up into two steps, both of which can be
done from within Biopython. Firstly, running BLAST for your query
sequence(s), and getting some output. Secondly, parsing the BLAST output
in Python for further analysis.

Your first introduction to running BLAST was probably via the NCBI
web-service. In fact, there are lots of ways you can run BLAST, which
can be categorised in several ways. The most important distinction is
running BLAST locally (on your own machine), and running BLAST remotely
(on another machine, typically the NCBI servers). We’re going to start
this chapter by invoking the NCBI online BLAST service from within a
Python script.

*NOTE*: The following Chapter \[chapter:searchio\] describes
`Bio.SearchIO`, an *experimental* module in Biopython. We intend this to
ultimately replace the older `Bio.Blast` module, as it provides a more
general framework handling other related sequence searching tools as
well. However, until that is declared stable, for production code please
continue to use the `Bio.Blast` module for dealing with NCBI BLAST.


EXPLOSÃO

 ===

 [Executando o BLAST na Internet](#Running-BLAST-over-the-Internet)

 [Salvando saída de explosão](#Saving-blast-output)

 [Executando o BLAST localmente](#Running-BLAST-locally)

 [Analisando saída do BLAST](#Parsing-BLAST-output)

 [A classe de registro do BLAST](#The-BLAST-record-class)

 [Analisando saída BLAST de texto simples](#Deprecated-BLAST-parsers)

 Ei, todo mundo adora o BLAST, certo? Quero dizer, nossa, como pode obter qualquer

 mais fácil de fazer comparações entre uma de suas sequências e todas as outras

 sequência no mundo conhecido? Mas, é claro, esta seção não é sobre

 como o BLAST é legal, já que já sabemos disso. É sobre o problema

 com o BLAST - pode ser muito difícil lidar com o volume de dados

 gerado por grandes execuções e para automatizar execuções do BLAST em geral.

 Felizmente, o pessoal do Biopython sabe disso muito bem, então eles

 desenvolveu muitas ferramentas para lidar com o BLAST e tornar as coisas muito

 Mais fácil. Esta seção detalha como usar essas ferramentas e fazer coisas úteis

 com eles.

 Lidar com o BLAST pode ser dividido em duas etapas, ambas as quais podem ser

 feito de dentro do Biopython. Em primeiro lugar, executando o BLAST para sua consulta

 sequência (s) e obter alguma saída. Em segundo lugar, analisando a saída do BLAST

 em Python para análise posterior.

 Sua primeira introdução ao funcionamento do BLAST foi provavelmente através do NCBI

 serviço de internet. Na verdade, existem muitas maneiras de executar o BLAST, que

 podem ser categorizados de várias maneiras. A distinção mais importante é

 executando o BLAST localmente (em sua própria máquina) e executando o BLAST remotamente

 (em outra máquina, normalmente os servidores NCBI). Vamos começar

 este capítulo invocando o serviço BLAST online NCBI de dentro de um

 Script Python.

 *NOTA* : O seguinte capítulo [capítulo: searchio] descreve

 `Bio.SearchIO` , um módulo *experimental* em Biopython. Pretendemos que isso

 em última análise, substituir o módulo `Bio.Blast` mais `Bio.Blast` , uma vez que fornece um mais

 estrutura geral que lida com outras ferramentas de busca de sequência relacionadas como

 bem. No entanto, até que seja declarado estável, para o código de produção, por favor

 continue a usar o módulo `Bio.Blast` para lidar com NCBI BLAST.


Running BLAST over the Internet
-----------------------------

We use the function `qblast()` in the `Bio.Blast.NCBIWWW` module to call
the online version of BLAST. This has three non-optional arguments:

-   The first argument is the blast program to use for the search, as a
    lower case string. The options and descriptions of the programs are
    available at
    <https://blast.ncbi.nlm.nih.gov/Blast.cgi.>. Currently
    `qblast` only works with blastn, blastp, blastx, tblast and tblastx.

-   The second argument specifies the databases to search against.
    Again, the options for this are available on the NCBI web pages at
    <http://www.ncbi.nlm.nih.gov/BLAST/blast_databases.shtml>.

-   The third argument is a string containing your query sequence. This
    can either be the sequence itself, the sequence in fasta format, or
    an identifier like a GI number.

The `qblast` function also take a number of other option arguments which
are basically analogous to the different parameters you can set on the
BLAST web page. We’ll just highlight a few of them here:

-   The argument url_base sets the base URL for running BLAST over the internet. By default it connects to the NCBI, but one can use this to connect to an instance of NCBI BLAST running in the cloud. Please refer to the documentation for the qblast function for further details
-   The `qblast` function can return the BLAST results in various
    formats, which you can choose with the optional `format_type`
    keyword: `"HTML"`, `"Text"`, `"ASN.1"`, or `"XML"`. The default is
    `"XML"`, as that is the format expected by the parser, described in
    section \[sec:parsing-blast\] below.

-   The argument `expect` sets the expectation or e-value threshold.

For more about the optional BLAST arguments, we refer you to the NCBI’s
own documentation, or that built into Biopython:


Executando o BLAST na Internet

 Usamos a função `qblast()` no módulo `Bio.Blast.NCBIWWW` para chamar

 a versão online do BLAST. Isso tem três argumentos não opcionais:
-  O primeiro argumento é o programa blast a ser usado para a pesquisa, como um string minúscula. As opções e descrições dos programas são disponível em [https://blast.ncbi.nlm.nih.gov/Blast.cgi.](https://blast.ncbi.nlm.nih.gov/Blast.cgi.) . Atualmente `qblast` só funciona com blastn, blastp, blastx, tblast e tblastx.
-  O segundo argumento especifica os bancos de dados a serem pesquisados. Novamente, as opções para isso estão disponíveis nas páginas da web do NCBI em [http://www.ncbi.nlm.nih.gov/BLAST/blast_databases.shtml](http://www.ncbi.nlm.nih.gov/BLAST/blast_databases.shtml) .
-  O terceiro argumento é uma string contendo sua sequência de consulta. este pode ser a própria sequência, a sequência em formato fasta ou um identificador como um número GI.

 A função `qblast` também leva uma série de outros argumentos de opção que

 são basicamente análogos aos diferentes parâmetros que você pode definir no

 Página da web do BLAST. Vamos apenas destacar alguns deles aqui:
-  O argumento url_base define a URL base para executar o BLAST na Internet. Por padrão, ele se conecta ao NCBI, mas pode-se usar isso para se conectar a uma instância do NCBI BLAST em execução na nuvem. Por favor, consulte a documentação da função qblast para mais detalhes
-  A função `qblast` pode retornar os resultados do BLAST em vários formatos, que você pode escolher com o `format_type` opcional palavra-chave: `"HTML"` , `"Text"` , `"ASN.1"` ou `"XML"` . O padrão é `"XML"` , pois é o formato esperado pelo analisador, descrito em seção [sec: análise-explosão] abaixo.
-  O argumento `expect` define a expectativa ou limite do valor eletrônico.

 Para obter mais informações sobre os argumentos opcionais do BLAST, consulte o NCBI

 documentação própria ou incorporada ao Biopython:


In [16]:
from Bio.Blast import NCBIWWW
help(NCBIWWW.qblast)

Help on function qblast in module Bio.Blast.NCBIWWW:

qblast(program, database, sequence, url_base='https://blast.ncbi.nlm.nih.gov/Blast.cgi', auto_format=None, composition_based_statistics=None, db_genetic_code=None, endpoints=None, entrez_query='(none)', expect=10.0, filter=None, gapcosts=None, genetic_code=None, hitlist_size=50, i_thresh=None, layout=None, lcase_mask=None, matrix_name=None, nucl_penalty=None, nucl_reward=None, other_advanced=None, perc_ident=None, phi_pattern=None, query_file=None, query_believe_defline=None, query_from=None, query_to=None, searchsp_eff=None, service=None, threshold=None, ungapped_alignment=None, word_size=None, short_query=None, alignments=500, alignment_view=None, descriptions=500, entrez_links_new_window=None, expect_low=None, expect_high=None, format_entrez_query=None, format_object=None, format_type='XML', ncbi_gi=None, results_file=None, show_overview=None, megablast=None, template_type=None, template_length=None)
    BLAST search using NCBI's


Note that the default settings on the NCBI BLAST website are not quite
the same as the defaults on QBLAST. If you get different results, you’ll
need to check the parameters (e.g., the expectation value threshold and
the gap values).

For example, if you have a nucleotide sequence you want to search
against the nucleotide database (nt) using BLASTN, and you know the GI
number of your query sequence, you can use:




Observe que as configurações padrão no site NCBI BLAST não são exatamente

 o mesmo que os padrões em QBLAST. Se obtiver resultados diferentes, você

 precisa verificar os parâmetros (por exemplo, o limite do valor de expectativa e

 os valores de gap).

 Por exemplo, se você tem uma sequência de nucleotídeos que deseja pesquisar

 contra o banco de dados de nucleotídeos (nt) usando BLASTN, e você conhece o GI

 número de sua sequência de consulta, você pode usar:


In [17]:
from Bio.Blast import NCBIWWW
result_handle = NCBIWWW.qblast("blastn", "nt", "8332116")


Alternatively, if we have our query sequence already in a FASTA
formatted file, we just need to open the file and read in this record as
a string, and use that as the query argument:




Alternativamente, se já tivermos nossa sequência de consulta em um FASTA

 arquivo formatado, só precisamos abrir o arquivo e ler este registro como

 uma string e use-a como argumento de consulta:


In [18]:
from Bio.Blast import NCBIWWW
fasta_string = open("data/m_cold.fasta").read()
result_handle = NCBIWWW.qblast("blastn", "nt", fasta_string)

KeyboardInterrupt: 


We could also have read in the FASTA file as a `SeqRecord` and then
supplied just the sequence itself:




Também poderíamos ter lido no arquivo FASTA como um `SeqRecord` e então

 forneceu apenas a própria sequência:


In [None]:
from Bio.Blast import NCBIWWW
from Bio import SeqIO
record = SeqIO.read("data/m_cold.fasta", format="fasta")
result_handle = NCBIWWW.qblast("blastn", "nt", record.seq)


Supplying just the sequence means that BLAST will assign an identifier
for your sequence automatically. You might prefer to use the `SeqRecord`
object’s format method to make a FASTA string (which will include the
existing identifier):




Fornecer apenas a sequência significa que o BLAST irá atribuir um identificador

 para sua sequência automaticamente. Você pode preferir usar o `SeqRecord`

 método de formato do objeto para fazer uma string FASTA (que incluirá o

 identificador existente):


In [None]:
from Bio.Blast import NCBIWWW
from Bio import SeqIO
record = SeqIO.read("data/m_cold.fasta", format="fasta")
result_handle = NCBIWWW.qblast("blastn", "nt", record.format("fasta"))

This approach makes more sense if you have your sequence(s) in a
non-FASTA file format which you can extract using `Bio.SeqIO` (see
Chapter [5 - Sequence Input and Output](05 - Sequence Input and Output.ipynb).)

Whatever arguments you give the `qblast()` function, you should get back
your results in a handle object (by default in XML format). The next
step would be to parse the XML output into Python objects representing
the search results (Section \[sec:parsing-blast\]), but you might want
to save a local copy of the output file first. I find this especially
useful when debugging my code that extracts info from the BLAST results
(because re-running the online search is slow and wastes the NCBI
computer time).


Esta abordagem faz mais sentido se você tiver sua (s) sequência (s) em um

 formato de arquivo não FASTA que você pode extrair usando `Bio.SeqIO` (consulte

 Capítulo [5 - Sequência de entrada e saída](05 - Sequence Input and Output.ipynb) .)

 Quaisquer argumentos que você forneça à função `qblast()` , você deve voltar

 seus resultados em um objeto de manipulação (por padrão no formato XML). Nas próximas

 passo seria analisar a saída XML em objetos Python que representam

 os resultados da pesquisa (Seção [sec: parsing-blast]), mas você pode querer

 para salvar uma cópia local do arquivo de saída primeiro. Eu acho isso especialmente

 útil ao depurar meu código que extrai informações dos resultados do BLAST

 (porque reexecutar a pesquisa online é lento e desperdiça o NCBI

 hora do computador).


Saving blast output
------------------

We need to be a bit careful since we can use `result_handle.read()` to
read the BLAST output only once – calling `result_handle.read()` again
returns an empty string.


Salvando saída de explosão

 Precisamos ter um pouco de cuidado, pois podemos usar `result_handle.read()` para

 leia a saída do BLAST apenas uma vez - chamando `result_handle.read()` novamente

 retorna uma string vazia.


In [2]:
with open("data/my_blast.xml", "w") as out_handle:
    out_handle.write(result_handle.read())
    result_handle.close()


After doing this, the results are in the file `my_blast.xml` and the
original handle has had all its data extracted (so we closed it).
However, the `parse` function of the BLAST parser (described
in \[sec:parsing-blast\]) takes a file-handle-like object, so we can
just open the saved file for input:




Depois de fazer isso, os resultados estão no arquivo `my_blast.xml` e no

 o identificador original teve todos os seus dados extraídos (então o fechamos).

 No entanto, a função de `parse` do analisador BLAST (descrito

 em [sec: parsing-blast]) leva um objeto semelhante a um manipulador de arquivo, para que possamos

 basta abrir o arquivo salvo para entrada:


In [3]:
 result_handle = open("data/my_blast.xml")

Now that we’ve got the BLAST results back into a handle again, we are
ready to do something with them, so this leads us right into the parsing
section (see Section \[sec:parsing-blast\] below). You may want to jump
ahead to that now ….


Agora que temos os resultados do BLAST de volta em um controle novamente, estamos

 pronto para fazer algo com eles, então isso nos leva direto para a análise

 seção (consulte a seção [sec: análise-explosão] abaixo). Você pode querer pular

 à frente disso agora….


Running BLAST locally
--------------------

### Introduction

Running BLAST locally (as opposed to over the internet, see
Section \[sec:running-www-blast\]) has at least major two advantages:

-   Local BLAST may be faster than BLAST over the internet;

-   Local BLAST allows you to make your own database to search for
    sequences against.

Dealing with proprietary or unpublished sequence data can be another
reason to run BLAST locally. You may not be allowed to redistribute the
sequences, so submitting them to the NCBI as a BLAST query would not be
an option.

Unfortunately, there are some major drawbacks too – installing all the
bits and getting it setup right takes some effort:

-   Local BLAST requires command line tools to be installed.

-   Local BLAST requires (large) BLAST databases to be setup (and
    potentially kept up to date).

To further confuse matters there are several different BLAST packages
available, and there are also other tools which can produce imitation
BLAST output files, such as BLAT.

### Standalone NCBI BLAST+

The “new” [NCBI
BLAST+](http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Download)
suite was released in 2009. This replaces the old NCBI “legacy” BLAST
package (see below).

This section will show briefly how to use these tools from within
Python. If you have already read or tried the alignment tool examples in
Section \[sec:alignment-tools\] this should all seem quite
straightforward. First, we construct a command line string (as you would
type in at the command line prompt if running standalone BLAST by hand).
Then we can execute this command from within Python.

For example, taking a FASTA file of gene nucleotide sequences, you might
want to run a BLASTX (translation) search against the non-redundant (NR)
protein database. Assuming you (or your systems administrator) has
downloaded and installed the NR database, you might run:


Executando o BLAST localmente

###  Introdução

 Executando o BLAST localmente (ao contrário da Internet, consulte

 A seção [sec: running-www-blast]) tem pelo menos duas vantagens principais:
-  O BLAST local pode ser mais rápido do que o BLAST na Internet;
-  BLAST local permite que você faça seu próprio banco de dados para pesquisar sequências contra.

 Lidar com dados de sequência proprietários ou não publicados pode ser outra

 razão para executar o BLAST localmente. Você pode não ter permissão para redistribuir o

 sequências, portanto, enviá-las ao NCBI como uma consulta BLAST não seria

 uma opção.

 Infelizmente, existem algumas desvantagens importantes - instalar todos os

 bits e configurar corretamente exige algum esforço:
-  O BLAST local requer a instalação de ferramentas de linha de comando.
-  O BLAST local requer que (grandes) bancos de dados BLAST sejam configurados (e potencialmente atualizados).

 Para confundir ainda mais as coisas, existem vários pacotes BLAST diferentes

 disponíveis, e também existem outras ferramentas que podem produzir imitações

 Arquivos de saída do BLAST, como BLAT.

###  NCBI BLAST + autônomo

 O “novo” [NCBI

 BLAST +] ( [http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;PAGE_TYPE=BlastDocs&amp;DOC_TYPE=Download](http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&amp;PAGE_TYPE=BlastDocs&amp;DOC_TYPE=Download) )

 suíte foi lançada em 2009. Isso substitui o antigo BLAST “legado” do NCBI

 pacote (veja abaixo).

 Esta seção mostrará brevemente como usar essas ferramentas de dentro

 Pitão. Se você já leu ou experimentou os exemplos de ferramentas de alinhamento em

 Seção [sec: alinhamento-ferramentas] tudo isso deve parecer bastante

 direto. Primeiro, construímos uma string de linha de comando (como você faria

 digite no prompt da linha de comando se estiver executando o BLAST autônomo manualmente).

 Então, podemos executar esse comando de dentro do Python.

 Por exemplo, pegando um arquivo FASTA de sequências de nucleotídeos de genes, você pode

 deseja executar uma pesquisa BLASTX (tradução) contra o não redundante (NR)

 banco de dados de proteínas. Supondo que você (ou o administrador do sistema) tenha

 baixado e instalado o banco de dados NR, você pode executar:


```
blastx -query opuntia.fasta -db nr -out opuntia.xml -evalue 0.001 -outfmt 5

```


```

blastx -query opuntia.fasta -db nr -out opuntia.xml -evalue 0.001 -outfmt 5

```



This should run BLASTX against the NR database, using an expectation
cut-off value of $0.001$ and produce XML output to the specified file
(which we can then parse). On my computer this takes about six minutes -
a good reason to save the output to a file so you can repeat any
analysis as needed.

From within Biopython we can use the NCBI BLASTX wrapper from the
`Bio.Blast.Applications` module to build the command line string, and
run it:




Isso deve executar o BLASTX no banco de dados NR, usando uma expectativa

 valor de corte de $ 0,001 $ e produzir saída XML para o arquivo especificado

 (que podemos então analisar). No meu computador, isso leva cerca de seis minutos -

 um bom motivo para salvar a saída em um arquivo para que você possa repetir qualquer

 análise conforme necessário.

 De dentro do Biopython, podemos usar o invólucro NCBI BLASTX do

 Módulo `Bio.Blast.Applications` para construir a string de linha de comando e

 executá-lo:


In [5]:
from Bio.Blast.Applications import NcbiblastxCommandline
help(NcbiblastxCommandline)

Help on class NcbiblastxCommandline in module Bio.Blast.Applications:

class NcbiblastxCommandline(_NcbiblastMain2SeqCommandline)
 |  NcbiblastxCommandline(cmd='blastx', **kwargs)
 |  
 |  Wrapper for the NCBI BLAST+ program blastx (nucleotide query, protein database).
 |  
 |  With the release of BLAST+ (BLAST rewritten in C++ instead of C), the NCBI
 |  replaced the old blastall tool with separate tools for each of the searches.
 |  This wrapper therefore replaces BlastallCommandline with option -p blastx.
 |  
 |  >>> from Bio.Blast.Applications import NcbiblastxCommandline
 |  >>> cline = NcbiblastxCommandline(query="m_cold.fasta", db="nr", evalue=0.001)
 |  >>> cline
 |  NcbiblastxCommandline(cmd='blastx', query='m_cold.fasta', db='nr', evalue=0.001)
 |  >>> print(cline)
 |  blastx -query m_cold.fasta -db nr -evalue 0.001
 |  
 |  You would typically run the command line with cline() or via the Python
 |  subprocess module, as described in the Biopython tutorial.
 |  
 |  Method r

In [7]:
blastx_cline = NcbiblastxCommandline(query="opuntia.fasta", db="nr", evalue=0.001,
outfmt=5, out="opuntia.xml")
blastx_cline

NcbiblastxCommandline(cmd='blastx', out='opuntia.xml', outfmt=5, query='opuntia.fasta', db='nr', evalue=0.001)

In [8]:
print(blastx_cline)

blastx -out opuntia.xml -outfmt 5 -query opuntia.fasta -db nr -evalue 0.001


In [11]:
# stdout, stderr = blastx_cline()

In this example there shouldn’t be any output from BLASTX to the
terminal, so stdout and stderr should be empty. You may want to check
the output file `opuntia.xml` has been created.

As you may recall from earlier examples in the tutorial, the
`opuntia.fasta` contains seven sequences, so the BLAST XML output should
contain multiple results. Therefore use `Bio.Blast.NCBIXML.parse()` to
parse it as described below in Section \[sec:parsing-blast\].

### Other versions of BLAST

NCBI BLAST+ (written in C++) was first released in 2009 as a replacement
for the original NCBI “legacy” BLAST (written in C) which is no longer
being updated. There were a lot of changes – the old version had a
single core command line tool `blastall` which covered multiple
different BLAST search types (which are now separate commands in
BLAST+), and all the command line options were renamed. Biopython’s
wrappers for the NCBI “legacy” BLAST tools have been deprecated and will
be removed in a future release. To try to avoid confusion, we do not
cover calling these old tools from Biopython in this tutorial.

You may also come across [Washington University
BLAST](http://blast.wustl.edu/) (WU-BLAST), and its successor, [Advanced
Biocomputing BLAST](http://blast.advbiocomp.com) (AB-BLAST, released in
2009, not free/open source). These packages include the command line
tools `wu-blastall` and `ab-blastall`, which mimicked `blastall` from
the NCBI “legacy” BLAST suite. Biopython does not currently provide
wrappers for calling these tools, but should be able to parse any NCBI
compatible output from them.


Neste exemplo, não deve haver nenhuma saída do BLASTX para o

 terminal, então stdout e stderr devem estar vazios. Você pode querer verificar

 o arquivo de saída `opuntia.xml` foi criado.

 Como você deve se lembrar de exemplos anteriores no tutorial, o

 `opuntia.fasta` contém sete sequências, portanto, a saída XML do BLAST deve

 contém vários resultados. Portanto, use `Bio.Blast.NCBIXML.parse()` para

 analise-o conforme descrito abaixo na Seção [sec: parsing-blast].

###  Outras versões do BLAST

 NCBI BLAST + (escrito em C ++) foi lançado pela primeira vez em 2009 como um substituto

 para o BLAST "legado" original do NCBI (escrito em C) que não é mais

 sendo atualizado. Houve muitas mudanças - a versão antiga tinha um

 única ferramenta de linha de comando do núcleo `blastall` que cobria múltipla

 diferentes tipos de pesquisa BLAST (que agora são comandos separados em

 BLAST +), e todas as opções da linha de comandos foram renomeadas. Biopython&#39;s

 wrappers para as ferramentas BLAST “legadas” do NCBI foram descontinuados e irão

 ser removido em uma versão futura. Para tentar evitar confusão, não

 cubra a chamada dessas ferramentas antigas do Biopython neste tutorial.

 Você também pode encontrar [Washington University

 BLAST] ( [http://blast.wustl.edu/](http://blast.wustl.edu/) ) (WU-BLAST), e seu sucessor, [Advanced

 Biocomputing BLAST] ( [http://blast.advbiocomp.com](http://blast.advbiocomp.com) ) (AB-BLAST, lançado em

 2009, não livre / código aberto). Esses pacotes incluem a linha de comando

 ferramentas `wu-blastall` e `ab-blastall` , que imitou o `blastall` de

 o pacote BLAST “legado” do NCBI. Biopython não fornece atualmente

 wrappers para chamar essas ferramentas, mas deve ser capaz de analisar qualquer NCBI

 saída compatível deles.


Parsing BLAST output
-------------------

As mentioned above, BLAST can generate output in various formats, such
as XML, HTML, and plain text. Originally, Biopython had parsers for
BLAST plain text and HTML output, as these were the only output formats
offered at the time. Unfortunately, the BLAST output in these formats
kept changing, each time breaking the Biopython parsers. Our HTML BLAST
parser has been removed, but the plain text BLAST parser is still
available (see Section \[sec:parsing-blast-deprecated\]). Use it at your
own risk, it may or may not work, depending on which BLAST version
you’re using.

As keeping up with changes in BLAST became a hopeless endeavor,
especially with users running different BLAST versions, we now recommend
to parse the output in XML format, which can be generated by recent
versions of BLAST. Not only is the XML output more stable than the plain
text and HTML output, it is also much easier to parse automatically,
making Biopython a whole lot more stable.

You can get BLAST output in XML format in various ways. For the parser,
it doesn’t matter how the output was generated, as long as it is in the
XML format.

-   You can use Biopython to run BLAST over the internet, as described
    in section \[sec:running-www-blast\].

-   You can use Biopython to run BLAST locally, as described
    in section \[sec:running-local-blast\].

-   You can do the BLAST search yourself on the NCBI site through your
    web browser, and then save the results. You need to choose XML as
    the format in which to receive the results, and save the final BLAST
    page you get (you know, the one with all of the
    interesting results!) to a file.

-   You can also run BLAST locally without using Biopython, and save the
    output in a file. Again, you need to choose XML as the format in
    which to receive the results.

The important point is that you do not have to use Biopython scripts to
fetch the data in order to be able to parse it. Doing things in one of
these ways, you then need to get a handle to the results. In Python, a
handle is just a nice general way of describing input to any info source
so that the info can be retrieved using `read()` and `readline()`
functions (see Section <span>sec:appendix-handles</span>).

If you followed the code above for interacting with BLAST through a
script, then you already have `result_handle`, the handle to the BLAST
results. For example, using a GI number to do an online search:


Analisando saída do BLAST

 Como mencionado acima, o BLAST pode gerar saída em vários formatos, como

 como XML, HTML e texto simples. Originalmente, Biopython tinha analisadores para

 Texto simples do BLAST e saída HTML, pois esses eram os únicos formatos de saída

 oferecido na época. Infelizmente, a saída do BLAST nesses formatos

 ficava mudando, cada vez quebrando os analisadores Biopython. Nosso HTML BLAST

 analisador foi removido, mas o analisador BLAST de texto simples ainda é

 disponível (consulte a Seção [sec: parsing-blast-deprecated]). Use-o no seu

 próprio risco, pode ou não funcionar, dependendo de qual versão do BLAST

 você está usando.

 Como acompanhar as mudanças no BLAST se tornou um esforço impossível,

 especialmente com usuários executando diferentes versões do BLAST, agora recomendamos

 para analisar a saída no formato XML, que pode ser gerado por

 versões do BLAST. Não apenas a saída XML é mais estável do que a simples

 saída de texto e HTML, também é muito mais fácil de analisar automaticamente,

 tornando Biopython muito mais estável.

 Você pode obter a saída do BLAST no formato XML de várias maneiras. Para o analisador,

 não importa como a saída foi gerada, contanto que esteja no

 Formato XML.
-  Você pode usar o Biopython para executar o BLAST na Internet, conforme descrito na seção [sec: running-www-blast].
-  Você pode usar Biopython para executar o BLAST localmente, conforme descrito na seção [sec: running-local-blast].
-  Você pode fazer a pesquisa BLAST por conta própria no site do NCBI através de seu navegador da Web e salve os resultados. Você precisa escolher XML como o formato no qual receber os resultados e salvar o BLAST final página que você obtém (você sabe, aquela com todas as resultados interessantes!) para um arquivo.
-  Você também pode executar o BLAST localmente sem usar Biopython e salvar o saída em um arquivo. Novamente, você precisa escolher XML como o formato em qual receber os resultados.

 O ponto importante é que você não precisa usar scripts Biopython para

 buscar os dados para poder analisá-los. Fazer coisas em um dos

 dessas formas, você precisa controlar os resultados. Em Python, um

 identificador é apenas uma boa maneira geral de descrever a entrada para qualquer fonte de informação

 para que as informações possam ser recuperadas usando `read()` e `readline()`

 funções (ver Seção &lt;span&gt; sec: apêndice-alças &lt;/span&gt;).

 Se você seguiu o código acima para interagir com o BLAST por meio de um

 script, então você já tem `result_handle` , o identificador para o BLAST

 resultados. Por exemplo, usando um número GI para fazer uma pesquisa online:


In [11]:
from Bio.Blast import NCBIWWW
result_handle = NCBIWWW.qblast("blastn", "nt", "8332116")

KeyboardInterrupt: 


If instead you ran BLAST some other way, and have the BLAST output (in
XML format) in the file `my_blast.xml`, all you need to do is to open
the file for reading:




Se, em vez disso, você executou o BLAST de outra maneira, e obteve a saída do BLAST (em

 Formato XML) no arquivo `my_blast.xml` , tudo que você precisa fazer é abrir

 o arquivo para leitura:


In [9]:
result_handle = open("data/my_blast.xml")


Now that we’ve got a handle, we are ready to parse the output. The code
to parse it is really quite small. If you expect a single BLAST result
(i.e., you used a single query):




Agora que temos um identificador, estamos prontos para analisar a saída. O código

 para analisá-lo é realmente muito pequeno. Se você espera um único resultado do BLAST

 (ou seja, você usou uma única consulta):


In [8]:
from Bio.Blast import NCBIXML
blast_record = NCBIXML.read(result_handle)

NameError: name 'result_handle' is not defined


or, if you have lots of results (i.e., multiple query sequences):




ou, se você tiver muitos resultados (ou seja, várias sequências de consulta):


In [10]:
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)


Just like `Bio.SeqIO` and `Bio.AlignIO` (see
Chapters \[chapter:Bio.SeqIO\] and \[chapter:Bio.AlignIO\]), we have a
pair of input functions, `read` and `parse`, where `read` is for when
you have exactly one object, and `parse` is an iterator for when you can
have lots of objects – but instead of getting `SeqRecord` or
`MultipleSeqAlignment` objects, we get BLAST record objects.

To be able to handle the situation where the BLAST file may be huge,
containing thousands of results, `NCBIXML.parse()` returns an iterator.
In plain English, an iterator allows you to step through the BLAST
output, retrieving BLAST records one by one for each BLAST search
result:




Assim como `Bio.SeqIO` e `Bio.AlignIO` (ver

 Capítulos [capítulo: Bio.SeqIO] e [capítulo: Bio.AlignIO]), temos um

 par de funções de entrada, `read` e `parse` , onde `read` é para quando

 você tem exatamente um objeto, e `parse` é um iterador para quando você pode

 tem muitos objetos - mas em vez de obter `SeqRecord` ou

 Objetos `MultipleSeqAlignment` , obtemos objetos de registro BLAST.

 Para ser capaz de lidar com a situação em que o arquivo BLAST pode ser enorme,

 contendo milhares de resultados, `NCBIXML.parse()` retorna um iterador.

 Em inglês simples, um iterador permite que você passe pelo BLAST

 saída, recuperando registros BLAST um por um para cada pesquisa BLAST

 resultado:


In [7]:
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)
blast_record = next(blast_records)
print(blast_record.database_sequences)
# # ... do something with blast_record

NameError: name 'result_handle' is not defined


Or, you can use a `for`-loop. Note though that you can step through the BLAST records only once. Usually, from each BLAST record you would save the information that you are interested in. If you want to save all returned BLAST records, you can convert the iterator into a list:




Ou você pode usar um `for` -loop. Observe, porém, que você pode percorrer os registros do BLAST apenas uma vez. Normalmente, a partir de cada registro BLAST, você salvaria as informações de seu interesse. Se quiser salvar todos os registros BLAST retornados, você pode converter o iterador em uma lista:


In [6]:
for blast_record in blast_records:
#Do something with blast_records
    blast_records = list(blast_records)

NameError: name 'blast_records' is not defined

In [None]:
blast_records = list(blast_records)

Now you can access each BLAST record in the list with an index as usual. If your BLAST file is huge though, you may run into memory problems trying to save them all in a list.

Usually, you’ll be running one BLAST search at a time. Then, all you need to do is to pick up the first (and only) BLAST record in blast_records:


Agora você pode acessar cada registro BLAST na lista com um índice, como de costume. Se o seu arquivo BLAST for muito grande, você pode ter problemas de memória ao tentar salvá-los todos em uma lista.

 Normalmente, você executará uma pesquisa do BLAST por vez. Então, tudo que você precisa fazer é pegar o primeiro (e único) registro do BLAST em blast_records:


In [23]:
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)


I guess by now you’re wondering what is in a BLAST record.

The BLAST record class
---------------------

A BLAST Record contains everything you might ever want to extract from
the BLAST output. Right now we’ll just show an example of how to get
some info out of the BLAST report, but if you want something in
particular that is not described here, look at the info on the record
class in detail, and take a gander into the code or automatically
generated documentation – the docstrings have lots of good info about
what is stored in each piece of information.

To continue with our example, let’s just print out some summary info
about all hits in our blast report greater than a particular threshold.
The following code does this:




Acho que agora você está se perguntando o que há em um registro do BLAST.

 A classe de registro do BLAST

 Um registro BLAST contém tudo o que você pode querer extrair

 a saída do BLAST. Agora vamos apenas mostrar um exemplo de como obter

 algumas informações do relatório BLAST, mas se você quiser algo

 particular que não está descrito aqui, veja as informações no registro

 classe em detalhes e dê uma olhada no código ou automaticamente

 documentação gerada - os docstrings têm muitas informações boas sobre

 o que é armazenado em cada informação.

 Para continuar com nosso exemplo, vamos imprimir algumas informações resumidas

 sobre todos os acertos em nosso relatório de explosão maiores que um determinado limite.

 O código a seguir faz isso:


In [25]:
E_VALUE_THRESH = 0.04

In [26]:
from Bio.Blast import NCBIXML
result_handle = open("data/my_blast.xml", "r")
blast_records = NCBIXML.parse(result_handle)

for alignment in blast_record.alignments:
    for hsp in alignment.hsps:
        if hsp.expect < E_VALUE_THRESH:
            print("****Alignment****")
            print("sequence:", alignment.title)
            print("length:", alignment.length)
            print("e value:", hsp.expect)
            print(hsp.query[0:75] + "...")
            print(hsp.match[0:75] + "...")
            print(hsp.sbjct[0:75] + "...")

a membrane protein 2 (LOC108995251), transcript variant X2, mRNA
length: 909
e value: 2.7506e-103
AATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATT---------GGCCGTGGCTAATATGATCGA...
||||||||| |||  | | || |||||||||||||||||||             ||||  |||  || |||||||...
AATGGGGAG-GAA--GGATTATTTGGCCATGAAAACTGATCCGGCCACGGCCACGGCCACGGCGGATTTGATCGA...
****Alignment****
sequence: gi|1882610309|ref|XM_018970776.2| PREDICTED: Juglans regia cold-regulated 413 plasma membrane protein 2 (LOC108995251), transcript variant X1, mRNA
length: 1025
e value: 2.7506e-103
AATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATT---------GGCCGTGGCTAATATGATCGA...
||||||||| |||  | | || |||||||||||||||||||             ||||  |||  || |||||||...
AATGGGGAG-GAA--GGATTATTTGGCCATGAAAACTGATCCGGCCACGGCCACGGCCACGGCGGATTTGATCGA...
****Alignment****
sequence: gi|1389549632|ref|XM_006466626.3| PREDICTED: Citrus sinensis cold-regulated 413 plasma membrane protein 2 (LOC102620025), transcript variant X5, mRNA
length: 880
e value: 2.11466e-98
AAATGGG

This will print out summary reports like the following: ****Alignment**** sequence: >gb|AF283004.1|AF283004 Arabidopsis thaliana cold acclimation protein WCOR413-like protein alpha form mRNA, complete cds
length: 783 
e value: 0.034 
tacttgttgatattggatcgaacaaactggagaaccaacatgctcacgtcacttttagtcccttacatattcctc...
||||||||| | ||||||||||| || |||| || || |||||||| |||||| | | |||||||| ||| | |...
tacttgttggtgttggatcgaaccaattggaagacgaatatgctcacatcacttctcattccttacatcttcttc...



Isso imprimirá relatórios resumidos como os seguintes: Sequência de **<strong>alinhamento**</strong> :&gt; gb | AF283004.1 | AF283004 Arabidopsis thaliana proteína de aclimatação ao frio, proteína alfa semelhante a WCOR413 mRNA, cds completo

 comprimento: 783

 valor de e: 0,034

 tacttgttgatattggatcgaacaaactggagaaccaacatgctcacgtcacttttagtcccttacatattcctc ...

 ||||||||| | |||||||||||| || |||| || || |||||||| |||||| | | |||||||| ||| | | ...

 tacttgttggtgttggatcgaaccaattggaagacgaatatgctcacatcacttctcattccttacatcttcttc ...


Basically, you can do anything you want to with the info in the BLAST
report once you have parsed it. This will, of course, depend on what you
want to use it for, but hopefully this helps you get started on doing
what you need to do!

An important consideration for extracting information from a BLAST
report is the type of objects that the information is stored in. In
Biopython, the parsers return `Record` objects, either `Blast` or
`PSIBlast` depending on what you are parsing. These objects are defined
in `Bio.Blast.Record` and are quite complete.

Here are my attempts at UML class diagrams for the `Blast` and
`PSIBlast` record classes. If you are good at UML and see
mistakes/improvements that can be made, please let me know. The Blast
class diagram is shown in the next figure

![Class diagram for the Blast Record class representing all of the info
in a BLAST report<span
data-label="fig:blastrecord"></span>](images/BlastRecord.png)

The PSIBlast record object is similar, but has support for the rounds
that are used in the iteration steps of PSIBlast. The class diagram for
PSIBlast is shown in the next figure.

![Class diagram for the PSIBlast Record class.<span
data-label="fig:psiblastrecord"></span>](images/PSIBlastRecord.png)


Basicamente, você pode fazer o que quiser com as informações do BLAST

 relatório depois de analisá-lo. Isso, é claro, depende do que você

 quer usá-lo, mas espero que isso ajude você a começar a fazer

 O que você precisa fazer!

 Uma consideração importante para extrair informações de um BLAST

 relatório é o tipo de objeto em que as informações são armazenadas.

 Biopython, os analisadores retornam objetos `Record` , seja `Blast` ou

 `PSIBlast` dependendo do que você está analisando. Esses objetos são definidos

 em `Bio.Blast.Record` e são bastante completos.

 Aqui estão minhas tentativas de diagramas de classes UML para o `Blast` e

 `PSIBlast` registro `PSIBlast` . Se você é bom em UML e veja

 erros / melhorias que podem ser feitas, por favor me avise. A explosão

 o diagrama de classes é mostrado na próxima figura

 ! [Diagrama de classes para a classe Blast Record representando todas as informações

 em um relatório BLAST &lt;span

 data-label = "fig: blastrecord"&gt; &lt;/span&gt;] (images / BlastRecord.png)

 O objeto de registro PSIBlast é semelhante, mas tem suporte para as rodadas

 que são usados nas etapas de iteração do PSIBlast. O diagrama de classe para

 PSIBlast é mostrado na próxima figura.

 ! [Diagrama de classes para a classe PSIBlast Record. &lt;Span

 data-label = "fig: psiblastrecord"&gt; &lt;/span&gt;] (images / PSIBlastRecord.png)


Dealing with PSI-BLAST
---------------------
You can run the standalone version of PSI-BLAST (the legacy NCBI command line tool blastpgp, or its replacement psiblast) using the wrappers in Bio.Blast.Applications module. At the time of writing, the NCBI does not appear to support tools running a PSI-BLAST search via the internet. Note that the Bio.Blast.NCBIXML parser can read the XML output from current versions of PSI-BLAST, but information like which sequences in each iteration is new or reused isn’t present in the XML file. 



Lidando com PSI-BLAST

 Você pode executar a versão autônoma do PSI-BLAST (a ferramenta de linha de comando legada do NCBI blastpgp ou seu psiblast substituto) usando os invólucros no módulo Bio.Blast.Applications. No momento em que este artigo foi escrito, o NCBI não parecia oferecer suporte a ferramentas de pesquisa PSI-BLAST pela Internet. Observe que o analisador Bio.Blast.NCBIXML pode ler a saída XML das versões atuais do PSI-BLAST, mas informações como quais sequências em cada iteração são novas ou reutilizadas não estão presentes no arquivo XML.


Dealing with RPS-BLAST
---------------------
You can run the standalone version of RPS-BLAST (either the legacy NCBI command line tool rpsblast, or its replacement with the same name) using the wrappers in Bio.Blast.Applications module. At the time of writing, the NCBI does not appear to support tools running an RPS-BLAST search via the internet. You can use the Bio.Blast.NCBIXML parser to read the XML output from current versions of RPSBLAST.



Lidando com RPS-BLAST

 Você pode executar a versão independente do RPS-BLAST (a ferramenta de linha de comando NCBI legada rpsblast ou sua substituição com o mesmo nome) usando os invólucros no módulo Bio.Blast.Applications. No momento em que este artigo foi escrito, o NCBI não parecia oferecer suporte a ferramentas que executam uma pesquisa RPS-BLAST pela Internet. Você pode usar o analisador Bio.Blast.NCBIXML para ler a saída XML das versões atuais do RPSBLAST.
