**Source of the materials**: Biopython cookbook (adapted)
<font color='red'>Status: Draft</font>


**Fonte dos materiais** : livro de receitas Biopython (adaptado)

 &lt;font color = &#39;red&#39;&gt; Status: Rascunho &lt;/font&gt;


Sequence motif analysis using Bio.motifs
========================================

This chapter gives an overview of the functionality of the `Bio.motifs`
package included in Biopython. It is intended for people who are
involved in the analysis of sequence motifs, so I’ll assume that you are
familiar with basic notions of motif analysis. In case something is
unclear, please look at Section \[sec:links\] for some relevant links.

Most of this chapter describes the new `Bio.motifs` package included in
Biopython 1.61 onwards, which is replacing the older `Bio.Motif` package
introduced with Biopython 1.50, which was in turn based on two older
former Biopython modules, `Bio.AlignAce` and `Bio.MEME`. It provides
most of their functionality with a unified motif object implementation.

Speaking of other libraries, if you are reading this you might be
interested in [TAMO](http://fraenkel.mit.edu/TAMO/), another python
library designed to deal with sequence motifs. It supports more
*de-novo* motif finders, but it is not a part of Biopython and has some
restrictions on commercial use.

Motif objects {#sec:object}
-------------

Since we are interested in motif analysis, we need to take a look at
`Motif` objects in the first place. For that we need to import the
Bio.motifs library:




Análise de sequência de motivos usando Bio.motifs

 ==============================================

 Este capítulo oferece uma visão geral da funcionalidade do `Bio.motifs`

 pacote incluído no Biopython. Destina-se a pessoas que são

 envolvidos na análise de motivos de sequência, então vou assumir que você está

 familiarizado com noções básicas de análise de motivos. Caso algo seja

 pouco claro, por favor, olhe a Seção [sec: links] para alguns links relevantes.

 A maior parte deste capítulo descreve o novo pacote `Bio.motifs` incluído no

 Biopython 1.61 em diante, que está substituindo o pacote `Bio.Motif` mais `Bio.Motif`

 introduzido com Biopython 1.50, que por sua vez foi baseado em dois

 módulos anteriores do Biopython, `Bio.AlignAce` e `Bio.MEME` . Fornece

 a maior parte de sua funcionalidade com uma implementação de objeto motif unificado.

 Falando de outras bibliotecas, se você está lendo isso, pode ser

 interessado em [TAMO](http://fraenkel.mit.edu/TAMO/) , outro python

 biblioteca projetada para lidar com motivos de sequência. Suporta mais

 *localizadores de* motivo de *novo* , mas não faz parte do Biopython e tem alguns

 restrições ao uso comercial.

 Objetos Motif {#sec: object}

 Uma vez que estamos interessados na análise de motivos, precisamos dar uma olhada em

 Objetos de `Motif` em primeiro lugar. Para isso, precisamos importar o

 Biblioteca Bio.motifs:


In [1]:
from Bio import motifs


and we can start creating our first motif objects. We can either create
a `Motif` object from a list of instances of the motif, or we can obtain
a `Motif` object by parsing a file from a motif database or motif
finding software.

### Creating a motif from instances

Suppose we have these instances of a DNA motif:




e podemos começar a criar nossos primeiros objetos de motivo. Podemos criar

 um objeto `Motif` de uma lista de instâncias do motivo, ou podemos obter

 um objeto `Motif` ao analisar um arquivo de um banco de dados de motivos ou motivo

 encontrar software.

###  Criando um motivo a partir de instâncias

 Suponha que temos estas instâncias de um motivo de DNA:


In [2]:
from Bio.Seq import Seq
instances = [Seq("TACAA"),
    Seq("TACGC"),
    Seq("TACAC"),
    Seq("TACCC"),
    Seq("AACCC"),
    Seq("AATGC"),
    Seq("AATGC")]


then we can create a Motif object as follows:




então podemos criar um objeto Motif da seguinte maneira:


In [3]:
m = motifs.create(instances)


The instances are saved in an attribute `m.instances`, which is
essentially a Python list with some added functionality, as described
below. Printing out the Motif object shows the instances from which it
was constructed:




As instâncias são salvas em um atributo `m.instances` , que é

 essencialmente uma lista Python com alguma funcionalidade adicionada, conforme descrito

 abaixo. Imprimir o objeto Motif mostra as instâncias das quais

 foi construído:


In [4]:
print(m)

TACAA
TACGC
TACAC
TACCC
AACCC
AATGC
AATGC




The length of the motif is defined as the sequence length, which should
be the same for all instances:




O comprimento do motivo é definido como o comprimento da sequência, que deve

 ser o mesmo para todas as instâncias:


In [5]:
len(m)

5


The Motif object has an attribute `.counts` containing the counts of
each nucleotide at each position. Printing this counts matrix shows it
in an easily readable format:




O objeto Motif tem um atributo `.counts` contendo as contagens de

 cada nucleotídeo em cada posição. Imprimir esta matriz de contagens mostra isso

 em um formato de fácil leitura:


In [6]:
print(m.counts)

        0      1      2      3      4
A:   3.00   7.00   0.00   2.00   1.00
C:   0.00   0.00   5.00   2.00   6.00
G:   0.00   0.00   0.00   3.00   0.00
T:   4.00   0.00   2.00   0.00   0.00




You can access these counts as a dictionary:




Você pode acessar essas contagens como um dicionário:


In [None]:
m.counts['A']


but you can also think of it as a 2D array with the nucleotide as the
first dimension and the position as the second dimension:




mas você também pode pensar nisso como uma matriz 2D com o nucleotídeo como o

 primeira dimensão e a posição como segunda dimensão:


In [7]:
m.counts['T', 0]

4

In [8]:
m.counts['T', 2]

2

In [9]:
m.counts['T', 3]

0


You can also directly access columns of the counts matrix




Você também pode acessar diretamente as colunas da matriz de contagens


In [None]:
m.counts[:, 3]


Instead of the nucleotide itself, you can also use the index of the
nucleotide in the sorted letters in the alphabet of the motif:




Em vez do próprio nucleotídeo, você também pode usar o índice do

 nucleotídeo nas letras classificadas no alfabeto do motivo:


In [None]:
m.alphabet

In [None]:
m.alphabet.letters

In [None]:
sorted(m.alphabet.letters)

In [None]:
m.counts['A',:]

In [None]:
m.counts[0,:]


The motif has an associated consensus sequence, defined as the sequence
of letters along the positions of the motif for which the largest value
in the corresponding columns of the `.counts` matrix is obtained:




O motivo tem uma sequência de consenso associada, definida como a sequência

 de letras ao longo das posições do motivo para o qual o maior valor

 nas colunas correspondentes da matriz `.counts` é obtido:


In [None]:
m.consensus


as well as an anticonsensus sequence, corresponding to the smallest
values in the columns of the `.counts` matrix:




bem como uma sequência anticonsenso, correspondendo ao menor

 valores nas colunas da matriz `.counts` :


In [None]:
m.anticonsensus


You can also ask for a degenerate consensus sequence, in which ambiguous
nucleotides are used for positions where there are multiple nucleotides
with high counts:




Você também pode solicitar uma sequência de consenso degenerada, na qual

 nucleotídeos são usados para posições onde existem múltiplos nucleotídeos

 com contagens altas:


In [None]:
m.degenerate_consensus


Here, W and R follow the IUPAC nucleotide ambiguity codes: W is either A
or T, and V is A, C, or G @cornish1985. The degenerate consensus
sequence is constructed following the rules specified by Cavener
@cavener1987.

We can also get the reverse complement of a motif:




Aqui, W e R seguem os códigos de ambiguidade de nucleotídeos IUPAC: W é A

 ou T e V é A, C ou G @ cornish1985. O consenso degenerado

 sequência é construída seguindo as regras especificadas por Cavener

 @ cavener1987.

 Também podemos obter o complemento reverso de um motivo:


In [None]:
r = m.reverse_complement()
r.consensus

In [None]:
r.degenerate_consensus

In [None]:
print(r)


The reverse complement and the degenerate consensus sequence are only
defined for DNA motifs.

### Creating a sequence logo

If we have internet access, we can create a
[weblogo](http://weblogo.berkeley.edu):




O complemento reverso e a sequência consenso degenerada são apenas

 definido para motivos de DNA.

###  Criação de um logotipo de sequência

 Se tivermos acesso à Internet, podemos criar um

 [weblogo](http://weblogo.berkeley.edu) :


In [None]:
m.weblogo("mymotif.png")


We should get our logo saved as a PNG in the specified file.

Reading motifs {#sec:io}
--------------

Creating motifs from instances by hand is a bit boring, so it’s useful
to have some I/O functions for reading and writing motifs. There are not
any really well established standards for storing motifs, but there are
a couple of formats that are more used than others.

### JASPAR

One of the most popular motif databases is
[JASPAR](http://jaspar.genereg.net). In addition to the motif sequence
information, the JASPAR database stores a lot of meta-information for
each motif. The module `Bio.motifs` contains a specialized class
`jaspar.Motif` in which this meta-information is represented as
attributes:

-   `matrix_id` - the unique JASPAR motif ID, e.g. ’MA0004.1’

-   `name` - the name of the TF, e.g. ’Arnt’

-   `collection` - the JASPAR collection to which the motif
    belongs, e.g. ’CORE’

-   `tf_class` - the structual class of this TF, e.g. ’Zipper-Type’

-   `tf_family` - the family to which this TF belongs, e.g.
    ’Helix-Loop-Helix’

-   `species` - the species to which this TF belongs, may have multiple
    values, these are specified as taxonomy IDs, e.g. 10090

-   `tax_group` - the taxonomic supergroup to which this motif
    belongs, e.g. ’vertebrates’

-   `acc` - the accession number of the TF protein, e.g. ’P53762’

-   `data_type` - the type of data used to construct this motif, e.g.
    ’SELEX’

-   `medline` - the Pubmed ID of literature supporting this motif, may
    be multiple values, e.g. 7592839

-   `pazar_id` - external reference to the TF in the
    [PAZAR](http://pazar.info) database, e.g. ’TF0000003’

-   `comment` - free form text containing notes about the construction
    of the motif

The `jaspar.Motif` class inherits from the generic `Motif` class and
therefore provides all the facilities of any of the motif formats —
reading motifs, writing motifs, scanning sequences for motif instances
etc.

JASPAR stores motifs in several different ways including three different
flat file formats and as an SQL database. All of these formats
facilitate the construction of a counts matrix. However, the amount of
meta information described above that is available varies with the
format.

#### The JASPAR `sites` format {#the-jaspar-sites-format .unnumbered}

The first of the three flat file formats contains a list of instances.
As an example, these are the beginning and ending lines of the JASPAR
`Arnt.sites` file showing known binding sites of the mouse
helix-loop-helix transcription factor Arnt.




Devemos salvar nosso logotipo como PNG no arquivo especificado.

 Lendo motivos {#sec: io}

 Criar motivos a partir de instâncias manualmente é um pouco enfadonho, por isso é útil

 para ter algumas funções de I / O para ler e escrever motivos. Não há

 quaisquer padrões realmente bem estabelecidos para armazenar motivos, mas há

 alguns formatos que são mais usados do que outros.

###  JASPAR

 Um dos bancos de dados de motivos mais populares é

 [JASPAR](http://jaspar.genereg.net) . Além da sequência de motivos

 informações, o banco de dados JASPAR armazena muitas meta-informações para

 cada motivo. O módulo `Bio.motifs` contém uma classe especializada

 `jaspar.Motif` em que esta meta-informação é representada como

 atributos:
-  `matrix_id` - o ID do motivo JASPAR exclusivo, por exemplo, &#39;MA0004.1&#39;
-  `name` - o nome do TF, por exemplo, &#39;Arnt&#39;
-  `collection` - a coleção JASPAR para a qual o motivo pertence, por exemplo, &#39;CORE&#39;
-  `tf_class` - a classe estrutural deste TF, por exemplo, &#39;Zipper-Type&#39;
-  `tf_family` - a família à qual este TF pertence, por exemplo &#39;Helix-Loop-Helix&#39;
-  `species` - a espécie a que este FT pertence, pode ter vários valores, eles são especificados como IDs de taxonomia, por exemplo, 10090
-  `tax_group` - o supergrupo taxonômico para o qual este motivo pertence, por exemplo, &#39;vertebrados&#39;
-  `acc` - o número de acesso da proteína TF, por exemplo, &#39;P53762&#39;
-  `data_type` - o tipo de dados usados para construir este motivo, por exemplo &#39;SELEX&#39;
-  `medline` - o ID Pubmed da literatura que apóia este motivo, pode ser vários valores, por exemplo, 7592839
-  `pazar_id` - referência externa ao TF no [Banco de](http://pazar.info) dados [PAZAR](http://pazar.info) , por exemplo, &#39;TF0000003&#39;
-  `comment` - texto de forma livre contendo notas sobre a construção do motivo

 A classe `jaspar.Motif` herda da classe genérica `Motif` e

 portanto, oferece todas as facilidades de qualquer um dos formatos de motivo -

 ler motivos, escrever motivos, escanear sequências para instâncias de motivos

 etc.

 JASPAR armazena motivos de várias maneiras diferentes, incluindo três diferentes

 formatos de arquivo simples e como um banco de dados SQL. Todos esses formatos

 facilitar a construção de uma matriz de contagens. No entanto, a quantidade de

 as meta informações descritas acima que estão disponíveis variam com o

 formato.

####  O formato dos `sites` JASPAR {# the-jaspar-sites-format .unnumbered}

 O primeiro dos três formatos de arquivo simples contém uma lista de instâncias.

 Por exemplo, estas são as linhas iniciais e finais do JASPAR

 Arquivo `Arnt.sites` mostrando os locais de ligação conhecidos do mouse

 fator de transcrição hélice-alça-hélice Arnt.


```
>MA0004 ARNT 1
CACGTGatgtcctc
>MA0004 ARNT 2
CACGTGggaggtac
>MA0004 ARNT 3
CACGTGccgcgcgc
...
>MA0004 ARNT 18
AACGTGacagccctcc
>MA0004 ARNT 19
AACGTGcacatcgtcc
>MA0004 ARNT 20
aggaatCGCGTGc

```


```
&gt;MA0004 ARNT 1 CACGTGatgtcctc &gt;MA0004 ARNT 2 CACGTGggaggtac &gt;MA0004 ARNT 3 CACGTGccgcgcgc ... &gt;MA0004 ARNT 18 AACGTGacagccctcc &gt;MA0004 ARNT 19 AACGTGcacatcgtcc &gt;MA0004 ARNT 20 aggaatCGCGTGc
```



The parts of the sequence in capital letters are the motif instances
that were found to align to each other.

We can create a `Motif` object from these instances as follows:




As partes da sequência em letras maiúsculas são as instâncias do motivo

 que foram encontrados para se alinharem.

 Podemos criar um objeto `Motif` partir dessas instâncias da seguinte maneira:


In [None]:
from Bio import motifs
with open("Arnt.sites") as handle:
    arnt = motifs.read(handle, "sites")


The instances from which this motif was created is stored in the
`.instances` property:




As instâncias a partir das quais este motivo foi criado são armazenadas no

 propriedade `.instances` :


In [None]:
print(arnt.instances[:3])

In [None]:
for instance in arnt.instances:
    print(instance)


The counts matrix of this motif is automatically calculated from the
instances:




A matriz de contagens deste motivo é calculada automaticamente a partir do

 instâncias:


In [None]:
print(arnt.counts)


This format does not store any meta information.

#### The JASPAR `pfm` format {#the-jaspar-pfm-format .unnumbered}

JASPAR also makes motifs available directly as a count matrix, without
the instances from which it was created. This `pfm` format only stores
the counts matrix for a single motif. For example, this is the JASPAR
file `SRF.pfm` containing the counts matrix for the human SRF
transcription factor:




Este formato não armazena nenhuma meta informação.

####  O Jaspar `pfm` formato {# the-jaspe-pfm formato .unnumbered}

 JASPAR também disponibiliza motivos diretamente como uma matriz de contagem, sem

 as instâncias a partir das quais foi criado. Este formato `pfm` armazena apenas

 a matriz de contagens para um único motivo. Por exemplo, este é o JASPAR

 arquivo `SRF.pfm` contendo a matriz de contagens para o SRF humano

 fator de transcrição:


```
2 9 0 1 32 3 46 1 43 15 2 2
 1 33 45 45 1 1 0 0 0 1 0 1
39 2 1 0 0 0 0 0 0 0 44 43
 4 2 0 0 13 42 0 45 3 30 0 0

```


```
2 9 0 1 32 3 46 1 43 15 2 2 1 33 45 45 1 1 0 0 0 1 0 1 39 2 1 0 0 0 0 0 0 0 44 43 4 2 0 0 13 42 0 45 3 30 0 0
```



We can create a motif for this count matrix as follows:




Podemos criar um motivo para esta matriz de contagem da seguinte maneira:


In [None]:
with open("SRF.pfm") as handle:
srf = motifs.read(handle, "pfm")

In [None]:
print(srf.counts)


As this motif was created from the counts matrix directly, it has no
instances associated with it:




Como este motivo foi criado a partir da matriz de contagens diretamente, ele não tem

 instâncias associadas a ele:


In [None]:
print(srf.instances)


We can now ask for the consensus sequence of these two motifs:




Podemos agora pedir a sequência de consenso desses dois motivos:


In [None]:
print(arnt.counts.consensus)

In [None]:
print(srf.counts.consensus)


As with the instances file, no meta information is stored in this
format.

#### The JASPAR format `jaspar` {#the-jaspar-format-jaspar .unnumbered}

The `jaspar` file format allows multiple motifs to be specified in a
single file. In this format each of the motif records consist of a
header line followed by four lines defining the counts matrix. The
header line begins with a `>` character (similar to the Fasta file
format) and is followed by the unique JASPAR matrix ID and the TF name.
The following example shows a `jaspar` formatted file containing the
three motifs Arnt, RUNX1 and MEF2A:




Tal como acontece com o arquivo de instâncias, nenhuma meta informação é armazenada neste

 formato.

####  O formato JASPAR `jaspar` {# the-jaspar-format-jaspar .unnumbered}

 O formato de arquivo `jaspar` permite que vários motivos sejam especificados em um

 único arquivo. Neste formato, cada um dos registros de motivo consiste em um

 linha de cabeçalho seguida por quatro linhas que definem a matriz de contagens. o

 a linha do cabeçalho começa com um caractere `&gt;` (semelhante ao arquivo Fasta

 formato) e é seguido pelo ID de matriz JASPAR exclusivo e o nome TF.

 O exemplo a seguir mostra um arquivo formatado `jaspar` contendo o

 três motivos Arnt, RUNX1 e MEF2A:


```
>MA0004.1 Arnt
A  [ 4 19  0  0  0  0 ]
C  [16  0 20  0  0  0 ]
G  [ 0  1  0 20  0 20 ]
T  [ 0  0  0  0 20  0 ]
>MA0002.1 RUNX1
A  [10 12  4  1  2  2  0  0  0  8 13 ]
C  [ 2  2  7  1  0  8  0  0  1  2  2 ]
G  [ 3  1  1  0 23  0 26 26  0  0  4 ]
T  [11 11 14 24  1 16  0  0 25 16  7 ]
>MA0052.1 MEF2A
A  [ 1  0 57  2  9  6 37  2 56  6 ]
C  [50  0  1  1  0  0  0  0  0  0 ]
G  [ 0  0  0  0  0  0  0  0  2 50 ]
T  [ 7 58  0 55 49 52 21 56  0  2 ]

```


```
&gt;MA0004.1 Arnt A [ 4 19 0 0 0 0 ] C [16 0 20 0 0 0 ] G [ 0 1 0 20 0 20 ] T [ 0 0 0 0 20 0 ] &gt;MA0002.1 RUNX1 A [10 12 4 1 2 2 0 0 0 8 13 ] C [ 2 2 7 1 0 8 0 0 1 2 2 ] G [ 3 1 1 0 23 0 26 26 0 0 4 ] T [11 11 14 24 1 16 0 0 25 16 7 ] &gt;MA0052.1 MEF2A A [ 1 0 57 2 9 6 37 2 56 6 ] C [50 0 1 1 0 0 0 0 0 0 ] G [ 0 0 0 0 0 0 0 0 2 50 ] T [ 7 58 0 55 49 52 21 56 0 2 ]
```



The motifs are read as follows:




Os motivos são lidos da seguinte forma:


In [None]:
fh = open("jaspar_motifs.txt")
for m in motifs.parse(fh, "jaspar"))
    print(m)


Note that printing a JASPAR motif yields both the counts data and the
available meta-information.

#### Accessing the JASPAR database {#accessing-the-jaspar-database .unnumbered}

In addition to parsing these flat file formats, we can also retrieve
motifs from a JASPAR SQL database. Unlike the flat file formats, a
JASPAR database allows storing of all possible meta information defined
in the JASPAR `Motif` class. It is beyond the scope of this document to
describe how to set up a JASPAR database (please see the main
[JASPAR](http://jaspar.genereg.net) website). Motifs are read from a
JASPAR database using the `Bio.motifs.jaspar.db` module. First connect
to the JASPAR database using the JASPAR5 class which models the the
latest JASPAR schema:




Observe que a impressão de um motivo JASPAR produz tanto os dados de contagem quanto o

 meta-informação disponível.

####  Acessando o banco de dados JASPAR {# accessing-the-jaspar-database .unnumbered}

 Além de analisar esses formatos de arquivo simples, também podemos recuperar

 motivos de um banco de dados JASPAR SQL. Ao contrário dos formatos de arquivo simples, um

 O banco de dados JASPAR permite o armazenamento de todas as meta informações possíveis definidas

 na classe JASPAR `Motif` . Está além do escopo deste documento

 descrever como configurar um banco de dados JASPAR (consulte o principal

 Site da [JASPAR](http://jaspar.genereg.net) ). Os motivos são lidos de um

 Banco de dados JASPAR usando o módulo `Bio.motifs.jaspar.db` . Primeira conexão

 para o banco de dados JASPAR usando a classe JASPAR5 que modela o

 esquema JASPAR mais recente:


In [None]:
from Bio.motifs.jaspar.db import JASPAR5

In [None]:
JASPAR_DB_HOST = <hostname>
JASPAR_DB_NAME = <db_name>
JASPAR_DB_USER = <user>
JASPAR_DB_PASS = <passord>


In [None]:
jdb = JASPAR5(
host=JASPAR_DB_HOST,
name=JASPAR_DB_NAME,
user=JASPAR_DB_USER,
password=JASPAR_DB_PASS
)


Now we can fetch a single motif by its unique JASPAR ID with the
`fetch_motif_by_id` method. Note that a JASPAR ID conists of a base ID
and a version number seperated by a decimal point, e.g. ’MA0004.1’. The
`fetch_motif_by_id` method allows you to use either the fully specified
ID or just the base ID. If only the base ID is provided, the latest
version of the motif is returned.




Agora podemos buscar um único motivo por seu ID JASPAR exclusivo com o

 método `fetch_motif_by_id` . Observe que um ID JASPAR consiste em um ID de base

 e um número de versão separado por um ponto decimal, por exemplo, &#39;MA0004.1&#39;. o

 método `fetch_motif_by_id` permite que você use o totalmente especificado

 ID ou apenas o ID de base. Se apenas o ID de base for fornecido, o

 versão do motivo é retornada.


In [None]:
arnt = jdb.fetch_motif_by_id("MA0004")


Printing the motif reveals that the JASPAR SQL database stores much more
meta-information than the flat files:




Imprimir o motivo revela que o banco de dados JASPAR SQL armazena muito mais

 meta-informação do que os arquivos simples:


In [None]:
print(arnt)


We can also fetch motifs by name. The name must be an exact match
(partial matches or database wildcards are not currently supported).
Note that as the name is not guaranteed to be unique, the
`fetch_motifs_by_name` method actually returns a list.




Também podemos buscar motivos pelo nome. O nome deve ser uma correspondência exata

 (correspondências parciais ou curingas de banco de dados não são atualmente suportados).

 Observe que, como o nome não é garantido como exclusivo, o

 `fetch_motifs_by_name` método `fetch_motifs_by_name` realmente retorna uma lista.


In [None]:
motifs = jdb.fetch_motifs_by_name("Arnt")
print(motifs[0])


The `fetch_motifs` method allows you to fetch motifs which match a
specified set of criteria. These criteria include any of the above
described meta information as well as certain matrix properties such as
the minimum information content (`min_ic` in the example below), the
minimum length of the matrix or the minimum number of sites used to
construct the matrix. Only motifs which pass ALL the specified criteria
are returned. Note that selection criteria which correspond to meta
information which allow for multiple values may be specified as either a
single value or a list of values, e.g. `tax_group` and `tf_family` in
the example below.




O método `fetch_motifs` permite que você busque motivos que correspondam a um

 conjunto especificado de critérios. Esses critérios incluem qualquer um dos acima

 meta informação descrita, bem como certas propriedades da matriz, como

 o conteúdo mínimo de informação ( `min_ic` no exemplo abaixo), o

 comprimento mínimo da matriz ou o número mínimo de sites usados para

 construir a matriz. Somente motivos que passam TODOS os critérios especificados

 são devolvidos. Observe que os critérios de seleção que correspondem a meta

 informações que permitem vários valores podem ser especificadas como

 valor único ou uma lista de valores, por exemplo, `tax_group` e `tf_family` em

 o exemplo abaixo.


In [None]:
motifs = jdb.fetch_motifs(
collection = 'CORE',
tax_group = ['vertebrates', 'insects'],
tf_class = 'Winged Helix-Turn-Helix',
tf_family = ['Forkhead', 'Ets'],
min_ic = 12
)
for motif in motifs:
    pass # do something with the motif



#### Compatibility with Perl TFBS modules {#compatibility-with-perl-tfbs-modules .unnumbered}

An important thing to note is that the JASPAR `Motif` class was designed
to be compatible with the popular [Perl TFBS
modules](http://tfbs.genereg.net/). Therefore some specifics about the
choice of defaults for background and pseudocounts as well as how
information content is computed and sequences searched for instances is
based on this compatibility criteria. These choices are noted in the
specific subsections below.

-   <span>**Choice of background:**</span>\
    The Perl `TFBS` modules appear to allow a choice of custom
    background probabilities (although the documentation states that
    uniform background is assumed). However the default is to use a
    uniform background. Therefore it is recommended that you use a
    uniform background for computing the position-specific scoring
    matrix (PSSM). This is the default when using the Biopython
    `motifs` module.

-   <span>**Choice of pseudocounts:**</span>\
    By default, the Perl `TFBS` modules use a pseudocount equal to
    $\sqrt{N} * \textrm{bg}[\textrm{nucleotide}]$, where $N$ represents
    the total number of sequences used to construct the matrix. To apply
    this same pseudocount formula, set the motif `pseudocounts`
    attribute using the `jaspar.calculate\_pseudcounts()` function:




#### Compatibilidade com módulos Perl TFBS {# compatibilidade-with-perl-tfbs-modules .unnumbered}

 Uma coisa importante a observar é que a classe JASPAR `Motif` foi projetada

 para ser compatível com o popular [Perl TFBS

 módulos] ( [http://tfbs.genereg.net/](http://tfbs.genereg.net/) ). Portanto, alguns detalhes sobre o

 escolha de padrões para fundo e pseudocontas, bem como como

 o conteúdo da informação é calculado e as sequências pesquisadas por instâncias são

 com base nestes critérios de compatibilidade. Essas escolhas são anotadas no

 subseções específicas abaixo.
-  &lt;span&gt; ** Escolha de fundo: ** &lt;/span&gt; \ Os módulos Perl `TFBS` parecem permitir uma escolha de probabilidades de fundo (embora a documentação afirme que fundo uniforme é assumido). No entanto, o padrão é usar um fundo uniforme. Portanto, é recomendável que você use um fundo uniforme para calcular a pontuação específica da posição matriz (PSSM). Este é o padrão ao usar o Biopython módulo de `motifs` .
-  &lt;span&gt; ** Escolha de pseudocontas: ** &lt;/span&gt; \ Por padrão, os módulos Perl `TFBS` usam uma pseudoconta igual a $ \ sqrt {N} * \ textrm {bg} [\ textrm {nucleotídeo}] $, onde $ N $ representa o número total de sequências usadas para construir a matriz. Aplicar esta mesma fórmula de pseudocontagem, defina o motivo `pseudocounts` atributo usando a função `jaspar.calculate\_pseudcounts()` :


In [None]:
motif.pseudocounts = motifs.jaspar.calculate_pseudocounts(motif)



    Note that it is possible for the counts matrix to have an unequal
    number of sequences making up the columns. The pseudocount
    computation uses the average number of sequences making up
    the matrix. However, when `normalize` is called on the counts
    matrix, each count value in a column is divided by the total number
    of sequences making up that specific column, not by the average
    number of sequences. This differs from the Perl `TFBS` modules
    because the normalization is not done as a separate step and so the
    average number of sequences is used throughout the computation of
    the pssm. Therefore, for matrices with unequal column counts, the
    PSSM computed by the `motifs` module will differ somewhat from the
    pssm computed by the Perl `TFBS` modules.

-   <span>**Computation of matrix information content:**</span>\
    The information content (IC) or specificity of a matrix is computed
    using the `mean` method of the
    `PositionSpecificScoringMatrix` class. However of note, in the Perl
    `TFBS` modules the default behaviour is to compute the IC without
    first applying pseudocounts, even though by default the PSSMs are
    computed using pseudocounts as described above.

-   <span>**Searching for instances:**</span>\
    Searching for instances with the Perl `TFBS` motifs was usually
    performed using a relative score threshold, i.e. a score in the
    range 0 to 1. In order to compute the absolute PSSM score
    corresponding to a relative score one can use the equation:




```
Note that it is possible for the counts matrix to have an unequal number of sequences making up the columns. The pseudocount computation uses the average number of sequences making up the matrix. However, when `normalize` is called on the counts matrix, each count value in a column is divided by the total number of sequences making up that specific column, not by the average number of sequences. This differs from the Perl `TFBS` modules because the normalization is not done as a separate step and so the average number of sequences is used throughout the computation of the pssm. Therefore, for matrices with unequal column counts, the PSSM computed by the `motifs` module will differ somewhat from the pssm computed by the Perl `TFBS` modules.
```
-  &lt;span&gt; ** Cálculo do conteúdo de informação da matriz: ** &lt;/span&gt; \ O conteúdo de informação (IC) ou especificidade de uma matriz é calculado usando o método `mean` do Classe `PositionSpecificScoringMatrix` . No entanto, digno de nota, no Perl Módulos `TFBS` o comportamento padrão é calcular o IC sem primeiro aplicando pseudocontas, embora, por padrão, os PSSMs sejam calculado usando pseudocontas conforme descrito acima.
-  &lt;span&gt; ** Procurando por instâncias: ** &lt;/span&gt; \ A pesquisa de instâncias com motivos Perl `TFBS` costumava ser realizada usando um limite de pontuação relativa, ou seja, uma pontuação no intervalo de 0 a 1. Para calcular a pontuação PSSM absoluta correspondendo a uma pontuação relativa, pode-se usar a equação:


In [None]:
abs_score =  (pssm.max - pssm.min) * rel_score + pssm.min



    To convert the absolute score of an instance back to a relative
    score, one can use the equation:




```
To convert the absolute score of an instance back to a relative score, one can use the equation:
```


In [None]:
rel_score = (abs_score - pssm.min) / (pssm.max - pssm.min)



    For example, using the Arnt motif before, let’s search a sequence
    with a relative score threshold of 0.8.




```
For example, using the Arnt motif before, let&#39;s search a sequence with a relative score threshold of 0.8.
```


In [None]:
test_seq=Seq("TAAGCGTGCACGCGCAACACGTGCATTA", unambiguous_dna)
arnt.pseudocounts = motifs.jaspar.calculate_pseudocounts(arnt)
pssm = arnt.pssm
max_score = pssm.max
min_score = pssm.min
abs_score_threshold = (max_score - min_score) * 0.8 + min_score
for position, score in pssm.search(test_seq,


In [None]:
rel_score = (score - min_score) / (max_score - min_score)
print("Position %d: score = %5.3f, rel. score = %5.3f" % (



### MEME

MEME @bailey1994 is a tool for discovering motifs in a group of related
DNA or protein sequences. It takes as input a group of DNA or protein
sequences and outputs as many motifs as requested. Therefore, in
contrast to JASPAR files, MEME output files typically contain multiple
motifs. This is an example.

At the top of an output file generated by MEME shows some background
information about the MEME and the version of MEME used:




### MEME

 MEME @ bailey1994 é uma ferramenta para descobrir motivos em um grupo de

 DNA ou sequências de proteínas. Leva como entrada um grupo de DNA ou proteína

 sequencia e produz quantos motivos forem solicitados. Portanto, em

 Em contraste com os arquivos JASPAR, os arquivos de saída MEME geralmente contêm vários

 motivos. Isto é um exemplo.

 No topo de um arquivo de saída gerado por MEME mostra alguns antecedentes

 informações sobre o MEME e a versão do MEME usado:


```
********************************************************************************
MEME - Motif discovery tool
********************************************************************************
MEME version 3.0 (Release date: 2004/08/18 09:07:01)
...

```


```
******************************************************************************** MEME - Motif discovery tool ******************************************************************************** MEME version 3.0 (Release date: 2004/08/18 09:07:01) ...
```



Further down, the input set of training sequences is recapitulated:




Mais abaixo, o conjunto de entrada de sequências de treinamento é recapitulado:


```
********************************************************************************
TRAINING SET
********************************************************************************
DATAFILE= INO_up800.s
ALPHABET= ACGT
Sequence name            Weight Length  Sequence name            Weight Length
-------------            ------ ------  -------------            ------ ------
CHO1                     1.0000    800  CHO2                     1.0000    800
FAS1                     1.0000    800  FAS2                     1.0000    800
ACC1                     1.0000    800  INO1                     1.0000    800
OPI3                     1.0000    800
********************************************************************************

```


```
******************************************************************************** TRAINING SET ******************************************************************************** DATAFILE= INO_up800.s ALPHABET= ACGT Sequence name Weight Length Sequence name Weight Length ------------- ------ ------ ------------- ------ ------ CHO1 1.0000 800 CHO2 1.0000 800 FAS1 1.0000 800 FAS2 1.0000 800 ACC1 1.0000 800 INO1 1.0000 800 OPI3 1.0000 800 ********************************************************************************
```



and the exact command line that was used:




e a linha de comando exata que foi usada:


```
********************************************************************************
COMMAND LINE SUMMARY
********************************************************************************
This information can also be useful in the event you wish to report a
problem with the MEME software.

command: meme -mod oops -dna -revcomp -nmotifs 2 -bfile yeast.nc.6.freq INO_up800.s
...

```


```
******************************************************************************** COMMAND LINE SUMMARY ******************************************************************************** This information can also be useful in the event you wish to report a problem with the MEME software. command: meme -mod oops -dna -revcomp -nmotifs 2 -bfile yeast.nc.6.freq INO_up800.s ...
```



Next is detailed information on each motif that was found:




A seguir estão as informações detalhadas sobre cada motivo encontrado:


```
********************************************************************************
MOTIF  1        width =   12   sites =   7   llr = 95   E-value = 2.0e-001
********************************************************************************
--------------------------------------------------------------------------------
        Motif 1 Description
--------------------------------------------------------------------------------
Simplified        A  :::9:a::::3:
pos.-specific     C  ::a:9:11691a
probability       G  ::::1::94:4:
matrix            T  aa:1::9::11:

```


```
******************************************************************************** MOTIF 1 width = 12 sites = 7 llr = 95 E-value = 2.0e-001 ******************************************************************************** -------------------------------------------------------------------------------- Motif 1 Description -------------------------------------------------------------------------------- Simplified A :::9:a::::3: pos.-specific C ::a:9:11691a probability G ::::1::94:4: matrix T aa:1::9::11:
```



To parse this file (stored as `meme.dna.oops.txt`), use




Para analisar este arquivo (armazenado como `meme.dna.oops.txt` ), use


In [None]:
handle = open("meme.dna.oops.txt")
record = motifs.parse(handle, "meme")
handle.close()



The `motifs.parse` command reads the complete file directly, so you can
close the file after calling `motifs.parse`. The header information is
stored in attributes:




O comando `motifs.parse` lê o arquivo completo diretamente, para que você possa

 feche o arquivo após chamar `motifs.parse` . A informação do cabeçalho é

 armazenado em atributos:


In [None]:
record.version


In [None]:
record.datafile


In [None]:
record.command


In [None]:
record.alphabet


In [None]:
record.sequences



The record is an object of the `Bio.motifs.meme.Record` class. The class
inherits from list, and you can think of `record` as a list of Motif
objects:




O registro é um objeto da classe `Bio.motifs.meme.Record` . A classe

 herda da lista, e você pode pensar em `record` como uma lista de Motif

 objetos:


In [None]:
len(record)


In [None]:
motif = record[0]
print(motif.consensus)


In [None]:
print(motif.degenerate_consensus)



In addition to these generic motif attributes, each motif also stores
its specific information as calculated by MEME. For example,




Além desses atributos genéricos de motivos, cada motivo também armazena

 suas informações específicas calculadas por MEME. Por exemplo,


In [None]:
motif.num_occurrences


In [None]:
motif.length


In [None]:
evalue = motif.evalue
print("%3.1g" % evalue)


In [None]:
motif.name



In addition to using an index into the record, as we did above, you can
also find it by its name:




Além de usar um índice no registro, como fizemos acima, você pode

 também o encontre pelo nome:


In [None]:
motif = record['Motif 1']



Each motif has an attribute `.instances` with the sequence instances in
which the motif was found, providing some information on each instance:




Cada motivo tem um atributo `.instances` com as instâncias de sequência em

 qual o motivo foi encontrado, fornecendo algumas informações sobre cada instância:


In [None]:
len(motif.instances)


In [None]:
motif.instances[0]


In [None]:
motif.instances[0].motif_name


In [None]:
motif.instances[0].sequence_name


In [None]:
motif.instances[0].start


In [None]:
motif.instances[0].strand


In [None]:
motif.instances[0].length


In [None]:
pvalue = motif.instances[0].pvalue
print("%5.3g" % pvalue)



#### MAST {#mast .unnumbered}

### TRANSFAC

TRANSFAC is a manually curated database of transcription factors,
together with their genomic binding sites and DNA binding profiles
@matys2003. While the file format used in the TRANSFAC database is
nowadays also used by others, we will refer to it as the TRANSFAC file
format.

A minimal file in the TRANSFAC format looks as follows:




#### MAST {#mast .unnumbered}

###  TRANSFAC

 TRANSFAC é um banco de dados com curadoria manual de fatores de transcrição,

 juntamente com seus sítios de ligação genômica e perfis de ligação de DNA

 @ matys2003. Embora o formato de arquivo usado no banco de dados TRANSFAC seja

 hoje em dia também usado por outros, iremos nos referir a ele como o arquivo TRANSFAC

 formato.

 Um arquivo mínimo no formato TRANSFAC tem a seguinte aparência:


```
ID  motif1
P0      A      C      G      T
01      1      2      2      0      S
02      2      1      2      0      R
03      3      0      1      1      A
04      0      5      0      0      C
05      5      0      0      0      A
06      0      0      4      1      G
07      0      1      4      0      G
08      0      0      0      5      T
09      0      0      5      0      G
10      0      1      2      2      K
11      0      2      0      3      Y
12      1      0      3      1      G
//

```


```
ID motif1 P0 ACGT 01 1 2 2 0 S 02 2 1 2 0 R 03 3 0 1 1 A 04 0 5 0 0 C 05 5 0 0 0 A 06 0 0 4 1 G 07 0 1 4 0 G 08 0 0 0 5 T 09 0 0 5 0 G 10 0 1 2 2 K 11 0 2 0 3 Y 12 1 0 3 1 G //
```



This file shows the frequency matrix of motif `motif1` of 12
nucleotides. In general, one file in the TRANSFAC format can contain
multiple motifs. For example, this is the contents of the example
TRANSFAC file `transfac.dat`:




Este arquivo mostra a matriz do motivo frequência `motif1` de 12

 nucleotídeos. Em geral, um arquivo no formato TRANSFAC pode conter

 vários motivos. Por exemplo, este é o conteúdo do exemplo

 Arquivo TRANSFAC `transfac.dat` :


```
VV  EXAMPLE January 15, 2013
XX
//
ID  motif1
P0      A      C      G      T
01      1      2      2      0      S
02      2      1      2      0      R
03      3      0      1      1      A
...
11      0      2      0      3      Y
12      1      0      3      1      G
//
ID  motif2
P0      A      C      G      T
01      2      1      2      0      R
02      1      2      2      0      S
...
09      0      0      0      5      T
10      0      2      0      3      Y
//

```


```
VV EXAMPLE January 15, 2013 XX // ID motif1 P0 ACGT 01 1 2 2 0 S 02 2 1 2 0 R 03 3 0 1 1 A ... 11 0 2 0 3 Y 12 1 0 3 1 G // ID motif2 P0 ACGT 01 2 1 2 0 R 02 1 2 2 0 S ... 09 0 0 0 5 T 10 0 2 0 3 Y //
```



To parse a TRANSFAC file, use




Para analisar um arquivo TRANSFAC, use


In [None]:
handle = open("transfac.dat")
record = motifs.parse(handle, "TRANSFAC")
handle.close()



The overall version number, if available, is stored as `record.version`:




O número geral da versão, se disponível, é armazenado como `record.version` :


In [None]:
record.version



Each motif in `record` is in instance of the `Bio.motifs.transfac.Motif`
class, which inherits both from the `Bio.motifs.Motif` class and from a
Python dictionary. The dictionary uses the two-letter keys to store any
additional information about the motif:




Cada motivo no `record` é uma instância do `Bio.motifs.transfac.Motif`

 classe, que herda tanto da classe `Bio.motifs.Motif` quanto de uma

 Dicionário Python. O dicionário usa as chaves de duas letras para armazenar qualquer

 informações adicionais sobre o motivo:


In [None]:
motif = record[0]
motif.degenerate_consensus # Using the Bio.motifs.Motif method


In [None]:
motif['ID'] # Using motif as a dictionary



TRANSFAC files are typically much more elaborate than this example,
containing lots of additional information about the motif. Table
\[table:transfaccodes\] lists the two-letter field codes that are
commonly found in TRANSFAC files:

\[table:transfaccodes\]

  ------ -------------------------------------------------
  `AC`   Accession number
  `AS`   Accession numbers, secondary
  `BA`   Statistical basis
  `BF`   Binding factors
  `BS`   Factor binding sites underlying the matrix
  `CC`   Comments
  `CO`   Copyright notice
  `DE`   Short factor description
  `DR`   External databases
  `DT`   Date created/updated
  `HC`   Subfamilies
  `HP`   Superfamilies
  `ID`   Identifier
  `NA`   Name of the binding factor
  `OC`   Taxonomic classification
  `OS`   Species/Taxon
  `OV`   Older version
  `PV`   Preferred version
  `TY`   Type
  `XX`   Empty line; these are not stored in the Record.
  ------ -------------------------------------------------

  : Fields commonly found in TRANSFAC files

Each motif also has an attribute `.references` containing the references
associated with the motif, using these two-letter keys:

  ------ -------------------
  `RN`   Reference number
  `RA`   Reference authors
  `RL`   Reference data
  `RT`   Reference title
  `RX`   PubMed ID
  ------ -------------------

  : Fields used to store references in TRANSFAC files

Printing the motifs writes them out in their native TRANSFAC format:




Os arquivos TRANSFAC são normalmente muito mais elaborados do que este exemplo,

 contendo muitas informações adicionais sobre o motivo. Mesa

 [table: transfaccodes] lista os códigos de campo de duas letras que são

 comumente encontrado em arquivos TRANSFAC:

 [tabela: transfaccodes]

 Número de adesão `AC`

 Números de adesão `AS` , secundário

 `BA` base estatística

 Fatores de ligação `BF`

 Locais de ligação do fator `BS` subjacentes à matriz

 Comentários `CC`

 Aviso de direitos autorais `CO`

 Descrição curta do fator `DE`

 Bancos de dados externos `DR`

 Data `DT` criada / atualizada

 Subfamílias `HC`

 Superfamílias `HP`

 Identificador de `ID`

 `NA` Nome do fator de ligação

 Classificação taxonômica `OC`

 Espécies `OS` / Táxon

 `OV` versão mais antiga

 Versão preferida `PV`

 Tipo `TY`

 `XX` linha vazia; estes não são armazenados no registro.

 : Campos comumente encontrados em arquivos TRANSFAC

 Cada motivo também possui um atributo `.references` contendo as referências

 associado ao motivo, usando estas teclas de duas letras:

 Número de referência `RN`

 Autores de referência `RA`

 Dados de referência `RL`

 Título de referência `RT`

 `RX` PubMed ID

 : Campos usados para armazenar referências em arquivos TRANSFAC

 Imprimir os motivos escreve-os em seu formato TRANSFAC nativo:


In [None]:
print(record)



You can export the motifs in the TRANSFAC format by capturing this
output in a string and saving it in a file:




Você pode exportar os motivos no formato TRANSFAC capturando este

 saída em uma string e salvá-la em um arquivo:


In [None]:
text = str(record)
handle = open("mytransfacfile.dat", 'w')
handle.write(text)
handle.close()



Writing motifs
--------------

Speaking of exporting, let’s look at export functions in general. We can
use the `format` method to write the motif in the simple JASPAR `pfm`
format:




Escrevendo motivos

 Por falar em exportação, vamos examinar as funções de exportação em geral. Podemos

 usar o `format` método para escrever o motivo no simples Jaspar `pfm`

 formato:


In [None]:
print(arnt.format("pfm"))



Similarly, we can use `format` to write the motif in the JASPAR `jaspar`
format:




Da mesma forma, podemos usar o `format` para escrever o motivo no JASPAR `jaspar`

 formato:


In [None]:
print(arnt.format("jaspar"))



To write the motif in a TRANSFAC-like matrix format, use




Para escrever o motivo em um formato de matriz semelhante ao TRANSFAC, use


In [None]:
print(m.format("transfac"))



To write out multiple motifs, you can use `motifs.write`. This function
can be used regardless of whether the motifs originated from a TRANSFAC
file. For example,




Para escrever vários motivos, você pode usar `motifs.write` . Esta função

 pode ser usado independentemente de os motivos serem originados de um TRANSFAC

 Arquivo. Por exemplo,


In [None]:
two_motifs = [arnt, srf]
print(motifs.write(two_motifs, 'transfac'))



Or, to write multiple motifs in the `jaspar` format:




Ou, para escrever vários motivos no formato `jaspar` :


In [None]:
two_motifs = [arnt, mef2a]
print(motifs.write(two_motifs, "jaspar"))



Position-Weight Matrices
------------------------

The `.counts` attribute of a Motif object shows how often each
nucleotide appeared at each position along the alignment. We can
normalize this matrix by dividing by the number of instances in the
alignment, resulting in the probability of each nucleotide at each
position along the alignment. We refer to these probabilities as the
position-weight matrix. However, beware that in the literature this term
may also be used to refer to the position-specific scoring matrix, which
we discuss below.

Usually, pseudocounts are added to each position before normalizing.
This avoids overfitting of the position-weight matrix to the limited
number of motif instances in the alignment, and can also prevent
probabilities from becoming zero. To add a fixed pseudocount to all
nucleotides at all positions, specify a number for the `pseudocounts`
argument:




Matrizes de posição-peso

 O atributo `.counts` de um objeto Motif mostra com que freqüência cada

 nucleotídeo apareceu em cada posição ao longo do alinhamento. Podemos

 normalizar esta matriz dividindo pelo número de instâncias no

 alinhamento, resultando na probabilidade de cada nucleotídeo em cada

 posição ao longo do alinhamento. Nós nos referimos a essas probabilidades como o

 matriz posição-peso. No entanto, tome cuidado, pois na literatura esse termo

 também pode ser usado para se referir à matriz de pontuação específica da posição, que

 discutimos abaixo.

 Normalmente, pseudocontas são adicionadas a cada posição antes da normalização.

 Isso evita o sobreajuste da matriz posição-peso para o

 número de instâncias de motivo no alinhamento e também pode impedir

 probabilidades de se tornarem zero. Para adicionar um pseudoconta fixo a todos

 nucleotídeos em todas as posições, especifique um número para as `pseudocounts`

 argumento:


In [None]:
pwm = m.counts.normalize(pseudocounts=0.5)
print(pwm)



Alternatively, `pseudocounts` can be a dictionary specifying the
pseudocounts for each nucleotide. For example, as the GC content of the
human genome is about 40%, you may want to choose the pseudocounts
accordingly:




Alternativamente, `pseudocounts` podem ser um dicionário especificando o

 pseudocontas para cada nucleotídeo. Por exemplo, como o conteúdo GC do

 genoma humano é cerca de 40%, você pode querer escolher as pseudocontas

 adequadamente:


In [None]:
pwm = m.counts.normalize(pseudocounts={'A':0.6, 'C': 0.4, 'G': 0.4, 'T': 0.6})
print(pwm)



The position-weight matrix has its own methods to calculate the
consensus, anticonsensus, and degenerate consensus sequences:




A matriz posição-peso tem seus próprios métodos para calcular o

 consenso, anticonsenso e sequências de consenso degeneradas:


In [None]:
pwm.consensus


In [None]:
pwm.anticonsensus


In [None]:
pwm.degenerate_consensus



Note that due to the pseudocounts, the degenerate consensus sequence
calculated from the position-weight matrix is slightly different from
the degenerate consensus sequence calculated from the instances in the
motif:




Observe que, devido às pseudocontas, a sequência consenso degenerada

 calculado a partir da matriz posição-peso é ligeiramente diferente de

 a sequência consensual degenerada calculada a partir das instâncias no

 motivo:


In [None]:
m.degenerate_consensus



The reverse complement of the position-weight matrix can be calculated
directly from the `pwm`:




O complemento reverso da matriz posição-peso pode ser calculado

 diretamente do `pwm` :


In [None]:
rpwm = pwm.reverse_complement()
print(rpwm)



Position-Specific Scoring Matrices
----------------------------------

Using the background distribution and PWM with pseudo-counts added, it’s
easy to compute the log-odds ratios, telling us what are the log odds of
a particular symbol to be coming from a motif against the background. We
can use the `.log_odds()` method on the position-weight matrix:




Matrizes de pontuação de posição específica

 Usando a distribuição de segundo plano e PWM com pseudo-contagens adicionadas, é

 fácil de calcular as razões de probabilidade de log, nos dizendo quais são as chances de log de

 um símbolo específico vir de um motivo contra o fundo. Nós

 pode usar o método `.log_odds()` na matriz posição-peso:


In [None]:
pssm = pwm.log_odds()
print(pssm)



Here we can see positive values for symbols more frequent in the motif
than in the background and negative for symbols more frequent in the
background. $0.0$ means that it’s equally likely to see a symbol in the
background and in the motif.

This assumes that A, C, G, and T are equally likely in the background.
To calculate the position-specific scoring matrix against a background
with unequal probabilities for A, C, G, T, use the `background`
argument. For example, against a background with a 40% GC content, use




Aqui podemos ver valores positivos para símbolos mais frequentes no motivo

 do que no fundo e negativo para símbolos mais frequentes no

 fundo. $ 0,0 $ significa que é igualmente provável ver um símbolo no

 fundo e no motivo.

 Isso pressupõe que A, C, G e T são igualmente prováveis no fundo.

 Para calcular a matriz de pontuação específica da posição contra um fundo

 com probabilidades desiguais para A, C, G, T, use o `background`

 argumento. Por exemplo, em um fundo com 40% de conteúdo GC, use


In [None]:
background = {'A':0.3,'C':0.2,'G':0.2,'T':0.3}
pssm = pwm.log_odds(background)
print(pssm)



The maximum and minimum score obtainable from the PSSM are stored in the
`.max` and `.min` properties:




A pontuação máxima e mínima que pode ser obtida do PSSM são armazenadas no

 Propriedades `.max` e `.min` :


In [None]:
print("%4.2f" % pssm.max)


In [None]:
print("%4.2f" % pssm.min)



The mean and standard deviation of the PSSM scores with respect to a
specific background are calculated by the `.mean` and `.std` methods.




A média e o desvio padrão das pontuações PSSM em relação a um

 fundo específico são calculados pelas `.mean` e `.std` métodos.


In [None]:
mean = pssm.mean(background)
std = pssm.std(background)
print("mean = %0.2f, standard deviation = %0.2f" % (mean, std))



A uniform background is used if `background` is not specified. The mean
is particularly important, as its value is equal to the Kullback-Leibler
divergence or relative entropy, and is a measure for the information
content of the motif compared to the background. As in Biopython the
base-2 logarithm is used in the calculation of the log-odds scores, the
information content has units of bits.

The `.reverse_complement`, `.consensus`, `.anticonsensus`, and
`.degenerate_consensus` methods can be applied directly to PSSM objects.

Searching for instances {#sec:search}
-----------------------

The most frequent use for a motif is to find its instances in some
sequence. For the sake of this section, we will use an artificial
sequence like this:




Um fundo uniforme é usado se o `background` não for especificado. O significativo

 é particularmente importante, pois seu valor é igual ao Kullback-Leibler

 divergência ou entropia relativa, e é uma medida para a informação

 conteúdo do motivo em comparação com o fundo. Como em Biopython o

 o logaritmo de base 2 é usado no cálculo das pontuações log-odds, o

 o conteúdo da informação tem unidades de bits.

 O `.reverse_complement` , `.consensus` , `.anticonsensus` e

 `.degenerate_consensus` métodos `.degenerate_consensus` podem ser aplicados diretamente a objetos PSSM.

 Procurando por instâncias {#sec: search}

 O uso mais frequente de um motivo é encontrar suas instâncias em alguns

 seqüência. Para fins desta seção, usaremos um

 sequência como esta:


In [None]:
test_seq=Seq("TACACTGCATTACAACCCAAGCATTA", m.alphabet)
len(test_seq)



### Searching for exact matches

The simplest way to find instances, is to look for exact matches of the
true instances of the motif:




### Procurando por correspondências exatas

 A maneira mais simples de encontrar instâncias é procurar correspondências exatas do

 verdadeiras instâncias do motivo:


In [None]:
for pos, seq in m.instances.search(test_seq):
print("%i %s" % (pos, seq))



We can do the same with the reverse complement (to find instances on the
complementary strand):




Podemos fazer o mesmo com o complemento reverso (para encontrar instâncias no

 fita complementar):


In [None]:
for pos, seq in r.instances.search(test_seq):
print("%i %s" % (pos, seq))



### Searching for matches using the PSSM score

It’s just as easy to look for positions, giving rise to high log-odds
scores against our motif:




### Procurando correspondências usando a pontuação PSSM

 É tão fácil procurar posições, dando origem a grandes probabilidades de registro

 pontuações contra o nosso motivo:


In [None]:
for position, score in pssm.search(test_seq, threshold=3.0):
print("Position %d: score = %5.3f" % (position, score))



The negative positions refer to instances of the motif found on the
reverse strand of the test sequence, and follow the Python convention on
negative indices. Therefore, the instance of the motif at `pos` is
located at `test_seq[pos:pos+len(m)]` both for positive and for negative
values of `pos`.

You may notice the threshold parameter, here set arbitrarily to $3.0$.
This is in $log_2$, so we are now looking only for words, which are
eight times more likely to occur under the motif model than in the
background. The default threshold is $0.0$, which selects everything
that looks more like the motif than the background.

You can also calculate the scores at all positions along the sequence:




As posições negativas referem-se a instâncias do motivo encontrado no

 fita reversa da sequência de teste e siga a convenção Python sobre

 índices negativos. Portanto, a instância do motivo na `pos` é

 localizado em `test_seq[pos:pos+len(m)]` tanto para positivo quanto para negativo

 valores de `pos` .

 Você pode notar o parâmetro de limite, aqui definido arbitrariamente como $ 3,0 $.

 Isso está em $ log_2 $, então agora estamos procurando apenas por palavras, que são

 oito vezes mais probabilidade de ocorrer sob o modelo de motivo do que no

 fundo. O limite padrão é $ 0,0 $, que seleciona tudo

 que se parece mais com o motivo do que com o fundo.

 Você também pode calcular as pontuações em todas as posições ao longo da sequência:


In [None]:
pssm.calculate(test_seq)



In general, this is the fastest way to calculate PSSM scores. The scores
returned by `pssm.calculate` are for the forward strand only. To obtain
the scores on the reverse strand, you can take the reverse complement of
the PSSM:




Em geral, essa é a maneira mais rápida de calcular as pontuações do PSSM. As pontuações

 retornados por `pssm.calculate` são apenas para a vertente direta. Obter

 as pontuações na fita reversa, você pode pegar o complemento reverso de

 o PSSM:


In [None]:
rpssm = pssm.reverse_complement()
rpssm.calculate(test_seq)



### Selecting a score threshold

If you want to use a less arbitrary way of selecting thresholds, you can
explore the distribution of PSSM scores. Since the space for a score
distribution grows exponentially with motif length, we are using an
approximation with a given precision to keep computation cost
manageable:




### Selecionando um limite de pontuação

 Se você quiser usar uma forma menos arbitrária de selecionar limites, você pode

 explorar a distribuição de pontuações PSSM. Desde o espaço para uma pontuação

 distribuição cresce exponencialmente com o comprimento do motivo, estamos usando um

 aproximação com uma determinada precisão para manter o custo de computação

 gerenciável:


In [None]:
distribution = pssm.distribution(background=background, precision=10**4)



The `distribution` object can be used to determine a number of different
thresholds. We can specify the requested false-positive rate
(probability of “finding” a motif instance in background generated
sequence):




O objeto de `distribution` pode ser usado para determinar uma série de diferentes

 limiares. Podemos especificar a taxa de falsos positivos solicitada

 (probabilidade de "encontrar" uma instância do motivo no fundo gerado

 seqüência):


In [None]:
threshold = distribution.threshold_fpr(0.01)
print("%5.3f" % threshold)



or the false-negative rate (probability of “not finding” an instance
generated from the motif):




ou a taxa de falso negativo (probabilidade de "não encontrar" uma instância

 gerado a partir do motivo):


In [None]:
threshold = distribution.threshold_fnr(0.1)
print("%5.3f" % threshold)



or a threshold (approximately) satisfying some relation between the
false-positive rate and the false-negative rate
($\frac{\textrm{fnr}}{\textrm{fpr}}\simeq t$):




ou um limite (aproximadamente) que satisfaça alguma relação entre o

 taxa de falso positivo e taxa de falso negativo

 ($ \ frac {\ textrm {fnr}} {\ textrm {fpr}} \ simeq t $):


In [None]:
threshold = distribution.threshold_balanced(1000)
print("%5.3f" % threshold)



or a threshold satisfying (roughly) the equality between the
false-positive rate and the $-log$ of the information content (as used
in patser software by Hertz and Stormo):




ou um limite que satisfaça (aproximadamente) a igualdade entre o

 taxa de falso positivo e o $ -log $ do conteúdo da informação (como usado

 no software patser da Hertz e Stormo):


In [None]:
threshold = distribution.threshold_patser()
print("%5.3f" % threshold)



For example, in case of our motif, you can get the threshold giving you
exactly the same results (for this sequence) as searching for instances
with balanced threshold with rate of $1000$.




Por exemplo, no caso do nosso motivo, você pode obter o limite dando-lhe

 exatamente os mesmos resultados (para esta sequência) da busca por instâncias

 com limite equilibrado com taxa de $ 1000 $.


In [None]:
threshold = distribution.threshold_fpr(0.01)
print("%5.3f" % threshold)


In [None]:
for position, score in pssm.search(test_seq, threshold=threshold):
print("Position %d: score = %5.3f" % (position, score))



Each motif object has an associated Position-Specific Scoring Matrix
--------------------------------------------------------------------

To facilitate searching for potential TFBSs using PSSMs, both the
position-weight matrix and the position-specific scoring matrix are
associated with each motif. Using the Arnt motif as an example:




Cada objeto de motivo tem uma matriz de pontuação específica de posição associada

 Para facilitar a pesquisa de TFBSs potenciais usando PSSMs, ambos

 a matriz de peso de posição e a matriz de pontuação específica de posição são

 associado a cada motivo. Usando o motivo Arnt como exemplo:


In [None]:
from Bio import motifs
with open("Arnt.sites") as handle:
motif = motifs.read(handle, 'sites')


In [None]:
print(motif.counts)


In [None]:
print(motif.pwm)


In [None]:
print(motif.pssm)



The negative infinities appear here because the corresponding entry in
the frequency matrix is 0, and we are using zero pseudocounts by
default:




Os infinitos negativos aparecem aqui porque a entrada correspondente em

 a matriz de frequência é 0, e estamos usando zero pseudocontagens por

 padrão:


In [None]:
for letter in "ACGT":
print("%s: %4.2f" % (letter, motif.pseudocounts[letter]))



If you change the `.pseudocounts` attribute, the position-frequency
matrix and the position-specific scoring matrix are recalculated
automatically:




Se você alterar o atributo `.pseudocounts` , a frequência de posição

 matriz e a matriz de pontuação específica da posição são recalculadas

 automaticamente:


In [None]:
motif.pseudocounts = 3.0
for letter in "ACGT":
print("%s: %4.2f" % (letter, motif.pseudocounts[letter]))


In [None]:
print(motif.pwm)


In [None]:
print(motif.pssm)



You can also set the `.pseudocounts` to a dictionary over the four
nucleotides if you want to use different pseudocounts for them. Setting
`motif.pseudocounts` to `None` resets it to its default value of zero.

The position-specific scoring matrix depends on the background
distribution, which is uniform by default:




Você também pode definir as `.pseudocounts` para um dicionário nas quatro

 nucleotídeos se desejar usar diferentes pseudocontas para eles. Configuração

 `motif.pseudocounts` como `None` redefine seu valor padrão de zero.

 A matriz de pontuação específica da posição depende do contexto

 distribuição, que é uniforme por padrão:


In [None]:
for letter in "ACGT":
print("%s: %4.2f" % (letter, motif.background[letter]))



Again, if you modify the background distribution, the position-specific
scoring matrix is recalculated:




Novamente, se você modificar a distribuição do plano de fundo,

 matriz de pontuação é recalculada:


In [None]:
motif.background = {'A': 0.2, 'C': 0.3, 'G': 0.3, 'T': 0.2}
print(motif.pssm)



Setting `motif.background` to `None` resets it to a uniform
distribution:




Definir `motif.background` como `None` redefine para um uniforme

 distribuição:


In [None]:
motif.background = None
for letter in "ACGT":
print("%s: %4.2f" % (letter, motif.background[letter]))



If you set `motif.background` equal to a single value, it will be
interpreted as the GC content:




Se você definir `motif.background` igual a um único valor, ele será

 interpretado como o conteúdo do GC:


In [None]:
motif.background = 0.8
for letter in "ACGT":
print("%s: %4.2f" % (letter, motif.background[letter]))



Note that you can now calculate the mean of the PSSM scores over the
background against which it was computed:




Observe que agora você pode calcular a média das pontuações PSSM ao longo do

 pano de fundo contra o qual foi calculado:


In [None]:
print("%f" % motif.pssm.mean(motif.background))



as well as its standard deviation:




bem como seu desvio padrão:


In [None]:
print("%f" % motif.pssm.std(motif.background))



and its distribution:




e sua distribuição:


In [None]:
distribution = motif.pssm.distribution(background=motif.background)
threshold = distribution.threshold_fpr(0.01)
print("%f" % threshold)



Note that the position-weight matrix and the position-specific scoring
matrix are recalculated each time you call `motif.pwm` or `motif.pssm`,
respectively. If speed is an issue and you want to use the PWM or PSSM
repeatedly, you can save them as a variable, as in




Observe que a matriz de peso da posição e a pontuação específica da posição

 matriz são recalculados cada vez que você chama `motif.pwm` ou `motif.pssm` ,

 respectivamente. Se a velocidade for um problema e você quiser usar o PWM ou PSSM

 repetidamente, você pode salvá-los como uma variável, como em


In [None]:
pssm = motif.pssm



Comparing motifs {#sec:comp}
----------------

Once we have more than one motif, we might want to compare them.

Before we start comparing motifs, I should point out that motif
boundaries are usually quite arbitrary. This means we often need to
compare motifs of different lengths, so comparison needs to involve some
kind of alignment. This means we have to take into account two things:

-   alignment of motifs

-   some function to compare aligned motifs

To align the motifs, we use ungapped alignment of PSSMs and substitute
zeros for any missing columns at the beginning and end of the matrices.
This means that effectively we are using the background distribution for
columns missing from the PSSM. The distance function then returns the
minimal distance between motifs, as well as the corresponding offset in
their alignment.

To give an example, let us first load another motif, which is similar to
our test motif `m`:




Comparando motivos {#sec: comp}

 Uma vez que temos mais de um motivo, podemos querer compará-los.

 Antes de começarmos a comparar os motivos, devo salientar que o motivo

 os limites são geralmente bastante arbitrários. Isso significa que muitas vezes precisamos

 compare motivos de comprimentos diferentes, portanto, a comparação deve envolver alguns

 tipo de alinhamento. Isso significa que devemos levar em consideração duas coisas:
-  alinhamento de motivos
-  alguma função para comparar motivos alinhados

 Para alinhar os motivos, usamos o alinhamento sem lacunas de PSSMs e

 zeros para quaisquer colunas ausentes no início e no final das matrizes.

 Isso significa que efetivamente estamos usando a distribuição de fundo para

 colunas faltando no PSSM. A função de distância retorna então o

 distância mínima entre os motivos, bem como o deslocamento correspondente em

 seu alinhamento.

 Para dar um exemplo, vamos primeiro carregar outro motivo, que é semelhante a

 nosso motivo de teste `m` :


In [None]:
with open("REB1.pfm") as handle:
m_reb1 = motifs.read(handle, "pfm")


In [None]:
m_reb1.consensus


In [None]:
print(m_reb1.counts)



To make the motifs comparable, we choose the same values for the
pseudocounts and the background distribution as our motif `m`:




Para tornar os motivos comparáveis, escolhemos os mesmos valores para o

 pseudocontas e a distribuição de fundo como nosso motivo `m` :


In [None]:
m_reb1.pseudocounts = {'A':0.6, 'C': 0.4, 'G': 0.4, 'T': 0.6}
m_reb1.background = {'A':0.3,'C':0.2,'G':0.2,'T':0.3}
pssm_reb1 = m_reb1.pssm
print(pssm_reb1)



We’ll compare these motifs using the Pearson correlation. Since we want
it to resemble a distance measure, we actually take $1-r$, where $r$ is
the Pearson correlation coefficient (PCC):




Compararemos esses motivos usando a correlação de Pearson. Já que queremos

 para se assemelhar a uma medida de distância, pegamos $ 1-r $, onde $ r $ é

 o coeficiente de correlação de Pearson (PCC):


In [None]:
distance, offset = pssm.dist_pearson(pssm_reb1)
print("distance = %5.3g" % distance)


In [None]:
print(offset)



This means that the best PCC between motif `m` and `m_reb1` is obtained
with the following alignment:




Isso significa que o melhor PCC entre o motivo `m` e `m_reb1` é obtido

 com o seguinte alinhamento:


```
m:      bbTACGCbb
m_reb1: GTTACCCGG

```


```
m: bbTACGCbb m_reb1: GTTACCCGG
```



where `b` stands for background distribution. The PCC itself is roughly
$1-0.239=0.761$.

*De novo* motif finding {#sec:find}
-----------------------

Currently, Biopython has only limited support for *de novo* motif
finding. Namely, we support running and parsing of AlignAce and MEME.
Since the number of motif finding tools is growing rapidly,
contributions of new parsers are welcome.

### MEME {#sec:meme}

Let’s assume, you have run MEME on sequences of your choice with your
favorite parameters and saved the output in the file `meme.out`. You can
retrieve the motifs reported by MEME by running the following piece of
code:




onde `b` significa distribuição de fundo. O próprio PCC é quase

 $ 1-0,239 = 0,761 $.

 *Localização de* motivo de *novo* {#sec: find}

 Atualmente, Biopython tem suporte apenas limitado para o motivo *de novo*

 encontrar. Ou seja, oferecemos suporte para execução e análise de AlignAce e MEME.

 Uma vez que o número de ferramentas de localização de motivos está crescendo rapidamente,

 contribuições de novos analisadores são bem-vindas.

###  MEME {#sec: meme}

 Vamos supor que você executou o MEME em sequências de sua escolha com o seu

 parâmetros favoritos e salvou a saída no arquivo `meme.out` . Você pode

 recuperar os motivos relatados por MEME executando a seguinte peça de

 código:


In [None]:
from Bio import motifs
with open("meme.out") as handle:
motifsM = motifs.parse(handle, "meme")


In [None]:
motifsM



Besides the most wanted list of motifs, the result object contains more
useful information, accessible through properties with self-explanatory
names:

-   `.alphabet`

-   `.datafile`

-   `.sequence_names`

-   `.version`

-   `.command`

The motifs returned by the MEME Parser can be treated exactly like
regular Motif objects (with instances), they also provide some extra
functionality, by adding additional information about the instances.




Além da lista de motivos mais desejada, o objeto de resultado contém mais

 informações úteis, acessíveis por meio de propriedades autoexplicativas

 nomes:
-  `.alphabet`
-  `.datafile`
-  `.sequence_names`
-  `.version`
-  `.command`

 Os motivos retornados pelo MEME Parser podem ser tratados exatamente como

 objetos Motif regulares (com instâncias), eles também fornecem alguns extras

 funcionalidade, adicionando informações adicionais sobre as instâncias.


In [None]:
motifsM[0].consensus


In [None]:
motifsM[0].instances[0].sequence_name


In [None]:
motifsM[0].instances[0].start


In [None]:
motifsM[0].instances[0].strand


In [None]:
motifsM[0].instances[0].pvalue



### AlignAce {#sec:alignace}

We can do very similar things with the AlignACE program. Assume, you
have your output in the file `alignace.out`. You can parse your output
with the following code:




### AlignAce {#sec: alignace}

 Podemos fazer coisas muito semelhantes com o programa AlignACE. Suponha que você

 tenha sua saída no arquivo `alignace.out` . Você pode analisar sua saída

 com o seguinte código:


In [None]:
from Bio import motifs
with open("alignace.out") as handle:
motifsA = motifs.parse(handle, "alignace")



Again, your motifs behave as they should:




Mais uma vez, seus motivos se comportam como deveriam:


In [None]:
motifsA[0].consensus



In fact you can even see, that AlignAce found a very similar motif as
MEME. It is just a longer version of a reverse complement of the MEME
motif:




Na verdade, você pode até ver que a AlignAce encontrou um motivo muito semelhante ao

 MEME. É apenas uma versão mais longa de um complemento reverso do MEME

 motivo:


In [None]:
motifsM[0].reverse_complement().consensus



If you have AlignAce installed on the same machine, you can also run it
directly from Biopython. A short example of how this can be done is
shown below (other parameters can be specified as keyword parameters):




Se você tiver o AlignAce instalado na mesma máquina, também pode executá-lo

 diretamente do Biopython. Um pequeno exemplo de como isso pode ser feito é

 mostrado abaixo (outros parâmetros podem ser especificados como parâmetros de palavra-chave):


In [None]:
command="/opt/bin/AlignACE"
input_file="test.fa"
from Bio.motifs.applications import AlignAceCommandline
cmd = AlignAceCommandline(cmd=command, input=input_file, gcback=0.6, numcols=10)
stdout, stderr= cmd()



Since AlignAce prints all of its output to standard output, you can get
to your motifs by parsing the first part of the result:




Uma vez que o AlignAce imprime todas as suas saídas na saída padrão, você pode obter

 aos seus motivos, analisando a primeira parte do resultado:


In [None]:
motifs = motifs.parse(stdout, "alignace")
