**Source of the materials**: Biopython cookbook (adapted)
<font color='red'>Status: Draft</font>


**Fonte dos materiais** : livro de receitas Biopython (adaptado)

 &lt;font color = &#39;red&#39;&gt; Status: Rascunho &lt;/font&gt;


Going 3D: The PDB module
========================

Bio.PDB is a Biopython module that focuses on working with crystal
structures of biological macromolecules. Among other things, Bio.PDB
includes a PDBParser class that produces a Structure object, which can
be used to access the atomic data in the file in a convenient manner.
There is limited support for parsing the information contained in the
PDB header.

Reading and writing crystal structure files
-------------------------------------------

### Reading a PDB file

First we create a `PDBParser` object:




Going 3D: o módulo PDB

 ==========================

 Bio.PDB é um módulo Biopython que se concentra em trabalhar com cristal

 estruturas de macromoléculas biológicas. Entre outras coisas, Bio.PDB

 inclui uma classe PDBParser que produz um objeto Structure, que pode

 ser usado para acessar os dados atômicos no arquivo de uma maneira conveniente.

 Há suporte limitado para a análise das informações contidas no

 Cabeçalho do PDB.

 Ler e escrever arquivos de estrutura cristalina

###  Lendo um arquivo PDB

 Primeiro, criamos um objeto `PDBParser` :


In [1]:
from Bio.PDB.PDBParser import PDBParser
p = PDBParser(PERMISSIVE=1)


The <span>PERMISSIVE</span> flag indicates that a number of common
problems (see \[problem structures\]) associated with PDB files will be
ignored (but note that some atoms and/or residues will be missing). If
the flag is not present a <span>PDBConstructionException</span> will be
generated if any problems are detected during the parse operation.

The Structure object is then produced by letting the `PDBParser` object
parse a PDB file (the PDB file in this case is called ’pdb1fat.ent’,
’1fat’ is a user defined name for the structure):




O sinalizador &lt;span&gt; PERMISSIVO &lt;/span&gt; indica que uma série de

 problemas (ver [estruturas de problemas]) associados aos arquivos PDB serão

 ignorado (mas observe que alguns átomos e / ou resíduos estarão faltando). E se

 o sinalizador não está presente, uma &lt;span&gt; PDBConstructionException &lt;/span&gt; será

 gerado se algum problema for detectado durante a operação de análise.

 O objeto Structure é então produzido permitindo que o objeto `PDBParser`

 analisar um arquivo PDB (o arquivo PDB, neste caso, é denominado &#39;pdb1fat.ent&#39;,

 &#39;1fat&#39; é um nome definido pelo usuário para a estrutura):


In [2]:
structure_id = "1fat"
filename = "data/pdb1fat.ent"
structure = p.get_structure(structure_id, filename)




You can extract the header and trailer (simple lists of strings) of the
PDB file from the PDBParser object with the <span>get\_header</span> and
<span>get\_trailer</span> methods. Note however that many PDB files
contain headers with incomplete or erroneous information. Many of the
errors have been fixed in the equivalent mmCIF files. *Hence, if you are
interested in the header information, it is a good idea to extract
information from mmCIF files using the* `MMCIF2Dict` *tool described
below, instead of parsing the PDB header.*

Now that is clarified, let’s return to parsing the PDB header. The
structure object has an attribute called `header` which is a Python
dictionary that maps header records to their values.

Example:




Você pode extrair o cabeçalho e o trailer (listas simples de strings) do

 Arquivo PDB do objeto PDBParser com &lt;span&gt; get \ _header &lt;/span&gt; e

 métodos &lt;span&gt; get \ _trailer &lt;/span&gt;. Observe, entretanto, que muitos arquivos PDB

 contêm cabeçalhos com informações incompletas ou incorretas. Muitos dos

 erros foram corrigidos nos arquivos mmCIF equivalentes. * Portanto, se você for

 interessado nas informações do cabeçalho, é uma boa ideia extrair

 informações de arquivos mmCIF usando a ferramenta *`MMCIF2Dict`* descrita

 abaixo, em vez de analisar o cabeçalho PDB. *

 Agora que isso foi esclarecido, vamos voltar a analisar o cabeçalho do PDB. o

 objeto de estrutura tem um atributo chamado `header` que é um Python

 dicionário que mapeia registros de cabeçalho para seus valores.

 Exemplo:


In [3]:
resolution = structure.header['resolution']
keywords = structure.header['keywords']


The available keys are `name`, `head`, `deposition_date`,
`release_date`, `structure_method`, `resolution`, `structure_reference`
(which maps to a list of references), `journal_reference`, `author`, and
`compound` (which maps to a dictionary with various information about
the crystallized compound).

The dictionary can also be created without creating a `Structure`
object, ie. directly from the PDB file:




As chaves disponíveis são `name` , `head` , `deposition_date` ,

 `release_date` , `structure_method` , `resolution` , `structure_reference`

 (que mapeia para uma lista de referências), `journal_reference` , `author` e

 `compound` (que mapeia para um dicionário com várias informações sobre

 o composto cristalizado).

 O dicionário também pode ser criado sem criar uma `Structure`

 objeto, ou seja. diretamente do arquivo PDB:


In [4]:
file = open(filename, 'r')
header_dict = parse_pdb_header(file)
file.close()

NameError: name 'parse_pdb_header' is not defined


### Reading an mmCIF file

Similarly to the case the case of PDB files, first create an
`MMCIFParser` object:




### Lendo um arquivo mmCIF

 Da mesma forma que no caso dos arquivos PDB, primeiro crie um

 Objeto `MMCIFParser` :


In [5]:
from Bio.PDB.MMCIFParser import MMCIFParser
parser = MMCIFParser()


Then use this parser to create a structure object from the mmCIF file:




Em seguida, use este analisador para criar um objeto de estrutura a partir do arquivo mmCIF:


In [6]:
structure = parser.get_structure('1fat', 'data/1fat.cif')

PDBConstructionException: Atom C1 defined twice in residue <Residue NAG het=H_NAG resseq=253 icode= >


To have some more low level access to an mmCIF file, you can use the
`MMCIF2Dict` class to create a Python dictionary that maps all mmCIF
tags in an mmCIF file to their values. If there are multiple values
(like in the case of tag `_atom_site.Cartn_y`, which holds the $y$
coordinates of all atoms), the tag is mapped to a list of values. The
dictionary is created from the mmCIF file as follows:




Para ter mais acesso de baixo nível a um arquivo mmCIF, você pode usar o

 Classe `MMCIF2Dict` para criar um dicionário Python que mapeia todos os mmCIF

 tags em um arquivo mmCIF para seus valores. Se houver vários valores

 (como no caso da tag `_atom_site.Cartn_y` , que contém o $ y $

 coordenadas de todos os átomos), a tag é mapeada para uma lista de valores. o

 dicionário é criado a partir do arquivo mmCIF da seguinte maneira:


In [7]:
from Bio.PDB.MMCIF2Dict import MMCIF2Dict
mmcif_dict = MMCIF2Dict('data/1fat.cif')


Example: get the solvent content from an mmCIF file:




Exemplo: obtenha o teor de solvente de um arquivo mmCIF:


In [8]:
sc = mmcif_dict['_exptl_crystal.density_percent_sol']


Example: get the list of the $y$ coordinates of all atoms




Exemplo: obtenha a lista das coordenadas $ y $ de todos os átomos


In [9]:
y_list = mmcif_dict['_atom_site.Cartn_y']


### Reading files in the PDB XML format

That’s not yet supported, but we are definitely planning to support that
in the future (it’s not a lot of work). Contact the Biopython developers
() if you need this).

### Writing PDB files

Use the PDBIO class for this. It’s easy to write out specific parts of a
structure too, of course.

Example: saving a structure




### Lendo arquivos no formato PDB XML

 Isso ainda não é compatível, mas com certeza planejamos oferecer suporte

 no futuro (não dá muito trabalho). Entre em contato com os desenvolvedores do Biopython

 () se você precisar disso).

###  Gravando arquivos PDB

 Use a classe PDBIO para isso. É fácil escrever partes específicas de um

 estrutura também, é claro.

 Exemplo: salvar uma estrutura


In [11]:
from Bio.PDB import PDBIO
io = PDBIO()
io.set_structure(s)
io.save('out.pdb')

NameError: name 's' is not defined


If you want to write out a part of the structure, make use of the
`Select` class (also in `PDBIO`). Select has four methods:

-   `accept_model(model)`

-   `accept_chain(chain)`

-   `accept_residue(residue)`

-   `accept_atom(atom)`

By default, every method returns 1 (which means the
model/chain/residue/atom is included in the output). By subclassing
`Select` and returning 0 when appropriate you can exclude models,
chains, etc. from the output. Cumbersome maybe, but very powerful. The
following code only writes out glycine residues:




Se você quiser escrever uma parte da estrutura, use o

 `Select` classe (também no `PDBIO` ). Select tem quatro métodos:
-  `accept_model(model)`
-  `accept_chain(chain)`
-  `accept_residue(residue)`
-  `accept_atom(atom)`

 Por padrão, todo método retorna 1 (o que significa o

 modelo / cadeia / resíduo / átomo está incluído na saída). Subclassificando

 `Select` e retornando 0 quando apropriado, você pode excluir modelos,

 correntes, etc. da saída. Pesado talvez, mas muito poderoso. o

 o código a seguir grava apenas resíduos de glicina:


In [14]:
from Bio.PDB.PDBIO import Select
class GlySelect(Select):
    def accept_residue(self, residue):
        if residue.get_name() == 'GLY':
            return True
        else:
            return False

In [15]:
io = PDBIO()
io.set_structure(s)
io.save('gly_only.pdb', GlySelect())

NameError: name 's' is not defined


If this is all too complicated for you, the `Dice` module contains a
handy `extract` function that writes out all residues in a chain between
a start and end residue.

Structure representation
------------------------

The overall layout of a `Structure` object follows the so-called SMCRA
(Structure/Model/Chain/Residue/Atom) architecture:

-   A structure consists of models

-   A model consists of chains

-   A chain consists of residues

-   A residue consists of atoms

This is the way many structural biologists/bioinformaticians think about
structure, and provides a simple but efficient way to deal with
structure. Additional stuff is essentially added when needed. A UML
diagram of the `Structure` object (forget about the `Disordered` classes
for now) is shown in Fig. \[fig:smcra\]. Such a data structure is not
necessarily best suited for the representation of the macromolecular
content of a structure, but it is absolutely necessary for a good
interpretation of the data present in a file that describes the
structure (typically a PDB or MMCIF file). If this hierarchy cannot
represent the contents of a structure file, it is fairly certain that
the file contains an error or at least does not describe the structure
unambiguously. If a SMCRA data structure cannot be generated, there is
reason to suspect a problem. Parsing a PDB file can thus be used to
detect likely problems. We will give several examples of this in section
\[problem structures\].

![UML diagram of SMCRA architecture of the `Structure` class used to
represent a macromolecular structure. Full lines with diamonds denote
aggregation, full lines with arrows denote referencing, full lines with
triangles denote inheritance and dashed lines with triangles denote
interface realization.<span
data-label="fig:smcra"></span>](images/smcra.png)

Structure, Model, Chain and Residue are all subclasses of the Entity
base class. The Atom class only (partly) implements the Entity interface
(because an Atom does not have children).

For each Entity subclass, you can extract a child by using a unique id
for that child as a key (e.g. you can extract an Atom object from a
Residue object by using an atom name string as a key, you can extract a
Chain object from a Model object by using its chain identifier as a
key).

Disordered atoms and residues are represented by DisorderedAtom and
DisorderedResidue classes, which are both subclasses of the
DisorderedEntityWrapper base class. They hide the complexity associated
with disorder and behave exactly as Atom and Residue objects.

In general, a child Entity object (i.e. Atom, Residue, Chain, Model) can
be extracted from its parent (i.e. Residue, Chain, Model, Structure,
respectively) by using an id as a key.




Se isso for muito complicado para você, o módulo `Dice` contém um

 função de `extract` útil que grava todos os resíduos em uma cadeia entre

 um resíduo inicial e final.

 Representação de estrutura

 O layout geral de um objeto `Structure` segue o chamado SMCRA

 (Estrutura / Modelo / Cadeia / Resíduo / Atom) arquitetura:
-  Uma estrutura consiste em modelos
-  Um modelo consiste em cadeias
-  Uma cadeia consiste em resíduos
-  Um resíduo consiste em átomos

 Esta é a maneira como muitos biólogos / bioinformáticos estruturais pensam sobre

 estrutura e fornece uma maneira simples, mas eficiente de lidar com

 estrutura. Coisas adicionais são essencialmente adicionadas quando necessário. UML

 diagrama do objeto `Structure` (esqueça as classes `Disordered`

 por enquanto) é mostrado na Fig. [fig: smcra]. Essa estrutura de dados não é

 necessariamente mais adequado para a representação do macromolecular

 conteúdo de uma estrutura, mas é absolutamente necessário para uma boa

 interpretação dos dados presentes em um arquivo que descreve o

 estrutura (normalmente um arquivo PDB ou MMCIF). Se esta hierarquia não pode

 representar o conteúdo de um arquivo de estrutura, é bastante certo que

 o arquivo contém um erro ou pelo menos não descreve a estrutura

 inequivocamente. Se uma estrutura de dados SMCRA não puder ser gerada, há

 razão para suspeitar de um problema. Analisar um arquivo PDB pode, portanto, ser usado para

 detectar problemas prováveis. Daremos vários exemplos disso na seção

 [estruturas do problema].

 ! [Diagrama UML da arquitetura SMCRA da classe `Structure` usado para

 representam uma estrutura macromolecular. Linhas completas com diamantes denotam

 agregação, linhas completas com setas denotam referência, linhas completas com

 triângulos denotam herança e linhas tracejadas com triângulos denotam

 realização da interface. &lt;span

 data-label = "fig: smcra"&gt; &lt;/span&gt;] (images / smcra.png)

 Estrutura, Modelo, Cadeia e Resíduo são todas subclasses da Entidade

 classe base. A classe Atom apenas (parcialmente) implementa a interface Entity

 (porque um Atom não tem filhos).

 Para cada subclasse de entidade, você pode extrair um filho usando um id único

 para aquele filho como uma chave (por exemplo, você pode extrair um objeto Atom de um

 Objeto residual usando uma string de nome de átomo como uma chave, você pode extrair um

 Objeto de cadeia de um objeto de modelo usando seu identificador de cadeia como um

 chave).

 Os átomos e resíduos desordenados são representados por DisorderedAtom e

 Classes DisorderedResidue, que são ambas subclasses do

 Classe base DisorderedEntityWrapper. Eles escondem a complexidade associada

 com desordem e se comportam exatamente como objetos Atom e Residue.

 Em geral, um objeto de entidade filho (ou seja, Atom, Residue, Chain, Model) pode

 ser extraído de seu pai (ou seja, resíduo, cadeia, modelo, estrutura,

 respectivamente) usando um id como chave.


In [16]:
child_entity = parent_entity[child_id]

NameError: name 'parent_entity' is not defined


You can also get a list of all child Entities of a parent Entity object.
Note that this list is sorted in a specific way (e.g. according to chain
identifier for Chain objects in a Model object).




Você também pode obter uma lista de todas as Entidades filhas de um objeto Entidade pai.

 Observe que esta lista é classificada de uma forma específica (por exemplo, de acordo com a cadeia

 identificador para objetos Chain em um objeto Model).


In [None]:
child_list = parent_entity.get_list()


You can also get the parent from a child:




Você também pode obter o pai de uma criança:


In [17]:
parent_entity = child_entity.get_parent()

NameError: name 'child_entity' is not defined


At all levels of the SMCRA hierarchy, you can also extract a *full id*.
The full id is a tuple containing all id’s starting from the top object
(Structure) down to the current object. A full id for a Residue object
e.g. is something like:




Em todos os níveis da hierarquia SMCRA, você também pode extrair um *id completo* .

 O id completo é uma tupla contendo todos os ids começando do objeto superior

 (Estrutura) até o objeto atual. Uma id completa para um objeto Residue

 por exemplo, é algo como:


In [18]:
full_id = residue.get_full_id()
print(full_id)

NameError: name 'residue' is not defined


This corresponds to:

-   The Structure with id \`"1abc\`"

-   The Model with id 0

-   The Chain with id \`"A\`"

-   The Residue with id (\`" \`", 10, \`"A\`").

The Residue id indicates that the residue is not a hetero-residue (nor a
water) because it has a blank hetero field, that its sequence identifier
is 10 and that its insertion code is \`"A\`".

To get the entity’s id, use the `get_id` method:




Isso corresponde a:
-  A estrutura com id `" 1abc` "
-  O modelo com id 0
-  A Cadeia com id `" A` "
-  O resíduo com id (`" `", 10, `" A` ").

 O resíduo id indica que o resíduo não é um hetero-resíduo (nem um

 água) porque tem um hetero campo em branco, que seu identificador de sequência

 é 10 e que seu código de inserção é `" A` ".

 Para obter o id da entidade, use o método `get_id` :


In [19]:
entity.get_id()

NameError: name 'entity' is not defined


You can check if the entity has a child with a given id by using the
`has_id` method:




Você pode verificar se a entidade tem um filho com um determinado id usando o

 método `has_id` :


In [None]:
entity.has_id(entity_id)


The length of an entity is equal to its number of children:




O comprimento de uma entidade é igual ao seu número de filhos:


In [None]:
nr_children = len(entity)


It is possible to delete, rename, add, etc. child entities from a parent
entity, but this does not include any sanity checks (e.g. it is possible
to add two residues with the same id to one chain). This really should
be done via a nice Decorator class that includes integrity checking, but
you can take a look at the code (Entity.py) if you want to use the raw
interface.

### Structure

The Structure object is at the top of the hierarchy. Its id is a user
given string. The Structure contains a number of Model children. Most
crystal structures (but not all) contain a single model, while NMR
structures typically consist of several models. Disorder in crystal
structures of large parts of molecules can also result in several
models.

### Model

The id of the Model object is an integer, which is derived from the
position of the model in the parsed file (they are automatically
numbered starting from 0). Crystal structures generally have only one
model (with id 0), while NMR files usually have several models. Whereas
many PDB parsers assume that there is only one model, the `Structure`
class in `Bio.PDB` is designed such that it can easily handle PDB files
with more than one model.

As an example, to get the first model from a Structure object, use




É possível excluir, renomear, adicionar, etc. entidades filhas de um pai

 entidade, mas isso não inclui nenhuma verificação de sanidade (por exemplo, é possível

 adicionar dois resíduos com o mesmo id a uma cadeia). Isso realmente deveria

 ser feito por meio de uma boa classe Decorator que inclui verificação de integridade, mas

 você pode dar uma olhada no código (Entity.py) se quiser usar o código

 interface.

###  Estrutura

 O objeto Estrutura está no topo da hierarquia. Seu id é um usuário

 string dada. A estrutura contém vários filhos do modelo. A maioria

 estruturas cristalinas (mas não todas) contêm um único modelo, enquanto NMR

 as estruturas normalmente consistem em vários modelos. Desordem em cristal

 estruturas de grandes partes de moléculas também podem resultar em vários

 modelos.

###  Modelo

 O id do objeto Model é um inteiro, que é derivado do

 posição do modelo no arquivo analisado (eles são automaticamente

 numerado a partir de 0). Estruturas de cristal geralmente têm apenas um

 modelo (com id 0), enquanto os arquivos NMR geralmente têm vários modelos. Enquanto que

 muitos analisadores PDB assumem que há apenas um modelo, a `Structure`

 classe em `Bio.PDB` é projetada de forma que possa lidar facilmente com arquivos PDB

 com mais de um modelo.

 Por exemplo, para obter o primeiro modelo de um objeto Estrutura, use


In [20]:
first_model = structure[0]


The Model object stores a list of Chain children.

### Chain

The id of a Chain object is derived from the chain identifier in the
PDB/mmCIF file, and is a single character (typically a letter). Each
Chain in a Model object has a unique id. As an example, to get the Chain
object with identifier “A” from a Model object, use




O objeto Model armazena uma lista de filhos Chain.

###  Cadeia

 O id de um objeto Chain é derivado do identificador da cadeia no

 Arquivo PDB / mmCIF e é um único caractere (normalmente uma letra). Cada

 A cadeia em um objeto Model tem um id único. Por exemplo, para obter a Cadeia

 objeto com identificador "A" de um objeto de modelo, use


In [21]:
chain_A = model["A"]

NameError: name 'model' is not defined


The Chain object stores a list of Residue children.

### Residue

A residue id is a tuple with three elements:

-   The **hetero-field** (hetfield): this is

    -   `'W'` in the case of a water molecule;

    -   `'H_'` followed by the residue name for other hetero
        residues (e.g. `'H_GLC'` in the case of a glucose molecule);

    -   blank for standard amino and nucleic acids.

    This scheme is adopted for reasons described in section
    \[hetero problems\].

-   The **sequence identifier** (resseq), an integer describing the
    position of the residue in the chain (e.g., 100);

-   The **insertion code** (icode); a string, e.g. ’A’. The insertion
    code is sometimes used to preserve a certain desirable residue
    numbering scheme. A Ser 80 insertion mutant (inserted e.g. between a
    Thr 80 and an Asn 81 residue) could e.g. have sequence identifiers
    and insertion codes as follows: Thr 80 A, Ser 80 B, Asn 81. In this
    way the residue numbering scheme stays in tune with that of the wild
    type structure.

The id of the above glucose residue would thus be `(’H_GLC’, 100, ’A’)`.
If the hetero-flag and insertion code are blank, the sequence identifier
alone can be used:




O objeto Chain armazena uma lista de filhos Residue.

###  Resíduo

 Um resíduo id é uma tupla com três elementos:
-  O **hetero-campo** (hetfield): este é
-  O **identificador de sequência** (resseq), um inteiro que descreve o posição do resíduo na cadeia (por exemplo, 100);
-  O **código de inserção** (icode); uma string, por exemplo, &#39;A&#39;. A inserção código às vezes é usado para preservar um certo resíduo desejável esquema de numeração. Um mutante de inserção Ser 80 (inserido, por exemplo, entre um Thr 80 e um resíduo Asn 81) poderia, por exemplo, ter identificadores de sequência e os códigos de inserção como segue: Thr 80 A, Ser 80 B, Asn 81. Neste forma como o esquema de numeração de resíduos permanece em sintonia com o da natureza estrutura de tipo.

 O id do resíduo de glicose acima seria assim `(&#39;H_GLC&#39;, 100, &#39;A&#39;)` .

 Se o hetero-flag e o código de inserção estiverem em branco, o identificador de sequência

 sozinho pode ser usado:


In [22]:
# Full id
residue = chain[(' ', 100, ' ')]

NameError: name 'chain' is not defined

In [23]:
residue = chain[100]

NameError: name 'chain' is not defined


The reason for the hetero-flag is that many, many PDB files use the same
sequence identifier for an amino acid and a hetero-residue or a water,
which would create obvious problems if the hetero-flag was not used.

Unsurprisingly, a Residue object stores a set of Atom children. It also
contains a string that specifies the residue name (e.g. “ASN”) and the
segment identifier of the residue (well known to X-PLOR users, but not
used in the construction of the SMCRA data structure).

Let’s look at some examples. Asn 10 with a blank insertion code would
have residue id <span>(’ ’, 10, ’ ’)</span>. Water 10 would have residue
id <span>(’W’, 10, ’ ’)</span>. A glucose molecule (a hetero residue
with residue name GLC) with sequence identifier 10 would have residue id
<span>(’H\_GLC’, 10, ’ ’)</span>. In this way, the three residues (with
the same insertion code and sequence identifier) can be part of the same
chain because their residue id’s are distinct.

In most cases, the hetflag and insertion code fields will be blank, e.g.
<span>(’ ’, 10, ’ ’)</span>. In these cases, the sequence identifier can
be used as a shortcut for the full id:




A razão para o hetero-flag é que muitos, muitos arquivos PDB usam o mesmo

 identificador de sequência para um aminoácido e um hetero-resíduo ou água,

 o que criaria problemas óbvios se o hetero-flag não fosse usado.

 Não é novidade que um objeto Residue armazena um conjunto de filhos Atom. Isso também

 contém uma string que especifica o nome do resíduo (por exemplo, “ASN”) e o

 identificador de segmento do resíduo (bem conhecido pelos usuários X-PLOR, mas não

 utilizado na construção da estrutura de dados SMCRA).

 Vejamos alguns exemplos. Asn 10 com um código de inserção em branco

 têm id de resíduo &lt;span&gt; (&#39;&#39;, 10, &#39;&#39;) &lt;/span&gt;. Água 10 teria resíduo

 id &lt;span&gt; (&#39;W&#39;, 10, &#39;&#39;) &lt;/span&gt;. Uma molécula de glicose (um resíduo hetero

 com nome de resíduo GLC) com identificador de sequência 10 teria resíduo id

 &lt;span&gt; (&#39;H \ _GLC&#39;, 10, &#39;&#39;) &lt;/span&gt;. Desta forma, os três resíduos (com

 o mesmo código de inserção e identificador de sequência) podem fazer parte do mesmo

 cadeia porque seus IDs de resíduos são distintos.

 Na maioria dos casos, os campos hetflag e código de inserção estarão em branco, por exemplo

 &lt;span&gt; (&#39;&#39;, 10, &#39;&#39;) &lt;/span&gt;. Nestes casos, o identificador de sequência pode

 ser usado como um atalho para o id completo:


In [None]:
# use full id
res10 = chain[(' ', 10, ' ')]

In [None]:
res10 = chain[10]


Each Residue object in a Chain object should have a unique id. However,
disordered residues are dealt with in a special way, as described in
section \[point mutations\].

A Residue object has a number of additional methods:




Cada objeto Residue em um objeto Chain deve ter um id único. Contudo,

 resíduos desordenados são tratados de forma especial, conforme descrito em

 seção [mutações pontuais].

 Um objeto Residue possui vários métodos adicionais:


In [24]:
residue.get_resname()       # returns the residue name, e.g. "ASN"
residue.is_disordered()     # returns 1 if the residue has disordered atoms
residue.get_segid()         # returns the SEGID, e.g. "CHN1"
residue.has_id(name)        # test if a residue has a certain atom

NameError: name 'residue' is not defined


You can use `is_aa(residue)` to test if a Residue object is an amino
acid.

### Atom

The Atom object stores the data associated with an atom, and has no
children. The id of an atom is its atom name (e.g. “OG” for the side
chain oxygen of a Ser residue). An Atom id needs to be unique in a
Residue. Again, an exception is made for disordered atoms, as described
in section \[disordered atoms\].

The atom id is simply the atom name (eg. `’CA’`). In practice, the atom
name is created by stripping all spaces from the atom name in the PDB
file.

However, in PDB files, a space can be part of an atom name. Often,
calcium atoms are called `’CA..’` in order to distinguish them from
C$\alpha$ atoms (which are called `’.CA.’`). In cases were stripping the
spaces would create problems (ie. two atoms called `’CA’` in the same
residue) the spaces are kept.

In a PDB file, an atom name consists of 4 chars, typically with leading
and trailing spaces. Often these spaces can be removed for ease of use
(e.g. an amino acid C$ \alpha  $ atom is labeled “.CA.” in a PDB file,
where the dots represent spaces). To generate an atom name (and thus an
atom id) the spaces are removed, unless this would result in a name
collision in a Residue (i.e. two Atom objects with the same atom name
and id). In the latter case, the atom name including spaces is tried.
This situation can e.g. happen when one residue contains atoms with
names “.CA.” and “CA..”, although this is not very likely.

The atomic data stored includes the atom name, the atomic coordinates
(including standard deviation if present), the B factor (including
anisotropic B factors and standard deviation if present), the altloc
specifier and the full atom name including spaces. Less used items like
the atom element number or the atomic charge sometimes specified in a
PDB file are not stored.

To manipulate the atomic coordinates, use the `transform` method of the
`Atom` object. Use the `set_coord` method to specify the atomic
coordinates directly.

An Atom object has the following additional methods:




Você pode usar `is_aa(residue)` para testar se um objeto Residue é um amino

 ácido.

###  Átomo

 O objeto Atom armazena os dados associados a um átomo e não tem

 crianças. O id de um átomo é o seu nome de átomo (por exemplo, "OG" para o lado

 oxigênio da cadeia de um resíduo Ser). Um ID Atom precisa ser único em um

 Resíduo. Novamente, uma exceção é feita para átomos desordenados, conforme descrito

 na seção [átomos desordenados].

 O ID do átomo é simplesmente o nome do átomo (por exemplo, `&#39;CA&#39;` ). Na prática, o átomo

 nome é criado removendo todos os espaços do nome do átomo no PDB

 Arquivo.

 No entanto, em arquivos PDB, um espaço pode fazer parte de um nome de átomo. Frequentemente,

 átomos de cálcio são chamados de `&#39;CA..&#39;` , a fim de distingui-los de

 Átomos C $ \ alpha $ (chamados `&#39;.CA.&#39;` ). Em casos foram removendo o

 espaços criariam problemas (ou seja, dois átomos chamados `&#39;CA&#39;` no mesmo

 resíduo) os espaços são mantidos.

 Em um arquivo PDB, um nome de átomo consiste em 4 caracteres, normalmente com

 e espaços à direita. Muitas vezes, esses espaços podem ser removidos para facilidade de uso

 (por exemplo, um aminoácido C $ \ alpha $ atom é rotulado como “.CA” em um arquivo PDB,

 onde os pontos representam espaços). Para gerar um nome de átomo (e, portanto, um

 atom id) os espaços são removidos, a menos que isso resulte em um nome

 colisão em um resíduo (ou seja, dois objetos Atom com o mesmo nome de átomo

 e id). No último caso, o nome do átomo incluindo espaços é tentado.

 Esta situação pode, por exemplo, acontecer quando um resíduo contém átomos com

 nomes “.CA.” e “CA ..”, embora isso não seja muito provável.

 Os dados atômicos armazenados incluem o nome do átomo, as coordenadas atômicas

 (incluindo o desvio padrão, se presente), o fator B (incluindo

 fatores B anisotrópicos e desvio padrão, se houver), o altloc

 especificador e o nome completo do átomo, incluindo espaços. Itens menos usados como

 o número do elemento atômico ou a carga atômica às vezes especificada em um

 O arquivo PDB não é armazenado.

 Para manipular as coordenadas atômicas, use o método de `transform` do

 Objeto `Atom` . Use o método `set_coord` para especificar o atômico

 coordena diretamente.

 Um objeto Atom tem os seguintes métodos adicionais:


In [25]:
a.get_name()       # atom name (spaces stripped, e.g. "CA")
a.get_id()         # id (equals atom name)
a.get_coord()      # atomic coordinates
a.get_vector()     # atomic coordinates as Vector object
a.get_bfactor()    # isotropic B factor
a.get_occupancy()  # occupancy
a.get_altloc()     # alternative location specifier
a.get_sigatm()     # standard deviation of atomic parameters
a.get_siguij()     # standard deviation of anisotropic B factor
a.get_anisou()     # anisotropic B factor
a.get_fullname()   # atom name (with spaces, e.g. ".CA.")

NameError: name 'a' is not defined


To represent the atom coordinates, siguij, anisotropic B factor and
sigatm Numpy arrays are used.

The `get_vector` method returns a `Vector` object representation of the
coordinates of the `Atom` object, allowing you to do vector operations
on atomic coordinates. `Vector` implements the full set of 3D vector
operations, matrix multiplication (left and right) and some advanced
rotation-related operations as well.

As an example of the capabilities of Bio.PDB’s `Vector` module, suppose
that you would like to find the position of a Gly residue’s C$\beta$
atom, if it had one. Rotating the N atom of the Gly residue along the
C$\alpha$-C bond over -120 degrees roughly puts it in the position of a
virtual C$\beta$ atom. Here’s how to do it, making use of the `rotaxis`
method (which can be used to construct a rotation around a certain axis)
of the `Vector` module:




Para representar as coordenadas do átomo, siguij, fator B anisotrópico e

 Arrays sigatm Numpy são usados.

 O método `get_vector` retorna uma representação do objeto `Vector` do

 coordenadas do objeto `Atom` , permitindo que você faça operações vetoriais

 em coordenadas atômicas. `Vector` implementa o conjunto completo de vetores 3D

 operações, multiplicação de matrizes (esquerda e direita) e algumas

 operações relacionadas à rotação também.

 Como um exemplo das capacidades do módulo `Vector` de Bio.PDB, suponha

 que você gostaria de encontrar a posição de C $ \ beta $ de um resíduo Gly

 átomo, se houvesse um. Girando o átomo N do resíduo Gly ao longo do

 O título C $ \ alpha $ -C acima de -120 graus o coloca aproximadamente na posição de um

 átomo virtual C $ \ beta $. Veja como fazer, utilizando a `rotaxis`

 método (que pode ser usado para construir uma rotação em torno de um determinado eixo)

 do módulo `Vector` :


In [26]:
# get atom coordinates as vectors
n = residue['N'].get_vector()
c = residue['C'].get_vector()
ca = residue['CA'].get_vector()

NameError: name 'residue' is not defined

In [27]:
n = n - ca
c = c - ca

NameError: name 'n' is not defined

In [28]:
rot = rotaxis(-pi * 120.0/180.0, c)

NameError: name 'rotaxis' is not defined

In [29]:
cb_at_origin = n.left_multiply(rot)

NameError: name 'n' is not defined

In [30]:
cb = cb_at_origin + ca

NameError: name 'cb_at_origin' is not defined


This example shows that it’s possible to do some quite nontrivial vector
operations on atomic data, which can be quite useful. In addition to all
the usual vector operations (cross (use `**`), and dot (use `*`)
product, angle, norm, etc.) and the above mentioned `rotaxis` function,
the `Vector` module also has methods to rotate (`rotmat`) or reflect
(`refmat`) one vector on top of another.

### Extracting a specific `Atom/Residue/Chain/Model` from a Structure

These are some examples:




Este exemplo mostra que é possível fazer alguns vetores não triviais

 operações em dados atômicos, que podem ser bastante úteis. Além de tudo

 as operações vetoriais usuais (cruzar (usar `**` ) e ponto (usar `*` )

 produto, ângulo, norma, etc.) e a função de `rotaxis` mencionada acima,

 o módulo `Vector` também tem métodos para girar ( `rotmat` ) ou refletir

 ( `refmat` ) um vetor em cima do outro.

###  Extração de um `Atom/Residue/Chain/Model` de uma estrutura

 Estes são alguns exemplos:


In [31]:
model = structure[0]
chain = model['A']
residue = chain[100]
atom = residue['CA']


Note that you can use a shortcut:




Observe que você pode usar um atalho:


In [32]:
atom = structure[0]['A'][100]['CA']


Disorder
--------

Bio.PDB can handle both disordered atoms and point mutations (i.e. a Gly
and an Ala residue in the same position).

### General approach\[disorder problems\]

Disorder should be dealt with from two points of view: the atom and the
residue points of view. In general, we have tried to encapsulate all the
complexity that arises from disorder. If you just want to loop over all
C$\alpha$ atoms, you do not care that some residues have a disordered
side chain. On the other hand it should also be possible to represent
disorder completely in the data structure. Therefore, disordered atoms
or residues are stored in special objects that behave as if there is no
disorder. This is done by only representing a subset of the disordered
atoms or residues. Which subset is picked (e.g. which of the two
disordered OG side chain atom positions of a Ser residue is used) can be
specified by the user.

### Disordered atoms\[disordered atoms\]

Disordered atoms are represented by ordinary `Atom` objects, but all
`Atom` objects that represent the same physical atom are stored in a
`DisorderedAtom` object (see Fig. \[fig:smcra\]). Each `Atom` object in
a `DisorderedAtom` object can be uniquely indexed using its altloc
specifier. The `DisorderedAtom` object forwards all uncaught method
calls to the selected Atom object, by default the one that represents
the atom with the highest occupancy. The user can of course change the
selected `Atom` object, making use of its altloc specifier. In this way
atom disorder is represented correctly without much additional
complexity. In other words, if you are not interested in atom disorder,
you will not be bothered by it.

Each disordered atom has a characteristic altloc identifier. You can
specify that a `DisorderedAtom` object should behave like the `Atom`
object associated with a specific altloc identifier:




Transtorno

 Bio.PDB pode lidar com átomos desordenados e mutações pontuais (ou seja, um Gly

 e um resíduo Ala na mesma posição).

###  Abordagem geral [problemas de transtorno]

 A desordem deve ser tratada de dois pontos de vista: o átomo e o

 pontos de vista residuais. Em geral, tentamos encapsular todos os

 complexidade que surge da desordem. Se você quiser apenas fazer um loop em todos

 Átomos C $ \ alpha $, você não se importa se alguns resíduos têm uma desordem

 cadeia lateral. Por outro lado, também deve ser possível representar

 desordem completamente na estrutura de dados. Portanto, átomos desordenados

 ou resíduos são armazenados em objetos especiais que se comportam como se não houvesse

 transtorno. Isso é feito representando apenas um subconjunto do desordenado

 átomos ou resíduos. Qual subconjunto é escolhido (por exemplo, qual dos dois

 posições desordenadas do átomo da cadeia lateral de OG de um resíduo Ser) podem ser

 especificado pelo usuário.

###  Átomos desordenados [átomos desordenados]

 Os átomos desordenados são representados por objetos `Atom` comuns, mas todos

 `Atom` objetos que representam o mesmo átomo físico são armazenados em um

 Objeto `DisorderedAtom` (ver Fig. [Fig: smcra]). Cada objeto `Atom` em

 um objeto `DisorderedAtom` pode ser indexado exclusivamente usando seu altloc

 especificador. O objeto `DisorderedAtom` encaminha todos os métodos não capturados

 chamadas para o objeto Atom selecionado, por padrão aquele que representa

 o átomo com a maior ocupação. O usuário pode, é claro, alterar o

 objeto `Atom` selecionado, fazendo uso de seu especificador altloc. Nesse caminho

 a desordem do átomo é representada corretamente sem muito mais

 complexidade. Em outras palavras, se você não está interessado na desordem atômica,

 você não será incomodado por isso.

 Cada átomo desordenado tem um identificador altloc característico. Você pode

 especificar que um objeto `DisorderedAtom` deve se comportar como o `Atom`

 objeto associado a um identificador altloc específico:


In [33]:
atom.disordered_select('A') # select altloc A atom
print(atom.get_altloc())

AttributeError: 'Atom' object has no attribute 'disordered_select'

In [34]:
atom.disordered_select('B') # select altloc B atom
print(atom.get_altloc())

AttributeError: 'Atom' object has no attribute 'disordered_select'


### Disordered residues

#### Common case {#common-case .unnumbered}

The most common case is a residue that contains one or more disordered
atoms. This is evidently solved by using DisorderedAtom objects to
represent the disordered atoms, and storing the DisorderedAtom object in
a Residue object just like ordinary Atom objects. The DisorderedAtom
will behave exactly like an ordinary atom (in fact the atom with the
highest occupancy) by forwarding all uncaught method calls to one of the
Atom objects (the selected Atom object) it contains.

#### Point mutations\[point mutations\] {#point-mutationspoint-mutations .unnumbered}

A special case arises when disorder is due to a point mutation, i.e.
when two or more point mutants of a polypeptide are present in the
crystal. An example of this can be found in PDB structure 1EN2.

Since these residues belong to a different residue type (e.g. let’s say
Ser 60 and Cys 60) they should not be stored in a single `Residue`
object as in the common case. In this case, each residue is represented
by one `Residue` object, and both `Residue` objects are stored in a
single `DisorderedResidue` object (see Fig. \[fig:smcra\]).

The `DisorderedResidue` object forwards all uncaught methods to the
selected `Residue` object (by default the last `Residue` object added),
and thus behaves like an ordinary residue. Each `Residue` object in a
`DisorderedResidue` object can be uniquely identified by its residue
name. In the above example, residue Ser 60 would have id “SER” in the
`DisorderedResidue` object, while residue Cys 60 would have id “CYS”.
The user can select the active `Residue` object in a `DisorderedResidue`
object via this id.

Example: suppose that a chain has a point mutation at position 10,
consisting of a Ser and a Cys residue. Make sure that residue 10 of this
chain behaves as the Cys residue.




### Resíduos desordenados

####  Caso comum {# common-case .unnumbered}

 O caso mais comum é um resíduo que contém um ou mais desordenados

 átomos. Isso é evidentemente resolvido com o uso de objetos DisorderedAtom para

 representam os átomos desordenados, e armazenando o objeto DisorderedAtom em

 um objeto Residue exatamente como objetos Atom comuns. The DisorderedAtom

 vai se comportar exatamente como um átomo comum (na verdade, o átomo com o

 maior ocupação), encaminhando todas as chamadas de método não capturadas para um dos

 Objetos Atom (o objeto Atom selecionado) que ele contém.

####  Mutações pontuais [mutações pontuais] {# point-mutationspoint-mutations .unnumbered}

 Um caso especial surge quando o distúrbio é devido a uma mutação pontual, ou seja,

 quando dois ou mais mutantes pontuais de um polipeptídeo estão presentes no

 cristal. Um exemplo disso pode ser encontrado na estrutura 1EN2 do PDB.

 Uma vez que esses resíduos pertencem a um tipo de resíduo diferente (por exemplo, digamos

 Ser 60 e Cys 60) não devem ser armazenados em um único `Residue`

 objeto como no caso comum. Neste caso, cada resíduo é representado

 por um objeto `Residue` , e ambos os objetos `Residue` são armazenados em um

 único objeto `DisorderedResidue` (ver Fig. [fig: smcra]).

 O objeto `DisorderedResidue` encaminha todos os métodos não capturados para o

 objeto `Residue` selecionado (por padrão, o último objeto `Residue` adicionado),

 e, portanto, se comporta como um resíduo comum. Cada objeto `Residue` em um

 `DisorderedResidue` objeto `DisorderedResidue` pode ser identificado exclusivamente por seu resíduo

 nome. No exemplo acima, o resíduo Ser 60 teria id "SER" no

 Objeto `DisorderedResidue` , enquanto o resíduo Cys 60 teria id “CYS”.

 O usuário pode selecionar o objeto `Residue` ativo em um `DisorderedResidue`

 objeto por meio deste id.

 Exemplo: suponha que uma cadeia tenha uma mutação pontual na posição 10,

 consistindo em um resíduo Ser e Cys. Certifique-se de que o resíduo 10 deste

 cadeia se comporta como o resíduo Cys.


In [35]:
residue = chain[10]
residue.disordered_select('CYS')

AttributeError: 'Residue' object has no attribute 'disordered_select'


In addition, you can get a list of all `Atom` objects (ie. all
`DisorderedAtom` objects are ’unpacked’ to their individual `Atom`
objects) using the `get_unpacked_list` method of a `(Disordered)Residue`
object.

Hetero residues
---------------

### Associated problems\[hetero problems\]

A common problem with hetero residues is that several hetero and
non-hetero residues present in the same chain share the same sequence
identifier (and insertion code). Therefore, to generate a unique id for
each hetero residue, waters and other hetero residues are treated in a
different way.

Remember that Residue object have the tuple (hetfield, resseq, icode) as
id. The hetfield is blank (“ ”) for amino and nucleic acids, and a
string for waters and other hetero residues. The content of the hetfield
is explained below.

### Water residues

The hetfield string of a water residue consists of the letter “W”. So a
typical residue id for a water is (“W”, 1, “ ”).

### Other hetero residues

The hetfield string for other hetero residues starts with “H\_” followed
by the residue name. A glucose molecule e.g. with residue name “GLC”
would have hetfield “H\_GLC”. Its residue id could e.g. be (“H\_GLC”, 1,
“ ”).

Navigating through a Structure object
-------------------------------------

#### Parse a PDB file, and extract some Model, Chain, Residue and Atom objects {#parse-a-pdb-file-and-extract-some-model-chain-residue-and-atom-objects .unnumbered}




Além disso, você pode obter uma lista de todos os objetos `Atom` (ou seja, todos

 Objetos `DisorderedAtom` são &#39;desempacotados&#39; em seus `Atom` individuais

 objetos) usando o método `get_unpacked_list` de um `(Disordered)Residue`

 objeto.

 Resíduos hetero

###  Problemas associados [problemas hetero]

 Um problema comum com hetero-resíduos é que vários hetero e

 resíduos não hetero presentes na mesma cadeia compartilham a mesma sequência

 identificador (e código de inserção). Portanto, para gerar um id único para

 cada hetero-resíduo, águas e outros hetero-resíduos são tratados em um

 maneira diferente.

 Lembre-se que o objeto Residue tem a tupla (hetfield, resseq, icode) como

 Eu iria. O campo het está em branco (“”) para aminoácidos e ácidos nucleicos, e um

 string para águas e outros hetero-resíduos. O conteúdo do hetfield

 é explicado abaixo.

###  Resíduos de água

 A seqüência de hetfield de um resíduo de água consiste na letra “W”. Então um

 O id de resíduo típico para uma água é ("W", 1, "").

###  Outros hetero-resíduos

 A string hetfield para outros hetero-resíduos começa com "H_" seguido

 pelo nome do resíduo. Uma molécula de glicose, por exemplo, com o nome de resíduo "GLC"

 teria hetfield “H_GLC”. Seu id de resíduo pode ser, por exemplo, ("H_GLC", 1,

 “”).

 Navegando por um objeto Estrutura

####  Analise um arquivo PDB e extraia alguns objetos Model, Chain, Residue e Atom {# parse-a-pdb-file-and-extract-some-model-chain-waste-and-atom-objects .unnumbered}


In [39]:
from Bio.PDB.PDBParser import PDBParser
parser = PDBParser()
structure = parser.get_structure("test", "data/pdb1fat.ent")
model = structure[0]
chain = model["A"]
residue = chain[1]
atom = residue["CA"]




#### Iterating through all atoms of a structure {#iterating-through-all-atoms-of-a-structure .unnumbered}




#### Iterando por todos os átomos de uma estrutura {# iterando-através-de-todos-os-átomos-de-uma-estrutura .numerado}


In [40]:
p = PDBParser()
structure = p.get_structure('X', 'data/pdb1fat.ent')
for model in structure:
    for chain in model:
        for residue in chain:
            for atom in residue:
                print(atom)

<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom CD1>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE1>
<Atom NE2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom NE>
<Atom CZ>
<Atom NH1>
<Atom NH2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom 




There is a shortcut if you want to iterate over all atoms in a
structure:




Existe um atalho se você quiser iterar sobre todos os átomos em um

 estrutura:


In [41]:
atoms = structure.get_atoms()
for atom in atoms:
    print(atom)

<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom CD1>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE1>
<Atom NE2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom NE>
<Atom CZ>
<Atom NH1>
<Atom NH2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom 


Similarly, to iterate over all atoms in a chain, use




Da mesma forma, para iterar sobre todos os átomos em uma cadeia, use


In [42]:
atoms = chain.get_atoms()
for atom in atoms:
    print(atom)

<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom OG>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom OD2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG1>
<Atom CG2>
<Atom CD1>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom OH>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom OD1>
<Atom ND2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom CE1>
<Atom CE2>
<Atom CZ>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom OE1>
<Atom NE2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD>
<Atom NE>
<Atom CZ>
<Atom NH1>
<Atom NH2>
<Atom N>
<Atom CA>
<Atom C>
<Atom O>
<Atom CB>
<Atom CG>
<Atom CD1>
<Atom CD2>
<Atom 


#### Iterating over all residues of a model {#iterating-over-all-residues-of-a-model .unnumbered}

or if you want to iterate over all residues in a model:




#### Iterando sobre todos os resíduos de um modelo {# iterando-sobre-todos-os-resíduos-de-um-modelo. Não numerado}

 ou se você deseja iterar sobre todos os resíduos em um modelo:


In [43]:
residues = model.get_residues()
for residue in residues:
    print(residue)

<Residue SER het=  resseq=1 icode= >
<Residue ASN het=  resseq=2 icode= >
<Residue ASP het=  resseq=3 icode= >
<Residue ILE het=  resseq=4 icode= >
<Residue TYR het=  resseq=5 icode= >
<Residue PHE het=  resseq=6 icode= >
<Residue ASN het=  resseq=7 icode= >
<Residue PHE het=  resseq=8 icode= >
<Residue GLN het=  resseq=9 icode= >
<Residue ARG het=  resseq=10 icode= >
<Residue PHE het=  resseq=11 icode= >
<Residue ASN het=  resseq=12 icode= >
<Residue GLU het=  resseq=13 icode= >
<Residue THR het=  resseq=14 icode= >
<Residue ASN het=  resseq=15 icode= >
<Residue LEU het=  resseq=16 icode= >
<Residue ILE het=  resseq=17 icode= >
<Residue LEU het=  resseq=18 icode= >
<Residue GLN het=  resseq=19 icode= >
<Residue ARG het=  resseq=20 icode= >
<Residue ASP het=  resseq=21 icode= >
<Residue ALA het=  resseq=22 icode= >
<Residue SER het=  resseq=23 icode= >
<Residue VAL het=  resseq=24 icode= >
<Residue SER het=  resseq=25 icode= >
<Residue SER het=  resseq=26 icode= >
<Residue SER het=  re


You can also use the `Selection.unfold_entities` function to get all
residues from a structure:




Você também pode usar a função `Selection.unfold_entities` para obter todos

 resíduos de uma estrutura:


In [45]:
from Bio.PDB import Selection
res_list = Selection.unfold_entities(structure, 'R')


or to get all atoms from a chain:




ou para obter todos os átomos de uma cadeia:


In [46]:
atom_list = Selection.unfold_entities(chain, 'A')


Obviously, `A=atom, R=residue, C=chain, M=model, S=structure`. You can
use this to go up in the hierarchy, e.g. to get a list of (unique)
`Residue` or `Chain` parents from a list of `Atoms`:




Obviamente, `A=atom, R=residue, C=chain, M=model, S=structure` . Você pode

 use isso para subir na hierarquia, por exemplo, para obter uma lista de (exclusivo)

 Pais `Residue` ou `Chain` de uma lista de `Atoms` :


In [47]:
residue_list = Selection.unfold_entities(atom_list, 'R')
chain_list = Selection.unfold_entities(atom_list, 'C')


For more info, see the API documentation.

#### Extract a hetero residue from a chain (e.g. a glucose (GLC) moiety with resseq 10) {#extract-a-hetero-residue-from-a-chain-e.g.-a-glucose-glc-moiety-with-resseq-10 .unnumbered}




Para obter mais informações, consulte a documentação da API.

####  Extrair um hetero-resíduo de uma cadeia (por exemplo, uma porção de glicose (GLC) com resseq 10) {# extrair um hetero-resíduo-de-uma-cadeia-eg-a-glicose-glc-porção-com-resseq-10 .unnumbered}


In [50]:
residue_id = ("H_GLC", 10, " ")
residue = chain[residue_id]

KeyError: ('H_GLC', 10, ' ')


#### Print all hetero residues in chain {#print-all-hetero-residues-in-chain .unnumbered}




#### Imprimir todos os hetero-resíduos na cadeia {# print-all-hetero-residues-in-chain .unnumbered}


In [51]:
for residue in chain.get_list():
    residue_id = residue.get_id()
    hetfield = residue_id[0]
    if hetfield[0]=="H":
        print(residue_id)

('H_NAG', 253, ' ')
('H_ MN', 254, ' ')
('H_ CA', 255, ' ')



#### Print out the coordinates of all CA atoms in a structure with B factor greater than 50 {#print-out-the-coordinates-of-all-ca-atoms-in-a-structure-with-b-factor-greater-than-50 .unnumbered}




#### Imprima as coordenadas de todos os átomos de CA em uma estrutura com fator B maior que 50 {# imprime-as-coordenadas-de-todos-ca-átomos-em-uma-estrutura-com-fator-b-maior-que -50 .numerado}


In [52]:
for model in structure.get_list():
    for chain in model.get_list():
        for residue in chain.get_list():
            if residue.has_id("CA"):
                ca = residue["CA"]
            if ca.get_bfactor() > 50.0:
                print(ca.get_coord())

[ 37.08000183 -30.40399933  47.35200119]
[ 36.82699966 -34.76300049  44.60400009]
[ 35.19300079 -31.86599922  42.84199905]
[ 32.28699875 -31.66300011  45.20399857]
[ 22.45100021  16.85000038  45.15999985]
[ 20.17900085  16.3920002   42.16999817]
[ 17.9090004   13.9630003   43.97000122]
[ 24.11400032 -36.94100189  43.60400009]
[ 22.43400002 -37.85499954  46.84600067]
[ 23.10899925 -10.96800041  59.67699814]
[ 19.83499908 -11.48900032  61.50299835]
[ 21.12599945  -8.67500019  63.69900131]
[ 19.63299942  -5.29899979  63.30799866]
[ 22.27599907  -3.39400005  61.48799896]
[ 21.125       -1.45500004  58.4090004 ]
[  9.02000046 -23.44199944  48.05500031]
[ 26.77499962 -32.12200165  55.05599976]
[ 19.93099976  11.31599998  35.06800079]
[ 19.93099976  11.31599998  35.06800079]
[ 19.93099976  11.31599998  35.06800079]
[ 45.60100174  30.21899986  45.20999908]
[ 45.82899857  33.47800064  43.29399872]
[ 43.58800125  31.43799973  40.97499847]
[ 45.64300156 -16.40500069  24.57699966]
[ 43.34000015 -1


#### Print out all the residues that contain disordered atoms {#print-out-all-the-residues-that-contain-disordered-atoms .unnumbered}




#### Imprima todos os resíduos que contêm átomos desordenados {# imprimir-todos-os-resíduos-que-contêm-átomos desordenados. Não numerado}


In [53]:
for model in structure.get_list():
    for chain in model.get_list():
        for residue in chain.get_list():
            if residue.is_disordered():
                resseq = residue.get_id()[1]
                resname = residue.get_resname()
                model_id = model.get_id()
                chain_id = chain.get_id()
                print(model_id, chain_id, resname, resseq)


#### Loop over all disordered atoms, and select all atoms with altloc A (if present) {#loop-over-all-disordered-atoms-and-select-all-atoms-with-altloc-a-if-present .unnumbered}

This will make sure that the SMCRA data structure will behave as if only
the atoms with altloc A are present.




#### Faça um loop sobre todos os átomos desordenados e selecione todos os átomos com altloc A (se presente) {# loop-over-all-disordered-atoms-and-select-all-atoms-with-altloc-a-if-present .unnumbered}

 Isso garantirá que a estrutura de dados SMCRA se comportará como se apenas

 os átomos com altloc A estão presentes.


In [54]:
for model in structure.get_list():
    for chain in model.get_list():
        for residue in chain.get_list():
            if residue.is_disordered():
                for atom in residue.get_list():
                    if atom.is_disordered() and atom.disordered_has_id("A"):
                        atom.disordered_select("A")


#### Extracting polypeptides from a `Structure` object\[subsubsec:extracting\_polypeptides\] {#extracting-polypeptides-from-a-structure-objectsubsubsecextracting_polypeptides .unnumbered}

To extract polypeptides from a structure, construct a list of
`Polypeptide` objects from a `Structure` object using
`PolypeptideBuilder` as follows:




#### Extração de polipeptídeos de um objeto `Structure` [subsubsec: extracting_polypeptides] {# extracting-polypeptides-from-a-structure-objectsubsubecextracting_polypeptides .unnumbered}

 Para extrair polipeptídeos de uma estrutura, construa uma lista de

 Objetos `Polypeptide` de um objeto `Structure` usando

 `PolypeptideBuilder` seguinte forma:


In [55]:
model_nr = 1
polypeptide_list = build_peptides(structure, model_nr)
for polypeptide in polypeptide_list:
    print(polypeptide)

NameError: name 'build_peptides' is not defined


A Polypeptide object is simply a UserList of Residue objects, and is
always created from a single Model (in this case model 1). You can use
the resulting `Polypeptide` object to get the sequence as a `Seq` object
or to get a list of C$\alpha$ atoms as well. Polypeptides can be built
using a C-N or a C$\alpha$-C$\alpha$ distance criterion.

Example:




Um objeto polipeptídeo é simplesmente um objeto UserList of Residue, e é

 sempre criado a partir de um único modelo (neste caso, o modelo 1). Você pode usar

 o objeto `Polypeptide` resultante para obter a sequência como um objeto `Seq`

 ou para obter uma lista de átomos C $ \ alpha $ também. Os polipeptídeos podem ser construídos

 usando um critério de distância CN ou C $ \ alpha $ -C $ \ alpha $.

 Exemplo:


In [None]:
# Using C-N
ppb = PPBuilder()
for pp in ppb.build_peptides(structure):
    print(pp.get_sequence())

In [None]:
ppb = CaPPBuilder()
for pp in ppb.build_peptides(structure):
    print(pp.get_sequence())


Note that in the above case only model 0 of the structure is considered
by `PolypeptideBuilder`. However, it is possible to use
`PolypeptideBuilder` to build `Polypeptide` objects from `Model` and
`Chain` objects as well.

#### Obtaining the sequence of a structure {#obtaining-the-sequence-of-a-structure .unnumbered}

The first thing to do is to extract all polypeptides from the structure
(as above). The sequence of each polypeptide can then easily be obtained
from the `Polypeptide` objects. The sequence is represented as a
Biopython `Seq` object, and its alphabet is defined by a
`ProteinAlphabet` object.

Example:




Observe que, no caso acima, apenas o modelo 0 da estrutura é considerado

 por `PolypeptideBuilder` . No entanto, é possível usar

 `PolypeptideBuilder` para construir objetos `Polypeptide` do `Model` e

 Objetos de `Chain` também.

####  Obtendo a sequência de uma estrutura {# obtendo-a-sequência-de-uma-estrutura .numerada}

 A primeira coisa a fazer é extrair todos os polipeptídeos da estrutura

 (como acima). A sequência de cada polipeptídeo pode então ser facilmente obtida

 dos objetos `Polypeptide` . A sequência é representada como um

 Objeto Biopython `Seq` , e seu alfabeto é definido por um

 Objeto `ProteinAlphabet` .

 Exemplo:


In [56]:
seq = polypeptide.get_sequence()
print(seq)

NameError: name 'polypeptide' is not defined


Analyzing structures
--------------------

### Measuring distances

The minus operator for atoms has been overloaded to return the distance
between two atoms.




Analisando estruturas

###  Medindo distâncias

 O operador menos para átomos foi sobrecarregado para retornar a distância

 entre dois átomos.


In [57]:
# Get some atoms
ca1 = residue1['CA']
ca2 = residue2['CA']

NameError: name 'residue1' is not defined

In [None]:
distance = ca1-ca2


### Measuring angles

Use the vector representation of the atomic coordinates, and the
`calc_angle` function from the `Vector` module:




### Ângulos de medição

 Use a representação vetorial das coordenadas atômicas, e o

 função `calc_angle` do módulo `Vector` :


In [58]:
vector1 = atom1.get_vector()
vector2 = atom2.get_vector()
vector3 = atom3.get_vector()
angle = calc_angle(vector1, vector2, vector3)

NameError: name 'atom1' is not defined


### Measuring torsion angles

Use the vector representation of the atomic coordinates, and the
`calc_dihedral` function from the `Vector` module:




### Medindo ângulos de torção

 Use a representação vetorial das coordenadas atômicas, e o

 função `calc_dihedral` do módulo `Vector` :


In [59]:
vector1 = atom1.get_vector()
vector2 = atom2.get_vector()
vector3 = atom3.get_vector()
vector4 = atom4.get_vector()
angle = calc_dihedral(vector1, vector2, vector3, vector4)

NameError: name 'atom1' is not defined


### Determining atom-atom contacts

Use `NeighborSearch` to perform neighbor lookup. The neighbor lookup is
done using a KD tree module written in C (see `Bio.KDTree`), making it
very fast. It also includes a fast method to find all point pairs within
a certain distance of each other.

### Superimposing two structures

Use a `Superimposer` object to superimpose two coordinate sets. This
object calculates the rotation and translation matrix that rotates two
lists of atoms on top of each other in such a way that their RMSD is
minimized. Of course, the two lists need to contain the same number of
atoms. The `Superimposer` object can also apply the rotation/translation
to a list of atoms. The rotation and translation are stored as a tuple
in the `rotran` attribute of the `Superimposer` object (note that the
rotation is right multiplying!). The RMSD is stored in the `rmsd`
attribute.

The algorithm used by `Superimposer` comes from @golub1989 [Golub & Van
Loan] and makes use of singular value decomposition (this is implemented
in the general `Bio.SVDSuperimposer` module).

Example:




### Determinando contatos átomo-átomo

 Use `NeighborSearch` para executar pesquisa de vizinho. A pesquisa de vizinho é

 feito usando um módulo de árvore KD escrito em C (ver `Bio.KDTree` ), tornando-o

 muito rápido. Também inclui um método rápido para encontrar todos os pares de pontos dentro

 uma certa distância um do outro.

###  Sobrepondo duas estruturas

 Use um objeto `Superimposer` para sobrepor dois conjuntos de coordenadas. este

 objeto calcula a rotação e a matriz de translação que gira dois

 listas de átomos uns sobre os outros de forma que seu RMSD seja

 minimizado. Claro, as duas listas precisam conter o mesmo número de

 átomos. O objeto `Superimposer` também pode aplicar a rotação / translação

 a uma lista de átomos. A rotação e translação são armazenadas como uma tupla

 na `rotran` atributo do `Superimposer` objeto (note que o

 rotação é a multiplicação certa!). O RMSD é armazenado no `rmsd`

 atributo.

 O algoritmo usado pelo `Superimposer` vem de @ golub1989 [Golub e Van

 Empréstimo] e faz uso da decomposição de valor singular (isso é implementado

 no módulo geral `Bio.SVDSuperimposer` ).

 Exemplo:


In [61]:
from Bio.PDB import Superimposer
sup = Superimposer()

In [62]:
sup.set_atoms(fixed, moving)

NameError: name 'fixed' is not defined

In [63]:
print(sup.rotran)
print(sup.rms)

None
None


In [64]:
sup.apply(moving)

NameError: name 'moving' is not defined


To superimpose two structures based on their active sites, use the
active site atoms to calculate the rotation/translation matrices (as
above), and apply these to the whole molecule.

### Mapping the residues of two related structures onto each other

First, create an alignment file in FASTA format, then use the
`StructureAlignment` class. This class can also be used for alignments
with more than two structures.

### Calculating the Half Sphere Exposure

Half Sphere Exposure (HSE) is a new, 2D measure of solvent exposure
@hamelryck2005. Basically, it counts the number of C$\alpha$ atoms
around a residue in the direction of its side chain, and in the opposite
direction (within a radius of $13 \AA$). Despite its simplicity, it
outperforms many other measures of solvent exposure.

HSE comes in two flavors: HSE$\alpha$ and HSE$\beta$. The former only
uses the C$\alpha$ atom positions, while the latter uses the C$\alpha$
and C$\beta$ atom positions. The HSE measure is calculated by the
`HSExposure` class, which can also calculate the contact number. The
latter class has methods which return dictionaries that map a `Residue`
object to its corresponding HSE$\alpha$, HSE$\beta$ and contact number
values.

Example:




Para sobrepor duas estruturas com base em seus sites ativos, use o

 átomos de sites ativos para calcular as matrizes de rotação / translação (como

 acima), e aplique-os a toda a molécula.

###  Mapeando os resíduos de duas estruturas relacionadas entre si

 Primeiro, crie um arquivo de alinhamento no formato FASTA e, em seguida, use o

 Classe `StructureAlignment` . Esta classe também pode ser usada para alinhamentos

 com mais de duas estruturas.

###  Calculando a Exposição da Meia Esfera

 Exposição de meia esfera (HSE) é uma nova medida 2D de exposição ao solvente

 @ hamelryck2005. Basicamente, ele conta o número de átomos C $ \ alpha $

 em torno de um resíduo na direção de sua cadeia lateral, e na direção oposta

 direção (dentro de um raio de $ 13 \ AA $). Apesar de sua simplicidade,

 supera muitas outras medidas de exposição a solventes.

 O HSE vem em dois sabores: HSE $ \ alpha $ e HSE $ \ beta $. O primeiro apenas

 usa as posições do átomo C $ \ alpha $, enquanto o último usa as posições do átomo C $ \ alpha $

 e posições do átomo C $ \ beta $. A medida de HSE é calculada pelo

 Classe `HSExposure` , que também pode calcular o número de contato. o

 última classe tem métodos que retornam dicionários que mapeiam um `Residue`

 objeto ao seu HSE $ \ alpha $, HSE $ \ beta $ e número de contato correspondentes

 valores.

 Exemplo:


In [66]:
from Bio.PDB import HSExposure
model = structure[0]
hse = HSExposure()

TypeError: 'module' object is not callable

In [67]:
exp_ca = hse.calc_hs_exposure(model, option='CA3')

NameError: name 'hse' is not defined

In [None]:
exp_cb=hse.calc_hs_exposure(model, option='CB')

In [None]:
exp_fs = hse.calc_fs_exposure(model)

In [None]:
print(exp_ca[some_residue])


### Determining the secondary structure

For this functionality, you need to install DSSP (and obtain a license
for it — free for academic use, see <http://www.cmbi.kun.nl/gv/dssp/>).
Then use the `DSSP` class, which maps `Residue` objects to their
secondary structure (and accessible surface area). The DSSP codes are
listed in Table \[cap:DSSP-codes\]. Note that DSSP (the program, and
thus by consequence the class) cannot handle multiple models!

   Code         Secondary structure
  ------ ---------------------------------
    H             $\alpha$-helix
    B     Isolated $\beta$-bridge residue
    E                 Strand
    G               3-10 helix
    I               $\Pi$-helix
    T                  Turn
    S                  Bend
    -                  Other

  : \[cap:DSSP-codes\]DSSP codes in Bio.PDB.

The `DSSP` class can also be used to calculate the accessible surface
area of a residue. But see also section \[subsec:residue\_depth\].

### Calculating the residue depth\[subsec:residue\_depth\]

Residue depth is the average distance of a residue’s atoms from the
solvent accessible surface. It’s a fairly new and very powerful
parameterization of solvent accessibility. For this functionality, you
need to install Michel Sanner’s MSMS program
(<http://www.scripps.edu/pub/olson-web/people/sanner/html/msms_home.html>).
Then use the `ResidueDepth` class. This class behaves as a dictionary
which maps `Residue` objects to corresponding (residue depth, C$\alpha$
depth) tuples. The C$\alpha$ depth is the distance of a residue’s
C$\alpha$ atom to the solvent accessible surface.

Example:




### Determinando a estrutura secundária

 Para esta funcionalidade, você precisa instalar o DSSP (e obter uma licença

 para isso - gratuito para uso acadêmico, consulte [http://www.cmbi.kun.nl/gv/dssp/](http://www.cmbi.kun.nl/gv/dssp/) ).

 Em seguida, use a classe `DSSP` , que mapeia objetos `Residue` para seus

 estrutura secundária (e área de superfície acessível). Os códigos DSSP são

 listado na Tabela [cap: códigos DSSP]. Observe que DSSP (o programa, e

 portanto, por consequência, a classe) não pode lidar com vários modelos!

 Estrutura secundária de código

 : [cap: códigos DSSP] códigos DSSP em Bio.PDB.

 A classe `DSSP` também pode ser usada para calcular a superfície acessível

 área de um resíduo. Mas consulte também a seção [subsec: profundidade_de_resíduo].

###  Calculando a profundidade do resíduo [subsec: waste_depth]

 A profundidade do resíduo é a distância média dos átomos de um resíduo do

 superfície acessível ao solvente. É um relativamente novo e muito poderoso

 parametrização da acessibilidade ao solvente. Para esta funcionalidade, você

 preciso instalar o programa MSMS de Michel Sanner

 ( [http://www.scripps.edu/pub/olson-web/people/sanner/html/msms_home.html](http://www.scripps.edu/pub/olson-web/people/sanner/html/msms_home.html) ).

 Em seguida, use a classe `ResidueDepth` . Esta classe se comporta como um dicionário

 que mapeia os objetos `Residue` correspondentes (profundidade do resíduo, C $ \ alpha $

 profundidade) tuplas. A profundidade C $ \ alpha $ é a distância de um resíduo

 C $ \ alpha $ átomo à superfície acessível ao solvente.

 Exemplo:


In [69]:
from Bio.PDB import ResidueDepth
model = structure[0]
rd = ResidueDepth(model, pdb_file)
residue_depth, ca_depth=rd[some_residue]

NameError: name 'pdb_file' is not defined


You can also get access to the molecular surface itself (via the
`get_surface` function), in the form of a Numeric Python array with the
surface points.

Common problems in PDB files
----------------------------

It is well known that many PDB files contain semantic errors (not the
structures themselves, but their representation in PDB files). Bio.PDB
tries to handle this in two ways. The PDBParser object can behave in two
ways: a restrictive way and a permissive way, which is the default.

Example:




Você também pode obter acesso à própria superfície molecular (por meio do

 função `get_surface` ), na forma de uma matriz numérica Python com o

 pontos de superfície.

 Problemas comuns em arquivos PDB

 É bem sabido que muitos arquivos PDB contêm erros de semântica (não o

 estruturas próprias, mas sua representação em arquivos PDB). Bio.PDB

 tenta lidar com isso de duas maneiras. O objeto PDBParser pode se comportar em dois

 formas: uma forma restritiva e uma forma permissiva, que é o padrão.

 Exemplo:


In [70]:
# Permissive parser
parser = PDBParser(PERMISSIVE=1)
parser = PDBParser() # The same (default)

In [71]:
strict_parser = PDBParser(PERMISSIVE=0)


In the permissive state (DEFAULT), PDB files that obviously contain
errors are “corrected” (i.e. some residues or atoms are left out). These
errors include:

-   Multiple residues with the same identifier

-   Multiple atoms with the same identifier (taking into account the
    altloc identifier)

These errors indicate real problems in the PDB file (for details see
@hamelryck2003a [Hamelryck and Manderick, 2003]). In the restrictive
state, PDB files with errors cause an exception to occur. This is useful
to find errors in PDB files.

Some errors however are automatically corrected. Normally each
disordered atom should have a non-blank altloc identifier. However,
there are many structures that do not follow this convention, and have a
blank and a non-blank identifier for two disordered positions of the
same atom. This is automatically interpreted in the right way.

Sometimes a structure contains a list of residues belonging to chain A,
followed by residues belonging to chain B, and again followed by
residues belonging to chain A, i.e. the chains are ’broken’. This is
also correctly interpreted.

### Examples\[problem structures\]

The PDBParser/Structure class was tested on about 800 structures (each
belonging to a unique SCOP superfamily). This takes about 20 minutes, or
on average 1.5 seconds per structure. Parsing the structure of the large
ribosomal subunit (1FKK), which contains about 64000 atoms, takes 10
seconds on a 1000 MHz PC.

Three exceptions were generated in cases where an unambiguous data
structure could not be built. In all three cases, the likely cause is an
error in the PDB file that should be corrected. Generating an exception
in these cases is much better than running the chance of incorrectly
describing the structure in a data structure.

#### Duplicate residues

One structure contains two amino acid residues in one chain with the
same sequence identifier (resseq 3) and icode. Upon inspection it was
found that this chain contains the residues Thr A3, …, Gly A202, Leu A3,
Glu A204. Clearly, Leu A3 should be Leu A203. A couple of similar
situations exist for structure 1FFK (which e.g. contains Gly B64, Met
B65, Glu B65, Thr B67, i.e. residue Glu B65 should be Glu B66).

#### Duplicate atoms

Structure 1EJG contains a Ser/Pro point mutation in chain A at position
22. In turn, Ser 22 contains some disordered atoms. As expected, all
atoms belonging to Ser 22 have a non-blank altloc specifier (B or C).
All atoms of Pro 22 have altloc A, except the N atom which has a blank
altloc. This generates an exception, because all atoms belonging to two
residues at a point mutation should have non-blank altloc. It turns out
that this atom is probably shared by Ser and Pro 22, as Ser 22 misses
the N atom. Again, this points to a problem in the file: the N atom
should be present in both the Ser and the Pro residue, in both cases
associated with a suitable altloc identifier.

### Automatic correction

Some errors are quite common and can be easily corrected without much
risk of making a wrong interpretation. These cases are listed below.

#### A blank altloc for a disordered atom

Normally each disordered atom should have a non-blank altloc identifier.
However, there are many structures that do not follow this convention,
and have a blank and a non-blank identifier for two disordered positions
of the same atom. This is automatically interpreted in the right way.

#### Broken chains

Sometimes a structure contains a list of residues belonging to chain A,
followed by residues belonging to chain B, and again followed by
residues belonging to chain A, i.e. the chains are “broken”. This is
correctly interpreted.

### Fatal errors

Sometimes a PDB file cannot be unambiguously interpreted. Rather than
guessing and risking a mistake, an exception is generated, and the user
is expected to correct the PDB file. These cases are listed below.

#### Duplicate residues

All residues in a chain should have a unique id. This id is generated
based on:

-   The sequence identifier (resseq).

-   The insertion code (icode).

-   The hetfield string (“W” for waters and “H\_” followed by the
    residue name for other hetero residues)

-   The residue names of the residues in the case of point mutations (to
    store the Residue objects in a DisorderedResidue object).

If this does not lead to a unique id something is quite likely wrong,
and an exception is generated.

#### Duplicate atoms

All atoms in a residue should have a unique id. This id is generated
based on:

-   The atom name (without spaces, or with spaces if a problem arises).

-   The altloc specifier.

If this does not lead to a unique id something is quite likely wrong,
and an exception is generated.

Accessing the Protein Data Bank
-------------------------------

### Downloading structures from the Protein Data Bank

Structures can be downloaded from the PDB (Protein Data Bank) by using
the `retrieve_pdb_file` method on a `PDBList` object. The argument for
this method is the PDB identifier of the structure.




No estado permissivo (DEFAULT), os arquivos PDB que obviamente contêm

 os erros são “corrigidos” (ou seja, alguns resíduos ou átomos são deixados de fora). Estes

 os erros incluem:
-  Vários resíduos com o mesmo identificador
-  Vários átomos com o mesmo identificador (levando em consideração o identificador altloc)

 Esses erros indicam problemas reais no arquivo PDB (para obter detalhes, consulte

 @ hamelryck2003a [Hamelryck and Manderick, 2003]). No restritivo

 estado, os arquivos PDB com erros causam a ocorrência de uma exceção. Isso é útil

 para localizar erros em arquivos PDB.

 Alguns erros, entretanto, são corrigidos automaticamente. Normalmente cada

 átomo desordenado deve ter um identificador altloc não em branco. Contudo,

 existem muitas estruturas que não seguem esta convenção e têm um

 em branco e um identificador não em branco para duas posições desordenadas do

 mesmo átomo. Isso é interpretado automaticamente da maneira certa.

 Às vezes, uma estrutura contém uma lista de resíduos pertencentes à cadeia A,

 seguido por resíduos pertencentes à cadeia B, e novamente seguido por

 resíduos pertencentes à cadeia A, ou seja, as cadeias estão &#39;quebradas&#39;. Isto é

 também interpretado corretamente.

###  Exemplos [estruturas do problema]

 A classe PDBParser / Structure foi testada em cerca de 800 estruturas (cada

 pertencente a uma superfamília SCOP única). Isso leva cerca de 20 minutos, ou

 em média 1,5 segundos por estrutura. Analisando a estrutura do grande

 subunidade ribossômica (1FKK), que contém cerca de 64.000 átomos, leva 10

 segundos em um PC de 1000 MHz.

 Três exceções foram geradas nos casos em que dados inequívocos

 estrutura não pôde ser construída. Em todos os três casos, a causa provável é um

 erro no arquivo PDB que deve ser corrigido. Gerando uma exceção

 nesses casos é muito melhor do que correr a chance de errar

 descrevendo a estrutura em uma estrutura de dados.

####  Resíduos duplicados

 Uma estrutura contém dois resíduos de aminoácidos em uma cadeia com o

 mesmo identificador de sequência (resseq 3) e icode. Após a inspeção foi

 descobriram que esta cadeia contém os resíduos Thr A3, ..., Gly A202, Leu A3,

 Glu A204. Claramente, Leu A3 deve ser Leu A203. Um par de semelhantes

 existem situações para a estrutura 1FFK (que, por exemplo, contém Gly B64, Met

 B65, Glu B65, Thr B67, isto é, o resíduo Glu B65 deve ser Glu B66).

####  Átomos duplicados

 A estrutura 1EJG contém uma mutação de ponto Ser / Pro na cadeia A na posição
1.  Por sua vez, Ser 22 contém alguns átomos desordenados. Como esperado, todos

 átomos pertencentes a Ser 22 têm um especificador altloc não vazio (B ou C).

 Todos os átomos de Pro 22 têm altloc A, exceto o átomo N que tem um espaço em branco

 altloc. Isso gera uma exceção, porque todos os átomos pertencentes a dois

 os resíduos em uma mutação pontual devem ter altloc não em branco. Acontece que

 que este átomo é provavelmente compartilhado por Ser e Pro 22, como Ser 22 falha

 o átomo N. Novamente, isso aponta para um problema no arquivo: o átomo N

 deve estar presente tanto no resíduo Ser quanto no Pro, em ambos os casos

 associado a um identificador altloc adequado.

###  Correção automática

 Alguns erros são bastante comuns e podem ser facilmente corrigidos sem muito

 risco de fazer uma interpretação errada. Esses casos estão listados abaixo.

####  Um altloc em branco para um átomo desordenado

 Normalmente, cada átomo desordenado deve ter um identificador altloc não vazio.

 No entanto, existem muitas estruturas que não seguem esta convenção,

 e têm um identificador em branco e um não em branco para duas posições desordenadas

 do mesmo átomo. Isso é interpretado automaticamente da maneira certa.

####  Correntes quebradas

 Às vezes, uma estrutura contém uma lista de resíduos pertencentes à cadeia A,

 seguido por resíduos pertencentes à cadeia B, e novamente seguido por

 resíduos pertencentes à cadeia A, ou seja, as cadeias estão “quebradas”. Isto é

 interpretado corretamente.

###  Erros fatais

 Às vezes, um arquivo PDB não pode ser interpretado de forma inequívoca. Ao invés de

 adivinhar e arriscar um erro, uma exceção é gerada e o usuário

 espera-se que corrija o arquivo PDB. Esses casos estão listados abaixo.

####  Resíduos duplicados

 Todos os resíduos em uma cadeia devem ter um id único. Este id é gerado

 baseado em:
-  O identificador de sequência (resseq).
-  O código de inserção (icode).
-  A string hetfield ("W" para águas e "H_" seguido pelo nome do resíduo para outros hetero-resíduos)
-  Os nomes dos resíduos no caso de mutações pontuais (para armazenar os objetos Residue em um objeto DisorderedResidue).

 Se isso não levar a um id único, provavelmente algo está errado,

 e uma exceção é gerada.

####  Átomos duplicados

 Todos os átomos em um resíduo devem ter um id único. Este id é gerado

 baseado em:
-  O nome do átomo (sem espaços ou com espaços se surgir um problema).
-  O especificador altloc.

 Se isso não levar a um id único, provavelmente algo está errado,

 e uma exceção é gerada.

 Acessando o Banco de Dados de Proteínas

###  Baixando estruturas do banco de dados de proteínas

 As estruturas podem ser baixadas do PDB (Protein Data Bank) usando

 o método `retrieve_pdb_file` em um objeto `PDBList` . O argumento para

 este método é o identificador PDB da estrutura.


In [73]:
from Bio.PDB import PDBList
pdbl = PDBList()
pdbl.retrieve_pdb_file('1FAT')

Downloading PDB structure '1FAT'...


'/home/tiago_antao/biopython-notebook/notebooks/fa/pdb1fat.ent'


The `PDBList` class can also be used as a command-line tool:




A classe `PDBList` também pode ser usada como uma ferramenta de linha de comando:


```
python PDBList.py 1fat

```


```

python PDBList.py 1fat

```



The downloaded file will be called `pdb1fat.ent` and stored in the
current working directory. Note that the `retrieve_pdb_file` method also
has an optional argument `pdir` that specifies a specific directory in
which to store the downloaded PDB files.

The `retrieve_pdb_file` method also has some options to specify the
compression format used for the download, and the program used for local
decompression (default `.Z` format and `gunzip`). In addition, the PDB
ftp site can be specified upon creation of the `PDBList` object. By
default, the server of the Worldwide Protein Data Bank
(<ftp://ftp.wwpdb.org/pub/pdb/data/structures/divided/pdb/>) is used.
See the API documentation for more details. Thanks again to Kristian
Rother for donating this module.

### Downloading the entire PDB

The following commands will store all PDB files in the `/data/pdb`
directory:




O arquivo baixado será denominado `pdb1fat.ent` e armazenado no

 diretório de trabalho atual. Observe que o método `retrieve_pdb_file` também

 tem um argumento opcional `pdir` que especifica um diretório específico em

 qual armazenar os arquivos PDB baixados.

 O método `retrieve_pdb_file` também tem algumas opções para especificar o

 formato de compressão usado para o download, e o programa usado para local

 descompressão (formato `.Z` padrão e `gunzip` ). Além disso, o PDB

 O site ftp pode ser especificado na criação do objeto `PDBList` . De

 padrão, o servidor do Worldwide Protein Data Bank

 ( [ftp://ftp.wwpdb.org/pub/pdb/data/structures/divided/pdb/](ftp://ftp.wwpdb.org/pub/pdb/data/structures/divided/pdb/) ) é usado.

 Consulte a documentação da API para obter mais detalhes. Obrigado novamente a Kristian

 Rother por doar este módulo.

###  Baixando todo o PDB

 Os seguintes comandos irão armazenar todos os arquivos PDB no `/data/pdb`

 diretório:


```
python PDBList.py all /data/pdb

python PDBList.py all /data/pdb -d

```


```
python PDBList.py all /data/pdb python PDBList.py all /data/pdb -d
```



The API method for this is called `download_entire_pdb`. Adding the `-d`
option will store all files in the same directory. Otherwise, they are
sorted into PDB-style subdirectories according to their PDB ID’s.
Depending on the traffic, a complete download will take 2-4 days.

### Keeping a local copy of the PDB up to date

This can also be done using the `PDBList` object. One simply creates a
`PDBList` object (specifying the directory where the local copy of the
PDB is present) and calls the `update_pdb` method:




O método API para isso é chamado `download_entire_pdb` . Adicionando o `-d`

 opção irá armazenar todos os arquivos no mesmo diretório. Caso contrário, eles são

 classificados em subdiretórios de estilo PDB de acordo com seus IDs de PDB.

 Dependendo do tráfego, um download completo levará de 2 a 4 dias.

###  Manter uma cópia local do PDB atualizada

 Isso também pode ser feito usando o objeto `PDBList` . Simplesmente criamos um

 Objeto `PDBList` (especificando o diretório onde a cópia local do

 PDB está presente) e chama o método `update_pdb` :


In [75]:
pl = PDBList(pdb='/tmp/data/pdb')
pl.update_pdb()

TypeError: 'filter' object is not subscriptable