# Cargamos las librerias que vamos a usar en nuestro notebook

In [1]:
import nglview as nv
import mdtraj as md
import numpy as np

Estamos importando varias librerias de uso común para trabajar con sistemas biomoleculares.
Acontinuación las listamos junto con su web de documentación:

- [nglview](http://nglviewer.org/nglview/latest)
- [mdtraj](http://mdtraj.org)

'nota: este notebook contiene representaciones de nglview que no pueden ser mostradas en el repositorio de GitHub. Para verlas hay que ejecutar el notebook con jupyter.'

# Tu proteína

### Representación de la estructura de la proteína

In [2]:
file_pdb = "data/pdbs/1sux.pdb"

In [3]:
nv.show_file(file_pdb)

NGLWidget()

Puedes jugar con el raton sobre la representación para hacer zoom, girar o descubrir la etiqueda de un aminoácido.

### Jugando con la topología y las coordenadas de la proteína

In [4]:
protein = md.load(file_pdb)

Veamos qué cosa es `protein`

In [5]:
protein

<mdtraj.Trajectory with 1 frames, 4244 atoms, 882 residues, and unitcells at 0x7f48dc265eb8>

Es un objeto de clase Trajectory de la libreria mdtraj. Como información extra los desarrolladores de mdtraj pensaron que podía ser buena idea imprimir en pantalla además el número de frames, el número de átomos y residuos y la celda unidad al invocar el objeto.

Veamos qué cosas tiene dentro el objeto `protein`

In [6]:
dir(protein)

['__add__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_check_valid_unitcell',
 '_distance_unit',
 '_have_unitcell',
 '_rmsd_traces',
 '_savers',
 '_string_summary_basic',
 '_time',
 '_time_default_to_arange',
 '_topology',
 '_unitcell_angles',
 '_unitcell_lengths',
 '_xyz',
 'atom_slice',
 'center_coordinates',
 'image_molecules',
 'join',
 'load',
 'make_molecules_whole',
 'n_atoms',
 'n_chains',
 'n_frames',
 'n_residues',
 'openmm_boxes',
 'openmm_positions',
 'remove_solvent',
 'restrict_atoms',
 'save',
 'save_amberrst7',
 'save_binpos',
 'save_dcd',
 'save_dtr',
 'save_gro',
 'save_hdf5',
 'save_lammpstrj',
 'save_lh5',
 'save_m

Así por ejemplo podemos acceder al número de átomos, número de frames y número de residuos almacenados en los correspondientes atributos de `protein` como `n_atoms`, `n_frames` y `n_residues`:

In [7]:
protein.n_atoms

4244

In [8]:
protein.n_frames

1

In [9]:
protein.n_residues

882

In [10]:
protein.xyz

array([[[ 3.935 ,  6.7973,  8.821 ],
        [ 3.9749,  6.6556,  8.846 ],
        [ 4.0008,  6.5847,  8.7136],
        ...,
        [ 5.4503,  9.9947,  3.5676],
        [ 2.1271, 12.0195,  3.7828],
        [ 3.7123,  8.4602,  3.1446]]], dtype=float32)

Podemos acudir a la documentación en la web de mdtraj para tener información de estos atributos: http://mdtraj.org/1.9.0/api/generated/mdtraj.Trajectory.html?highlight=xyz#mdtraj.Trajectory.xyz

Como todo vector de numpy, `protein.xyz` tiene atributos y métodos muy útiles:
https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ndarray.html

In [11]:
protein.xyz.shape

(1, 4244, 3)

In [12]:
print("La máxima de coordenada z de un átomo es:", protein.xyz[0,:,2].max())

La máxima de coordenada z de un átomo es: 9.4138


In [13]:
print("La posición promedio en x de los átomos es:", protein.xyz[0,:,0].mean())

La posición promedio en x de los átomos es: 3.4574459


Además de atributos, `protein` tiene métodos como `center_coordinates`:

In [14]:
help(protein.center_coordinates)

Help on method center_coordinates in module mdtraj.core.trajectory:

center_coordinates(mass_weighted=False) method of mdtraj.core.trajectory.Trajectory instance
    Center each trajectory frame at the origin (0,0,0).
    
    This method acts inplace on the trajectory.  The centering can
    be either uniformly weighted (mass_weighted=False) or weighted by
    the mass of each atom (mass_weighted=True).
    
    Parameters
    ----------
    mass_weighted : bool, optional (default = False)
        If True, weight atoms by mass when removing COM.
    
    Returns
    -------
    self



Podemos entonces trasladar la proteina ubicando su centro geométrico o su centro de masas en el origen de coordenadas con `center_coordinates`.

In [15]:
protein.center_coordinates()

<mdtraj.Trajectory with 1 frames, 4244 atoms, 882 residues, and unitcells at 0x7f48dc265eb8>

Ahora podemos ver que el atributo `protein.xyz` cambió:

In [16]:
print("La máxima de coordenada z de un átomo es:", protein.xyz[0,:,2].max())
print("La posición promedio en x de los átomos es:", protein.xyz[0,:,0].mean())

La máxima de coordenada z de un átomo es: 3.9171782
La posición promedio en x de los átomos es: -1.4381516e-08


In [17]:
protein.topology

<mdtraj.Topology with 6 chains, 882 residues, 4244 atoms, 3936 bonds at 0x7f48dc615fd0>

In [18]:
protein.topology.atom(10)

SER3-OG

In [19]:
protein.topology.residue(4)

GLN6

In [21]:
protein.topology.chain

<bound method Topology.chain of <mdtraj.Topology with 6 chains, 882 residues, 4244 atoms, 3936 bonds at 0x7f48dc615fd0>>

In [27]:
for chain in protein.topology.chains:
    print('Cadena', chain.index, 'con', chain.n_atoms, 'átomos')

Cadena 0 con 1905 átomos
Cadena 1 con 1913 átomos
Cadena 2 con 25 átomos
Cadena 3 con 27 átomos
Cadena 4 con 184 átomos
Cadena 5 con 190 átomos


In [30]:
chain_0 = protein.topology.chain(0)

In [31]:
chain_0.atom(10)

SER3-OG

In [32]:
chain_0.residue(20)

LEU22

Además de encontrar las cadenas dentro de la topologia, tenemos una función para encontrar moléculas:

In [38]:
list_molecules = protein.topology.find_molecules()

In [39]:
len(list_molecules)

384

In [40]:
list_molecules

[{ALA2-N,
  ALA2-CA,
  ALA2-C,
  ALA2-O,
  ALA2-CB,
  SER3-N,
  SER3-CA,
  SER3-C,
  SER3-O,
  SER3-CB,
  SER3-OG,
  LYS4-N,
  LYS4-CA,
  LYS4-C,
  LYS4-O,
  LYS4-CB,
  LYS4-CG,
  LYS4-CD,
  LYS4-CE,
  LYS4-NZ,
  PRO5-N,
  PRO5-CA,
  PRO5-C,
  PRO5-O,
  PRO5-CB,
  PRO5-CG,
  PRO5-CD,
  GLN6-N,
  GLN6-CA,
  GLN6-C,
  GLN6-O,
  GLN6-CB,
  GLN6-CG,
  GLN6-CD,
  GLN6-OE1,
  GLN6-NE2,
  PRO7-N,
  PRO7-CA,
  PRO7-C,
  PRO7-O,
  PRO7-CB,
  PRO7-CG,
  PRO7-CD,
  ILE8-N,
  ILE8-CA,
  ILE8-C,
  ILE8-O,
  ILE8-CB,
  ILE8-CG1,
  ILE8-CG2,
  ILE8-CD1,
  ALA9-N,
  ALA9-CA,
  ALA9-C,
  ALA9-O,
  ALA9-CB,
  ALA10-N,
  ALA10-CA,
  ALA10-C,
  ALA10-O,
  ALA10-CB,
  ALA11-N,
  ALA11-CA,
  ALA11-C,
  ALA11-O,
  ALA11-CB,
  ASN12-N,
  ASN12-CA,
  ASN12-C,
  ASN12-O,
  ASN12-CB,
  ASN12-CG,
  ASN12-OD1,
  ASN12-ND2,
  TRP13-N,
  TRP13-CA,
  TRP13-C,
  TRP13-O,
  TRP13-CB,
  TRP13-CG,
  TRP13-CD1,
  TRP13-CD2,
  TRP13-NE1,
  TRP13-CE2,
  TRP13-CE3,
  TRP13-CZ2,
  TRP13-CZ3,
  TRP13-CH2,
  LYS14-N,
  LYS14-CA

En caso de que nuestro pdb contenga moléculas de agua. Las podemos quitar para continuar con el notebook.

In [41]:
protein_no_water = protein.remove_solvent()

In [42]:
protein_no_water.topology.find_molecules()

[{ALA2-N,
  ALA2-CA,
  ALA2-C,
  ALA2-O,
  ALA2-CB,
  SER3-N,
  SER3-CA,
  SER3-C,
  SER3-O,
  SER3-CB,
  SER3-OG,
  LYS4-N,
  LYS4-CA,
  LYS4-C,
  LYS4-O,
  LYS4-CB,
  LYS4-CG,
  LYS4-CD,
  LYS4-CE,
  LYS4-NZ,
  PRO5-N,
  PRO5-CA,
  PRO5-C,
  PRO5-O,
  PRO5-CB,
  PRO5-CG,
  PRO5-CD,
  GLN6-N,
  GLN6-CA,
  GLN6-C,
  GLN6-O,
  GLN6-CB,
  GLN6-CG,
  GLN6-CD,
  GLN6-OE1,
  GLN6-NE2,
  PRO7-N,
  PRO7-CA,
  PRO7-C,
  PRO7-O,
  PRO7-CB,
  PRO7-CG,
  PRO7-CD,
  ILE8-N,
  ILE8-CA,
  ILE8-C,
  ILE8-O,
  ILE8-CB,
  ILE8-CG1,
  ILE8-CG2,
  ILE8-CD1,
  ALA9-N,
  ALA9-CA,
  ALA9-C,
  ALA9-O,
  ALA9-CB,
  ALA10-N,
  ALA10-CA,
  ALA10-C,
  ALA10-O,
  ALA10-CB,
  ALA11-N,
  ALA11-CA,
  ALA11-C,
  ALA11-O,
  ALA11-CB,
  ASN12-N,
  ASN12-CA,
  ASN12-C,
  ASN12-O,
  ASN12-CB,
  ASN12-CG,
  ASN12-OD1,
  ASN12-ND2,
  TRP13-N,
  TRP13-CA,
  TRP13-C,
  TRP13-O,
  TRP13-CB,
  TRP13-CG,
  TRP13-CD1,
  TRP13-CD2,
  TRP13-NE1,
  TRP13-CE2,
  TRP13-CE3,
  TRP13-CZ2,
  TRP13-CZ3,
  TRP13-CH2,
  LYS14-N,
  LYS14-CA

Podemos también extraer subconjuntos de átomos con ayuda de mdtraj. Vamos a suponer que el pdb contiene varias moléculas y sólo queremos trabajar con la proteína.

In [68]:
list_atoms = protein.topology.select('protein')
list_atoms

array([   0,    1,    2, ..., 3815, 3816, 3817])

In [69]:
only_protein = protein.atom_slice(list_atoms)

En adelante llamaré como `protein` a `only_protein`

In [70]:
protein = only_protein

In [71]:
protein.n_atoms

3818

## Representando sobre la proteína valores numéricos en código de color

Por último veamos como podemos representar en código de color un atributo cuantificable de los residuos. En este ejemplo vamos a hacer dos representaciones según la exposición al solvente de átomos y residuos: 

### Exposición al solvente de los residuos

Podemos calcular el area accesible al solvente según el método de Shrake y Rupley (https://doi.org/10.1016/0022-2836(73)90011-9) implementado por los desarrolladores de mdtraj en su librería: http://mdtraj.org/latest/examples/solvent-accessible-surface-area.html

In [72]:
sasa_residues = md.shrake_rupley(protein,mode='residue')

Las dimensiones de la salida son: [índice_frame, índice_residue]

In [73]:
sasa_residues.shape

(1, 500)

Ahora representamos estos valores en código de color con ayuda de la librería NGLview. Para ello, y dado que a fecha de hoy NGLview no tiene un método que nos ayude, vamos a necesitar programar dos funciones auxiliares que nos permitan elegir la escala de color y el gradiente: 

In [74]:
def rgb2hex(rgb):
    
    r = int(rgb[0]) ; g = int(rgb[1]) ; b = int(rgb[2])
    hex = "0x{:02x}{:02x}{:02x}".format(r,g,b)
    return hex

def colorscale2hex(values,color_min=[255,255,255],color_max=[255,0,0],value_min=None,value_max=None,num_bins=254):
    
    if not value_min:
        value_min=values.min()
    if not value_max:
        value_max=values.max()
        
    color_bin=(np.array(color_max)-np.array(color_min))/float(num_bins)
    scale_bin=(value_max-value_min)/float(num_bins)
    
    colors_hex=[]
    for val in values:
        val_bin=(val-value_min)/scale_bin
        rgb_from_val=(color_bin*val_bin).astype(int)+np.array(color_min)
        colors_hex.append(rgb2hex(rgb_from_val))
    
    return colors_hex

In [75]:
colors = colorscale2hex(sasa_residues[0],value_min=0.0,value_max=sasa_residues[0].max())

Hemos traducido así cada valor numérico de sasa a un color:

In [76]:
for i_residue in range(protein.n_residues):
    print(protein.topology.residue(i_residue), 'tiene una sasa de', sasa_residues[0,i_residue],'y le corresponde el color',colors[i_residue])

ALA2 tiene una sasa de 1.2508988 y le corresponde el color 0xff5e5e
SER3 tiene una sasa de 0.94352484 y le corresponde el color 0xff8686
LYS4 tiene una sasa de 0.47758284 y le corresponde el color 0xffc2c2
PRO5 tiene una sasa de 0.27766648 y le corresponde el color 0xffdcdc
GLN6 tiene una sasa de 0.5817807 y le corresponde el color 0xffb4b4
PRO7 tiene una sasa de 0.10189363 y le corresponde el color 0xfff2f2
ILE8 tiene una sasa de 0.0 y le corresponde el color 0xffffff
ALA9 tiene una sasa de 0.012579462 y le corresponde el color 0xfffefe
ALA10 tiene una sasa de 0.018869191 y le corresponde el color 0xfffdfd
ALA11 tiene una sasa de 0.019399282 y le corresponde el color 0xfffdfd
ASN12 tiene una sasa de 0.04194304 y le corresponde el color 0xfffafa
TRP13 tiene una sasa de 0.05319981 y le corresponde el color 0xfff9f9
LYS14 tiene una sasa de 0.23989892 y le corresponde el color 0xffe1e1
CYS15 tiene una sasa de 0.0 y le corresponde el color 0xffffff
ASN16 tiene una sasa de 0.47018752 y le c

Ya podemos representar la proteína coloreando cada residuo de acuerdo a su area accesible al solvente en el cristal.

In [78]:
view = nv.show_mdtraj(protein)
view.clear()
view.add_cartoon()
view._set_color_by_residue(colors)
view

NGLWidget()

---

## Dudas de uso, problemas técnicos y soluciones.

Para centralizar esas dudas técnicas sobre el tema de este notebook o proponer soluciones o sugerencias más técnicas que queremos encontrar en el futuro comentadas y visibles para todos, haz uso del siguiente canal:

[Foro Técnico: 2.10 Interactuando con una proteína](https://github.com/uibcdf/Academia/issues/4)

## Documentación, tutoriales y recursos útiles

El propósito de este notebook es ser un documento únicamente introductorio. Puedes encontrar -o contribuir añadiendo- más información útil en el siguiente listado:

http://mdtraj.org
http://nglviewer.org/nglview/latest/
Futuro notebook de mdtraj
Futuro notebook de nglview
    
`Nota: Si crees echas en falta algún recurso que pueda ser de utilidad para futuros lectores, no dudes y sugerir añadirlo.`