
# Cargamos las librerias que vamos a usar en nuestro notebook

In [1]:
import nglview as nv
import mdtraj as md
import numpy as np

Estamos importando varias librerias de uso común para trabajar con sistemas biomoleculares.
Acontinuación las listamos junto con su web de documentación:

- [nglview](http://nglviewer.org/nglview/latest)
- [mdtraj](http://mdtraj.org)

### Nota

El lenguage o sintaxis que jupyter y otros servidores como github usan para intepretar texto decorado se llama Markdown. Puedes encontrar una guía básica en los siguientes enlaces:

https://guides.github.com/features/mastering-markdown/  
https://help.github.com/articles/basic-writing-and-formatting-syntax/  
https://daringfireball.net/projects/markdown/syntax  
https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet  
https://www.markdownguide.org/basic-syntax/  

Algunos servidores o aplicaciones pueden tener sus peculiaridades así que siempre es mejor echarle un ojo a la documentación específica, en este de jupyter:

https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Working%20With%20Markdown%20Cells.html

# proteína

### Representación de la estructura de la proteína

In [2]:
file_pdb = "Input_Files/4zh0.pdb"

In [3]:
nv.show_file(file_pdb)

A Jupyter Widget

Puedes jugar con el raton sobre la representación para hacer zoom, girar o descubrir la etiqueda de un aminoácido.

### Jugando con la topología y las coordenadas de la proteína

In [4]:
protein = md.load(file_pdb)

Veamos qué cosa es `protein`

In [5]:
protein

<mdtraj.Trajectory with 1 frames, 3795 atoms, 619 residues, and unitcells at 0x110322630>

Es un objeto de clase Trajectory de la libreria mdtraj. Como información extra los desarrolladores de mdtraj pensaron que podía ser buena idea imprimir en pantalla además el número de frames, el número de átomos y residuos y la celda unidad al invocar el objeto.

Veamos qué cosas tiene dentro el objeto `protein`

In [6]:
dir(protein)

['__add__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_check_valid_unitcell',
 '_distance_unit',
 '_have_unitcell',
 '_rmsd_traces',
 '_savers',
 '_string_summary_basic',
 '_time',
 '_time_default_to_arange',
 '_topology',
 '_unitcell_angles',
 '_unitcell_lengths',
 '_xyz',
 'atom_slice',
 'center_coordinates',
 'image_molecules',
 'join',
 'load',
 'make_molecules_whole',
 'n_atoms',
 'n_chains',
 'n_frames',
 'n_residues',
 'openmm_boxes',
 'openmm_positions',
 'remove_solvent',
 'restrict_atoms',
 'save',
 'save_amberrst7',
 'save_binpos',
 'save_dcd',
 'save_dtr',
 'save_gro',
 'save_hdf5',
 'save_lammpstrj',
 'save_lh5',
 'save_m

Así por ejemplo podemos acceder al número de átomos, número de frames y número de residuos almacenados en los correspondientes atributos de `protein` como `n_atoms`, `n_frames` y `n_residues`:

In [7]:
protein.n_atoms

3795

In [8]:
protein.n_frames

1

In [9]:
protein.n_residues

619

La función de python `help()` siempre resulta util para ver qué documentación aportan los desarrolladores para una clase, atributo o método. Por ejemplo, existe en `protein` el atributo `xyz` y todavía no sabemos qué contiene.

In [10]:
help(protein.xyz)

Help on ndarray object:

class ndarray(builtins.object)
 |  ndarray(shape, dtype=float, buffer=None, offset=0,
 |          strides=None, order=None)
 |  
 |  An array object represents a multidimensional, homogeneous array
 |  of fixed-size items.  An associated data-type object describes the
 |  format of each element in the array (its byte-order, how many bytes it
 |  occupies in memory, whether it is an integer, a floating point number,
 |  or something else, etc.)
 |  
 |  Arrays should be constructed using `array`, `zeros` or `empty` (refer
 |  to the See Also section below).  The parameters given here refer to
 |  a low-level method (`ndarray(...)`) for instantiating an array.
 |  
 |  For more information, refer to the `numpy` module and examine the
 |  methods and attributes of an array.
 |  
 |  Parameters
 |  ----------
 |  (for the __new__ method; see Notes below)
 |  
 |  shape : tuple of ints
 |      Shape of created array.
 |  dtype : data-type, optional
 |      Any objec

Desafortunadamente los desarrolladores no escribieron aquí información específica relevante. Únicamente se nos informa de que se trata de un objeto de tipo array de numpy. Pero podemos acudir a la documentación en la web de mdtraj: http://mdtraj.org/1.9.0/api/generated/mdtraj.Trajectory.html?highlight=xyz#mdtraj.Trajectory.xyz

In [11]:
protein.xyz

array([[[  4.21220016e+00,  -8.00599992e-01,   7.00120020e+00],
        [  4.22429991e+00,  -7.81400025e-01,   7.14750004e+00],
        [  4.08699989e+00,  -7.70200014e-01,   7.21129990e+00],
        ..., 
        [ -4.79699999e-01,   1.81110001e+00,   1.74710000e+00],
        [ -7.81400025e-01,   1.34609997e+00,   3.42090011e+00],
        [  1.00000005e-03,   7.46599972e-01,   7.35099983e+00]]], dtype=float32)

Como todo vector de mdtraj, `protein.xyz` tiene atributos y métodos muy útiles:
https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ndarray.html

In [12]:
protein.xyz.shape

(1, 3795, 3)

In [13]:
print("La máxima de coordenada z de un átomo es:", protein.xyz[0,:,2].max())

La máxima de coordenada z de un átomo es: 9.8625


In [14]:
print("La posición promedio en x de los átomos es:", protein.xyz[0,:,0].mean())

La posición promedio en x de los átomos es: 1.28144


Veamos si tenemos más suerte buscando documentación en un método de `protein` como `center_coordinates`:

In [15]:
help(protein.center_coordinates)

Help on method center_coordinates in module mdtraj.core.trajectory:

center_coordinates(mass_weighted=False) method of mdtraj.core.trajectory.Trajectory instance
    Center each trajectory frame at the origin (0,0,0).
    
    This method acts inplace on the trajectory.  The centering can
    be either uniformly weighted (mass_weighted=False) or weighted by
    the mass of each atom (mass_weighted=True).
    
    Parameters
    ----------
    mass_weighted : bool, optional (default = False)
        If True, weight atoms by mass when removing COM.
    
    Returns
    -------
    self



Podemos entonces trasladar la proteina ubicando su centro geométrico o su centro de masas en el origen de coordenadas.

In [16]:
protein.center_coordinates()

<mdtraj.Trajectory with 1 frames, 3795 atoms, 619 residues, and unitcells at 0x110322630>

Ahora podemos ver que el atributo `protein.xyz` cambió:

In [17]:
print("La máxima de coordenada z de un átomo es:", protein.xyz[0,:,2].max())
print("La posición promedio en x de los átomos es:", protein.xyz[0,:,0].mean())

La máxima de coordenada z de un átomo es: 5.70077
La posición promedio en x de los átomos es: 1.6083e-08


In [18]:
protein.topology

<mdtraj.Topology with 2 chains, 619 residues, 3795 atoms, 3727 bonds at 0x1126b5a90>

In [19]:
protein.topology.atom(10)

ASP28-CA

In [20]:
protein.topology.residue(4)

ASP31

In [21]:
chain_0 = protein.topology.chain(0)
chain_1 = protein.topology.chain(1)

In [22]:
chain_0.n_atoms

3662

In [23]:
chain_1.n_atoms

133

In [24]:
chain_1.atom(0)

HOH601-O

Ups, había 133 moléculas de agua. Las podemos quitar para continuar con el notebook.

In [25]:
protein_no_water = protein.remove_solvent()

In [26]:
protein_no_water.n_atoms

3662

En adelante llamaré como `protein` a `protein_no_water`

In [27]:
protein = protein_no_water

In [28]:
protein.n_atoms

3662

## Representando sobre la proteína valores numéricos en código de color

Por último veamos como podemos representar en código de color un atributo cuantificable de los residuos. En este ejemplo vamos a hacer dos representaciones según la exposición al solvente de átomos y residuos: 

### Exposición al solvente de los residuos

Podemos calcular el area accesible al solvente según el método de Shrake y Rupley (https://doi.org/10.1016/0022-2836(73)90011-9) implementado por los desarrolladores de mdtraj en su librería: http://mdtraj.org/latest/examples/solvent-accessible-surface-area.html

In [29]:
sasa_residues = md.shrake_rupley(protein,mode='residue')

Las dimensiones de la salida son: [índice_frame, índice_residue]

In [30]:
sasa_residues.shape

(1, 486)


Ahora representamos estos valores en código de color con ayuda de la librería NGLview. Para ello, y dado que a fecha de hoy NGLview no tiene un método que nos ayude, vamos a necesitar programar dos funciones auxiliares que nos permitan elegir la escala de color y el gradiente: 

In [31]:
def rgb2hex(rgb):
    
    r = int(rgb[0]) ; g = int(rgb[1]) ; b = int(rgb[2])
    hex = "0x{:02x}{:02x}{:02x}".format(r,g,b)
    return hex

def colorscale2hex(values,color_min=[255,255,255],color_max=[255,0,0],value_min=None,value_max=None,num_bins=254):
    
    if not value_min:
        value_min=values.min()
    if not value_max:
        value_max=values.max()
        
    color_bin=(np.array(color_max)-np.array(color_min))/float(num_bins)
    scale_bin=(value_max-value_min)/float(num_bins)
    
    colors_hex=[]
    for val in values:
        val_bin=(val-value_min)/scale_bin
        rgb_from_val=(color_bin*val_bin).astype(int)+np.array(color_min)
        colors_hex.append(rgb2hex(rgb_from_val))
    
    return colors_hex

In [32]:
colors = colorscale2hex(sasa_residues[0],value_min=0.0,value_max=sasa_residues[0].max())

Hemos traducido así cada valor numérico de sasa a un color:

In [33]:
for i_residue in range(protein.n_residues):
    print(protein.topology.residue(i_residue), 'tiene una sasa de', sasa_residues[0,i_residue],'y le corresponde el color',colors[i_residue])

GLN27 tiene una sasa de 1.66456 y le corresponde el color 0xff3e3e
ASP28 tiene una sasa de 1.03452 y le corresponde el color 0xff8787
LEU29 tiene una sasa de 0.711688 y le corresponde el color 0xffadad
SER30 tiene una sasa de 0.275212 y le corresponde el color 0xffdfdf
ASP31 tiene una sasa de 1.05754 y le corresponde el color 0xff8484
ARG32 tiene una sasa de 0.868398 y le corresponde el color 0xff9a9a
TYR33 tiene una sasa de 0.14653 y le corresponde el color 0xffeeee
GLU34 tiene una sasa de 0.833105 y le corresponde el color 0xff9f9f
SER35 tiene una sasa de 0.605384 y le corresponde el color 0xffb9b9
LEU36 tiene una sasa de 0.0179189 y le corresponde el color 0xfffdfd
ASN37 tiene una sasa de 0.141327 y le corresponde el color 0xffefef
ASN38 tiene una sasa de 0.724969 y le corresponde el color 0xffabab
LEU39 tiene una sasa de 0.371094 y le corresponde el color 0xffd4d4
LEU40 tiene una sasa de 0.00488994 y le corresponde el color 0xffffff
ASN41 tiene una sasa de 0.640217 y le corresponde

ASN486 tiene una sasa de 1.63743 y le corresponde el color 0xff4141
ALA487 tiene una sasa de 0.0561537 y le corresponde el color 0xfff9f9
GLN488 tiene una sasa de 1.5354 y le corresponde el color 0xff4d4d
SER489 tiene una sasa de 0.807556 y le corresponde el color 0xffa2a2
LEU490 tiene una sasa de 0.0830244 y le corresponde el color 0xfff6f6
GLN491 tiene una sasa de 0.755866 y le corresponde el color 0xffa8a8
ASN492 tiene una sasa de 0.686021 y le corresponde el color 0xffb0b0
ALA493 tiene una sasa de 0.00125795 y le corresponde el color 0xffffff
VAL494 tiene una sasa de 0.0766042 y le corresponde el color 0xfff7f7
SER495 tiene una sasa de 0.480839 y le corresponde el color 0xffc8c8
LYS496 tiene una sasa de 0.982149 y le corresponde el color 0xff8d8d
LYS497 tiene una sasa de 1.24363 y le corresponde el color 0xff6f6f
ASN498 tiene una sasa de 1.13241 y le corresponde el color 0xff7c7c
ASN499 tiene una sasa de 0.46464 y le corresponde el color 0xffc9c9
PRO500 tiene una sasa de 0.854333 y

In [34]:
view = nv.show_mdtraj(protein)
view.clear()
view.add_cartoon()
view.add_surface(opacity=0.1)
view._set_color_by_residue(colors)
view

A Jupyter Widget

### Representando los valores de Fst en la proteina
Para ello, primero leer el archivo que contiene los valores de Fst para cada aminoacido.

In [39]:
#FstFile = "Input_Files/FstValues_BabA.csv"
#FstFile_open = open(FstFile)
#FstFile_open.read()

'\ufeffGene,Postions_according_to_gene_aln,Positions_according_to_J99(nc),Positions_according_to_J99(aa),codon_positions,Fst,No. Strains,No.Strains_WithFilter\nHP1243,342,147,49,position 3,0.008692366,521,335\nHP1243,349,154,52,position 1,0.192376058,521,335\nHP1243,350,155,52,position 2,0.192376058,521,335\nHP1243,351,156,52,position 3,0.138537604,521,335\nHP1243,354,159,53,position 3,0.00462963,521,335\nHP1243,357,162,54,position 3,-0.006475295,521,335\nHP1243,359,164,55,position 2,0.201524757,521,335\nHP1243,361,166,56,position 1,0.048379512,521,335\nHP1243,363,168,56,position 3,0.018518519,521,335\nHP1243,365,170,57,position 2,0.415972518,521,335\nHP1243,366,171,57,position 3,0.027777778,521,335\nHP1243,370,175,59,position 1,0,521,335\nHP1243,372,177,59,position 3,0.008709268,521,335\nHP1243,375,180,60,position 3,0.259480842,521,335\nHP1243,377,182,61,position 2,0.011966711,521,335\nHP1243,379,184,62,position 1,0.122449705,521,335\nHP1243,380,185,62,position 2,0.053580045,521,335\n

In [53]:
import pandas as pd
#print (FstFile_open.iloc[1:2])
df=pd.read_csv("Input_Files/FstValues_BabA.csv", index_col=[0], usecols=['Positions_according_to_J99(aa)','Fst'])
print(df)

                                     Fst
Positions_according_to_J99(aa)          
49                              0.008692
52                              0.192376
52                              0.192376
52                              0.138538
53                              0.004630
54                             -0.006475
55                              0.201525
56                              0.048380
56                              0.018519
57                              0.415973
57                              0.027778
59                              0.000000
59                              0.008709
60                              0.259481
61                              0.011967
62                              0.122450
62                              0.053580
62                             -0.005524
64                              0.013889
64                              0.000000
66                              0.032407
67                              0.004630
68              