#Lab.07 / IBM3202 ‚Äì Din√°mica Molecular en GROMACS

### Aspectos te√≥ricos

Como discutimos en clase, el mecanismo central de **din√°mica molecular (MD)** es **resolver num√©ricamente la ecuaci√≥n de movimiento de Newton** al derivar la **energ√≠a potencial** (es decir, la energ√≠a de las interacciones ligadas y no ligadas) para cada √°tomo durante la propagaci√≥n de sus cambios de posici√≥n a lo largo del tiempo. Estos cambios de posici√≥n son consecuencia tanto de las **interacciones √°tomo-√°tomo** como de los **movimientos t√©rmicos** (energ√≠a cin√©tica).


<figure>
<center>
<img src='https://raw.githubusercontent.com/pb3lab/ibm3202/master/images/MD_01.png'/>
<figcaption>FIGURA 1. El rendimiento (ns/d√≠a) de las simulaciones de din√°mica molecular depende de (A) el n√∫mero de √°tomos del sistema simulado y (B) el uso exclusivo de la CPU o combinado con nodos de GPU para realizar las simulaciones. <br> Kutzner C et al (2014) <i> IOS Press, 722-730</i>; Kutzner C et al (2019) <i> J Comput Chem 40(27), 2418-2431</i></figcaption></center>
</figure>

Dado que la mayor parte de la energ√≠a potencial es un c√°lculo de pares, con **la mayor√≠a de estos c√°lculos correspondientes a interacciones no ligadas** (y que requieren funciones de cambio y estrategias de corte de distancia para reducir sus costos computacionales), el **tiempo necesario para resolver estas ecuaciones aumenta exponencialmente con el n√∫mero de part√≠culas en el sistema**. En a√±os anteriores, estas necesidades computacionales se aliviaban t√≠picamente con inversiones costosas en hardware de potencia de c√°lculo de CPU. Pero en los √∫ltimos a√±os, se han desarrollado varios paquetes de simulaci√≥n de MD para calcular la mayor√≠a (si no todas) de las **interacciones no ligadas** en GPUs de grado consumidor, descargando la CPU y generando mejoras significativas de velocidad en computadoras asequibles.

Afortunadamente, con la llegada de la **computaci√≥n en la nube** y el surgimiento de **Google Colab**, se depende en gran medida del uso de GPUs. Por lo tanto, estos servicios en la nube se pueden utilizar eficientemente para realizar simulaciones de MD de **10 a 100 ns de duraci√≥n**.




##Aspectos Generales

Inspirados por la pandemia de COVID-19, en esta sesi√≥n de laboratorio realizaremos una simulaci√≥n de din√°mica molecular (MD) de la **proteasa tipo papaina de SARS-CoV-2**, un objetivo actual para el dise√±o de f√°rmacos contra este virus.

Para nuestra sesi√≥n de laboratorio, compilaremos e instalaremos **GROMACS**, un paquete de simulaci√≥n de MD que utilizaremos para configurar y llevar a cabo nuestras simulaciones. Visualizaremos la estructura de nuestra prote√≠na utilizando **py3Dmol**, mientras que las trayectorias de simulaci√≥n de nuestras ejecuciones de producci√≥n de MD se visualizar√°n en una versi√≥n web de **NGLview**. Tambi√©n analizaremos algunos par√°metros relacionados con la equilibraci√≥n adecuada de nuestro sistema de simulaci√≥n, pero un an√°lisis m√°s profundo de los movimientos de la prote√≠na se llevar√° a cabo en el pr√≥ximo tutorial.


<figure>
<center>
<img src='https://raw.githubusercontent.com/pb3lab/ibm3202/master/images/MD_02.jpg' />
<figcaption>FIGURA 2. Pasos generales para realizar simulaciones de din√°mica molecular (MD). Comenzando con una estructura de prote√≠na experimental o modelada, se prepara un sistema de simulaci√≥n configurando una caja de simulaci√≥n, solvatando la prote√≠na con agua y neutralizando la carga total del sistema con contraiones. Luego, se realizan las simulaciones, se visualizan y se analizan en t√©rminos de los movimientos de la prote√≠na y sus caracter√≠sticas energ√©ticas.
<br>Morgnanesi D et al (2015) <i>Antiviral Res 123, 204-215</i></figcaption></center>
</figure>

# Parte 0. Descarga e instalaci√≥n del software necesario


Antes de comenzar, debes:
1. Recordar **iniciar el entorno de ejecuci√≥n alojado** en Google Colab.
2. **¬°MUY IMPORTANTE‚ÄºÔ∏è** Ir a *Entorno de ejecuci√≥n* -> *Cambiar tipo de entorno de ejecuci√≥n* y seleccionar GPU.

Luego, debemos instalar tres piezas de software para realizar este tutorial, a saber:
- **biopython** para la manipulaci√≥n de archivos PDB.
- **py3Dmol** para la visualizaci√≥n de la estructura de la prote√≠na.
- **GROMACS** para preparar nuestro sistema de MD y realizar nuestras simulaciones de MD.

Para visualizar nuestras trayectorias de MD, emplearemos una versi√≥n web de **NGLview**. Esto se debe a la incapacidad de Google Colab para manejar un paquete de Python necesario para cargar NGLview directamente en Google Colab. Con suerte, esto cambiar√° en un futuro cercano. ¬°El an√°lisis de nuestras trayectorias se realizar√° principalmente en la pr√≥xima sesi√≥n de laboratorio!

1. Comenzaremos configurando **GROMACS** en Google Colab, bas√°ndonos en una instalaci√≥n y compilaci√≥n previas de GROMACS.


In [None]:
# Descarga y descomprime GROMACS 2023.3
!wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/software/gromacs-2023.3.tar.gz
!tar xzf gromacs-2023.3.tar.gz

In [None]:
# Revisando que funcione
%%bash
source /content/gromacs-2023/bin/GMXRC
gmx -h

2. Instalamos py3Dmol

In [None]:
#Usando pip
!pip install py3Dmol

In [None]:
#Importando py3Dmol
import py3Dmol

3. Instalamos **biopython**

In [None]:
#Usando pip
!pip install biopython

Una vez completados estos procesos de instalaci√≥n del software, estamos listos para realizar nuestros experimentos.


# Parte I ‚Äì Configuraci√≥n del sistema de simulaci√≥n de MD


GROningen Machine for Chemical Simulations (**GROMACS**) es un software de c√≥digo abierto y gratuito desarrollado por la Universidad de Groningen con un soporte consistente y continuo. Tambi√©n ha sido optimizado para c√°lculos maximizando el uso de todos los recursos computacionales disponibles (GPU y CPU). Una vez instalado, puedes acceder a todos los m√≥dulos que tiene para configurar, ejecutar y analizar simulaciones de MD simplemente ingresando:

**`gmx [m√≥dulo]`**

La lista de m√≥dulos se puede mostrar cuando **`[m√≥dulo]=help`**. ¬°Int√©ntalo aqu√≠!


In [None]:
# Necesitaremos constantemente cargar GMXRC para que GROMACS funcione
%%bash
source /content/gromacs-2023/bin/GMXRC

# ¬°Prueba gmx aqu√≠!


Los pasos iniciales para configurar un sistema para simulaciones de MD son:

1. Realizar una **limpieza** de las coordenadas at√≥micas de entrada.
2. **Parametrizar** los √°tomos que conforman nuestro sistema.
3. **Solvatar** nuestra prote√≠na (y agregar una membrana lip√≠dica en el caso de prote√≠nas de membrana).
4. **Agregar** contraiones para neutralizar la carga global del sistema.


### Parte I.1 ‚Äì Limpieza de las coordenadas at√≥micas de entrada


Para este paso, primero necesitamos un conjunto inicial de coordenadas at√≥micas, generalmente provenientes de una estructura de prote√≠na descargada del Banco de Datos de Prote√≠nas (PDB). Una vez descargados, estos archivos PDB deben limpiarse de mol√©culas de agua (en el caso de estructuras cristalinas) o debe seleccionarse un modelo √∫nico de entre muchas soluciones para un conjunto √∫nico de desplazamientos qu√≠micos (en el caso de estructuras de RMN).

1. Comenzaremos haciendo una carpeta para preparar nuestro sistema y ejecutar nuestras simulaciones, como hemos hecho en el pasado (¬ørecuerdas nuestro tutorial de Acoplamiento Molecular?).


In [None]:
# Primero hagamos una carpeta. Necesitamos importar las bibliotecas os y path
import os
from pathlib import Path

# Luego, definimos la ruta de la carpeta que queremos crear.
# Observa que la carpeta HOME para un entorno de ejecuci√≥n alojado en Colab es /content/
mdpath = Path("/content/md01/")

# Ahora, creamos la carpeta utilizando el comando os.mkdir()
# La condici√≥n if es solo para verificar si la carpeta ya existe
# En caso afirmativo, Python devuelve un error
if os.path.exists(mdpath):
  print("La ruta ya existe")
if not os.path.exists(mdpath):
  os.mkdir(mdpath)
  print("La ruta se cre√≥ correctamente")


2. Luego, cambiaremos al directorio de esta carpeta reci√©n creada y descargaremos la estructura recientemente resuelta por rayos X de la proteasa tipo papaina (PLpro) de SARS-CoV-2 (PDB 6WZU).


In [None]:
# Primero, cambiaremos al nuevo directorio. ¬°Usaremos Python ahora! :)
os.chdir(mdpath)

In [None]:
#Importa el PDB con biopython
import os
from Bio.PDB import *
pdbid = ['6wzu']
pdbl = PDBList()
for s in pdbid:
  pdbl.retrieve_pdb_file(s, pdir='.', file_format ="pdb", overwrite=True)
  os.rename("pdb"+s+".ent", s+".pdb")

3. Esta estructura tiene algunos residuos en dos conformaciones diferentes (¬ørecuerdas cuando discutimos la **ocupaci√≥n** en clases y durante nuestro segundo tutorial?). Podemos filtrar uno de ellos.


In [None]:
# Aqu√≠ configuramos un analizador para nuestro PDB
parser = PDBParser()
io = PDBIO()
estructura = parser.get_structure('X', '6wzu.pdb')
# Y aqu√≠ configuramos la conformaci√≥n del residuo que queremos conservar
keepAltID = "A"

class KeepOneConfOnly(Select):  # Hereda m√©todos de la clase Select
    def accept_atom(self, atom):
        if (not atom.is_disordered()) or atom.get_altloc() == keepAltID:
            atom.set_altloc(" ")  # Elimina el ID de la ubicaci√≥n alternativa antes de la salida.
            return True
        else:  # La ubicaci√≥n alternativa no era la que se va a guardar.
            return False
        # fin de accept_atom()

# Esto mantendr√° solo una conformaci√≥n para cada residuo
io.set_structure(estructura)
io.save("6wzu_ready.pdb", select=KeepOneConfOnly())
print("Tu archivo PDB fue procesado. Se eliminaron las conformaciones alternativas de las cadenas laterales.")

4. Com√∫nmente, las mol√©culas de agua cristalogr√°ficas y otras mol√©culas de solvente se eliminan de la estructura resuelta experimentalmente antes de preparar el sistema de MD. Esto tambi√©n es √∫til para eliminar hidr√≥genos, que a menudo se encuentran en estructuras de RMN, ya que son dif√≠ciles de manejar con las convenciones at√≥micas de un campo de fuerza dado. Podemos hacer esto usando `Dice` de **biopython**, como se muestra en la celda de c√≥digo a continuaci√≥n.

‚ùóÔ∏è**NOTA:** Este procedimiento no es universalmente apropiado. Algunas mol√©culas de agua podr√≠an ser esenciales para la funci√≥n de una prote√≠na y, por lo tanto, se mantendr√≠an en la simulaci√≥n. Adem√°s, `Dice` elimina los ligandos, que en algunos casos deben mantenerse dependiendo del objetivo de tus simulaciones y de la capacidad para parametrizar tus ligandos. A veces, ser√° m√°s √∫til usar `grep`. Por ejemplo:


  `!grep -v "HOH" 6WZU_ready.pdb > 6WZU_clean.pdb`
  
  Este comando grep eliminar√≠a solo las mol√©culas de agua del archivo PDB.

In [None]:
# Aqu√≠ configuramos un analizador para nuestro PDB
parser = PDBParser()
io = PDBIO()
estructura = parser.get_structure('X', '6wzu_ready.pdb')
# Y aqu√≠ eliminamos hidr√≥genos, mol√©culas de agua y ligandos usando Dice
io.set_structure(estructura)
sel = Dice.ChainSelector('A', 1, 5000)
io.save("6wzu_clean.pdb", sel)
print("Tu archivo PDB fue procesado. Solo se conservaron los √°tomos pesados de la prote√≠na.")


5. Carguemos la prote√≠na con la que estamos trabajando usando py3dmol


In [None]:
# Primero asignamos py3Dmol.view como view
view = py3Dmol.view()

# Las siguientes l√≠neas se utilizan para agregar la clase addModel
# para leer archivos PDB
view.addModel(open('6wzu_clean.pdb', 'r').read(), 'pdb')

# Aqu√≠ establecemos el color de fondo como blanco
view.setBackgroundColor('white')

# Aqu√≠ establecemos el estilo de visualizaci√≥n y color
view.setStyle({'chain':'A'}, {'cartoon': {'color':'spectrum'}})

# Centramos la vista en todos los √°tomos visibles
view.zoomTo()

# Finalmente, visualizamos las estructuras con el comando a continuaci√≥n
view.show()

### Parte I.2 ‚Äì Parametrizaci√≥n de los √°tomos que componen nuestro sistema


Ahora, trabajaremos con GROMACS para parametrizar nuestra prote√≠na, generando:

*   Un archivo de coordenadas **.gro** o **.pdb** que contiene todos los tipos de √°tomos seg√∫n lo definido por un campo de fuerza dado (incluyendo hidr√≥genos).
*   Un archivo de topolog√≠a **.top** que contiene los par√°metros para enlaces, √°ngulos, torsiones e interacciones no enlazadas definidas por un campo de fuerza dado (funci√≥n de energ√≠a potencial) para utilizar en nuestras simulaciones.

1. Parametrizaremos nuestra prote√≠na utilizando el campo de fuerza **AMBER99SB-ILDN** en GROMACS y obtendremos estos archivos utilizando `gmx`, como se muestra en la celda de c√≥digo a continuaci√≥n. Este campo de fuerza se utiliza ampliamente en simulaciones de din√°mica molecular y tiene par√°metros que representan bien la din√°mica y flexibilidad de prote√≠nas plegadas. Ten en cuenta que la din√°mica de prote√≠nas altamente m√≥viles o regiones intr√≠nsecamente desordenadas no es el conjunto principal de datos para el cual se parametriz√≥ este campo de fuerza, y puede haber otras opciones m√°s adecuadas para tales objetivos.


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

#Utilizando pdb2gmx para parametrizar nuestro archivo PDB con el campo de fuerza AMBER y agua SPC/E
gmx pdb2gmx -f 6wzu_clean.pdb -o 6wzu_processed.pdb -water spce -ignh -ff amber99sb-ildn

Cuando utilizamos este comando, la opci√≥n `-f` corresponde al archivo de entrada, la opci√≥n `-ff` permite definir el campo de fuerza a utilizar y la opci√≥n `-o` proporciona el nombre de salida para el archivo de coordenadas (.coordinate). El archivo de topolog√≠a recibe el nombre predeterminado `topol.top`, aunque esto se puede modificar con la opci√≥n `-p`.

Tambi√©n estamos indicando el tipo de mol√©cula de agua que utilizaremos en nuestras simulaciones a trav√©s de la opci√≥n `-water`. S√≠, hay muchos modelos de agua, pero sus caracter√≠sticas est√°n fuera del alcance de nuestro tutorial. Nuestro modelo de agua seleccionado es SPC/E (carga puntual simple - extendida), que modela las mol√©culas de agua como una mol√©cula de 3 puntos, cada una con su propia carga. TIP3P es un modelo de agua m√°s com√∫n, similar a SPC/E pero con par√°metros ligeramente diferentes. La precisi√≥n del modelo utilizado cambia seg√∫n los c√°lculos que realizar√°s, ya que su din√°mica y energ√©tica ser√°n diferentes.

‚ùóÔ∏è**NOTA:** Cuando trabajas con archivos NMR, es √∫til incorporar la opci√≥n `-ignh`, que permite ignorar los hidr√≥genos contenidos en el archivo PDB. Durante la parametrizaci√≥n, los hidr√≥genos siempre se a√±aden de nuevo por el campo de fuerza, ya que contiene los par√°metros de distancia t√≠picos para todos los √°tomos basados en an√°lisis experimental o de mec√°nica cu√°ntica.

### Parte I.3 ‚Äì Solvatando la prote√≠na

Ahora definiremos una caja peri√≥dica para nuestro sistema de simulaci√≥n, en la cual nuestra prote√≠na estar√° centrada, y luego llenaremos esta caja con mol√©culas de agua, logrando as√≠ la solvataci√≥n de nuestra prote√≠na.

Dado el uso de **condiciones de contorno peri√≥dicas** y los costos computacionales de la evaluaci√≥n de interacciones no enlazadas, es imperativo definir adecuadamente la distancia de la caja peri√≥dica de manera que sea lo suficientemente grande como para evitar interacciones entre nuestra mol√©cula y sus im√°genes peri√≥dicas, al mismo tiempo que se minimiza el n√∫mero de mol√©culas de agua (en esencia, el n√∫mero de interacciones no enlazadas a evaluar durante la simulaci√≥n).

A menudo se recomienda, para prote√≠nas globulares, tener una **distancia de relleno** entre el √°tomo de la prote√≠na m√°s alejado del centro de la caja peri√≥dica y sus bordes de 1.0 a 1.5 nm.
Si tu sistema tiene una dimensi√≥n mucho m√°s grande que las otras (por ejemplo, prote√≠nas fibrilares), es posible que desees dibujar esta caja peri√≥dica con m√°s cuidado.

1. En primer lugar, generaremos una caja peri√≥dica utilizando `editconf` de la siguiente manera:


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

#Ejecutar editconf para crear una caja c√∫bica con un relleno de 1.0 nm
gmx editconf -f 6wzu_processed.pdb -o 6wzu_newbox.pdb -c -d 1.0 -bt cubic

Las opciones proporcionadas a `editconf` permiten centrar (`-c`) las coordenadas de los √°tomos de nuestra prote√≠na (`-f`) en una caja c√∫bica (`-bt cubic`) con una distancia de relleno de 1.0 nm desde el borde de la caja (`-d 1.0`).

Dadas las condiciones de contorno peri√≥dicas, esto significa que el sistema estar√° a una distancia m√≠nima de 2.0 nm de s√≠ mismo, en la cual la mayor√≠a de los t√©rminos no enlazados est√°n fuera de rango entre las im√°genes peri√≥dicas debido al uso de umbrales de distancia. Por lo tanto, las √∫nicas mol√©culas que interactuar√°n entre los bordes de la caja peri√≥dica son las mol√©culas de agua e iones. Estas nuevas coordenadas y la caja de simulaci√≥n se guardan en un nuevo archivo de coordenadas (`-o`).


2. Una vez que la caja peri√≥dica est√° definida, procedemos a llenar esta caja con mol√©culas de agua utilizando `solvate`. Para hacerlo, ejecutamos:


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

#Usando solvate para a√±adir mol√©culas de agua
gmx solvate -cp 6wzu_newbox.pdb -o 6wzu_solv.pdb -p topol.top

Por favor, ten en cuenta que, dado que estamos a√±adiendo mol√©culas de agua a nuestro sistema de simulaci√≥n, estamos generando **un nuevo archivo de topolog√≠a** (opci√≥n `-p`) y **un nuevo archivo de coordenadas con las mol√©culas de agua a√±adidas** (opci√≥n `-o`).

Cada vez que escribimos un nuevo archivo de topolog√≠a (o cualquier archivo con el mismo nombre), GROMACS realiza una copia de seguridad del archivo anterior a√±adiendo un s√≠mbolo `#` (es decir, `#topol.top.1`) y luego genera el nuevo archivo .top. De esta manera, no es necesario preocuparse por hacer copias de seguridad de los archivos.


**PREGUNTA‚ùì:** A partir de la lectura de la salida del comando anterior, ¬øcu√°ntas mol√©culas de agua se a√±adieron?


3. ¬°Veamos el sistema solvatado utilizando py3Dmol! ¬øC√≥mo est√°n solvatando las mol√©culas de agua a la prote√≠na? ¬øEst√°n distribuidas homog√©neamente las mol√©culas?


In [None]:
# Primero asignamos py3Dmol.view como view
view = py3Dmol.view()
# Las siguientes l√≠neas se utilizan para agregar la clase addModel
# para leer archivos PDB
view.addModel(open('6wzu_solv.pdb', 'r').read(), 'pdb')
# Aqu√≠ establecemos el color de fondo como blanco
view.setBackgroundColor('white')
# Aqu√≠ configuramos el estilo de visualizaci√≥n y el color
view.setStyle({'cartoon': {'color': 'green'}})
# Aqu√≠ agregamos un estilo para mostrar el ox√≠geno de las mol√©culas de agua
view.addStyle({'atom': 'OW'}, {'sphere': {'radius': '0.2'}})
# Centramos la vista en todos los √°tomos visibles
view.zoomTo()
# Y finalmente visualizamos las estructuras con el siguiente comando
view.show()

## Parte I.4 ‚Äì A√±adiendo contraiones para neutralizar la carga global del sistema

Ahora tenemos una caja solvatada, pero nuestro sistema tiene una **carga no nula**. Esto es un problema, ya que cada caja peri√≥dica tendr√° una carga formal, lo que podr√≠a provocar que los potenciales electrost√°ticos sean irrealmente altos entre las im√°genes peri√≥dicas. Por lo tanto, necesitamos neutralizar las cargas de nuestro sistema de simulaci√≥n.

1. Determinemos f√°cilmente la carga absoluta en nuestro sistema utilizando `grep`.

In [None]:
!grep "qtot" topol.top

**Pregunta‚ùì:** Cu√°l es la carga total del sistema?

Para neutralizar el sistema de simulaci√≥n, reemplazaremos las mol√©culas de agua con los contraiones necesarios para que la carga absoluta del sistema sea **cero**. Aunque esto puede ser suficiente para prote√≠nas globulares en agua, en algunos casos podr√≠a ser m√°s √∫til alcanzar una concentraci√≥n de sal espec√≠fica o generar diferencias de carga, por ejemplo, en simulaciones de canales i√≥nicos en una bicapa lip√≠dica.


2. La adici√≥n de contraiones se logra construyendo un **archivo de entrada binario ejecutable port√°til para GROMACS**, o archivo **.tpr**. Este archivo contiene la informaci√≥n de las coordenadas, la topolog√≠a/par√°metros y un **archivo de instrucciones de din√°mica molecular** (**.mdp**). Este archivo de instrucciones contiene todos los par√°metros que se utilizar√°n para ejecutar diferentes c√°lculos, y puedes ingresar banderas que ser√°n le√≠das por programas espec√≠ficos.

  Descargaremos y utilizaremos un archivo **ions.mdp** predefinido (**¬°√©chale un vistazo!**) en nuestra carpeta de simulaci√≥n y generaremos el archivo de entrada de ejecuci√≥n .tpr ejecutando el siguiente comando con el m√≥dulo `grompp`:


In [None]:
%%bash
wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/ions.mdp
source /content/gromacs-2023/bin/GMXRC

#Utilizando grompp y un archivo de instrucciones de din√°mica molecular para a√±adir contraiones a nuestro sistema
gmx grompp -f ions.mdp -c 6wzu_solv.pdb -p topol.top -o ions.tpr

Por favor ten en cuenta que, en el caso de `grompp`, la opci√≥n `-f` se utiliza ahora para el archivo .mdp, mientras que `-c` se utiliza para las coordenadas.

3. Una vez hecho esto, ejecuta el m√≥dulo `genion` para reemplazar aleatoriamente mol√©culas de agua en tu sistema de simulaci√≥n con un n√∫mero y tipo apropiado de contraiones.

‚ùóÔ∏è**NOTA:** Por lo general, `gmx` **nos pedir√≠a interactivamente** que elijamos un grupo para este reemplazo (en nuestro caso, el grupo 13 "SOL", correspondiente a las mol√©culas de agua). Aqu√≠, estamos resolviendo la limitaci√≥n de hacer esto en Google Colab al **generar un archivo de texto con estas opciones**, que luego pasamos a `gmx` para que lo lea.

In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Este es un truco para proporcionar opciones interactivas a gmx
echo "SOL" > options
echo " " >> options

# Utilizando genion y el archivo tpr para a√±adir contraiones a nuestro sistema solvatado
gmx genion -s ions.tpr -o 6wzu_solv_ions.pdb -p topol.top -pname NA -nname CL -neutral < options

**Pregunta‚ùì:** Cu√°l es el tipo de iones monovalentes que a√±adimos? cuantos iones a√±adimos?

Hemos finalizado la preparaci√≥n del sistema de simulaci√≥n con nuestra prote√≠na en el centro de una caja c√∫bica con un relleno de 1.0 nm, solvatada en mol√©culas de agua y neutralizada con contraiones. ¬°Puedes optar por visualizarlo utilizando py3Dmol si lo deseas!


#Parte II ‚Äì Minimizaci√≥n y Equilibrado del Sistema de Din√°mica Molecular

Ahora, estamos listos para realizar la minimizaci√≥n de nuestro sistema para eliminar la alta energ√≠a y las fuerzas debido a malas coordenadas iniciales, as√≠ como su equilibrado a presi√≥n y temperatura constantes (conjunto NPT).

1. Comenzaremos descargando un archivo de instrucciones de din√°mica molecular que contiene todos los par√°metros necesarios para la minimizaci√≥n de nuestro sistema. Tambi√©n imprimiremos su contenido para inspeccionarlo.

In [None]:
!wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/em.mdp


In [None]:
#Revisemos el contenido del archivo MDP
!paste em.mdp

Como puedes ver, el proceso de minimizaci√≥n implica el uso de un integrador de **descenso m√°s pronunciado** (`steep`). Este integrador, junto con el m√©todo de gradiente conjugado (`cg`) y un m√©todo cuasi-newtoniano (`l-bfgs`), son **algoritmos de minimizaci√≥n** que, en lugar de resolver las posiciones para cambios en el gradiente (ecuaci√≥n de movimiento de Newton), buscan cambios en la posici√≥n que **minimizar√≠an la energ√≠a potencial**.

Estos protocolos de minimizaci√≥n (a veces llamados relajaci√≥n) se aseguran de que el **punto de inicio de nuestras simulaciones tenga un ŒîU lo suficientemente favorable** para que los algoritmos de Verlet y leapfrog (que permiten la **propagaci√≥n de cambios en las posiciones de los √°tomos para cada paso de tiempo**) sean num√©ricamente integrables.

En palabras m√°s sencillas, este paso es cr√≠tico, ya que comenzar desde una alta energ√≠a potencial puede generar desde simulaciones altamente divergentes, en los casos m√°s leves, hasta inestabilidades energ√©ticas que har√≠an que nuestro sistema sea imposible de integrar num√©ricamente (t√≠picamente conocido como un **"sistema que explota"**).


2. Preprocesaremos nuestros archivos con `grompp` y luego ejecutaremos nuestra din√°mica molecular con `mdrun`. Compara la similitud (y tambi√©n las diferencias) en el uso de `grompp` para a√±adir contraiones neutralizantes y para la minimizaci√≥n del sistema.


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Utilizando grompp para preparar nuestra din√°mica molecular de minimizaci√≥n
gmx grompp -f em.mdp -c 6wzu_solv_ions.pdb -p topol.top -o em.tpr

# Ejecutamos nuestra minimizaci√≥n
gmx mdrun -v -deffnm em -nb gpu

Para `mdrun`, estamos utilizando la opci√≥n de verborrea (`-v`) para mostrar los cambios en las fuerzas entre √°tomos durante la minimizaci√≥n del sistema. A medida que el sistema se minimiza, estas fuerzas deber√≠an reducirse en comparaci√≥n con el sistema inicial.

La opci√≥n `-deffnm` simplemente indica que todos los archivos generados por la din√°mica molecular tendr√°n el mismo nombre est√°ndar (en este caso, *em*) que el archivo .tpr generado con `grompp`.

**üìöTAREA:** Investiga qu√© archivos se han generado despu√©s de `mdrun`. ¬øQu√© contiene cada archivo generado? Si no lo sabes, **¬°b√∫scalo en Google!** Este paso es **obligatorio**.


üò± **¬°COPIA DE SEGURIDAD DE EMERGENCIA!** ¬øTe quedaste sin tiempo y no pudiste minimizar tu sistema? Utiliza la siguiente celda de c√≥digo para descargar un sistema ya minimizado:


In [None]:
#Usar s√≥lo en caso de emergencia
!wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/emergency_backup/lab07/6wzu_em.tar.gz
!tar xzf 6wzu_em.tar.gz

3. Una vez que nuestra minimizaci√≥n haya terminado, podemos verificar c√≥mo cambia la energ√≠a potencial del sistema en cada paso de minimizaci√≥n. Para ello, utilizaremos el m√≥dulo `energy` para extraer la energ√≠a potencial y luego la representaremos gr√°ficamente utilizando **matplotlib**:


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Este es un truco para proporcionar opciones interactivas a gmx
echo "Potential" > options
echo " " >> options

# Utilizando energy para extraer la energ√≠a potencial del sistema
gmx energy -f em.edr -o em_potential.xvg -xvg none < options

In [None]:
# Graficando la energ√≠a potencial del sistema
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
import numpy as np

# Leyendo el archivo de texto que contiene esta informaci√≥n
data = np.loadtxt('em_potential.xvg')

plt.title('Potential Energy during Minimization')
plt.xlabel('Energy Minimization Step')
plt.ylabel(r'E$_P$ [kJ‚Ä¢mol$^{-1}]$')
plt.plot(data[:,0], data[:,1], linestyle='solid', linewidth='2', color='red')
plt.show()

A continuaci√≥n, comenzaremos nuestra **equilibraci√≥n**. Este paso es necesario dado que optimizamos las posiciones de los √°tomos seg√∫n nuestro campo de fuerza, pero en ning√∫n momento maximizamos las interacciones entre el disolvente y el soluto. Tampoco hemos establecido el **efecto cin√©tico de la temperatura sobre los movimientos de los √°tomos** o la **presi√≥n de nuestro sistema**, lo que lo hace inconexo con las condiciones experimentales.

Por lo tanto, **equilibraremos la energ√≠a y la densidad de nuestro sistema a temperatura y presi√≥n constantes** antes de las ejecuciones de producci√≥n de la din√°mica molecular (MD).

4. El primer paso de equilibraci√≥n es la **temperatura**. Por lo tanto, comenzaremos una simulaci√≥n de din√°mica molecular (MD) para equilibrar el sistema a una temperatura objetivo (en nuestro caso, 300K) utilizando un ba√±o t√©rmico. Las velocidades iniciales para los √°tomos de nuestro sistema a la temperatura objetivo se obtienen a trav√©s de una distribuci√≥n de Maxwell.

  Primero descargaremos un archivo de instrucciones de MD adecuado y luego ejecutaremos nuestra simulaci√≥n como lo hicimos antes para la minimizaci√≥n. Tambi√©n ten en cuenta que ahora estamos utilizando **recursos de GPU** para las interacciones no enlazadas.

In [None]:
%%bash
wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/nvt.mdp

# Utilizando grompp para preparar nuestra din√°mica molecular de equilibraci√≥n NVT
source /content/gromacs-2023/bin/GMXRC
gmx grompp -f nvt.mdp -c em.gro -r em.gro -p topol.top -o nvt.tpr

In [None]:
%%time
%%bash
#Ejecutar nuestra din√°mica molecular de equilibraci√≥n NVT
source /content/gromacs-2023/bin/GMXRC
gmx mdrun -deffnm nvt -nb gpu

üò± **¬°COPIA DE SEGURIDAD DE EMERGENCIA!** ¬øTe quedaste sin tiempo y no pudiste realizar la equilibraci√≥n NVT de tu sistema? Utiliza la siguiente celda de c√≥digo para descargar un sistema ya equilibrado a temperatura:

In [None]:
#S√≥lo en caso de emergencia
!wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/emergency_backup/lab07/6wzu_nvt.tar.gz
!tar xzf 6wzu_nvt.tar.gz

Si observas el archivo de instrucciones de din√°mica molecular (MD) para este paso, notar√°s que ahora estamos utilizando un **algoritmo de leapfrog** (`md`) para la propagaci√≥n de los movimientos de la prote√≠na a lo largo del tiempo.

Entre varios par√°metros, podemos ver que los **√°tomos de hidr√≥geno est√°n restringidos**. Esto se debe a que esos n√∫cleos tienen poca masa y suelen estar dentro del radio de Lennard-Jones de una mol√©cula, carecen de cualquier tipo de movimiento di√©drico, y la distancia del enlace se conserva en gran medida. Es por eso que se utilizan algoritmos de restricci√≥n para simplificar las ecuaciones de movimiento, al tiempo que se conserva el efecto que tienen en la solvataci√≥n e interacciones. Dado que los movimientos internos m√°s r√°pidos corresponden a las vibraciones de los enlaces entre √°tomos ligeros (como el hidr√≥geno), su restricci√≥n permite el uso de **timesteps m√°s largos** (en nuestro caso, utilizaremos **2 fs**).

Finalmente, en este paso de equilibraci√≥n se utiliza un **algoritmo de restricci√≥n de posici√≥n** para mantener en su lugar los √°tomos pesados de nuestra prote√≠na. Esto se debe a que conocemos que la estructura de nuestra prote√≠na es en su mayor√≠a ideal (porque se modela a partir de datos experimentales), pero nuestras mol√©culas de disolvente se dibujaron alrededor de ella. Por lo tanto, en este paso mantendremos nuestra prote√≠na en su mayor√≠a en su lugar y permitiremos que el disolvente se reorganice alrededor de nuestra prote√≠na como esperar√≠amos que lo haga a 300 K. Esta informaci√≥n est√° en el archivo **posre.itp** (un archivo de restricci√≥n de posici√≥n) que se gener√≥ al principio del uso de GROMACS. Esta restricci√≥n se lleva a cabo mediante la opci√≥n `-r em.gro`.


5. Lo que acabamos de hacer corresponde a una configuraci√≥n de simulaci√≥n en la que el n√∫mero de √°tomos, el volumen y la temperatura se mantienen constantes: **conjunto NVT**. Por lo tanto, la temperatura del sistema deber√≠a oscilar alrededor de la temperatura deseada (en nuestro caso, 300 K). ¬°Verifiquemos si esto es cierto!


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Este es un truco para proporcionar opciones interactivas a gmx
echo "Temperature" > options
echo " " >> options

# Utilizando energy para extraer la temperatura del sistema durante la equilibraci√≥n NVT
gmx energy -f nvt.edr -o nvt_temp.xvg -xvg none < options

In [None]:
# Graficando la temperatura del sistema
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
import numpy as np

# Leyendo el archivo de texto que contiene esta informaci√≥n
data = np.loadtxt('nvt_temp.xvg')

plt.title('Temperature during 0.1 ns Equilibration (NVT)')
plt.xlabel('Time (ps)')
plt.ylabel('Temperature [K]')
plt.plot(data[:,0], data[:,1], linestyle='solid', linewidth='2', color='red')
plt.show()

6. El paso final de equilibraci√≥n nos permitir√° implementar la **regulaci√≥n de la presi√≥n** en nuestro sistema, lo que mantendr√° constante la densidad y presi√≥n de nuestro disolvente para que coincida con lo que esperar√≠amos para el modelo de agua SPC/E. Por lo tanto, en este caso utilizaremos un conjunto en el que el n√∫mero de √°tomos, la presi√≥n y la temperatura del sistema permanecen constantes: **el conjunto NPT**.

  Realizaremos los mismos pasos que hicimos antes: descargar un archivo de instrucciones de din√°mica molecular (MD) y luego utilizar `grompp` y `mdrun` para ejecutar la simulaci√≥n de MD. Una gran diferencia entre esta fase de simulaci√≥n y las anteriores es que emplearemos un **archivo de estado de punto de control** (nvt.cpt), que permite una continuaci√≥n num√©rica de nuestras simulaciones. Este archivo constituye un punto de control de la simulaci√≥n NVT anterior, que contiene la energ√≠a potencial del sistema y las velocidades.


In [None]:
%%bash
wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/npt.mdp

# Utilizando grompp para preparar nuestra din√°mica molecular de equilibraci√≥n NPT
source /content/gromacs-2023/bin/GMXRC
gmx grompp -f npt.mdp -c nvt.gro -r nvt.gro -t nvt.cpt -p topol.top -o npt.tpr

In [None]:
%%time
%%bash
# Ejecutar nuestra din√°mica molecular de equilibraci√≥n NPT
source /content/gromacs-2023/bin/GMXRC
gmx mdrun -deffnm npt -nb gpu

**‚ö†Ô∏èPRECAUCI√ìN:** Utilizamos un barostato de Parrinello-Rahman en lugar de Berendsen para la equilibraci√≥n NPT. Esto no deber√≠a ser un problema si el sistema est√° adecuadamente equilibrado; de lo contrario, la combinaci√≥n de restricciones y Parrinello-Rahman ser√≠a inapropiada, ya que podr√≠a conducir a inestabilidades.


üò± **¬°COPIA DE SEGURIDAD DE EMERGENCIA!** ¬øTe quedaste sin tiempo y no pudiste realizar la equilibraci√≥n NPT de tu sistema? Utiliza la siguiente celda de c√≥digo para descargar un sistema ya equilibrado a presi√≥n:


In [None]:
#Usar en caso de emergencia
!wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/emergency_backup/lab07/6wzu_npt.tar.gz
!tar xzf 6wzu_npt.tar.gz

7. Dado que estamos utilizando un conjunto NPT para mantener nuestra simulaci√≥n a una presi√≥n y densidad constantes, deber√≠amos verificar si se logra esto.


In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Este es un truco para proporcionar opciones interactivas a gmx
echo "Pressure" > options
echo "Density" >> options
echo " "

# Utilizando energy para extraer la presi√≥n y densidad del sistema durante la equilibraci√≥n NPT
gmx energy -f npt.edr -o npt_press_dens.xvg -xvg none < options

In [None]:
# Graficando la densidad del sistema
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
import numpy as np

# Leyendo el archivo de texto que contiene esta informaci√≥n
data = np.loadtxt('npt_press_dens.xvg')

plt.title('Presi√≥n durante 0.1 ns de Equilibraci√≥n (NPT)')
plt.xlabel('Tiempo (ps)')
plt.ylabel('Presi√≥n [bar]')
plt.ylim(-250,250)

# Suavizado utilizando Savitzky-Golay
from scipy.signal import savgol_filter
yhat = savgol_filter(data[:,1], 21, 5)

# Graficar datos brutos e interpolaci√≥n de splines
plt.plot(data[:,0], data[:,1], linestyle='solid', linewidth='2', color='red')
plt.plot(data[:,0], yhat, linestyle='solid', linewidth='2', color='blue')
plt.show()

In [None]:
# Graficando la presi√≥n del sistema
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')
import numpy as np

# Leyendo el archivo de texto que contiene esta informaci√≥n
data = np.loadtxt('npt_press_dens.xvg')

plt.title('Pressure during 0.1 ns Equilibration (NPT)')
plt.xlabel('Time (ps)')
plt.ylabel('Density [kg‚Ä¢m$^{-3}$]')
plt.ylim(1000,1020)
plt.plot(data[:,0], data[:,2], linestyle='solid', linewidth='2', color='red')
plt.show()

**PREGUNTA‚ùì:** ¬øCu√°l es el valor promedio de la densidad a lo largo de la trayectoria? ¬øTe suena familiar?

Una vez que se complete esta secci√≥n, podemos pasar a las simulaciones de MD de producci√≥n.

# Parte III ‚Äì Obtener una ejecuci√≥n de MD de producci√≥n y analizar los resultados


Ahora estamos listos para ejecutar nuestras simulaciones de din√°mica molecular (MD). Si estamos utilizando un conjunto NPT t√≠pico, simplemente podemos continuar nuestra simulaci√≥n de manera similar a nuestra segunda equilibraci√≥n, pero sin tener restricciones de posici√≥n (sin la opci√≥n `-r`).

1. Si has prestado atenci√≥n a nuestras ejecuciones de MD anteriores, comprender√°s completamente lo que se anota en las siguientes celdas de c√≥digo. Debido a limitaciones de tiempo y al tama√±o del sistema, solo generaremos **0.1 ns de ejecuciones de producci√≥n**, mientras que encontrar√°s que las simulaciones en art√≠culos actuales a menudo corresponden a cientos de ns.


In [None]:
%%bash
wget https://raw.githubusercontent.com/pb3lab/ibm3202/master/files/md.mdp

# Utilizando grompp para preparar nuestra simulaci√≥n de MD de producci√≥n
source /content/gromacs-2023/bin/GMXRC
gmx grompp -f md.mdp -c npt.gro -t npt.cpt -p topol.top -o md_1.tpr

In [None]:
# Verificar el contenido del archivo de MD de producci√≥n
!cat md.mdp

In [None]:
%%time
%%bash
# Ejecutar nuestra simulaci√≥n de MD de producci√≥n
source /content/gromacs-2023/bin/GMXRC
gmx mdrun -deffnm md_1 -nb gpu

2. Para finalizar, visualizaremos nuestra simulaci√≥n. Para ello, utilizaremos el m√≥dulo `trjconv` para extraer solo la prote√≠na de nuestro sistema y convertir nuestra trayectoria en un archivo PDB.

Dado que nuestra prote√≠na puede haberse desplazado desde el centro de la caja y llegar a sus bordes, tambi√©n aprovecharemos la oportunidad para recentrar la caja peri√≥dica en nuestra prote√≠na de modo que sus √°tomos no se extiendan a trav√©s de los bordes de las condiciones de contorno peri√≥dicas mediante las opciones `-pbc mol` y `-center`.

In [None]:
%%bash
source /content/gromacs-2023/bin/GMXRC

# Este es un truco para proporcionar opciones interactivas a gmx
echo "Protein" > options
echo "Protein" >> options
echo " "

# Utilizando trjconv para extraer solo los √°tomos de la prote√≠na de la trayectoria de simulaci√≥n
# y tambi√©n recentrar la prote√≠na si sus √°tomos cruzaron los l√≠mites peri√≥dicos
gmx trjconv -s md_1.tpr -f md_1.xtc -o md_1_protPBC.pdb -pbc mol -center < options

3. Ahora, puedes descargar este nuevo archivo PDB y cargarlo en [**NGLviewer**](http://nglviewer.org/ngl/) como un archivo PDB de **trayectoria** para visualizar los movimientos de la prote√≠na explorados en este breve tiempo de simulaci√≥n.

üò± **COPIA DE SEGURIDAD DE EMERGENCIA:** Si no obtuviste la trayectoria de MD de producci√≥n a tiempo, puedes descargar <a href="https://github.com/pb3lab/ibm3202/blob/master/files/emergency_backup/lab07/md_1_protPBC.pdb" target="_blank"/>esta trayectoria de 0.2 ns</a> haciendo clic con el bot√≥n derecho en *View Raw* y seleccionando la opci√≥n de descargar como archivo.

**¬°Y este es el final del s√©ptimo tutorial!** En el pr√≥ximo tutorial, aprenderemos c√≥mo realizar algunos an√°lisis de nuestras ejecuciones de MD de producci√≥n.

Si deseas descargar tus resultados, puedes realizar los siguientes comandos:

In [None]:
os.chdir("/content/")
!zip -r md.zip $mdpath
from google.colab import files
files.download("/content/md.zip")
os.chdir(mdpath)

**üìöTAREAS:** ¬°Una vez que hayas llegado hasta aqu√≠, puedes realizar varios ejercicios!

1. Intenta realizar la equilibraci√≥n sin minimizar el sistema de simulaci√≥n (es decir, omite el uso de em.mdp y pasa directamente a la equilibraci√≥n).
2. Cambia el paso de tiempo de 2 fs a 4 fs o 5 fs y observa qu√© sucede con el sistema de simulaci√≥n en t√©rminos de estabilidad. Si recibes algunas advertencias y no se compila el archivo .tpr, puedes agregar la opci√≥n `-maxwarn X`, donde `X` es el n√∫mero de advertencias de GROMACS que ignorar√°s.

Con estos ejemplos, ser√° posible entender mejor por qu√© definir el paso de tiempo adecuado y minimizar y equilibrar adecuadamente el sistema son pasos importantes en todas las simulaciones de MD.

3. Ejecuta tu simulaci√≥n durante m√°s tiempo (por ejemplo, 1 ns; ~ 1 h en Google Colab).
