# Machine learning su aplicación en Biología

__Análisis de datos biológicos utilizando métodos de machine learning__

_MeIA_

`2023`

En la primera parte vimos cómo usar `Biophyton` para realizar diferentes tipos de análisis. En algunos análisis, especialmente si te interesa la estructura molecular, es importante que cuentes con herramientas que te permitan visualizar las macromoléculas. Ahora, usemos una biblioteca llamada `nglview` para visualizar las proteínas. Para instalar la biblioteca solo

pip install nglview

NGLview permite la visualización interactiva de estructuras moleculares tridimensionales.

# Un poco de historia sobre el estudio estructural de las proteínas.

Las proteínas están formadas por una secuencia de aminoácidos. Esta secuencia confiere las propiedades estructurales de las proteínas. Y son estas propiedades estructurales las que dan a las proteínas sus funciones en la célula. En la siguiente figura tenemos el alineamiento de dos proteínas, IRAK4 e IRAK1. Esta secuencia, bajo el efecto de interacciones inter e intramoleculares, formará estructuras secundarias y se enrollará, asumiendo una forma funcional que regulará una vía de inflamación.

<img src="./Figures/Protein_structure.png" width="800" height="800"/>

Así, estudiar la estructura de las proteínas nos permite:

1. Planificar medicamentos más efectivos y selectivos;
2. estudiar el plegamiento de proteínas asociadas a diversas enfermedades: enfermedad de Alzheimer, enfermedad de Parkinson, diabetes tipo II, demencia senil, esclerosis lateral amiotrófica, enfermedad de Huntington, entre otras;
3. evaluar el efecto de las mutaciones en las secuencias de aminoácidos. Tenemos el ejemplo de la mutación Mpro en SARS-CoV y SARS-CoV-2;
4. bioingeniería para catálisis enzimática...

Usaremos la biblioteca de Biopython para descargar los datos.

In [None]:
import Bio
from Bio.PDB import PDBList
pdbl = PDBList()
pdbl.retrieve_pdb_file('5uit', pdir = './PDB_files/', file_format = 'mmCif')
pdbl.retrieve_pdb_file('6bfn', pdir = './PDB_files/', file_format = 'mmCif')

## PDB

Las proteínas se obtienen de este servidor, conocido como PDB (https://www.rcsb.org/).

<img src="./Figures/PDB_screen.png" width="800" height="800"/>

También puede ir directamente al sitio web y descargar el archivo.

<img src="./Figures/PDB_screen-2.png" width="800" height="800"/>

En la página encontrará información sobre la estructura de la proteína

<img src="./Figures/PDB_screen-3.png" width="800" height="800"/>

Tendrás información sobre los ligandos presentes en la estructura

<img src="./Figures/PDB_screen-4.png" width="800" height="800"/>

E información experimental sobre la proteína. También encontrará el artículo (si lo hay) en el que se publicó el marco.

<img src="./Figures/PDB_screen-5.png" width="800" height="800"/>

In [None]:
import os
import nglview as nv

# IRAK4

In [None]:
filepath = os.path.join('PDB_files', '5uit.cif')
view = nv.show_file(filepath)
view

# IRAK1

In [None]:
filepath2 = os.path.join('PDB_files', '6bfn.cif')
view2 = nv.show_file(filepath2)
view2

# Cambiando la Representación Molecular

In [None]:
filepath3 = os.path.join('PDB_files', '2mlr.pdb')
view3 = nv.show_file(filepath3)
view3

In [None]:
#view3 = nv.show_file(filepath3)
view3.clear_representations()
view3.add_representation('ball+stick')
view3

Las representaciones disponibles son:
- `cartoon`: representación de la estructura secundaria de las proteínas (hélices alfa y láminas beta) y la estructura secundaria de los ácidos nucleicos;
- `base` - muestra las bases de los ácidos nucleicos. Generalmente se usa con representación de dibujos animados;
- `ball+stick`- representación de átomos como esferas conectadas por cilindros que representan enlaces;
- `licorice` - similar a ball+stick, pero no muestra las esferas de los átomos;
- `spacefill` - los átomos se representan como grandes esferas sin representar los enlaces
- `hyperball`: una derivación de 'bola+palo' en la que cada átomo está débilmente conectado.


# Estructura molecular con diferentes representaciones

In [None]:
view4 = nv.show_file(filepath3)
view4.clear_representations()
view4.add_representation('licorice', 'ligand', opacity=0.5)
view4.add_representation('cartoon', 'protein', color="blue", opacity=1)
view4.add_representation('contact')
view4.center()
view4

In [None]:
filepath4 = os.path.join('PDB_files', '1xs9.pdb')
view5 = nv.show_file(filepath4)
view5

# Para guardar una figura

In [None]:
view5.render_image()

In [None]:
view5.download_image()

# AlphaFold

Si la estructura de una proteína se define predominantemente por su secuencia de aminoácidos, **¿cómo predecir su estructura a partir de esa secuencia?**

Este es un problema muy relevante para la biología estructural. Debido a la complejidad del problema, se lleva a cabo una competencia llamada CASP (Critical Assessment of Structure Prediction) para evaluar la predicción de estructuras de proteínas utilizando varios métodos computacionales.

En CASP14 (2020), AlphaFold logró una precisión notable en la predicción de estructuras de proteínas (https://predictioncenter.org/casp14/zscores_final.cgi).

<img src="./Figures/AlphaFold.png" width="800" height="800"/>

AlphaFold es un nuevo enfoque de machine learning que incorpora conocimientos físicos y biológicos sobre la estructura de las proteínas, aprovechando las alineaciones de varias secuencias, en el diseño del algoritmo de deep learning. Recomendamos leer el artículo para más información sobre la metodología:

Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2

<img src="./Figures/AlphaFold-2.1.png" width="1000" height="1000"/>

Existe un banco de datos con milhões de estructuras de proteínas preditas

<img src="./Figures/AlphaFold-3.png" width="800" height="800"/>


Si desea modelar una proteína que no está en la base de datos, la sugerencia es usar AlphaFold en Google Colab:

https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb


<img src="./Figures/Colab.png" width="1000" height="1000"/>

Simplemente instale las dependencias y prepare el 'environment' haciendo clic en las dos primeras celdas. Una vez descargada las dependencias, nos proporciona una secuencia de aminoácidos:

<img src="./Figures/Colab-2.png" width="1000" height="1000"/>



<img src="./Figures/Colab-3.png" width="1000" height="1000"/>


<img src="./Figures/Colab-4.png" width="1000" height="1000"/>