<h1 style="text-align: center;">Seminario N°4:</h1>
<h1 style="text-align: center;">Compilación de sets de datos para QSAR</h1>


## 🎯  Objetivos

* Conocer el manejo de bases de datos disponibles para poder llevar cabo un análisis sistemático de relaciones estructura-actividad (SAR).
* Aplicar los conocimientos adquiridos en las actividades previas (Sem. y TP N°1 a 3) a un caso de estudio concreto y clínicamente relevante.
* Construir un conjunto de datos a ser utilizado en el TP N°4 para construir modelos de QSAR.

## 🔍 Introducción a las bases de datos químicas en QSAR

El desarrollo de modelos de relaciones cuantitativas estructura-actividad (QSAR) requiere contar con **conjuntos de datos curados, estructurados y relevantes**, tanto desde el punto de vista químico como biológico. Afortunadamente, existen numerosas **bases de datos públicas** que centralizan información sobre compuestos bioactivos, sus estructuras químicas, propiedades fisicoquímicas y actividades biológicas medidas experimentalmente.

Entre las más utilizadas en química medicinal y para el diseño de fármacos, se destacan:

- **PubChem**: a cargo del National Center for Biotechnology Information (NCBI); contiene millones de compuestos, bioensayos y datos experimentales.
- **ChEMBL**: a cargo del European Molecular Biology Laboratory del European Bioinformatics Institute (EMBL-EBI), con datos extraídos de literatura científica.
- **DrugBank**, **BindingDB**, **ZINC**, **PDB**, entre otras.

Cada una tiene características particulares, pero en esta actividad emplearemos ChEMBL: https://www.ebi.ac.uk/chembl/.


---

## 📦 ¿Qué es ChEMBL?

**ChEMBL** es una base de datos de bioactividad de compuestos químicos con interés farmacéutico/farmacológico, generada y mantenida por el EMBL-EBI. Algunos tipos de datos que reúne son:

- Información estructural y propiedades biofarmacéuticas (SMILES, InChI, peso molecular, logP, etc.) de compuestos.
- Información farmacológica (mecanismo de acción, fase clínica, nombre comercial).
- Actividades biológicas (IC₅₀, Kᵢ, EC₅₀, etc.) contra blancos moleculares definidos.
- Ensayos experimentales reportados en literatura, con conexión directa a la bibliografía.

<img src="ChEMBL.png" alt="Figura 1" width="600"/>

Los compuestos están organizados en torno a **blancos terapéuticos** (enzimas, receptores, transportadores) y pueden tener distintas **acciones farmacológicas** como agonistas, antagonistas, inhibidores u otros mecanismos.

Esto la convierte en una **fuente valiosa para desarrollar modelos QSAR**, ya que ofrece datos confiables y bien clasificados, fundamentales para correlacionar estructuras, propiedades y actividad biológica.

---

## 🎯 ¿Qué haremos en este seminario?

En esta clase aprenderemos a:

1. **Buscar, filtrar y compilar datos desde ChEMBL**, seleccionando un blanco biológico clínicamente relevante.
2. **Procesar y limpiar los datos**: por ejemplo, al eliminar duplicados, entradas inválidas o incompletas.
3. **Visualizar estructuras y propiedades moleculares**, y preparar los datos para su análisis.
4. **Explorar el espacio químico de los ligandos** para evaluar diferencias y semejanzas estructurales y de propiedades.
5. **Construir un conjunto de datos estructurado** para su uso posterior en modelos QSAR (TP N°4).

---


### 🔧 Instalación de ChEMBL en Python

Para poder acceder a la base de datos **ChEMBL** sin necesidad de trabajar en la página web, vamos a utilizar un **módulo oficial** que nos permite hacer consultas directas usando funciones simples.

Podemos instalarlo ejecutando la siguiente celda de código:

In [None]:
!pip install chembl_webresource_client

Además, como lo hemos hecho siempre, vamos a importar algunas **funciones específicas** que hemos preparado para esta clase a través del siguiente código:

In [None]:
!pip install numpy==1.24.4
!pip install chemplot
from FuncionesSem4 import *

### 🔎 Búsqueda de información sobre un fármaco conocido

La siguiente función permite buscar compuestos en ChEMBL utilizando su nombre comercial o genérico, y devuelve **toda** la información disponible para cada molécula.


In [None]:
df_farmaco = buscar_info_nombre_comercial("propranolol")
itables.show(df_farmaco)

### 🧬 Buscar información sobre un blanco terapéutico conocido

Además de fármacos, podríamos desear conocer información sobre blancos terapéuticos. La siguiente función permite buscar dichos datos en ChEMBL utilizando una palabra clave de receptores, enzimas, canales, etc., y devuelve **toda** la información asociada. 


In [None]:
df_target = buscar_info_target("adrenergic")
itables.show(df_target)

Ahora que ya conocemos a grandes rasgos cómo acceder y qué información podemos obtener de ChEMBL, podemos enfocarnos en un caso clínico concreto: **fármacos adrenérgicos**.

<h1 style="text-align: center;">Caso de estudio: Fármacos adrenérgicos</h1>

## 🔍 Exploración de ligandos adrenérgicos en fase clínica


📌 **Objetivo**: Obtener todos los ligandos (agonistas y antagonistas) de los cuatro principales receptores adrenérgicos humanos (α1, α2, β1 y β2) que se encuentran en fase 4 de desarrollo clínico (es decir, ya están aprobados o disponibles comercialmente), poseen estructura química conocida (SMILES disponibles), y tienen definido su mecanismo de acción farmacológica como agonistas o antagonistas.

La función que vamos a utilizar hace todo eso automáticamente y nos devuelve un único DataFrame con la siguiente información para cada compuesto:

* Su identificador ChEMBL ID,
* Su nombre comercial (si está disponible),
* Su estructura química (SMILES),
* El receptor en el que actúa,
* El tipo de acción (agonista o antagonista),



In [None]:
receptores = {
    "A1": "CHEMBL2094251", 
    "A2": "CHEMBL2095158",
    "B1": "CHEMBL213",
    "B2": "CHEMBL210"
}

df_ligandos = obtener_agonistas_antagonistas_adrenergicos(receptores)
itables.show(df_ligandos)

📸 **Visualizar** sus estructuras químicas puede ser muy útil. 

Para esto, vamos a utilizar la siguiente función que nos permite representar un conjunto de moléculas alineadas y organizadas por receptor, tipo de acción y nombre comercial.

Si queremos visualizar TODOS los resultados, la ejecutamos de la siguiente manera:

In [None]:
# Mostrar ambos tipos de acción para todos los receptores
dibujar_moleculas(df_ligandos)

📸 También podríamos definir qué datos dibujar. Por ejemplo, solamente agonistas de todos los receptores.

In [None]:
# Mostrar todos los agonistas 
dibujar_moleculas(df_ligandos, tipo_accion="AGONIST")

📸 O ser más específicos aún, y dibujar solamente aquellos con cierta actividad sobre blanco(s) en particular.

In [None]:
# Mostrar todos los agonistas de B2
dibujar_moleculas(df_ligandos, receptores_seleccionados=["B2"], tipo_accion="AGONIST")

#### 💡 Analice las siguientes estructuras, ¿identifican características comunes? ¿Cuál/es?

#### 💡 Ejecute las siguientes funciones para comparar la estructura de epinefrina (prototipo) con el de algunos de los fármacos aprobados. ¿Qué estrategias de diseño logran identificar? ¿Con qué fin creen que se han aplicado?


In [None]:
ids_moleculas = ["RIMITEROL", "ISOETHARINE HYDROCHLORIDE", "BITOLTEROL MESYLATE"]  
comparar_moleculas_con_template(df_ligandos, ids_moleculas, smiles_template="CNCC(O)c1ccccc1")

In [None]:
ids_moleculas = ["FENOTEROL", "METAPROTERENOL SULFATE", "TERBUTALINE SULFATE", "REPROTEROL"]  
comparar_moleculas_con_template(df_ligandos, ids_moleculas, smiles_template="CNCC(O)c1ccccc1")

In [None]:
ids_moleculas = ["ALBUTEROL", "PIRBUTEROL ACETATE", "CLENBUTEROL"]
comparar_moleculas_con_template(df_ligandos, ids_moleculas, smiles_template="CNCCO")

In [None]:
ids_moleculas = ["ALBUTEROL", "ALBUTEROL SULFATE", "LEVALBUTEROL HYDROCHLORIDE", "LEVALBUTEROL TARTRATE"]
comparar_moleculas_con_template(df_ligandos, ids_moleculas, smiles_template="CNCCO")

Desde el inicio del cuatrimestre, hemos enfatizado la importancia de las **propiedades** de los fármacos (o potenciales fármacos) y su relación con la estructura química y la actividad biológica. Hemos discutido, además, ciertos valores de referencia que la mayoría de los fármacos comparten. Estas características comunes, que definen la viabilidad de un compuesto como potencial fármaco, se agrupan bajo lo que se conoce como las propiedades **"drug-like"**.

Una de las teorías más comúnmente aplicadas en el proceso de diseño de fármacos es la de **Lipinski**, que establece una serie de reglas o límites para propiedades drug-like clave, como el **peso molecular** (<500), el **logP** (<5), la cantidad de **grupos donores** (<5) **y aceptores** (<10) **de puente hidrógeno**, y la **flexibilidad** (<10 enlaces rotables), que suelen ser características comunes en los fármacos orales efectivos. Según las reglas de Lipinski, un compuesto con más de uno de estos parámetros fuera de los rangos establecidos es menos probable que sea un buen candidato para ser un fármaco oral.

A continuación, analizaremos las propiedades de varios ligandos aprobados para su uso clínico y las compararemos con las propiedades "drug-like" propuestas por Lipinski, observando cómo se alinean con lo que hemos aprendido hasta ahora sobre diseño de fármacos

In [None]:
df_ligandos = calcular_propiedades(df_ligandos)
itables.show(df_ligandos)

Para facilitar el análisis, veámoslo gráficamente... ¿Cumplen con las reglas de Lipinski?

In [None]:
graficar_distribucion_descriptores(df_ligandos)

Ya hemos analizado los fármacos adrenérgicos que se encuentran aprobados para su uso clínico. Sin embargo, como dijimos al inicio, en ChEMBL también podemos obtener información de todas las moléculas que han sido evaluadas frente a estos blancos terapéuticos, hayan llegado o no a fase clínica. 

## 🔍 Exploración de ligandos adrenérgicos en fase exploratoria, preclínica y/o clínica


Comencemos por extraer todos los ligandos que posean algún tipo de reporte de actividad frente a los 4 receptores adrenérgicos, independientemente de si han avanzado o no hacia ensayos clínicos.

In [None]:
df_adrenergicos = descargar_ligandos_adrenergicos(receptores, df_ligandos)
df_adrenergicos

Como observan en la tabla, muchos ligandos pueden tener varios tipos de actividad biológica reportada (IC50, Ki, Kd, EC50, % de inhibición, etc.). 
Contemos entonces cuántos ligandos *únicos* hay reportado para cada receptor:

In [None]:
contar_ligandos_unicos_por_receptor(df_adrenergicos)

Asimismo, pueden existir ligandos que hayan sido evaluados frente a varios receptores, con resultados de actividad biológica idéntica, similar o diferente. 

In [None]:
df_pivot = actividad_por_receptor(df_adrenergicos, tipo_actividad="IC50")
itables.show(df_pivot)

#### **Espacio Químico**

En el ámbito de la química computacional y el diseño de fármacos, uno de los principales retos es comprender la relación entre la estructura molecular y sus propiedades. Una de las estrategias empleadas es visualizarlas en un **espacio químico**, en el que cada molécula se representa como un punto en un espacio multidimensional, basado en sus propiedades. Sin embargo, la representación de este espacio puede ser difícil de manejar debido a su alta dimensionalidad, especialmente cuando estamos trabajando con cientos o miles de compuestos.

Una de las técnicas más utilizadas para abordar este problema es la *reducción de dimensionalidad*, que nos permite proyectar este espacio químico multidimensional en una forma más comprensible y visualmente interpretable, manteniendo la mayor cantidad de información posible sobre las relaciones estructurales de las moléculas. Entre las herramientas más poderosas en este campo se encuentra *UMAP* (Uniform Manifold Approximation and Projection). UMAP es un algoritmo de reducción de dimensionalidad no lineal que se ha destacado por su capacidad para preservar las relaciones locales y globales en los datos, lo que lo hace ideal para representar estructuras químicas complejas.

En particular, el uso de UMAP permite representar un conjunto de estructuras de manera que **las moléculas químicamente similares se agrupen en el espacio reducido, mientras que las moléculas disímiles se separen**. Esto facilita la visualización de clusters o patrones que podrían no ser evidentes en la estructura original de los datos.

Para facilitar aún más la interpretación visual de estos datos, se han desarrollado herramientas como los **mapas químicos** o **chemplots**, que permiten representar gráficamente, intuitivamente y estéticamente agradables estos espacios químicos reducidos. 

Veamos un ejemplo de este tipo de mapas, aplicado a los ligandos adrenérgicos que filtramos. Primero, deberemos instalar el módulo *chemplot*, luego aplicar la reducción de dimensionalidad mediante UMAP (puede llevar un par de minutos), y finalmente graficar el resultado.

In [None]:
!pip install chemplot

In [None]:
df_adrenergicos_chemspace = determinar_chemspace(df_adrenergicos)
df_adrenergicos_chemspace

In [None]:
graficar_espacio_quimico(df_adrenergicos_chemspace)

#### **Preparación de datos para QSAR: agonistas β2 como fármacos broncodilatadores**

Para poder llevar adelante un análisis de relaciones cuantitativas estructura-actividad (QSAR), es fundamental trabajar con un conjunto de moléculas que compartan ciertas características. Idealmente, estas moléculas deben tener afinidad por el mismo blanco terapéutico, actuar mediante un mecanismo de acción similar, presentar cierto grado de semejanza estructural entre sí, y contar con datos de actividad biológica medidos bajo condiciones experimentales comparables. Esto asegura que las variaciones en la actividad puedan atribuirse, en buena medida, a diferencias estructurales y no a otros factores externos.

Con este objetivo en mente, y enfocándonos en compuestos activos sobre el receptor adrenérgico β2, vamos a aislar un subconjunto representativo de moléculas que cumplan con estos criterios. Este conjunto será utilizado en el TP N°4 como base para construir y evaluar modelos QSAR, facilitando así la interpretación y la predicción de relaciones estructura-actividad en este sistema biológico de interés.

Comencemos por separar ligandos con actividad frente a receptores beta de aquellos activos frente al receptor alfa.

In [None]:
df_alfa, df_beta = separar_alfa_beta(df_adrenergicos_chemspace)

In [None]:
df_alfa

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_alfa)

In [None]:
df_beta

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta)

Y ahora, aislemos solamente a los que tienen actividad frente al receptor β2.

In [None]:
df_beta1, df_beta2 = separar_beta1_beta2(df_beta)

In [None]:
df_beta1

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta1)

In [None]:
df_beta2

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta2)

Recordemos que uno de los requisitos fundamentales para realizar un análisis QSAR apropiado es que la potencia o actividad biológica de las moléculas esté expresada en el mismo tipo de parámetro y en las mismas unidades. Esto permite una comparación directa entre compuestos y asegura la coherencia de los modelos. Por esta razón, vamos a seleccionar exclusivamente aquellos ligandos del receptor adrenérgico β2 que tengan valores de IC50 reportados, ya que este es uno de los parámetros más comúnmente utilizados en la literatura para cuantificar actividad biológica.

In [None]:
df_beta2_IC50 = aislar_actividad_biologica(df_beta2, tipo='IC50')
itables.show(df_beta2_IC50)

Ahora nos enfrentamos a un problema. Como vemos en la tabla, en la columna *action_type*, muy pocos ligandos tienen informado su mecanismo de acción frente al receptor β2 adrenérgico, lo que a priori dificultaría la identificación de moléculas que actúan como agonistas o antagonistas de este blanco terapéutico. Sin embargo, al comparar las estructuras químicas de ligandos con distinto mecanismo, podemos encontrar una diferencia crucial que nos ayudará a clasificarlos. 

Ejecuten las siguientes funciones e intenten descifrar dicha diferencia:

In [None]:
#Agonistas β2 
ids_moleculas = ["ISOPROTERENOL", "ALBUTEROL","CLENBUTEROL"] 
comparar_moleculas_con_template(df_beta2_IC50, ids_moleculas, smiles_template="CNCCO")

In [None]:
#Antagonistas β2 
ids_moleculas = ["TIMOLOL", "CARVEDILOL", "PROPRANOLOL HYDROCHLORIDE", "ATENOLOL"]
comparar_moleculas_con_template(df_beta2_IC50, ids_moleculas, smiles_template="CNCCO")

Efectivamente, está ampliamente reportado que los antagonistas ... mientras que los agonistas ...

Entonces, aprovechemos estas diferencias estructurales para filtrar ligandos y clasificarlos como agonistas o antagonistas del receptor β2 adrenérgico.

In [None]:
df_beta2_antagonists = filtrar_por_grupo_funcional(df_beta2_IC50, smarts='OCC(O)CNC')
itables.show(df_beta2_antagonists)

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta2_antagonists)

In [None]:
df_beta2_agonists = filtrar_por_grupo_funcional(df_beta2_IC50, smarts='c1ccccc1C(O)CNC')
itables.show(df_beta2_agonists)

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta2_agonists)

Al igual que hicimos previamente, podríamos analizar y comparar las propiedades fisicoquímicas de estos ligandos.

In [None]:
df_beta2_antagonists = calcular_propiedades(df_beta2_antagonists)
itables.show(df_beta2_antagonists)

In [None]:
ver_rangos_propiedades(df_beta2_antagonists)

In [None]:
df_beta2_agonists = calcular_propiedades(df_beta2_agonists)
itables.show(df_beta2_agonists)

In [None]:
ver_rangos_propiedades(df_beta2_agonists)

In [None]:
graficar_distribucion_descriptores(df_beta2_agonists, "MolWt")

Como podemos observar, muchas moléculas poseen propiedades drug-like que exceden los límites típicamente asociados a fármacos. Podríamos, entonces, seleccionar solamente aquellos que sí cumplan con las reglas de Lipinski, y emplear así dicho set para el posterior estudio de QSAR (TP N°4).


In [None]:
criterios = {
    'MolLogP': (0, 5),
    'MolWt': (0, 500),
    'NumHAcceptors': (0, 10),
    'NumHDonors': (0, 5),
    'NumRotatableBonds': (0, 10)
}

df_beta2_agonists_lipinski = filtrar_multiples_propiedades(df_beta2_agonists, criterios)
itables.show(df_beta2_agonists_lipinski)

In [None]:
graficar_espacio_quimico_con_filtro(df_adrenergicos_chemspace, df_beta2_agonists_lipinski)

Hasta ahora, veníamos analizando la distribución de cada descriptor molecular de forma individual. Sin embargo, ¿qué ocurre si queremos compararlos entre sí o utilizarlos juntos en un modelo matemático, como en un análisis QSAR?

In [None]:
graficar_distribucion_descriptores_all(df_beta2_agonists_lipinski, "IC50_value_nM")

Como se puede observar en los gráficos, cada descriptor tiene un rango de valores muy diferente. Esta disparidad puede generar problemas al momento de construir modelos, ya que los descriptores con valores numéricamente mayores pueden tener una influencia desproporcionada en las ecuaciones, independientemente de su verdadera relevancia biológica o química. En otras palabras, el modelo podría "pensar" que un descriptor es más importante solo porque sus valores son más grandes en escala.

Para evitar este sesgo, utilizamos una técnica conocida como normalización de datos. Esta consiste en transformar los valores de cada descriptor para que compartan un mismo rango (por ejemplo, entre 0 y 1), conservando las diferencias relativas entre moléculas. De esta manera, todos los descriptores contribuyen en igualdad de condiciones al modelo QSAR.

A continuación, ejecutaremos las siguientes funciones para visualizar claramente la diferencia antes y después de normalizar los datos.

In [None]:
df_beta2_agonists_lipinski_norm = normalizar_desde_columna(df_beta2_agonists_lipinski, "IC50_value_nM")
itables.show(df_beta2_agonists_lipinski_norm)

In [None]:
graficar_distribucion_descriptores_all(df_beta2_agonists_lipinski_norm, "IC50_value_nM_norm")

In [None]:
df_beta2_agonists_lipinski_norm.to_csv("df_beta2_agonists_lipinski_norm.csv", index=False) #Guardamos el archivo para usar la próxima clase

Por último, analicemos las estructuras de este set de compuestos e intentemos establecer algunas relaciones estructura-actividad (SAR), previo al TP de la próxima semana.

In [None]:
mostrar_y_guardar_moleculas_alineadas(df=df_beta2_agonists_lipinski_norm, grupo_funcional_smiles='CC(O)CNCC', mols_per_image=70, mols_per_row=5)

In [None]:
ids_de_interes = ["CHEMBL1160723", "CHEMBL434"] # Isomería
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CNCCO")

In [None]:
ids_de_interes = ["CHEMBL388570", "CHEMBL229476", "CHEMBL229477", "CHEMBL389390"] # Isomería
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CC(O)CNCC")

In [None]:
ids_de_interes = ["CHEMBL4280606", "CHEMBL4279962", "CHEMBL4279531","CHEMBL4285281"] # Restricción + Isomería
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CC(O)CNCC")

In [None]:
ids_de_interes = ["CHEMBL229476", "CHEMBL1800960"] # Homología superior
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CNCCO")

In [None]:
ids_de_interes = ["CHEMBL229614", "CHEMBL228996", "CHEMBL1800934", "CHEMBL229476", "CHEMBL1800962"] # Tamaños, sustituciones, orientaciones.
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CNCCO")

In [None]:
ids_de_interes = ["CHEMBL4280606", "CHEMBL3747487", "CHEMBL3746885", "CHEMBL3747244", "CHEMBL3746280"] # Tamaños, restricciones conformacionales, sustituciones, orientaciones.
mostrar_moleculas_por_id(df_beta2_agonists_lipinski_norm, ids_de_interes, grupo_funcional_smiles="CNCCO")