[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ramirezlab/Farmacoinformatica-2022/blob/main/02_Sesiones-practicas/01_Sesion-I/01_CHEMBL_Colab.ipynb)

# Práctica 1: Adquirir y analizar datos de ChEMBL

## Conceptos a trabajar
**[Uniprot](https://www.uniprot.org/):** Es una base de datos que busca proporcionar a la comunidad científica un recurso integral, de alta calidad y de libre acceso de secuencias de proteínas e información funcional<sup> **1** </sup>.

**[ChEMBL](https://www.ebi.ac.uk/chembl/):** Es una base de datos que contiene moléculas bioactivas, reune datos químicos, de bioactividad y genómicos<sup> **2** </sup>.

**Half-maximal inhibitory concentration (IC50):** Expresa la cantidad de fármaco necesaria para inhibir un proceso biológico a la mitad del valor no inhibido, es la medida más utilizada de la eficacia o potencia de un fármaco<sup> **3** </sup>.

**pIC50:** Es el logaritmo negativo en base diez del IC50, cuando las unidades son **molares (M)**. Se usa para facilitar la comparación entre distintos IC50. También, es importante saber que a mayor pIC50 el fármaco tiene una mayor eficacia o mayor potencial<sup> **3** </sup>.

**Half maximal effective concentration (EC50):** Es la concentración efectiva para producir el 50 % de la respuesta máxima, se usa para comparar las potencias de los fármacos. También, es importante saber que a menor sea el EC50 más potente será el fármaco. A esta medida también se le calcula el logaritmo negativo en base diez **(pEC50)** para facilitar su comprensión<sup> **4** </sup>.

**Constante de inhibición (Ki):** Es la concentración requerida para producir la mitad de la inhibición máxima, es útil para describir la afinidad de unión de una molécula a un receptor.

**SMILES (Simplified Molecular-Input Line-Entry System):** Es una notación de línea para describir estructuras químicas utilizando cadenas ASCII cortas<sup> **5** </sup>. 

# Proteína a estudiar
**UniprotID**: P49841

**Name**: Glycogen synthase kinase-3 beta

**Protein Target Classification**: Enzyme > Kinase > Protein Kinase > CMGC protein kinase group > CMGC protein kinase GSK family

Debemos buscar el ID del target de interés en la base de datos Uniprot, que en este caso es Glucógeno sintasa quinasa-3 beta, ID: [P49841](https://www.uniprot.org/uniprot/P49841).

## Conectarse a la base de datos ChEMBL

In [None]:
!pip install chembl_webresource_client
!pip install rdkit

from chembl_webresource_client.new_client import new_client #Se importa la biblioteca webresource client que permite conectase a ChEMBL
import pandas as pd
import math
from rdkit.Chem import PandasTools

Se deben crear para el acceso a la API

In [None]:
targets = new_client.target
compounds = new_client.molecule
bioactivities = new_client.activity

## Datos del target 
Luego, debemos buscar el ID del target de interés en la base de datos Uniprot, que en este caso es Glucógeno sintasa quinasa-3 beta, ID: [P49841](https://www.uniprot.org/uniprot/P49841).

In [None]:
uniprot_id = 'P49841'
# Adquirir información de ChEMBL que sea de interés
target_P49841 = targets.get(target_components__accession=uniprot_id) \
                       .only('target_chembl_id', 'organism', 'pref_name', 'target_type')
pd.DataFrame(target_P49841)

Vamos a seleccionar el target de interés (`CHEMBL262`) y guardar el ChEMBL-ID

In [None]:
# Seleccionar el target de interés
target = target_P49841[0]
print(target)

# Guardar el ChEMBL-ID
chembl_id = target['target_chembl_id']
print(f'ChEMBL ID: {chembl_id}')

## Datos de bioactividad

Ahora consultamos los datos de bioactividad que son de interés. Los pasos a seguir son:
1. Descargar y filtrar bioactividades para el target
    Los datos de bioactividad se van a filtrar de la siguiente manera:
        * Tipo de bioactividad: IC50, EC50, Ki
        * Relación: "="
2. Convertir los datos descargados en un data frame:
    Las columnas de interés son: `molecule_chembl_id`, `type`, `relation`, `pchembl_value`

In [None]:
# Primero, descargamos toda la base de datos
bioact_temp = bioactivities.filter(target_chembl_id = chembl_id)\
                      .filter(relation = '=') \
                      .only('molecule_chembl_id', 'type', 'relation', 'standar_value', 'standar_units', 'pchembl_value', )
df_bioact_temp = pd.DataFrame(bioact_temp)
# se organizan las columnas
df_bioact_temp = df_bioact_temp[['molecule_chembl_id', 'type', 'relation', 'value', 'units', 'pchembl_value']]
df_bioact_temp
# La primera vez que se ejecuta esta celda celda puede tardar ~5-10 minutos

In [None]:
# Luego, filtramos por el tipo de actividad deseada
df_bioact = df_bioact_temp[(df_bioact_temp['type'] == 'IC50') |
                             (df_bioact_temp['type'] == 'EC50')|
                             (df_bioact_temp['type'] == 'Ki')]
print(f'Total de datos cargados: {len(df_bioact)}')

In [None]:
# primeros compuestos del dataframe
df_bioact.head()

Recordemos que el método `.head()` muestra los cinco primeros elementos del `dataframe`, sin embargo, podemos ver rápidamente qué elementos hay en las columnas *relation* y *type*.

In [None]:
df_bioact['relation'].value_counts()

In [None]:
df_bioact['type'].value_counts()

Ya que la columna *relation* tiene solo un tipo (esto se debe al filtro de la base de datos), podemos quitarla:

In [None]:
df_bioact_temp.pop('relation')
df_bioact_temp.head()

# Explorar los datos adquiridos
## Tipo de actividad
Podemos ver el tipo de actividad descargada (filtrar por _type_)

In [None]:
df_bioact_temp.type.value_counts()

O realizar rápidamente un gráfico con la información filtrada

In [None]:
df_bioact_temp.type.value_counts().plot.barh()

Ahora, supongamos que queremos filtrar solamente la actividad **IC50**, **EC50** y **KI**

In [None]:
# Luego, filtramos por el tipo de actividad deseada
df_bioact = df_bioact_temp[(df_bioact_temp['type'] == 'IC50') |
                           (df_bioact_temp['type'] == 'EC50') |
                           (df_bioact_temp['type'] == 'Ki')]
print(f'Total de datos cargados: {len(df_bioact)}')
# primeros compuestos del dataframe
df_bioact.head()

Recordemos que el método `.head()` muestra los cinco primeros elementos del `dataframe`, sin embargo, podemos ver rápidamente qué elementos hay en las columnas *relation* y *type*.

In [None]:
grupo_actividad = df_bioact.type.value_counts()
grupo_actividad

In [None]:
grupo_actividad.plot.bar()

## Unidades de medición
Ahora exploremos un poco las unidades de medición de la bioactividad

In [None]:
grupo_unidades = df_bioact.units.value_counts(dropna=False)
grupo_unidades

In [None]:
grupo_unidades.plot.bar()

## Limpiar los datos
Es posible que algunos compuestos tengan valores faltantes y también duplicados, ya que el mismo compuesto puede haber sido probado más de una vez (nosotros nos quedaremos solo con el que primero haya sido probado)

In [None]:
# Primero verificamos cuantos compuestos tenemos en total
ori_len = len(df_bioact)
print(f'Total de compuestos originales es: {ori_len}')

In [None]:
# Se eliminan los compuestos que no tienen pChEMBL_value
df_bioact = df_bioact.dropna(axis=0, how = 'any')
new_len = len(df_bioact)
print(f'Total de compuestos despues de eliminar aquellos con datos faltantes: {new_len}')
# Se le resta al número total de compuestos el número total de compuestos al eliminar los que no tienen pChEMBL_value
print(f'Total compuestos eliminados {ori_len - new_len}')
ori_len = new_len

In [None]:
# Se eliminan los compuestos duplicados y nos quedamos con el primer compuesto de la lista
df_bioact = df_bioact.drop_duplicates('molecule_chembl_id', keep = 'first')
new_len = len(df_bioact)
print(f'Total de compuestos sin duplicados : {new_len}')
# Se le resta al número total de compuestos al eliminar los que no tienen pChEMBL_value el número total de compuestos sin duplicados
print(f'Total compuestos eliminados {ori_len - new_len}')
ori_len = new_len

In [None]:
df_bioact.head()

Ahora que hemos eliminado algunas filas restableceremos el índice para que este sea continuo

In [None]:
df_bioact.reset_index(drop=True, inplace=True)
df_bioact.head()

## Histograma del pchembl_value
La columna `pchembl_value` maneja un valor _común_ el cual se puede analizar un poco.
Antes de realizar el histograma debemos cambiar el tipo de la variable, pues esta como `string`

In [None]:
# Primer valor:
value = df_bioact.pchembl_value[0]
print(value, type(value))

Como la columna `pchembl_value` tiene valores como texto, se deben convetir a valores numéricos

In [None]:
# Cambiar de str a float la columna pchembl_value
df_bioact = df_bioact.astype({'pchembl_value': 'float'})
value = df_bioact.pchembl_value[0]
print(value, type(value))

In [None]:
df_bioact.dtypes

Ahora se puede hacer el histograma de los valores de la columna `pchembl_value`

In [None]:
df_bioact.hist(column='pchembl_value', bins=20)

## Organizar los datos
Vamos a organizar el DataFrame de mayor a menor pchembl_value.

In [None]:
# Organizamos de mayor a menor pchembl_value
df_bioact.sort_values(by="pchembl_value", ascending=False, inplace=True)
# Restablecemos el índice
df_bioact.reset_index(drop=True, inplace=True)
# Imprimimos los primeros datos del Dataframe
df_bioact.head()

## Guardar y cargar los datos
Para continuar usando el Data Frame en la práctica sin necesidad de siempre estarnos conectando a ChEMBL, vamos a guardar el Data Frame obtenido como un archivo separado por comas (data/compuestos_uniprot_id.csv)

In [None]:
!mkdir -p ./data
df_bioact.to_csv(f"./data/compounds_{uniprot_id}.csv", index=0)

En adelante, si queremos utilizar el Dataframe, podemos cargar el archivo guardado

In [None]:
url = 'https://raw.githubusercontent.com/ramirezlab/Farmacoinformatica-2022/main/02_Sesiones-practicas/01_Sesion-I/data/compuestos_P49841.csv'
df_bioact = pd.read_csv(url,parse_dates=[0])
df_bioact.head()

# Datos de los compuestos

A continuación vamos a obtener los datos de las moléculas que estan almacenados dentro de cada molecule_chembl_id

In [None]:
# Librería necesaria para comunicarse con CHEMBL
from chembl_webresource_client.new_client import new_client
# libreria para trabajar con base de datos (Dataframes)
import pandas as pd

# Declaración de variables para instanciar el cliente de CHEMBL y acceder a la base de datos de las moléculas
compounds = new_client.molecule

# Cargamos el archivo antes guardado
uniprot_id = 'P49841'
# df_bioact = pd.read_csv(f"data/compuestos_{uniprot_id}.csv")
url = 'https://raw.githubusercontent.com/ramirezlab/Farmacoinformatica-2022/main/02_Sesiones-practicas/01_Sesion-I/data/compuestos_P49841.csv'
df_bioact = pd.read_csv(url,parse_dates=[0])

In [None]:
# Primero tenemos que obtener la lista de los compuestos que definimos como bioactivos
lista_comp_id = list(df_bioact['molecule_chembl_id'])
# Obtener la estructura de cada compuesto
lista_compuestos = compounds.filter(molecule_chembl_id__in = lista_comp_id) \
                            .only('molecule_chembl_id','molecule_structures')

Veamos la estructura de la información

In [None]:
lista_compuestos[0]

In [None]:
# Debemos convertir la lista obtenida en un dataframe. Esto puede tardar unos minutos
df_comp = pd.DataFrame(lista_compuestos)
# Eliminamos duplicados
df_comp = df_comp.drop_duplicates('molecule_chembl_id', keep = 'first')
print(f'Total de compuestos es: {str(len(df_comp))}')
df_comp.head()

Los compuestos tienen distintos tipos de representaciones como el SMILES, el InChI y el InChI Key. Nos interesa únicamente quedarnos con el SMILES, ya que describe la estructura química.

In [None]:
# Vamos a utilizar un ciclo for para iterar por cada renglón (df_comp.iterrows())
for i, cmpd in df_comp.iterrows():
    if df_comp.loc[i]['molecule_structures'] is not None:
        df_comp.loc[i]['molecule_structures'] = cmpd['molecule_structures']['canonical_smiles']
print(f'Total de compuestos: {len(df_comp)}')
df_comp.head()

### Limpiar las sales de los smiles
Si se revisa con detalle la representación de *smiles* de cada molécula, podemos ver que algunas tienen *sales* que se deben limpiar.
Primero filtremos las moleculas que tienen sales, usualmente se puede ver en los smiles porque tienen un punto en la cadena de texto:

In [None]:
df_comp[df_comp.molecule_structures.str.contains("\.")]

Es decir, de los 2658 compuestos iniciales, 67 tienen sales que deben ser limpiadas. Podemos utilizar un módulo de `rdkit` para limpiar sales llamado `rdkit.Chem.SaltRemover`.
Supongamos que queremos eliminar la sal del smile "CN1CCN(CCO/N=C2C(=C3/C(=O)Nc4cc(Br)ccc43)/Nc3ccccc3/2)CC1.Cl", se puede hacer los siguiente:

In [None]:
# librerías
from rdkit.Chem.SaltRemover import SaltRemover
from rdkit.Chem import MolFromSmiles, MolToSmiles

# Se carga el módulo para remover las sales
remover = SaltRemover()
# se convierte el smile a un objeto mol
mol = MolFromSmiles('Br.CCCCCc1n/c(=N\Cc2cccnc2)sn1-c1ccccc1')
# se remueve las sales (res=molécula, deleted=fragmento eliminado)
res, deleted = remover.StripMolWithDeleted(mol)
# se convierte el objeto mol a smiles nuevamente y se eliminan espacios en blanco
MolToSmiles(res).strip()

Ahora vamos a crear una función que haga este proceso para pasarla por el dataframe `df_comp`

In [None]:
def remover_sales(smile):
    remover = SaltRemover()
    mol = MolFromSmiles(smile)
    res, deleted = remover.StripMolWithDeleted(mol)
    return MolToSmiles(res)

Aplicamos la función a la columna de los smiles

In [None]:
df_comp['molecule_structures'] = df_comp['molecule_structures'].apply(remover_sales)
# Eliminar los espacios en blanco en los bordes de cada cadena en la columna "molecule_structures"
df_comp["molecule_structures"] = df_comp["molecule_structures"].str.strip()

Volvemos a buscar smiles que tengan sales para comprobar que la limpieza fue exitosa

In [None]:
df_comp[df_comp.molecule_structures.str.contains("\.")]

Ya limpiamos las sales de las moléculas, ahora debemos eliminar las moléculas con datos vacíos. Por ejemplo al limpiar la molécula "[Cl-].[Li+]" se eliminan las dos sales y la salida queda vacía `('')`. Para eliminar estos campos podemos utilizar `dropna` y filtrar por los que no son vacíos.

In [None]:
df_comp.dropna(subset=["molecule_structures"], inplace=True)
df_comp = df_comp[df_comp['molecule_structures'] != '']

Y ya tenemos el conjunto de moléculas limpias.

## Combinar los Dataframe

Ahora tenemos dos dataframes que vamos a combinar para tener todos los datos en uno solo dataframe y poder guardarlos

In [None]:
# En el Dataframe de bioactividad se filtran solamente dos columnas
df_output = pd.merge(df_bioact[['molecule_chembl_id','pchembl_value']], df_comp, on='molecule_chembl_id')
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

Se pueden renombrar las columnas

In [None]:
df_output = df_output.rename(columns= {'molecule_structures':'smiles'})
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

Para poder emplear la siguiente función de rdkit es necesario que todos los compuestos tengan SMILES, por esto eliminamos los compuestos sin SMILES en el dataframe

In [None]:
df_output = df_output[~df_output['smiles'].isnull()]
print(f'Total de compuestos es: {str(len(df_output))}')
df_output.head()

## Dibujar la molécula

Vamos a añadir una nueva columna al dataframe con la función `.AddMoleculeColumnToFrame` la cual convierte las moléculas contenidas en "smilesCol" en moléculas RDKit y las agrega al dataframe

In [None]:
from rdkit.Chem import PandasTools
PandasTools.AddMoleculeColumnToFrame(df_output, smilesCol='smiles')
df_output.head()

Ahora podemos llamar a cualquier compuesto para ver su representación en 2D

In [None]:
df_output.ROMol.iloc[0]

## Guardar el dataframe obtenido

Se va a guardar el dataframe como un archivo csv

In [None]:
!mkdir -p ./data
df_output.to_csv(f"data/compounds_{uniprot_id}_full.csv", index=0)

## Conclusiones
En esta práctica se empleó la base de datos ChEMBL para obtener datos de compuestos bioactivos frente a nuestro target de interés. Estos datos extraidos en forma de diccionarios y listas se convirtieron en un DataFrame el cual permite visualizar fácilmente la información obtenida. Además, se obtuvieron datos de los compuestos bioactivos, combinaron DataFrames, se renombraron columnas y se utilizó una herramienta de panda para añadir una nueva columna al DataFrame construido.

# Referencias
1. Coudert, E., Gehant, S., De Castro, E., Pozzato, M., Baratin, D., Neto, T., Sigrist, C. J. A., Redaschi, N., Bridge, A., The UniProt Consortium, Bridge, A. J., Aimo, L., Argoud-Puy, G., Auchincloss, A. H., Axelsen, K. B., Bansal, P., Baratin, D., Neto, T. M. B., Blatter, M.-C., … Wang, Y. (2023). Annotation of biologically relevant ligands in UniProtKB using ChEBI. Bioinformatics, 39(1), btac793. https://doi.org/10.1093/bioinformatics/btac793
2. Mendez, D., Gaulton, A., Bento, A. P., Chambers, J., De Veij, M., Félix, E., Magariños, M. P., Mosquera, J. F., Mutowo, P., Nowotka, M., Gordillo-Marañón, M., Hunter, F., Junco, L., Mugumbate, G., Rodriguez-Lopez, M., Atkinson, F., Bosc, N., Radoux, C. J., Segura-Cabrera, A., … Leach, A. R. (2019). ChEMBL: Towards direct deposition of bioassay data. Nucleic Acids Research, 47(D1), D930-D940. https://doi.org/10.1093/nar/gky1075
3. Aykul, S., & Martinez-Hackert, E. (2016). Determination of half-maximal inhibitory concentration using biosensor-based protein interaction analysis. Analytical Biochemistry, 508, 97-103. https://doi.org/10.1016/j.ab.2016.06.025
4. Waller, D. G., & Sampson, A. P. (2018). Principles of pharmacology and mechanisms of drug action. En Medical Pharmacology and Therapeutics (pp. 3-31). Elsevier. https://doi.org/10.1016/B978-0-7020-7167-6.00001-4
5. Daylight>cheminformatics. (2022). https://www.daylight.com/smiles/ 