# Acessando o banco de dados ChEMBL pelo *ChEMBL webresource client*

Para usar esse módulo, é necessário instalar o cliente utilizando:

`pip install chembl_webresource_client`

Tendo instalado o cliente, é necessário importá-lo, usando:

In [1]:
from chembl_webresource_client.new_client import new_client

In [2]:
import chembl_webresource_client
chembl_webresource_client.__version__

'0.10.8'

O [repositório no GitHub](https://github.com/chembl/chembl_webresource_client) e o [Notebook oficial](https://mybinder.org/v2/gh/chembl/chembl_webresource_client/master?filepath=demo_wrc.ipynb), sugerem algumas formas de uso, como:

## Procurar uma estrutura (molecule) pelo nome

In [3]:
molecule = new_client.molecule
res = molecule.filter(molecule_synonyms__molecule_synonym__iexact='viagra')

In [4]:
type(res)

chembl_webresource_client.query_set.QuerySet

Veja que o resultado é um objeto do tipo QuerySet, contendo um extenso dicionário:

In [5]:
res



In [6]:
# Chaves do dicionário
res[0].keys()



In [7]:
print("Tipo de molécula:", res[0]['molecule_type'])
print("Número identificador no ChEMBL:", res[0]['molecule_chembl_id'])
print("É um medicamento tomado por via oral?", res[0]['oral'])
print("SMILES:", res[0]['molecule_structures']['canonical_smiles'])  # molecule_structures é um dict dentro de um dict

Tipo de molécula: Small molecule
Número identificador no ChEMBL: CHEMBL192
É um medicamento tomado por via oral? True
SMILES: CCCc1nn(C)c2c(=O)[nH]c(-c3cc(S(=O)(=O)N4CCN(C)CC4)ccc3OCC)nc12


Nota: a versão anterior deste Notebook usava o código a seguir para criar o objeto `res`. Porém, verifiquei que ele não funciona como esperado, pois a molécula encontrada é um derivado do Viagra, com uma entrada ChEMBL diferente. Não sei dizer por que os resultados são discrepantes, mas me parece que o uso do método `search()` não é mais recomendado (não é usado no Notebook oficial).

In [8]:
molecule = new_client.molecule
res = molecule.search('viagra')
# Veja como os resultados são diferentes
print("Tipo de molécula:", res[0]['molecule_type'])
print("Número identificador no ChEMBL:", res[0]['molecule_chembl_id'])
print("É um medicamento tomado por via oral?", res[0]['oral'])
print("SMILES:", res[0]['molecule_structures']['canonical_smiles'])

Tipo de molécula: Unknown
Número identificador no ChEMBL: CHEMBL4792718
É um medicamento tomado por via oral? False
SMILES: CC(=O)CC(O)(CC(C)=O)C(C)=O.CCCc1nn(C)c2c(=O)nc(-c3cc(S(=O)(=O)N4CCN(C)CC4)ccc3OCC)[nH]c12


## Procurar um alvo (*target*) pelo nome do gene

In [9]:
target = new_client.target
gene_name = 'BRD4'
res = target.filter(target_synonym__icontains=gene_name)
res[0].keys()

dict_keys(['cross_references', 'organism', 'pref_name', 'species_group_flag', 'target_chembl_id', 'target_components', 'target_type', 'tax_id'])

In [10]:
# Versão antiga, usando search. Não parece ser recomendada
target = new_client.target
gene_name = 'BRD4'
res = target.search(gene_name)
res[0].keys()

dict_keys(['cross_references', 'organism', 'pref_name', 'score', 'species_group_flag', 'target_chembl_id', 'target_components', 'target_type', 'tax_id'])

## Compostos similares à aspirina (similaridade > 70%)

In [11]:
# Usando SMILES
similarity = new_client.similarity
res = similarity.filter(smiles="O=C(C)Oc1ccccc1C(=O)O", similarity=70).only(['molecule_chembl_id', 'similarity'])
for i in res:
    print(i)

{'molecule_chembl_id': 'CHEMBL2296002', 'similarity': '100'}
{'molecule_chembl_id': 'CHEMBL1697753', 'similarity': '100'}
{'molecule_chembl_id': 'CHEMBL25', 'similarity': '100'}
{'molecule_chembl_id': 'CHEMBL3833404', 'similarity': '88.8888895511627197265625'}
{'molecule_chembl_id': 'CHEMBL3833325', 'similarity': '88.8888895511627197265625'}
{'molecule_chembl_id': 'CHEMBL350343', 'similarity': '85.7142865657806396484375'}
{'molecule_chembl_id': 'CHEMBL5282669', 'similarity': '74.0740716457366943359375'}
{'molecule_chembl_id': 'CHEMBL4515737', 'similarity': '70.3703701496124267578125'}
{'molecule_chembl_id': 'CHEMBL1451173', 'similarity': '69.9999988079071044921875'}


In [12]:
# Usando o código ChEMBL
similarity = new_client.similarity
res = similarity.filter(chembl_id='CHEMBL25', similarity=70).only(['molecule_chembl_id', 'similarity'])
for i in res:
    print(i)

{'molecule_chembl_id': 'CHEMBL2296002', 'similarity': '100'}
{'molecule_chembl_id': 'CHEMBL1697753', 'similarity': '100'}
{'molecule_chembl_id': 'CHEMBL3833404', 'similarity': '88.8888895511627197265625'}
{'molecule_chembl_id': 'CHEMBL3833325', 'similarity': '88.8888895511627197265625'}
{'molecule_chembl_id': 'CHEMBL350343', 'similarity': '85.7142865657806396484375'}
{'molecule_chembl_id': 'CHEMBL5282669', 'similarity': '74.0740716457366943359375'}
{'molecule_chembl_id': 'CHEMBL4515737', 'similarity': '70.3703701496124267578125'}
{'molecule_chembl_id': 'CHEMBL1451173', 'similarity': '69.9999988079071044921875'}


## Compostos com IC50 medido contra o alvo hERG

In [13]:
target = new_client.target
activity = new_client.activity
herg = target.filter(pref_name__iexact='hERG').only('target_chembl_id')[0]
herg_activities = activity.filter(target_chembl_id=herg['target_chembl_id']).filter(standard_type="IC50")

len(herg_activities)

15530

In [14]:
herg_activities[0]

{'action_type': None,
 'activity_comment': None,
 'activity_id': 305156,
 'activity_properties': [],
 'assay_chembl_id': 'CHEMBL841079',
 'assay_description': 'Inhibition of hERG currents Kv11.1',
 'assay_type': 'T',
 'assay_variant_accession': None,
 'assay_variant_mutation': None,
 'bao_endpoint': 'BAO_0000190',
 'bao_format': 'BAO_0000019',
 'bao_label': 'assay format',
 'canonical_smiles': 'O=C1NCCN1CCN1CCC(c2cn(-c3ccc(F)cc3)c3ccc(Cl)cc23)CC1',
 'data_validity_comment': None,
 'data_validity_description': None,
 'document_chembl_id': 'CHEMBL1134478',
 'document_journal': 'J Med Chem',
 'document_year': 2001,
 'ligand_efficiency': None,
 'molecule_chembl_id': 'CHEMBL12713',
 'molecule_pref_name': 'SERTINDOLE',
 'parent_molecule_chembl_id': 'CHEMBL12713',
 'pchembl_value': '7.85',
 'potential_duplicate': 0,
 'qudt_units': 'http://www.openphacts.org/units/Nanomolar',
 'record_id': 71623,
 'relation': '=',
 'src_id': 1,
 'standard_flag': 1,
 'standard_relation': '=',
 'standard_text_va

## Gerar um *DataFrame* com todos os compostos com pChEMBL Value contra um alvo

Escrevi uma função que recebe como entrada o código ChEMBL do alvo desejado. Para descobrir o código de um alvo, acesse o [site do ChEMBL](https://www.ebi.ac.uk/chembl/) e procure pelo alvo na barra *Search in ChEMBL*. A função retorna um DataFrame contendo as estruturas (SMILES) e atividades (pChEMBL) dos compostos

In [15]:
import pandas as pd

In [16]:
target = new_client.target
activity = new_client.activity

# Obtemos o ChEMBL ID do alvo com nome Cathepsin B
catb = target.filter(pref_name__iexact='Cathepsin B').only('target_chembl_id')[0]

# Filtramos os compostos com atividades medidas para esse alvo (pChEMBL Value)
catb_activities = activity.filter(target_chembl_id=catb['target_chembl_id'], 
                                  pchembl_value__isnull=False)

len(catb_activities)

1450

In [17]:
catb_activities[0]

{'action_type': None,
 'activity_comment': None,
 'activity_id': 66416,
 'activity_properties': [],
 'assay_chembl_id': 'CHEMBL661080',
 'assay_description': 'Inhibitory activity against Cathepsin B',
 'assay_type': 'B',
 'assay_variant_accession': None,
 'assay_variant_mutation': None,
 'bao_endpoint': 'BAO_0000190',
 'bao_format': 'BAO_0000357',
 'bao_label': 'single protein format',
 'canonical_smiles': 'CC(C)C[C@H](C=O)NC(=O)[C@@H](NS(=O)(=O)c1ccc(F)cc1)C(C)C',
 'data_validity_comment': None,
 'data_validity_description': None,
 'document_chembl_id': 'CHEMBL1145779',
 'document_journal': 'J Med Chem',
 'document_year': 2003,
 'ligand_efficiency': {'bei': '19.08',
  'le': '0.39',
  'lle': '5.25',
  'sei': '7.70'},
 'molecule_chembl_id': 'CHEMBL168471',
 'molecule_pref_name': None,
 'parent_molecule_chembl_id': 'CHEMBL168471',
 'pchembl_value': '7.11',
 'potential_duplicate': 0,
 'qudt_units': 'http://www.openphacts.org/units/Nanomolar',
 'record_id': 335476,
 'relation': '=',
 'src_

In [18]:
# Dataframe com códigos ChEMBL, SMILES e pChEMBL Values
df = pd.DataFrame(catb_activities)
df = df[['molecule_chembl_id', 'canonical_smiles', 'pchembl_value']].copy()
df.head()

Unnamed: 0,molecule_chembl_id,canonical_smiles,pchembl_value
0,CHEMBL168471,CC(C)C[C@H](C=O)NC(=O)[C@@H](NS(=O)(=O)c1ccc(F...,7.11
1,CHEMBL3142837,O=C(NC(=O)[C@H](Cc1cc(I)c(O)c(I)c1)NC(=O)[C@H]...,6.47
2,CHEMBL114388,CC(C)C[C@H](NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC(...,8.21
3,CHEMBL419772,CC(C)[C@H](NC(=O)OCc1ccccc1)C(=O)N[C@@H]1C(=O)...,4.52
4,CHEMBL113761,O=C(N[C@@H](Cc1ccccc1)C(=O)N[C@@H]1C(=O)N2CCO[...,5.75


# Acessando o banco de dados ChEMBL pelo chembl-downloader

As versões do ChEMBL são atualizadas periodicamente, com a inclusão de dados e correção de erros. Porém, em alguns casos podemos estar interessados em utilizar dados referentes a uma versão antiga do ChEMBL, por exemplo, para reproduzir os resultados de um artigo. 

Durante a User Group Meeting do RDKit (12th RDKit UGM, 2023), fiquei sabendo da existência do módulo `chembl-downloader`, que possibilita baixar *datasets* do ChEMBL definindo não somente os filtros desejados, mas também a versão do ChEMBL que desejamos usar. 

O *ChEMBL webresource client*, apresentado anteriormente neste Notebook, pode ser lento para baixar bancos de dados grandes. Por isso, eu geralmente opto por baixá-los diretamente do site do ChEMBL. Infelizmente, o `chembl-downloader` parece sofrer do mesmo problema: para cada versão do ChEMBL que desejamos usar, ele precisa baixar o *database* do ChEMBL no formato SQL (o da versão 23, por exemplo, tem 2.55 GB). Porém, uma vez baixada a versão, você pode rapidamente acessar os dados desejados.

Baseei esse Notebook nos tutoriais disponibilizados pelo autor do módulo em https://github.com/cthoyt/chembl-downloader/tree/main/notebooks

Para usar esse módulo, é necessário instalá-lo:

`pip install chembl-downloader`

E importá-lo, usando:

In [None]:
import chembl_downloader

Importar todos os inibidores de um alvo para um DataFrame é simples:

In [None]:
from chembl_downloader.contrib import get_target_smi_df

In [None]:
# DataFrame com todos os compostos referentes ao alvo 5-lipoxygenase activating protein (CHEMBL4550).
df = get_target_smi_df("CHEMBL4550", 
                       version="23", 
                       aggregate=None).sort_values("molecule_chembl_id")

df.head()

Note o uso de aggregate=None para não agregar as duplicatas. Caso não seja declarado, elas serão agrupadas com a média aritmética.

Para usar a última versão:

In [None]:
latest_version = chembl_downloader.latest()
print(latest_version)

In [None]:
df = get_target_smi_df("CHEMBL4550", 
                       version=latest_version, 
                       aggregate=None).sort_values("molecule_chembl_id")

df.head()

O código a seguir demonstra o uso de outras palavras-chave para selecionar os compostos com valores de IC<sub>50</sub> para o alvo definido em `target_id`:

In [None]:
df = get_target_smi_df(
    target_id="CHEMBL4550",
    version=latest_version,
    aggregate=None,
    target_type="SINGLE PROTEIN",
    standard_relation="=",
    standard_type="IC50",
    tax_id="9606",  # Homo sapiens
)

df.head()

Também existem funcionalidades mais avançadas que envolvem o uso da linguagem SQL, mas que não vou abordar aqui.