***Biblioteca ChEMBL***

ChEMBL é uma biblioteca "open access" que possibilita a aquisição de dados de moléculas bioativas e seus alvos conhecidos. Foi possível obter 25862 compostos que possuem atividade citotóxica para a linhagem celular HepG2 (Hepatocarcinoma Humano) utilizando esta biblioteca. Estes dados serão tratados e na última etapa utlizidos para desenvolver um modelo que prevê a atividade de uma nova molécula.

***Obtenção dos dados***

In [1]:
import pandas as pd
from chembl_webresource_client.new_client import new_client

Para que possamos encontrar as moléculas que possuam bioatividade, precisamos pesquisar no banco de dados da CHEMBL o alvo "target". Neste trabalho o alvo escolhido foi a linhagem celular HepG2, células de cancer de figado. Desta forma, obeteremos todas as moléculas nesta base de dados que possuam alguma atividade citotóxica para esta linhagem celular. 

In [2]:
#Moléculas bioativas

target = new_client.target
target_query = target.search('HEPG2')
targets = pd.DataFrame.from_dict(target_query)
targets.head()

Unnamed: 0,cross_references,organism,pref_name,score,species_group_flag,target_chembl_id,target_components,target_type,tax_id
0,[],Homo sapiens,HepG2,19.0,False,CHEMBL395,[],CELL-LINE,9606
1,[],Homo sapiens,HepG2 2.2.15,16.0,False,CHEMBL4296438,[],CELL-LINE,9606
2,[],Homo sapiens,HepG2-CD81,16.0,False,CHEMBL4543887,[],CELL-LINE,9606
3,"[{'xref_id': 'P11166', 'xref_name': None, 'xre...",Homo sapiens,Glucose transporter,14.0,False,CHEMBL2535,"[{'accession': 'P11166', 'component_descriptio...",SINGLE PROTEIN,9606


A pesquisa retornou todos os alvos relacionados a HepG2, o primeiro foi escolhido por possuir maior "score" e possuir o "target_line" desejado. 

In [4]:
selected_target = targets['target_chembl_id'].iloc[0]
selected_target

'CHEMBL395'

Após a descoberta do código CHEMBL relacionado ao alvo, inicia-se a pesquisa dos compostos bioativos filtrando por "ic50" (tipo de avaliação citotóxica, refere-se a concentração necessária para que um determinado composto diminua a reprodução celular em 50%)

In [5]:
activity = new_client.activity
res = activity.filter(target_chembl_id = selected_target).filter(standard_type = "IC50")
res

[{'action_type': None, 'activity_comment': None, 'activity_id': 38273, 'activity_properties': [], 'assay_chembl_id': 'CHEMBL881719', 'assay_description': 'The compound was tested for inhibition of cholesterol biosynthesis in human hepatoma G2 cell line', 'assay_type': 'F', 'assay_variant_accession': None, 'assay_variant_mutation': None, 'bao_endpoint': 'BAO_0000190', 'bao_format': 'BAO_0000219', 'bao_label': 'cell-based format', 'canonical_smiles': 'COC(=O)CC(O)CP(=O)([O-])CCc1c(Cl)cc(Cl)cc1OCc1ccccc1.[Na+]', 'data_validity_comment': None, 'data_validity_description': None, 'document_chembl_id': 'CHEMBL1125979', 'document_journal': 'Bioorg Med Chem Lett', 'document_year': 1991, 'ligand_efficiency': None, 'molecule_chembl_id': 'CHEMBL39380', 'molecule_pref_name': None, 'parent_molecule_chembl_id': 'CHEMBL1204999', 'pchembl_value': '7.00', 'potential_duplicate': 0, 'qudt_units': 'http://www.openphacts.org/units/Nanomolar', 'record_id': 61373, 'relation': '=', 'src_id': 1, 'standard_flag'

In [6]:
df_1 = pd.DataFrame.from_dict(res)
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25682 entries, 0 to 25681
Data columns (total 46 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   action_type                0 non-null      object 
 1   activity_comment           587 non-null    object 
 2   activity_id                25682 non-null  int64  
 3   activity_properties        25682 non-null  object 
 4   assay_chembl_id            25682 non-null  object 
 5   assay_description          25682 non-null  object 
 6   assay_type                 25682 non-null  object 
 7   assay_variant_accession    0 non-null      object 
 8   assay_variant_mutation     0 non-null      object 
 9   bao_endpoint               25682 non-null  object 
 10  bao_format                 25682 non-null  object 
 11  bao_label                  25682 non-null  object 
 12  canonical_smiles           25679 non-null  object 
 13  data_validity_comment      1667 non-null   obj

In [7]:
df_1['standard_type'].unique()

array(['IC50'], dtype=object)

In [55]:
df_1.to_csv('hepg2_raw_data.csv', index =False)

In [57]:
df_1.head()

Unnamed: 0,action_type,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,assay_variant_accession,assay_variant_mutation,bao_endpoint,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,,,38273,[],CHEMBL881719,The compound was tested for inhibition of chol...,F,,,BAO_0000190,...,Homo sapiens,HepG2,9606,,,IC50,uM,UO_0000065,,0.1
1,,,44218,[],CHEMBL881719,The compound was tested for inhibition of chol...,F,,,BAO_0000190,...,Homo sapiens,HepG2,9606,,,IC50,uM,UO_0000065,,0.1
2,,,47846,[],CHEMBL824182,The compound was tested for inhibition of chol...,F,,,BAO_0000190,...,Homo sapiens,HepG2,9606,,,IC50,uM,UO_0000065,,1.0
3,,,74264,[],CHEMBL695846,Compound was tested in vitro for growth inhibi...,F,,,BAO_0000190,...,Homo sapiens,HepG2,9606,,,IC50,ug ml-1,UO_0000274,,10.0
4,,,78722,[],CHEMBL695847,Compound was tested in vitro for growth inhibi...,F,,,BAO_0000190,...,Homo sapiens,HepG2,9606,,,IC50,ug ml-1,UO_0000274,,10.0


Obteve-se 25679 moléculas para o alvo HepG2, das quais 25095 possuem dados de citotoxicidade.