# **Bioinformatics Project - Computational Drug Discovery [Part 1] Download Bioactivity Data**

Juan Oliveira

 Construindo um modelo de aprendizado de máquina usando os dados de bioatividade ChEMBL.

Na **Parte 1**, realizaremos a coleta de dados e o pré-processamento do banco de dados ChEMBL.

---

O [*ChEMBL Database*]
(https://www.ebi.ac.uk/chembl/) é um banco de dados que contém dados de bioatividade selecionados de mais de 2 milhões de compostos. É compilado a partir de mais de 76.000 documentos, 1,2 milhão de ensaios e os dados abrangem 13.000 alvos e 1.800 células e 33.000 indicações.
[Dados de 25 de março de 2020; ChEMBL versão 26].

## **Instalando as bibliotecas**

Instale o pacote de serviço da web ChEMBL para que possamos recuperar dados de bioatividade do banco de dados ChEMBL.

In [None]:
! pip install chembl_webresource_client #instalação do pacote para poder ser usado no ambiente python

Collecting chembl_webresource_client
  Downloading chembl_webresource_client-0.10.9-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.2/55.2 kB[0m [31m694.8 kB/s[0m eta [36m0:00:00[0m
Collecting requests-cache~=1.2 (from chembl_webresource_client)
  Downloading requests_cache-1.2.1-py3-none-any.whl (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.4/61.4 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
Collecting cattrs>=22.2 (from requests-cache~=1.2->chembl_webresource_client)
  Downloading cattrs-23.2.3-py3-none-any.whl (57 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.5/57.5 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
Collecting url-normalize>=1.4 (from requests-cache~=1.2->chembl_webresource_client)
  Downloading url_normalize-1.4.3-py2.py3-none-any.whl (6.8 kB)
Installing collected packages: url-normalize, cattrs, requests-cache, chembl_webresource_client
Successfully installed cattrs-

## **Importando bibliotecas**

In [None]:
# Importando bibliotecas necessárias
import pandas as pd # Importação da biblioteca e renomeação para 'pd'
from chembl_webresource_client.new_client import new_client # A função new_client é usada para criar um novo cliente para fazer solicitações par o banco de dados chembl
from google.colab import drive
drive.mount('/content/gdrive', force_remount = True) # Montando o google drive
proj_path = '/content/gdrive/MyDrive/Colab Notebooks/'# Especificando o local onde os dados estão salvos



Mounted at /content/gdrive


## **Pesquisar proteína-alvo**

### **Pesquisa de alvo para VHC**

### **Selecione e recupere dados de bioatividade para *Hepatitis C virus serine protease, NS3/NS4A* (quinta entrada)**

Atribuiremos a quinta entrada (que corresponde à proteína alvo, *Hepatitis C virus serine protease, NS3/NS4A*) à variável ***selected_target***

Foi selecionado esse alvo pois, as proteases tem uma importância essencial para a replicação viral e interrompendo o ciclo de vida do virus. Outro fator importante e que essa estrutura, das proteases, são muito conhecidas o que facilitaria o designer de inibidores que tem propenção de se encaixar em sitio ativos. E tambem possui alta espcificidade o que pode reduzir possiveis efeitos colaterais dos medicamentos e por fim, existem medicamentos que ja estao no mercado que tem como alvos as proteases, como inibidores de proteases usados no tratamento de HIV por exemplo (DOCHERTY, Andy J. et al., 2003).

referencias
DOCHERTY, Andy J. et al. Proteases como alvos de drogas. In: Simpósios da Sociedade Bioquímica . Portland Press Limited, 2003. p. 147-161.

In [None]:
# Pesquisas relacionadas  (podemos mudar o alvo, caso necessário)
target = new_client.target # Criação de um cliente para buscar os alvos no banco de dados ChEMBL
target_query = target.search('Hepatitis C') # Buscar os alvos da hepatite C
targets = pd.DataFrame.from_dict(target_query) # Converter os resultados da busca em um DataFrame do pandas
targets # Exibição do dataframe

Unnamed: 0,cross_references,organism,pref_name,score,species_group_flag,target_chembl_id,target_components,target_type,tax_id
0,[],Hepacivirus hominis,Hepatitis C virus,19.0,False,CHEMBL379,[],ORGANISM,3052230.0
1,"[{'xref_id': 'P26664', 'xref_name': None, 'xre...",Hepatitis C virus genotype 1a (isolate 1) (HCV),Hepatitis C virus polyprotein,17.0,False,CHEMBL4620,"[{'accession': 'P26664', 'component_descriptio...",SINGLE PROTEIN,11104.0
2,"[{'xref_id': 'D2K2A8', 'xref_name': None, 'xre...",Hepatitis C virus,Hepatitis C virus NS4A protein,15.0,False,CHEMBL2364,"[{'accession': 'D2K2A8', 'component_descriptio...",SINGLE PROTEIN,3052230.0
3,"[{'xref_id': 'Q15004', 'xref_name': None, 'xre...",Homo sapiens,PCNA-associated factor,14.0,False,CHEMBL5574,"[{'accession': 'Q15004', 'component_descriptio...",SINGLE PROTEIN,9606.0
4,[],Homo sapiens,Hepatitis A virus cellular receptor 2,14.0,False,CHEMBL4630879,"[{'accession': 'Q8TDQ0', 'component_descriptio...",SINGLE PROTEIN,9606.0
...,...,...,...,...,...,...,...,...,...
872,[],Drosophila melanogaster,Nicotinic acetylcholine receptor,0.0,False,CHEMBL3350223,"[{'accession': 'P25162', 'component_descriptio...",PROTEIN COMPLEX GROUP,7227.0
873,[],Escherichia coli,1-deoxy-D-xylulose 5-phosphate reductoisomerase,0.0,False,CHEMBL3421521,"[{'accession': 'W8T2T2', 'component_descriptio...",SINGLE PROTEIN,562.0
874,[],Homo sapiens,UDP-glucuronosyltransferases (UGTs),0.0,False,CHEMBL4523985,"[{'accession': 'P22310', 'component_descriptio...",PROTEIN FAMILY,9606.0
875,[],Homo sapiens,Cytochrome P450,0.0,False,CHEMBL4523986,"[{'accession': 'P08684', 'component_descriptio...",PROTEIN FAMILY,9606.0


In [None]:
selected_target = targets.target_chembl_id[5] # Foi selecionado o 5º elemento da coluna 'target_chembl_id' (que e a Hepatitis C virus serine protease, NS3/NS4A ) do dataframe criado 'targets
selected_target # impressão dos valores retornados de 'selected_targets', no caso seria o CHEMBL2095231

'CHEMBL2095231'

Aqui, recuperaremos apenas dados de bioatividade para *Hepatitis C virus serine protease, NS3/NS4A* (CHEMBL2095231) que são relatados como valores de IC$_{50}$ na unidade nM (nanomolar).

In [None]:
activity = new_client.activity # criação de um objeto chamado 'activity' para poder acessar os dados de atividade do cliente que esta acessando
res = activity.filter(target_chembl_id=selected_target).filter(standard_type="IC50") # filtração dos dados de atividade 'target_chembl_id' selecionado pelo tipo padrao "IC50"

In [None]:
df = pd.DataFrame.from_dict(res) # Transformação de dados coletados em um dataframe

In [None]:
df.head(3) # exibição das 3 primeiras linhas  do dataframe (isso e opcional, podemos imprimir todos os dados)
df # Impressão dos dataset

Unnamed: 0,action_type,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,assay_variant_accession,assay_variant_mutation,bao_endpoint,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,,,150600,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.52
1,,,151869,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.22
2,,,154283,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.22
3,,,157966,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.42
4,,,172695,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.026
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073351,[],CHEMBL5253621,Inhibition of Hepatitis C virus genotype 2b NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,164.0
609,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073352,[],CHEMBL5253622,Inhibition of Hepatitis C virus genotype 3a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,1.8
610,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073353,[],CHEMBL5253623,Inhibition of Hepatitis C virus genotype 4a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,19.9
611,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073354,[],CHEMBL5253624,Inhibition of Hepatitis C virus genotype 5a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,4.8


Por fim, salvaremos os dados de bioatividade resultantes em um arquivo CSV **bioactivity_data.csv**.

In [None]:
file_name1 = 'bioactivity_data_raw.csv' # Nome do arquivo de saída
df.to_csv(proj_path + file_name1, index=False) # Salva o DataFrame em 'df' em um arquivo CSV no caminho especificado

## **Lidando com dados ausentes**
Se algum composto tiver valor ausente para a coluna **standard_value**, descarte-o

In [None]:
df2 = df[df.standard_value.notna()] # Criação de dataframe onde a coluna 'standard_value' não e nula
df2 # impressão do dataframe

Unnamed: 0,action_type,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,assay_variant_accession,assay_variant_mutation,bao_endpoint,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,,,150600,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.52
1,,,151869,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.22
2,,,154283,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.22
3,,,157966,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.42
4,,,172695,[],CHEMBL752797,Binding inhibition of hepatitis C virus NS3.4A...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,uM,UO_0000065,,0.026
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
608,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073351,[],CHEMBL5253621,Inhibition of Hepatitis C virus genotype 2b NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,164.0
609,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073352,[],CHEMBL5253622,Inhibition of Hepatitis C virus genotype 3a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,1.8
610,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073353,[],CHEMBL5253623,Inhibition of Hepatitis C virus genotype 4a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,19.9
611,"{'action_type': 'INHIBITOR', 'description': 'N...",,25073354,[],CHEMBL5253624,Inhibition of Hepatitis C virus genotype 5a NS...,B,,,BAO_0000190,...,Hepatitis C virus,"Hepatitis C virus serine protease, NS3/NS4A",3052230,,,IC50,nM,UO_0000065,,4.8


Aparentemente, para este conjunto de dados não há dados ausentes. Mas podemos usar a célula de código acima para dados de bioatividade de outra proteína alvo.

## **Pré-processamento de dados dos dados de bioatividade**

### **Rotulagem de compostos como ativos, inativos ou intermediários**
Os dados de bioatividade estão na unidade IC50. Os compostos com valores inferiores a 1.000 nM serão considerados **ativos**, enquanto os superiores a 10.000 nM serão considerados **inativos**. Já os valores entre 1.000 e 10.000 nM serão referidos como **intermediários**.

OBS: nM = nanomolar (10^-9 mol)


In [None]:
bioactivity_class = [] # Lista vazia para armazenar as classes de bioatividade
for i in df2.standard_value: # Itera (executar repetidamente) sobre os valores da coluna 'standard_value' no DataFrame 'df2'
  if float(i) >= 10000:
    bioactivity_class.append("inactive") # Compostos com valores maiores ou iguais a 10.000 nM são considerados inativos
  elif float(i) <= 1000:
    bioactivity_class.append("active") # Compostos com valores menores ou iguais a 1.000 nM são considerados ativos
  else:
    bioactivity_class.append("intermediate") # Valores entre 1.000 e 10.000 nM são intermediários

### **Combine as 3 colunas (molecule_chembl_id,canonical_smiles,standard_value) e bioactivity_class em um DataFrame**

1. **Molecule ChEMBL ID (molecule_chembl_id)**:
   - O **ChEMBL** é um banco de dados de moléculas bioativas com propriedades semelhantes a medicamentos. O **molecule_chembl_id** é um identificador exclusivo atribuído a cada molécula no banco de dados ChEMBL. Ele permite que os cientistas rastreiem e acessem informações específicas sobre uma molécula, como atividade biológica, estrutura química e propriedades.

2. **Canonical SMILES**:
   - O **SMILES** (Simplified Molecular Input Line Entry System) é uma notação para representar estruturas químicas de maneira concisa e legível por máquina. O **Canonical SMILES** é uma versão padronizada do SMILES para uma molécula específica. Ele representa a estrutura química de forma única, independentemente da forma como foi desenhada ou representada. É usado em bancos de dados e algoritmos de busca química.

3. **Standard Value**:
   - O **standard_value** refere-se a uma medida quantitativa da atividade biológica de uma molécula. Geralmente, está associado a ensaios de ligação a receptores ou inibição enzimática. É a concentração ou dose necessária para produzir uma resposta específica (por exemplo, inibição de 50% da atividade). Valores menores indicam maior atividade.

In [None]:
selection = ['molecule_chembl_id','canonical_smiles','standard_value'] # Selecionando as colunas desejadas
df3 = df2[selection] # Criando um novo DataFrame 'df3' com as colunas selecionadas
df3 # Exibindo o DataFrame 'df3'

Unnamed: 0,molecule_chembl_id,canonical_smiles,standard_value
0,CHEMBL32704,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,520.0
1,CHEMBL33248,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0
2,CHEMBL285069,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0
3,CHEMBL286124,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,420.0
4,CHEMBL285686,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,26.0
...,...,...,...
608,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,164.0
609,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,1.8
610,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,19.9
611,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,4.8


In [None]:
bioactivity_class = pd.Series(bioactivity_class, name='bioactivity_class') # Criando uma série a partir da lista 'bioactivity_class' com o nome 'bioactivity_class'
df4 = pd.concat([df3, bioactivity_class], axis=1) # Concatenando as colunas 'molecule_chembl_id', 'canonical_smiles' e 'standard_value' com a série 'bioactivity_class'
df4 # Exibindo o DataFrame resultante 'df4'

Unnamed: 0,molecule_chembl_id,canonical_smiles,standard_value,bioactivity_class
0,CHEMBL32704,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,520.0,active
1,CHEMBL33248,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0,active
2,CHEMBL285069,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0,active
3,CHEMBL286124,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,420.0,active
4,CHEMBL285686,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,26.0,active
...,...,...,...,...
608,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,164.0,active
609,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,1.8,active
610,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,19.9,active
611,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,4.8,active


Salva o dataframe no arquivo CSV

In [None]:
df4.to_csv('bioactivity_data_preprocessed_VHC.csv', index=False) # Salva o DataFrame 'df4' em um arquivo CSV chamado 'bioactivity_data_preprocessed_VHC.csv' (sem índice)
file_name1 = 'bioactivity_data_preprocessed_VHC.csv' # Define o nome do arquivo como 'bioactivity_data_preprocessed_VHC.csv'
df4.to_csv(proj_path + file_name1, index=False) # Salva o DataFrame 'df4' em um arquivo CSV no caminho especificado por 'proj_path' (sem índice)
df4 # Exibe o DataFrame 'df4'


Unnamed: 0,molecule_chembl_id,canonical_smiles,standard_value,bioactivity_class
0,CHEMBL32704,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,520.0,active
1,CHEMBL33248,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0,active
2,CHEMBL285069,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,220.0,active
3,CHEMBL286124,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,420.0,active
4,CHEMBL285686,CCCC(NC(=O)[C@@H]1C[C@@H](OC(=O)N2CCc3ccccc3C2...,26.0,active
...,...,...,...,...
608,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,164.0,active
609,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,1.8,active
610,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,19.9,active
611,CHEMBL3126842,COc1ccc2c(c1)[C@@H]1C[C@]1(C(=O)N1C3CCC1CN(C)C...,4.8,active


In [None]:
! ls -l # é usado para listar os arquivos e diretórios no diretório atual. Quando você executa esse comando, ele exibe detalhes sobre os arquivos, incluindo permissões, proprietário, tamanho, data de modificação e nome. Aqui está o significado de algumas das informações exibidas:

total 96
-rw-r--r-- 1 root root 89752 Jul  1 23:48 bioactivity_data_preprocessed_VHC.csv
drwx------ 6 root root  4096 Jul  1 23:45 gdrive
drwxr-xr-x 1 root root  4096 Jun 28 13:24 sample_data


---