#Trabalho de Conclusão de Curso:Especialização em Data Science e Big Data

Neste projecto será desenvolvido um trabalho de conclusão de curso de especialização em data science e Big data. 
A proposta consiste no desenvolvimento de um modelo de QSAR-3D machine learning (regressão e classificação) para investigação de novos fármacos bloqueadores de "C-C chemokine receptor type 5", para o tratamento potencial de HIV. Estes dados serão colectados no Chebl Database.



# Chembl database
 ChEMBL database (https://www.ebi.ac.uk/chembl/) é um banco de dados público que contém dados de bioatividade com curadoria de mais de 2.5 milhões de compostos. Esses compostos bioactivos foram selecionados cuidadosamente por especialistas da área. Ele é compilado a partir de mais de 85 mil documentos, 1.5 milhões  de ensaios e os dados abrangem 15 mil alvos terapêuticos, 6.3 mil mecanismos de ação dos fármacos,  e 2 mil células e 43 mil indicações de medicamentos e 757 tecidos biológicos. [Dados registrados em 08 de Setembro de 2022].

# PARTE 1: COLETA DE DADOS E MINERAÇÃO DE DADOS




In [34]:
# Etapas de execução do Projecto: Parte 1
## Passo 1: Instalação das biliotecas 
## Passo 2: Importação dos dados gerais dos compostos com atividade anti-HIV
## Passo 3: Seleção dos compostos bioactivos cujo alvo é C-C chemokine receptor type 5
## Passo 4: Salvando os dados de bioactividade
## Passo 5: Verificar a presença de missings 
## Passo 6: Préprocessamento dos dados
## Passo 7: Fazendo a iteração dos dados
## Passo 8: Salvar os dados pré-processados

# Passo 1: Instalação das biliotecas 

In [35]:
## 1.1. Instalando a biblioteca Chebl

!pip install chembl_webresource_client

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [36]:
## 1.2.  Importando a biblioteca pandas
import pandas as pd
from chembl_webresource_client.new_client import new_client

# Passo 2: Importação dos dados gerais dos compostos com atividade anti-HIV

In [37]:
# Pesquisa de alvo de coronavirus
alvo = new_client.target
pesquisa_alvo = alvo.search('HIV')
alvos = pd.DataFrame.from_dict(pesquisa_alvo)
alvos

Unnamed: 0,cross_references,organism,pref_name,score,species_group_flag,target_chembl_id,target_components,target_type,tax_id
0,[],Human immunodeficiency virus,HIV protease,20.0,False,CHEMBL3638323,"[{'accession': 'Q9YQ30', 'component_descriptio...",SINGLE PROTEIN,12721
1,[],HIV-1 M:B_Lai,HIV-1 M:B_Lai,14.0,False,CHEMBL612775,[],ORGANISM,290579
2,[],Homo sapiens,Transcription factor HIVEP2,12.0,False,CHEMBL4523214,"[{'accession': 'P31629', 'component_descriptio...",SINGLE PROTEIN,9606
3,[],Homo sapiens,Ubiquitin thioesterase OTU1,12.0,False,CHEMBL4630833,"[{'accession': 'Q5VVQ6', 'component_descriptio...",SINGLE PROTEIN,9606
4,"[{'xref_id': 'P51681', 'xref_name': None, 'xre...",Homo sapiens,C-C chemokine receptor type 5,11.0,False,CHEMBL274,"[{'accession': 'P51681', 'component_descriptio...",SINGLE PROTEIN,9606
5,"[{'xref_id': 'P15822', 'xref_name': None, 'xre...",Homo sapiens,Human immunodeficiency virus type I enhancer-b...,9.0,False,CHEMBL2909,"[{'accession': 'P15822', 'component_descriptio...",SINGLE PROTEIN,9606
6,"[{'xref_id': 'Q92993', 'xref_name': None, 'xre...",Homo sapiens,Histone acetyltransferase KAT5,9.0,False,CHEMBL5750,"[{'accession': 'Q92993', 'component_descriptio...",SINGLE PROTEIN,9606
7,[],Homo sapiens,CCR5/mu opioid receptor complex,9.0,False,CHEMBL3301384,"[{'accession': 'P51681', 'component_descriptio...",PROTEIN COMPLEX,9606
8,[],Homo sapiens,80S Ribosome,0.0,False,CHEMBL3987582,"[{'accession': 'P08865', 'component_descriptio...",PROTEIN NUCLEIC-ACID COMPLEX,9606


# Passo 3: Seleção dos compostos bioativos cujo alvo é "C-C chemokine receptor type 5"

In [38]:
## 3.1. Selecionando o alvo molecular na base (C-C chemokine receptor type 5) de dados Chambl 
alvo_selecionado = alvos.target_chembl_id[4]
alvo_selecionado

'CHEMBL274'

Importante: aqui usaremos apenas os compostos bioativos do "alvo molecuclar C-C chemokine receptor type 5" cujos dados de atividade foram relatadas como valores de IC50 em  unidades de nM

In [39]:
## 3.2. Seleccionando os compostos bioativos com  dados de IC50 na unidade de nM
actividade = new_client.activity
resultado = actividade.filter(target_chembl_id=alvo_selecionado).filter(standard_type="IC50")

In [40]:
df = pd.DataFrame.from_dict(resultado)
display(df)

Unnamed: 0,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,assay_variant_accession,assay_variant_mutation,bao_endpoint,bao_format,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,,75508,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,335.0
1,,75509,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,28.0
2,,75510,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,10.0
3,,76739,[],CHEMBL873385,Binding affinity against human CCR5 receptor s...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,35.0
4,,77749,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,15.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3864,,23301213,[],CHEMBL4842049,Antagonist activity at CCR5 in human periphera...,F,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,1.1
3865,Not Determined,23301214,[],CHEMBL4842049,Antagonist activity at CCR5 in human periphera...,F,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,,,,
3866,,23301215,[],CHEMBL4842050,Antagonist activity at CCR5 in human whole blo...,F,,,BAO_0000190,BAO_0000221,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,34.7
3867,,23301216,[],CHEMBL4842050,Antagonist activity at CCR5 in human whole blo...,F,,,BAO_0000190,BAO_0000221,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,5.7


In [41]:
## Observando todas as colunas (variáveis) do dataset
df.count()

activity_comment              951
activity_id                  3869
activity_properties          3869
assay_chembl_id              3869
assay_description            3869
assay_type                   3869
assay_variant_accession         0
assay_variant_mutation          0
bao_endpoint                 3869
bao_format                   3869
bao_label                    3869
canonical_smiles             3837
data_validity_comment          65
data_validity_description      65
document_chembl_id           3869
document_journal             2994
document_year                2998
ligand_efficiency            1953
molecule_chembl_id           3869
molecule_pref_name            911
parent_molecule_chembl_id    3869
pchembl_value                2728
potential_duplicate          3869
qudt_units                   2971
record_id                    3869
relation                     2929
src_id                       3869
standard_flag                3869
standard_relation            2929
standard_text_

In [42]:
df.standard_type.unique()

array(['IC50'], dtype=object)

# Passo 4: Salvando os dados de bioatividade

In [44]:

df.to_csv('dados_bioactividade.csv', index=False)

# Passo 5: Verificar a presença de missings

In [45]:
df2 = df[df.standard_value.notna()]
df2

Unnamed: 0,activity_comment,activity_id,activity_properties,assay_chembl_id,assay_description,assay_type,assay_variant_accession,assay_variant_mutation,bao_endpoint,bao_format,...,target_organism,target_pref_name,target_tax_id,text_value,toid,type,units,uo_units,upper_value,value
0,,75508,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,335.0
1,,75509,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,28.0
2,,75510,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,10.0
3,,76739,[],CHEMBL873385,Binding affinity against human CCR5 receptor s...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,35.0
4,,77749,[],CHEMBL654653,Binding affinity against C-C chemokine recepto...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,15.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3862,,23301211,[],CHEMBL4842048,Displacement of [125I]MIP-1beta from CCR5 in h...,B,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,3.6
3863,,23301212,[],CHEMBL4842049,Antagonist activity at CCR5 in human periphera...,F,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,1.1
3864,,23301213,[],CHEMBL4842049,Antagonist activity at CCR5 in human periphera...,F,,,BAO_0000190,BAO_0000219,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,1.1
3866,,23301215,[],CHEMBL4842050,Antagonist activity at CCR5 in human whole blo...,F,,,BAO_0000190,BAO_0000221,...,Homo sapiens,C-C chemokine receptor type 5,9606,,,IC50,nM,UO_0000065,,34.7


# Passo 6: Pré-processamento dos dados

In [53]:
## Atribuindo a classe dos compostos: ativo: IC50<1000 nM; inativo =IC50>10000 nM; Intermediário: IC50: 1000-100000 nM
## A Variável de interesse é sempre "standard_value"

classe_bioatividade = []
for i in df2.standard_value:
    if float(i) >= 10000:
        classe_bioatividade.append("Inativo")
    elif float(i) < 1000:
        classe_bioatividade.append("Ativo")
    else:
        classe_bioatividade.append("Intermediário") 

# Passo 7: Realizando a iteração dos dados

In [54]:
# Visualizando os compostos bioactivos
df2.molecule_chembl_id

0        CHEMBL105460
1        CHEMBL105606
2        CHEMBL105570
3         CHEMBL83338
4        CHEMBL325357
            ...      
3862    CHEMBL4594419
3863    CHEMBL4781426
3864    CHEMBL4594419
3866    CHEMBL4781426
3867    CHEMBL4594419
Name: molecule_chembl_id, Length: 2929, dtype: object

In [55]:
## 7.1. Iterando os compostos bioactivos
mol_cid = []
for i in df2.molecule_chembl_id:
    mol_cid.append(i) 

In [56]:
# Imprimindo a variavel mol_cid
mol_cid

['CHEMBL105460',
 'CHEMBL105606',
 'CHEMBL105570',
 'CHEMBL83338',
 'CHEMBL325357',
 'CHEMBL105572',
 'CHEMBL107750',
 'CHEMBL105659',
 'CHEMBL107380',
 'CHEMBL104793',
 'CHEMBL106231',
 'CHEMBL321539',
 'CHEMBL322439',
 'CHEMBL104474',
 'CHEMBL319622',
 'CHEMBL104867',
 'CHEMBL104867',
 'CHEMBL104464',
 'CHEMBL106803',
 'CHEMBL107380',
 'CHEMBL320365',
 'CHEMBL61536',
 'CHEMBL61536',
 'CHEMBL61536',
 'CHEMBL61536',
 'CHEMBL61374',
 'CHEMBL61374',
 'CHEMBL61374',
 'CHEMBL61374',
 'CHEMBL292625',
 'CHEMBL292625',
 'CHEMBL292625',
 'CHEMBL59511',
 'CHEMBL59511',
 'CHEMBL59511',
 'CHEMBL60711',
 'CHEMBL60711',
 'CHEMBL59492',
 'CHEMBL59492',
 'CHEMBL61465',
 'CHEMBL556314',
 'CHEMBL556314',
 'CHEMBL556314',
 'CHEMBL59602',
 'CHEMBL59602',
 'CHEMBL59602',
 'CHEMBL418120',
 'CHEMBL418120',
 'CHEMBL58176',
 'CHEMBL292894',
 'CHEMBL292894',
 'CHEMBL292894',
 'CHEMBL58101',
 'CHEMBL58101',
 'CHEMBL58101',
 'CHEMBL61828',
 'CHEMBL61828',
 'CHEMBL61828',
 'CHEMBL58441',
 'CHEMBL58441',
 'CHEMBL5

In [57]:
## 7.2. Iterando canonical smiles a uma lista
canonical_smiles = []
for i in df2.canonical_smiles:
    canonical_smiles.append(i)

In [58]:
## 7.3. Iterando para standard_value a uma lista
standard_value = []
for i in df2.standard_value:
    standard_value.append(i)

In [59]:
## 7.4. Combinando as quatro variáveis em um mesmo dataframe
dados_tupla = list(zip(mol_cid, canonical_smiles, classe_bioatividade, standard_value))
df3 = pd.DataFrame( dados_tupla,  columns=['molecule_chembl_id', 'canonical_smiles', 'classe_bioatividade', 'standard_value'])

In [60]:
df3

Unnamed: 0,molecule_chembl_id,canonical_smiles,classe_bioatividade,standard_value
0,CHEMBL105460,C=CCN(C(=O)OCc1ccc([N+](=O)[O-])cc1)C1CCN(CCC(...,Ativo,335.0
1,CHEMBL105606,C=CCN(C(=O)OCc1ccc([N+](=O)[O-])cc1)C1CCN(CCC(...,Ativo,28.0
2,CHEMBL105570,C=CCN(C(=O)OCc1ccc([N+](=O)[O-])cc1)C1CCN(CCC(...,Ativo,10.0
3,CHEMBL83338,CN(C[C@@H](CCN1CCC2(CC1)C[S+]([O-])c1ccccc12)c...,Ativo,35.0
4,CHEMBL325357,C=CCN(C(=O)OCc1ccc([N+](=O)[O-])cc1)C1CCN(CCC(...,Ativo,15.0
...,...,...,...,...
2924,CHEMBL4594419,CC(=O)N[C@@H]1C[C@H](NC(C)(C)C)CC[C@@H]1N1CC[C...,Ativo,3.6
2925,CHEMBL4781426,CC(=O)N[C@@H]1C[C@H](NC(C)(C)C)CC[C@@H]1N1CC[C...,Ativo,1.1
2926,CHEMBL4594419,CC(=O)N[C@@H]1C[C@H](NC(C)(C)C)CC[C@@H]1N1CC[C...,Ativo,1.1
2927,CHEMBL4781426,CC(=O)N[C@@H]1C[C@H](NC(C)(C)C)CC[C@@H]1N1CC[C...,Ativo,34.7


## Passo 8: Salvar os dados pré-processados

In [61]:

# Salvando o dataframe para um ficheiro CSV

df3.to_csv('dados_preprocessados.csv', index=False)
