# **Projeto de Bioinformática e Análise de Dados - Descoberta Computacional de Fármacos**

## **Cálculo do descritor e preparação do conjunto de dados**


Calcularemos descritores moleculares que são essencialmente descrições quantitativas dos compostos no conjunto de dados. Finalmente, prepararemos isso em um conjunto de dados para a construção subsequente do modelo na Funcionalidade 4.

---

## **Baixar PaDEL-Descriptor**

In [51]:
import urllib.request

# Download padel.zip
url_zip = 'https://github.com/dataprofessor/bioinformatics/raw/master/padel.zip'
urllib.request.urlretrieve(url_zip, 'padel.zip')

# Download padel.sh
url_sh = 'https://github.com/dataprofessor/bioinformatics/raw/master/padel.sh'
urllib.request.urlretrieve(url_sh, 'padel.sh')


('padel.sh', <http.client.HTTPMessage at 0x173ce678fd0>)

In [52]:
import zipfile

with zipfile.ZipFile('padel.zip', 'r') as zip_ref:
    zip_ref.extractall('.')


## **Carregar dados de bioatividade**

Baixar os dados de bioatividade ChEMBL selecionados que foram pré-processados ​​das Funcionalidades 1 e 2 desta série de Projetos de Bioinformática. Aqui, usaremos o arquivo **bioactivity_data_3class_pIC50.csv** que contém essencialmente os valores de pIC50 que usaremos para construir um modelo de regressão.

In [53]:
import pandas as pd

In [54]:
df3 = pd.read_csv('dengue_bioactivity_data_processed.csv')

In [55]:
df3

Unnamed: 0,molecule_chembl_id,canonical_smiles,class,MW,LogP,NumHDonors,NumHAcceptors,pIC50
0,CHEMBL2332247,O=C(CNCc1ccc(C(=O)N2CCCCC2)cc1)NC(=O)COc1ccccc1,inactive,409.486,2.1241,2.0,5.0,4.0
1,CHEMBL4175102,COc1ccc(-c2cc(-c3ccc4cc(F)ccc4n3)n(-c3ccc(S(N)...,active,474.517,4.5496,1.0,6.0,6.136677
2,CHEMBL1138,O=C1[C@H](CC[C@H](O)c2ccc(F)cc2)[C@@H](c2ccc(O...,inactive,409.432,4.8883,2.0,3.0,4.883724
3,CHEMBL506569,CC(=O)O[C@H]1C[C@H](O[C@H]2[C@@H](O)C[C@H](O[C...,active,985.127,0.6131,8.0,20.0,6.30103


In [56]:
selection = ['canonical_smiles','molecule_chembl_id']
df3_selection = df3[selection]
df3_selection.to_csv('molecule.smi', sep='\t', index=False, header=False)

In [57]:
with open('molecule.smi', 'r') as file:
    for _ in range(5):
        line = file.readline()
        if not line:
            break
        print(line.strip())


O=C(CNCc1ccc(C(=O)N2CCCCC2)cc1)NC(=O)COc1ccccc1	CHEMBL2332247
COc1ccc(-c2cc(-c3ccc4cc(F)ccc4n3)n(-c3ccc(S(N)(=O)=O)cc3)n2)cc1	CHEMBL4175102
O=C1[C@H](CC[C@H](O)c2ccc(F)cc2)[C@@H](c2ccc(O)cc2)N1c1ccc(F)cc1	CHEMBL1138
CC(=O)O[C@H]1C[C@H](O[C@H]2[C@@H](O)C[C@H](O[C@H]3[C@@H](O)C[C@H](O[C@H]4CC[C@@]5(C)[C@H](CC[C@@H]6[C@@H]5C[C@@H](O)[C@]5(C)[C@@H](C7=CC(=O)OC7)CC[C@]65O)C4)O[C@@H]3C)O[C@@H]2C)O[C@H](C)[C@H]1O[C@@H]1O[C@H](CO)[C@@H](O)[C@H](O)[C@H]1O	CHEMBL506569


In [58]:
with open('molecule.smi', 'r') as file:
    line_count = sum(1 for line in file)
print(f"Total de linhas: {line_count}")

Total de linhas: 4


## **Calcular descritores de impressão digital**

### **Calcular descritores PaDEL**

In [59]:
with open('padel.sh', 'r') as file:
    content = file.read()
print(content)

java -Xms1G -Xmx1G -Djava.awt.headless=true -jar ./PaDEL-Descriptor/PaDEL-Descriptor.jar -removesalt -standardizenitro -fingerprints -descriptortypes ./PaDEL-Descriptor/PubchemFingerprinter.xml -dir ./ -file descriptors_output.csv



In [60]:
import subprocess

# Executa o script padel.sh usando bash
subprocess.run(['bash', 'padel.sh'])


CompletedProcess(args=['bash', 'padel.sh'], returncode=1)

In [61]:
import os
import time

# Listar arquivos no diretório atual
for file in os.listdir('.'):
    file_stat = os.stat(file)
    print(f"{file:30} Size: {file_stat.st_size} bytes, Modified: {time.ctime(file_stat.st_mtime)}")


.git                           Size: 4096 bytes, Modified: Sun Oct 13 15:55:29 2024
1-ProjetoDescobertaDeMedicamentosChEMBL.ipynb Size: 41701 bytes, Modified: Sat Nov  9 18:25:22 2024
2_ProjetoDescobertaDeMedicamentosChEMBL.ipynb Size: 237967 bytes, Modified: Sat Nov  9 18:42:14 2024
3-ProjetoDescobertaDeMedicamentosChEMBL.ipynb Size: 9695 bytes, Modified: Sat Nov  9 18:54:55 2024
dengue_bioactivity_data.csv    Size: 6779 bytes, Modified: Sat Nov  9 18:25:21 2024
dengue_bioactivity_data_preprocessed.csv Size: 1323 bytes, Modified: Sat Nov  9 18:25:21 2024
dengue_bioactivity_data_processed.csv Size: 821 bytes, Modified: Sat Nov  9 18:42:13 2024
mannwhitneyu_LogP.csv          Size: 121 bytes, Modified: Sat Nov  9 18:26:06 2024
mannwhitneyu_MW.csv            Size: 119 bytes, Modified: Sat Nov  9 18:26:05 2024
mannwhitneyu_NumHAcceptors.csv Size: 130 bytes, Modified: Sat Nov  9 18:26:07 2024
mannwhitneyu_NumHDonors.csv    Size: 112 bytes, Modified: Sat Nov  9 18:26:07 2024
mannwhitneyu_pIC

## **Preparando as matrizes de dados X e Y**

### **matriz de dados X**

In [62]:
df3_X = pd.read_csv('descriptors_output.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'descriptors_output.csv'

In [None]:
df3_X

In [None]:
df3_X = df3_X.drop(columns=['Name'])
df3_X

## **variável Y**

### **Converter IC50 para pIC50**

In [None]:
df3_Y = df3['pIC50']
df3_Y

## **Combinando as variáveis ​​X e Y**

In [None]:
dataset3 = pd.concat([df3_X,df3_Y], axis=1)
dataset3

In [None]:
dataset3.to_csv('dengue_bioactivity_data_processed_pubchem_fp.csv', index=False)

# **Vamos baixar o arquivo CSV para o computador local para a Parte 4 (Construção de Modelos).**