# Etapa 1:

Numa primeira fase foi efetuado o carregamento do Dataset. O Dataset escolhido para a realização deste trabalho é intitulado como 'Caco2_Wang' e tem como obtejtivo estudar a permeabilidade efetiva do tecido à passagem de diferentes medicamentos, apresentados no Dataset como 'Drug'.


 

#### Carregar dataset:

In [26]:
from tdc.single_pred import ADME
import pandas as pd
import rdkit
from rdkit import Chem
from rdkit.Chem import MolToSmiles
from rdkit.Chem import Descriptors
from rdkit.Chem import rdMolDescriptors
from rdkit.Chem.MolStandardize import rdMolStandardize
from rdkit.Chem import Crippen
from rdkit.Chem import AllChem
from rdkit.Chem import Descriptors3D
from rdkit.Chem import Draw
import py3Dmol

data = ADME(name = 'Caco2_Wang')


Found local copy...
Loading...
Done!


In [27]:
pd.set_option('display.max_rows', None) #configura a opção de pandas para mostrar todas as linhas do DataFrame ao imprimir
dataset=data.get_data()
dataset

Unnamed: 0,Drug_ID,Drug,Y
0,(-)-epicatechin,Oc1cc(O)c2c(c1)OC(c1ccc(O)c(O)c1)C(O)C2,-6.22
1,"(2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y...",C/C=C\C#CCC/C=C\C=C\C(=O)NCC(C)C,-3.86
2,codeine,COc1ccc2c3c1O[C@H]1[C@@H](O)C=C[C@H]4[C@@H](C2...,-4.09
3,creatinine,CN1CC(=O)NC1=N,-5.935409
4,danazol,C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(...,-4.84
5,dexamethasone b D glucoside,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,-6.54
6,dexamethasone b D glucuronide,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,-6.12
7,DMXAA-G,Cc1ccc2c(=O)c3cccc(CC(=O)OC4OC(C(=O)O)[C@@H](O...,-6.52
8,d-praeruptorin,C/C=C(\C)C(=O)O[C@H]1[C@@H](OC(C)=O)c2c(ccc3cc...,-4.58
9,echinacoside,C[C@@H]1O[C@@H](O[C@@H]2[C@@H](O)[C@H](OCCc3cc...,-6.65


##### Verificar se os SMILES do dataset são válidos:

In [28]:
def verificar_smiles(dataset):
    valores=dataset.values
    smiles=[]
    i=0
    j=0
    for linha in valores:
        i+=1
        if Chem.MolFromSmiles(linha[1]) is None:
            j+=1
            print('Linha nº:',i,'ID:', linha[0], "Erro: SMILES inválido.") #Imprime a linha e o ID do SMILE inválido
    if j==0:
        print('Os SMILES são todos válidos!')
verificar_smiles(dataset)

Os SMILES são todos válidos!


#### Criar uma lista com apenas os SMILES:

In [29]:
valores=dataset.values 
smiles=[] #lista com o importante para a criação dos descritores
for linha in valores:
    smiles.append(linha[1])
    
print(smiles)
        

['Oc1cc(O)c2c(c1)OC(c1ccc(O)c(O)c1)C(O)C2', 'C/C=C\\C#CCC/C=C\\C=C\\C(=O)NCC(C)C', 'COc1ccc2c3c1O[C@H]1[C@@H](O)C=C[C@H]4[C@@H](C2)N(C)CC[C@]314', 'CN1CC(=O)NC1=N', 'C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(C)[C@H]3CC[C@@]21C', 'C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C@@]3(F)[C@@H](O)C[C@]2(C)[C@@]1(O)C(=O)CO[C@H]1O[C@@H](CO)[C@H](O)[C@@H](O)[C@@H]1O', 'C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C@@]3(F)[C@@H](O)C[C@]2(C)[C@@]1(O)C(=O)CO[C@H]1O[C@@H](C(=O)O)[C@H](O)[C@@H](O)[C@@H]1O', 'Cc1ccc2c(=O)c3cccc(CC(=O)OC4OC(C(=O)O)[C@@H](O)[C@@H](O)[C@@H]4O)c3oc2c1C', 'C/C=C(\\C)C(=O)O[C@H]1[C@@H](OC(C)=O)c2c(ccc3ccc(=O)oc23)OC1(C)C', 'C[C@@H]1O[C@@H](O[C@@H]2[C@@H](O)[C@H](OCCc3ccc(O)c(O)c3)O[C@H](CO[C@@H]3O[C@H](CO)[C@@H](O)[C@H](O)[C@H]3O)[C@H]2OC(=O)/C=C/c2ccc(O)c(O)c2)[C@H](O)[C@H](O)[C@H]1O', 'O=C(O)COc1ccc(C(=O)CN2CCN(C3CCNCC3)CC2=O)cc1', 'CCCCOC(=O)COc1ccc(C(=O)CN2CCN(C3CCNCC3)CC2=O)cc1', 'CCCCC(C)OC(=O)COc1ccc(C(=O)CN2CCN(C3CCNCC3)CC2=O)cc1', 'CCCCCCC(C)OC(=O)COc1ccc(C(=O

# Descritores

Os descritores moleculares são representações matemáticas de uma molécula que resultam de uma transformação da informação estrutural disponível para a molécula.

##  Descritores 0D

Os descritores 0D são calculados para toda a molécula no geral, capturam informações sobre uma molécula sem levar em consideração a conectividade tridimensional dos átomos. Nesta secção realizaram-se os seguintes:
   - Peso molecular;
   - Número de átomos total;
   - Número de ligações total;
   - Número de eletrões de valência;
   - Número de aceitadores de hidrogénio;
   - Número de dadores de hidrogénio;
   - Número de átomos por elemento;
   - Número de cada tipo de ligação;
   - Log(P).


##### Função que cria uma coluna no dataset com o peso molecular de cada fármaco:

In [30]:
def des_mw(dataset):
    peso=[]
    for molecula in smiles:
        peso.append(rdkit.Chem.Descriptors.ExactMolWt(Chem.MolFromSmiles(molecula)))
    dataset.insert(2,'MW',peso, allow_duplicates=True)

des_mw(dataset)

#### Função que cria uma coluna no dataset com o número de átomos total de cada fármaco:

In [31]:
def des_cont_atomos(dataset):
    n_atoms=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula)) #Adição dos H's 
        n=molecula.GetNumAtoms()
        n_atoms.append(n)
    dataset.insert(3,'Nº Atomos',n_atoms, allow_duplicates=True)

des_cont_atomos(dataset)

#### Função que cria uma coluna no dataset com o número de ligações de cada fármaco:

In [32]:
def des_cont_liga(dataset):
    n_bonds=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula))
        n=molecula.GetNumBonds()
        n_bonds.append(n)
    dataset.insert(4,'Nº Ligações',n_bonds, allow_duplicates=True)

des_cont_liga(dataset)

#### Função que cria uma coluna no dataset com o número de eletrões de valência de cada fármaco:

In [33]:
def des_cont_eletroes_val(dataset):
    n_eletroes=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula))
        eletroes_valencia = 0
        for atomo in molecula.GetAtoms():
            eletroes_valencia += atomo.GetTotalValence()
        n_eletroes.append(eletroes_valencia)
    dataset.insert(5,'Nº Eletrões Valência',n_eletroes, allow_duplicates=True)

des_cont_eletroes_val(dataset)

#### Função que cria uma coluna no dataset com o número de aceitadores de hidrogénio de cada fármaco:

In [34]:
def des_cont_h_aceita(dataset):
    n_h_aceita=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_h_aceita.append(rdkit.Chem.rdMolDescriptors.CalcNumHBA(molecula))
    dataset.insert(6,'Nº H Aceitadores',n_h_aceita, allow_duplicates=True)

des_cont_h_aceita(dataset)

#### Função que cria uma coluna no dataset com o número de dadores de hidrogénio de cada fármaco:

In [35]:
def des_cont_h_dador(dataset):
    n_h_dador=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_h_dador.append(rdkit.Chem.rdMolDescriptors.CalcNumHBD(molecula))
    dataset.insert(6,'Nº H Dadores',n_h_dador, allow_duplicates=True)

des_cont_h_dador(dataset)

#### Função que cria uma coluna no dataset com o número de átomos por elemento de cada fármaco:

In [36]:
def des_cont_elementos(dataset):
    lista_dici=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        dic={}
        for atomo in molecula.GetAtoms():
            dic[atomo.GetSymbol()] = dic.get(atomo.GetSymbol(), 0) + 1 #conta a quantidade de cada tipo de átomo na molécula
        lista_dici.append(dic) 
    elementos=[]
    for dici in lista_dici:
        chaves=dici.keys()
        for ele in chaves:
            if ele not in elementos:
                elementos.append(ele)
    dic_mestre={}         
    for n in elementos:
        dic_mestre[n]=[]    
        
    for dici in lista_dici: #para cada dicionário com os elementos de cada molécula
        chaves=dici.keys()
        for elemento in elementos:
            if elemento in chaves:
                dic_mestre[elemento].append(dici[elemento])
            else:
                dic_mestre[elemento].append(0) #Adiciona 0 se o átomo não estiver presente
    i=8
    for elemento in elementos:
        dataset.insert(i,'Nº '+ elemento, dic_mestre[elemento],allow_duplicates=True)
        i+=1
des_cont_elementos(dataset)
        

#### Função que cria uma coluna no dataset com o número de tipos de ligações de cada fármaco:

In [37]:
def des_cont_t_liga(dataset):
    dic_mestre={'SINGLE':[], 'DOUBLE':[], 'TRIPLE':[], 'AROMATIC':[]}           
    lista_dici=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        dic={}
        for bond in molecula.GetBonds():
            dic[str(bond.GetBondType())] = dic.get(str(bond.GetBondType()), 0) + 1 #conta a quantidade de cada tipo de ligação na molécula
        lista_dici.append(dic)
    
    for dici in lista_dici: #para cada dicionário com os elementos de cada molécula
        chaves=dici.keys()
        for elemento in dic_mestre.keys():
            if elemento in chaves:
                dic_mestre[elemento].append(dici[elemento])
            else:
                dic_mestre[elemento].append(0) #Adiciona 0 se o átomo não estiver presente
    i=18
    for elemento in dic_mestre.keys():
        dataset.insert(i,'Nº de ligações '+ elemento.lower(), dic_mestre[elemento],allow_duplicates=True)
        i+=1

des_cont_t_liga(dataset)

#### Função que cria uma coluna no dataset com o Log(P), que corresponde ao coeficiente de partição octanol-água, de cada fármaco:

In [38]:
def des_logp(dataset):
    logp=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        logp.append(Chem.Descriptors.MolLogP(molecula))
    dataset.insert(22,'Log(P)',logp, allow_duplicates=True)
    
des_logp(dataset)

## Descritores 1D 

Os descritores 1D são parâmetros que descrevem as subestruturas da molécula, que capturam informações sobre a estrutura de uma molécula considerando a conectividade unidimensional dos átomos. Ao contrário dos descritores 0D, que se concentram em características atômicas individuais, os descritores 1D consideram as ligações entre átomos na molécula. Nesta secção realizou-se o seguinte descritor:
   - Número de cada grupo funcional.

#### Função que cria uma coluna no dataset com o número de cada grupo funcional para cada fármaco:

In [39]:
def identificar_grupos_funcionais(dataset):
    grupos_funcionais = {
        "Álcoois": Chem.MolFromSmarts("[OX2H]"),
        "Cetonas": Chem.MolFromSmarts("[CX3](=O)[OX2H1]"),
        "Ésteres": Chem.MolFromSmarts("[CX3](=O)[OX2H0][#6]"),
        "Aminas": Chem.MolFromSmarts("[NX3;H2,H1;!$(NC=O)]"),
        "Ácidos Carboxílicos": Chem.MolFromSmarts("[CX3](=O)[OX1H0-,OX2H1]"),
        "Éteres": Chem.MolFromSmarts("[OX2H0;R0][#6][OX2H0;R0]"),
    }
    dic={'Álcoois': [], 'Cetonas':[], 'Ésteres':[], 'Aminas':[],"Ácidos Carboxílicos":[],"Éteres":[]}  
    
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        for key in grupos_funcionais.keys():
            count_valores = len(molecula.GetSubstructMatches(grupos_funcionais[key]))
            dic[key].append(count_valores)
    i=23
    for elemento in dic.keys():
        dataset.insert(i,'Nº de '+ elemento, dic[elemento],allow_duplicates=True)
        i+=1

identificar_grupos_funcionais(dataset)

## Descritores 2D

Os descritores 2D são parâmetros que descrevem a topologia molecular baseada na sua representação gráfica, são características moleculares que consideram a topologia e a conectividade dos átomos numa molécula, levando em conta a disposição planar dos átomos na representação bidimensional da estrutura molecular. Ao contrário dos descritores 1D, que se concentram em ligações unidimensionais, os descritores 2D adicionam informações sobre a vizinhança de átomos. Nesta secção realizaram-se os seguintes descritores:
   - Número de anéis;
   - Área de superfície polar;
   - Refratividade molar;
   - Índice de Balaban's J.

#### Função que cria uma coluna no dataset com o número de anéis de cada fármaco:

In [40]:
def des_cont_aneis(dataset):
    n_aneis=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_aneis.append(len(Chem.GetSSSR(molecula)))
    dataset.insert(29,'Nº de Anéis', n_aneis,allow_duplicates=True)

des_cont_aneis(dataset)

#### Função que cria uma coluna no dataset com a área de superfície polar de cada fármaco:

In [41]:
def des_area_polar(dataset):
    area_polar=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        psa = rdMolDescriptors.CalcTPSA(molecula)
        area_polar.append(psa)
    dataset.insert(30,'Área de Superfície Polar', area_polar,allow_duplicates=True) 
    
des_area_polar(dataset)

#### Função que cria uma coluna no dataset com refratividade molar de cada fármaco:

In [42]:
def des_refrat_mol(dataset):
    ref=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        ref.append(Crippen.MolMR(molecula))
    
    dataset.insert(31,'Refratividade Molar', ref,allow_duplicates=True) 

des_refrat_mol(dataset)
dataset

Unnamed: 0,Drug_ID,Drug,MW,Nº Atomos,Nº Ligações,Nº Eletrões Valência,Nº H Dadores,Nº H Aceitadores,Nº O,Nº C,...,Nº de Álcoois,Nº de Cetonas,Nº de Ésteres,Nº de Aminas,Nº de Ácidos Carboxílicos,Nº de Éteres,Nº de Anéis,Área de Superfície Polar,Refratividade Molar,Y
0,(-)-epicatechin,Oc1cc(O)c2c(c1)OC(c1ccc(O)c(O)c1)C(O)C2,290.079038,35,37,86,5,6,6,15,...,5,0,0,0,0,0,3,110.38,72.623,-6.22
1,"(2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y...",C/C=C\C#CCC/C=C\C=C\C(=O)NCC(C)C,245.177964,41,40,92,1,1,1,16,...,0,0,0,0,0,0,0,29.1,77.9517,-3.86
2,codeine,COc1ccc2c3c1O[C@H]1[C@@H](O)C=C[C@H]4[C@@H](C2...,299.152144,43,47,102,1,4,3,18,...,1,0,0,0,0,0,5,41.93,82.4638,-4.09
3,creatinine,CN1CC(=O)NC1=N,113.058912,15,15,34,2,2,1,4,...,0,0,0,0,0,0,1,56.19,28.4994,-5.935409
4,danazol,C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(...,337.204179,52,56,122,1,3,2,22,...,1,0,0,0,0,0,5,46.26,96.3528,-4.84
5,dexamethasone b D glucoside,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,554.252726,78,82,172,6,10,10,28,...,6,0,0,0,0,0,5,173.98,132.5778,-6.54
6,dexamethasone b D glucuronide,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,568.23199,77,81,172,6,10,11,28,...,6,1,0,0,1,0,5,191.05,133.1278,-6.12
7,DMXAA-G,Cc1ccc2c(=O)c3cccc(CC(=O)OC4OC(C(=O)O)[C@@H](O...,458.121297,55,58,134,4,9,10,23,...,4,1,1,0,1,0,4,163.73,113.5772,-6.52
8,d-praeruptorin,C/C=C(\C)C(=O)O[C@H]1[C@@H](OC(C)=O)c2c(ccc3cc...,386.136553,50,52,120,0,7,7,21,...,0,0,2,0,0,0,3,92.04,101.009,-4.58
9,echinacoside,C[C@@H]1O[C@@H](O[C@@H]2[C@@H](O)[C@H](OCCc3cc...,786.258244,101,105,226,12,20,20,35,...,12,0,1,0,0,0,5,324.44,179.7286,-6.65


#### Função que cria uma coluna no dataset com o Índice de Balaban's J de cada fármaco:

In [43]:
def des_BalabanJ(dataset):
    n_bal=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_bal.append(rdkit.Chem.GraphDescriptors.BalabanJ(molecula))
    dataset.insert(32,"Índice de Balaban's J", n_bal,allow_duplicates=True) 

des_BalabanJ(dataset)
dataset

Unnamed: 0,Drug_ID,Drug,MW,Nº Atomos,Nº Ligações,Nº Eletrões Valência,Nº H Dadores,Nº H Aceitadores,Nº O,Nº C,...,Nº de Cetonas,Nº de Ésteres,Nº de Aminas,Nº de Ácidos Carboxílicos,Nº de Éteres,Nº de Anéis,Área de Superfície Polar,Refratividade Molar,Índice de Balaban's J,Y
0,(-)-epicatechin,Oc1cc(O)c2c(c1)OC(c1ccc(O)c(O)c1)C(O)C2,290.079038,35,37,86,5,6,6,15,...,0,0,0,0,0,3,110.38,72.623,1.997881,-6.22
1,"(2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y...",C/C=C\C#CCC/C=C\C=C\C(=O)NCC(C)C,245.177964,41,40,92,1,1,1,16,...,0,0,0,0,0,0,29.1,77.9517,3.686926,-3.86
2,codeine,COc1ccc2c3c1O[C@H]1[C@@H](O)C=C[C@H]4[C@@H](C2...,299.152144,43,47,102,1,4,3,18,...,0,0,0,0,0,5,41.93,82.4638,1.822365,-4.09
3,creatinine,CN1CC(=O)NC1=N,113.058912,15,15,34,2,2,1,4,...,0,0,0,0,0,1,56.19,28.4994,2.639594,-5.935409
4,danazol,C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(...,337.204179,52,56,122,1,3,2,22,...,0,0,0,0,0,5,46.26,96.3528,1.531985,-4.84
5,dexamethasone b D glucoside,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,554.252726,78,82,172,6,10,10,28,...,0,0,0,0,0,5,173.98,132.5778,1.402643,-6.54
6,dexamethasone b D glucuronide,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,568.23199,77,81,172,6,10,11,28,...,1,0,0,1,0,5,191.05,133.1278,1.402137,-6.12
7,DMXAA-G,Cc1ccc2c(=O)c3cccc(CC(=O)OC4OC(C(=O)O)[C@@H](O...,458.121297,55,58,134,4,9,10,23,...,1,1,0,1,0,4,163.73,113.5772,1.649588,-6.52
8,d-praeruptorin,C/C=C(\C)C(=O)O[C@H]1[C@@H](OC(C)=O)c2c(ccc3cc...,386.136553,50,52,120,0,7,7,21,...,0,2,0,0,0,3,92.04,101.009,2.216986,-4.58
9,echinacoside,C[C@@H]1O[C@@H](O[C@@H]2[C@@H](O)[C@H](OCCc3cc...,786.258244,101,105,226,12,20,20,35,...,0,1,0,0,0,5,324.44,179.7286,1.433756,-6.65


## Descritores 3D

Os descritores 3D são parâmetros geométricos que descrevem a estrutura 3D da molécula, são características moleculares que levam em consideração a geometria tridimensional precisa da molécula. São projetados para capturar informações sobre a disposição espacial dos átomos e a forma tridimensional da molécula. O seu cálculo é baseado nas coordenada 3D dos átomos da respetiva molécula. Nesta secção realizaram-se os seguintes descritores:
   - Fator de forma inercial;
   - Excentricidade;
   - Asfericidade;
   - Índice de esfericidade;
   - Raio de Giro.

#### Função que cria uma coluna no dataset com o fator de forma inercial de cada fármaco:

In [44]:
def des_fator_forma_inercial(dataset):
    fat = []

    for smiles in dataset['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            fat.append(Descriptors3D.InertialShapeFactor(molecula))
        except Exception as e:
            fat.append(None)
    dataset.insert(33, "Fator de Forma Inercial", fat, allow_duplicates=True)

des_fator_forma_inercial(dataset)

#### Função que cria uma coluna no dataset com a excentricidade de cada fármaco:

In [45]:
def des_excentricidade(dataset):
    exc= []

    for smiles in dataset['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            exc.append(Descriptors3D.Eccentricity(molecula))
        except Exception as e:
            exc.append(None)
    dataset.insert(34, "Excentricidade", exc, allow_duplicates=True)

des_excentricidade(dataset)

#### Função que cria uma coluna no dataset com a asfericidade de cada fármaco:

In [46]:
def des_asfericidade(dataset):
    esf= []

    for smiles in dataset['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            esf.append(Descriptors3D.Asphericity(molecula))
        except Exception as e:
            esf.append(None)
    dataset.insert(35, "Asfericidade", esf, allow_duplicates=True)

des_asfericidade(dataset)

#### Função que cria uma coluna no dataset com o índice de esfericidade de cada fármaco:

In [47]:
def des_ind_esfericidade(dataset):
    ind_esf= []

    for smiles in dataset['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            ind_esf.append(Descriptors3D.SpherocityIndex(molecula))
        except Exception as e:
            ind_esf.append(None)
    dataset.insert(36, "Índice de Esfericidade", ind_esf, allow_duplicates=True)

des_ind_esfericidade(dataset)

#### Função que cria uma coluna no dataset com o raio de giro de cada fármaco:

In [48]:
def des_raio_giro(dataset):
    raio= []

    for smiles in dataset['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            raio.append(Descriptors3D.RadiusOfGyration(molecula))
        except Exception as e:
            raio.append(None)
    dataset.insert(37, "Raio de Giro", raio, allow_duplicates=True)

des_raio_giro(dataset)
dataset

Unnamed: 0,Drug_ID,Drug,MW,Nº Atomos,Nº Ligações,Nº Eletrões Valência,Nº H Dadores,Nº H Aceitadores,Nº O,Nº C,...,Nº de Anéis,Área de Superfície Polar,Refratividade Molar,Índice de Balaban's J,Fator de Forma Inercial,Excentricidade,Asfericidade,Índice de Esfericidade,Raio de Giro,Y
0,(-)-epicatechin,Oc1cc(O)c2c(c1)OC(c1ccc(O)c(O)c1)C(O)C2,290.079038,35,37,86,5,6,6,15,...,3,110.38,72.623,1.997881,0.001135,0.980489,0.522579,0.154937,3.726571,-6.22
1,"(2E,4Z,8Z)-N-isobutyldodeca-2,4,10-triene-8 -y...",C/C=C\C#CCC/C=C\C=C\C(=O)NCC(C)C,245.177964,41,40,92,1,1,1,16,...,0,29.1,77.9517,3.686926,0.001827,0.99538,0.739776,0.1050304,4.726393,-3.86
2,codeine,COc1ccc2c3c1O[C@H]1[C@@H](O)C=C[C@H]4[C@@H](C2...,299.152144,43,47,102,1,4,3,18,...,5,41.93,82.4638,1.822365,0.00076,0.895333,0.187251,0.4259056,3.017348,-4.09
3,creatinine,CN1CC(=O)NC1=N,113.058912,15,15,34,2,2,1,4,...,1,56.19,28.4994,2.639594,0.005151,0.940963,0.320681,0.1477262,1.875469,-5.935409
4,danazol,C#C[C@]1(O)CC[C@H]2[C@@H]3CCC4=Cc5oncc5C[C@]4(...,337.204179,52,56,122,1,3,2,22,...,5,46.26,96.3528,1.531985,0.001055,0.981304,0.53534,0.353556,3.854987,-4.84
5,dexamethasone b D glucoside,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,554.252726,78,82,172,6,10,10,28,...,5,173.98,132.5778,1.402643,0.00038,0.985438,0.577816,0.2093265,5.283618,-6.54
6,dexamethasone b D glucuronide,C[C@@H]1C[C@H]2[C@@H]3CCC4=CC(=O)C=C[C@]4(C)[C...,568.23199,77,81,172,6,10,11,28,...,5,191.05,133.1278,1.402137,0.000414,0.99029,0.642047,0.1647827,5.496624,-6.12
7,DMXAA-G,Cc1ccc2c(=O)c3cccc(CC(=O)OC4OC(C(=O)O)[C@@H](O...,458.121297,55,58,134,4,9,10,23,...,4,163.73,113.5772,1.649588,0.00047,0.98463,0.565578,0.1191206,4.972903,-6.52
8,d-praeruptorin,C/C=C(\C)C(=O)O[C@H]1[C@@H](OC(C)=O)c2c(ccc3cc...,386.136553,50,52,120,0,7,7,21,...,3,92.04,101.009,2.216986,0.000469,0.935463,0.282826,0.326353,3.743657,-4.58
9,echinacoside,C[C@@H]1O[C@@H](O[C@@H]2[C@@H](O)[C@H](OCCc3cc...,786.258244,101,105,226,12,20,20,35,...,5,324.44,179.7286,1.433756,,,,,,-6.65


# Visualização de uma molécula em 3D:

#### Função que converte uma molécula numa estrutura 3D e permite visualizá-la em 3D:

In [49]:
def visualize_3d_structure(molecule):
    mol = Chem.AddHs(Chem.MolFromSmiles(molecule))

    AllChem.EmbedMolecule(mol, randomSeed=42)# Gera as coordenadas 3D da molécula

    AllChem.MMFFOptimizeMolecule(mol)# Otimiza as coordenadas 3D

    viewer = py3Dmol.view(width=400, height=400)
    viewer.addModel(Chem.MolToMolBlock(mol), 'mol')
    viewer.setStyle({'stick': {}})
    viewer.setBackgroundColor('white')
    viewer.zoomTo()
    return viewer

molecule_smiles = 'O=C(O)COc1ccc(C(=O)CN2CCN(C3CCNCC3)CC2=O)cc1'# Exemplo de uso

viewer = visualize_3d_structure(molecule_smiles)# Visualização da molécula em 3D
viewer.show()

## Guardar dataset

 Devido ao tempo de execução elevado para o cálculo dos descritores 3D, foi necessário guardar o dataset num ficheiro do tipo csv ('out.csv') para a continuidade do trabalho, garantindo a sua otimização.

In [50]:
dataset.to_csv('out.csv') #cria um ficheiro com o dataset inicial + descritores criados