 # BBB (Blood-Brain Barrier)
 ## Drug Distribution : how drug moves through te barrier

### Secção 1 : Exploração e análise dos dados

#### Breve Descrição do Estudo:


A barreira hemato-encefálica (BBB) representa um componente essencial e complexo do sistema nervoso central, exercendo uma função vital ao separar o sangue circulante do fluido extracelular cerebral. Esta barreira desempenha um papel fundamental na proteção do cérebro, controlando rigorosamente quais substâncias podem entrar ou sair. Uma de suas principais funções é bloquear a maioria dos fármacos estranhos, limitando sua passagem para o tecido cerebral.

O desafio intrínseco a si associado reside na capacidade seletiva de permitir a entrada de nutrientes essenciais enquanto restringe substâncias prejudiciais. No entanto, essa seletividade também cria um obstáculo significativo no desenvolvimento de fármacos destinados ao tratamento de distúrbios do sistema nervoso central. A capacidade limitada de muitos medicamentos atravessarem a mesma impõe restrições consideráveis à eficácia dos tratamentos disponíveis.

Portanto, compreender os mecanismos que regem a permeabilidade da barreira hemato-encefálica é essencial para avançar na pesquisa farmacêutica e desenvolver estratégias inovadoras que possam contornar ou explorar essa barreira de maneira eficaz. Explorar técnicas e abordagens avançadas para otimizar a entrega de fármacos através da BBB é um campo em constante evolução, com implicações profundas para a melhoria da eficácia dos tratamentos direcionados a condições neurológicas.

#### Estudo:

Neste estudo, iremos explorar um conjunto de dados de compostos farmacêuticos. Estes são descritos pela sua fórmula molecular, bem como a sua capacidade de penetrar a barreira hemato-encefálica. Ao analisar múltiplos fármacos, pretendemos obter uma compreensão mais abrangente das interações entre estrutura química e resposta biológica, contribuindo assim para o desenvolvimento de conhecimentos mais robustos.

Assim, o foco deste estudo passa por analisar diversos fármacos, percebendo a relação entre suas estruturas moleculares e a sua capacidade de penetrar a BBB.


#### Carregamento do Dataset:


In [46]:
from tdc.single_pred import ADME

# Carregar o conjunto de dados
data = ADME(name = 'BBB_Martins')
data.get_data().head(1976)

Found local copy...
Loading...
Done!


Unnamed: 0,Drug_ID,Drug,Y
0,Propanolol,CC(C)NCC(O)COc1cccc2ccccc12.[Cl],1
1,Terbutylchlorambucil,CC(C)(C)OC(=O)CCCc1ccc(N(CCCl)CCCl)cc1,1
2,40730,CC1COc2c(N3CCN(C)CC3)c(F)cc3c(=O)c(C(=O)O)cn1c23,1
3,24,CC(=O)NCCCOc1cccc(CN2CCCCC2)c1,1
4,cloxacillin,Cc1onc(-c2ccccc2Cl)c1C(=O)N[C@@H]1C(=O)N2[C@@H...,1
...,...,...,...
1971,rolziracetam,O=C1CCC2CCC(=O)N12,1
1972,ropizine,Cc1cccc(/C=N/N2CCN(C(c3ccccc3)c3ccccc3)CC2)n1,1
1973,rufinamide,NC(=O)c1cn(Cc2c(F)cccc2F)nn1,1
1974,sabeluzole,CN(c1nc2ccccc2s1)C1CCN(CC(O)COc2ccc(F)cc2)CC1,1


#### Importação de bibliotecas utilizadas ao longo do trabalho:

In [47]:
from tdc.single_pred import ADME
import pandas as pd
import rdkit
from rdkit import Chem
from rdkit.Chem import MolToSmiles
from rdkit.Chem import Descriptors
from rdkit.Chem import rdMolDescriptors
from rdkit.Chem.MolStandardize import rdMolStandardize
from rdkit.Chem import Crippen
from rdkit.Chem import AllChem
from rdkit.Chem import Descriptors3D
pd.set_option('display.max_columns', None)

Found local copy...
Loading...
Done!


Informações sobre o conjunto de dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1976 entries, 0 to 1975
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Drug_ID  1976 non-null   object
 1   Drug     1976 non-null   object
 2   Y        1976 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 46.4+ KB
None

Descrição estatística das variáveis numéricas:
                 Y
count  1976.000000
mean      0.757591
std       0.428649
min       0.000000
25%       1.000000
50%       1.000000
75%       1.000000
max       1.000000

Valores ausentes no conjunto de dados:
Drug_ID    0
Drug       0
Y          0
dtype: int64


#### Verificação dos Smiles:

No contexto do nosso estudo, o SMILES desempenhará um papel crucial ao descrever as estruturas moleculares dos compostos farmacêuticos. A sua forma concisa e legível pela máquina permite uma entrada eficiente dos dados, sendo essencial a sua utilização para o desenvolvimento deste trabalho.

In [48]:
def verificar_smiles(d):
    valores=d.values
    smiles=[]
    i=0
    for linha in valores:
        i+=1
        if Chem.MolFromSmiles(linha[1]) is None:
            print('Linha nº:',i,'ID:', linha[0], "Erro: SMILES inválido.")
        else:
            print('Linha nº:',i,'ID:',linha[0],'OK')
verificar_smiles(d)





Linha nº: 1 ID: Propanolol OK
Linha nº: 2 ID: Terbutylchlorambucil OK
Linha nº: 3 ID: 40730 OK
Linha nº: 4 ID: 24 OK
Linha nº: 5 ID: cloxacillin OK
Linha nº: 6 ID: cefoperazone OK
Linha nº: 7 ID: rolitetracycline OK
Linha nº: 8 ID: ondansetron OK
Linha nº: 9 ID: diltiazem OK
Linha nº: 10 ID: Amiloride OK
Linha nº: 11 ID: M2L-663581 OK
Linha nº: 12 ID: alovudine OK
Linha nº: 13 ID: 18 OK
Linha nº: 14 ID: 24959 OK
Linha nº: 15 ID: methadone OK
Linha nº: 16 ID: alfentanil OK
Linha nº: 17 ID: BRL53080 OK
Linha nº: 18 ID: hyoscyamine OK
Linha nº: 19 ID: glyburide OK
Linha nº: 20 ID: lamotrigine OK
Linha nº: 21 ID: 2-Methylpentane OK
Linha nº: 22 ID: Dexamfetamine OK
Linha nº: 23 ID: SKF-93619 OK
Linha nº: 24 ID: nadolol OK
Linha nº: 25 ID: sufentanil OK
Linha nº: 26 ID: 12 OK
Linha nº: 27 ID: zolpidem OK
Linha nº: 28 ID: clozapine OK
Linha nº: 29 ID: Org12692 OK
Linha nº: 30 ID: piperacillin OK
Linha nº: 31 ID: Pentobarbital OK
Linha nº: 32 ID: Levofloxacin OK
Linha nº: 33 ID: compound 40 O



Linha nº: 717 ID: amicycline OK
Linha nº: 718 ID: amrubicin OK
Linha nº: 719 ID: apalcillin OK
Linha nº: 720 ID: apicycline OK
Linha nº: 721 ID: apramycin OK
Linha nº: 722 ID: arbekacin OK
Linha nº: 723 ID: aspoxicillin OK
Linha nº: 724 ID: astromicin OK
Linha nº: 725 ID: aztreonam OK
Linha nº: 726 ID: bacmecillinam OK
Linha nº: 727 ID: bekanamycin OK
Linha nº: 728 ID: benserazide OK
Linha nº: 729 ID: bepridil OK
Linha nº: 730 ID: berythromycin OK
Linha nº: 731 ID: butikacin OK
Linha nº: 732 ID: carbuterol OK
Linha nº: 733 ID: carfecillin OK
Linha nº: 734 ID: carindacillin OK
Linha nº: 735 ID: carubicin OK
Linha nº: 736 ID: carumonam OK
Linha nº: 737 ID: cefaclor OK
Linha nº: 738 ID: cefadroxil OK
Linha nº: 739 ID: cefalexin OK
Linha nº: 740 ID: cefaloram OK
Linha nº: 741 ID: cefaparole OK
Linha nº: 742 ID: cefatrizine OK
Linha nº: 743 ID: cefazaflur OK
Linha nº: 744 ID: cefazedone OK
Linha nº: 745 ID: cefcanel OK
Linha nº: 746 ID: cefcanel-daloxate OK
Linha nº: 747 ID: cefcapene OK
Li



Linha nº: 1237 ID: fluprazine OK
Linha nº: 1238 ID: fluspirilene OK
Linha nº: 1239 ID: flutazolam OK
Linha nº: 1240 ID: flutemazepam OK
Linha nº: 1241 ID: fluticasone OK
Linha nº: 1242 ID: fluticasone-propionate OK
Linha nº: 1243 ID: flutizenol OK
Linha nº: 1244 ID: flutomidate OK
Linha nº: 1245 ID: flutroline OK
Linha nº: 1246 ID: fluvastatin OK
Linha nº: 1247 ID: fluvoxamine OK
Linha nº: 1248 ID: fluzinamide OK
Linha nº: 1249 ID: folic-acid OK
Linha nº: 1250 ID: formocortal OK
Linha nº: 1251 ID: fosazepam OK
Linha nº: 1252 ID: fosenazide OK
Linha nº: 1253 ID: fosfomycin OK
Linha nº: 1254 ID: fosphenytoin OK
Linha nº: 1255 ID: ftormetazine OK
Linha nº: 1256 ID: ftorpropazine OK
Linha nº: 1257 ID: furomazine OK
Linha nº: 1258 ID: fursultiamine OK
Linha nº: 1259 ID: gaboxadol OK
Linha nº: 1260 ID: ganaxolone OK
Linha nº: 1261 ID: gedocarnil OK
Linha nº: 1262 ID: gemazocine OK
Linha nº: 1263 ID: gepirone OK
Linha nº: 1264 ID: gevotroline OK
Linha nº: 1265 ID: girisopam OK
Linha nº: 1266 



Linha nº: 1334 ID: mefexamide OK
Linha nº: 1335 ID: melitracen OK
Linha nº: 1336 ID: melperone OK
Linha nº: 1337 ID: memantine OK
Linha nº: 1338 ID: mephenoxalone OK
Linha nº: 1339 ID: meprotixol OK
Linha nº: 1340 ID: mequitazine OK
Linha nº: 1341 ID: mesulergine OK
Linha nº: 1342 ID: metacetamol OK
Linha nº: 1343 ID: metaglycodol OK
Linha nº: 1344 ID: methapyrilene OK
Linha nº: 1345 ID: metharbital OK
Linha nº: 1346 ID: methitural OK
Linha nº: 1347 ID: methyldesorphine OK
Linha nº: 1348 ID: methyldihydromorphine OK
Linha nº: 1349 ID: methylprednisolone21hemisuccinate(methylprednisolone-hemisuccinate) OK
Linha nº: 1350 ID: metiapine OK
Linha nº: 1351 ID: metofenazate OK
Linha nº: 1352 ID: metopimazine OK
Linha nº: 1353 ID: metopon OK
Linha nº: 1354 ID: metoserpate OK
Linha nº: 1355 ID: metoxepin OK
Linha nº: 1356 ID: metralindole OK
Linha nº: 1357 ID: mevastatin OK
Linha nº: 1358 ID: mexazolam OK
Linha nº: 1359 ID: mezilamine OK
Linha nº: 1360 ID: miconazole OK
Linha nº: 1361 ID: midaf



In [49]:
valores=d.values
smiles=[]
for linha in valores:
    smiles.append(linha[1])
    
print(smiles)

['CC(C)NCC(O)COc1cccc2ccccc12.[Cl]', 'CC(C)(C)OC(=O)CCCc1ccc(N(CCCl)CCCl)cc1', 'CC1COc2c(N3CCN(C)CC3)c(F)cc3c(=O)c(C(=O)O)cn1c23', 'CC(=O)NCCCOc1cccc(CN2CCCCC2)c1', 'Cc1onc(-c2ccccc2Cl)c1C(=O)N[C@@H]1C(=O)N2[C@@H](C(=O)O)C(C)(C)S[C@H]12', 'CCN1CCN(C(=O)N[C@@H](C(=O)N[C@@H]2C(=O)N3C(C(=O)O)=C(CSc4nnnn4C)CS[C@H]23)c2ccc(O)cc2)C(=O)C1=O', 'CN(C)[C@@H]1C(=O)/C(=C(/O)NCN2CCCC2)C(=O)[C@@]2(O)C(=O)C3=C(O)c4c(O)cccc4[C@@](C)(O)[C@H]3C[C@@H]12', 'Cc1nccn1CC1CCc2c(c3ccccc3n2C)C1=O', 'COc1ccc([C@@H]2Sc3ccccc3N(CCN(C)C)C(=O)[C@@H]2OC(C)=O)cc1', 'NC(N)=NC(=O)c1nc(Cl)c(N)nc1N', 'CN1Cc2c(-c3noc(C(C)(O)CO)n3)ncn2-c2cccc(Cl)c2C1=O', 'Cc1cn([C@H]2C[C@H](F)[C@@H](CO)O2)c(=O)[nH]c1=O', 'ClCCl', 'CC(C)(C)NC(=O)C1CC2CCCCC2CN1CC(O)C(Cc1ccccc1)NC(=O)C(CC(N)=O)NC(=O)c1ccc2ccccc2n1', 'CCC(=O)C(CC(C)N(C)C)(c1ccccc1)c1ccccc1', 'CCC(=O)N(c1ccccc1)C1(COC)CCN(CCn2nnn(CC)c2=O)CC1', 'CN(C)C(=O)C(CCN1CCC(O)(c2ccc(Cl)cc2)CC1)(c1ccccc1)c1ccccc1', 'CN1C2CCC1CC(OC(=O)[C@H](CO)c1ccccc1)C2', 'COc1ccc(Cl)cc1C(=O)NCCc1ccc(S(=O

#### Descritores:

Os descritores representam características numéricas ou representações matemáticas que são utilizadas para descrever propriedades específicas das molécula. Essas características são extraídas a partir da estrutura molecular. A mesmas serão utilizadas para análise.

Os descritores podem incluir uma variedade de informações, como propriedades físico-químicas, topologia molecular, carga elétrica, entre outras. A escolha dos descritores depende do objetivo da análise e das propriedades relevantes para o estudo em questão.

#### Descritores 0D:

**São calculados para toda a molécula, extraindo-se os seguintes parâmetros:**

- Peso molecular;
- Número de átomos total;
- Número de ligações total;
- Número de eletrões de valência;
- Número de aceitadores de hidrogénio;
- Número de dadores de hidrogénio;
- Número de átomos por elemento;
- Número de cada tipo de ligação;
- Log(P).

In [50]:
#Calculo do peso molecular de cada fármaco:

def descritoresPM(d):
    peso=[]
    for molecula in smiles:
        peso.append(rdkit.Chem.Descriptors.ExactMolWt(Chem.MolFromSmiles(molecula)))
    d.insert(2,'MW',peso, allow_duplicates=True)

descritoresPM(d)



In [51]:
#Calculo do número de átomos total de cada fármaco:

def descritoresNA(d):
    n_atomos=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula))
        n=molecula.GetNumAtoms()
        n_atomos.append(n)
    d.insert(3,'Nº Atomos',n_atomos, allow_duplicates=True)

descritoresNA(d)



In [52]:
# Calculo do número de ligações de cada fármaco:

def descritoresL(d):
    n_ligacoes=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula))
        n=molecula.GetNumBonds()
        n_ligacoes.append(n)
    d.insert(4,'Nº Ligações',n_ligacoes, allow_duplicates=True)

descritoresL(d)



In [53]:
# Cálculo eo número de eletrões de valência de cada fármaco:

def descritoresEV(D):
    n_eletroes=[]
    for molecula in smiles:
        molecula=Chem.AddHs(Chem.MolFromSmiles(molecula))
        eletroes_valencia = 0
        for atomo in molecula.GetAtoms():
            eletroes_valencia += atomo.GetTotalValence()
        n_eletroes.append(eletroes_valencia)
    D.insert(5,'Nº Eletrões Valência',n_eletroes, allow_duplicates=True)

descritoresEV(d)



In [54]:
#Cálculo do número de aceitadores de hidrogénio de cada fármaco:

def descritoresAH(d):
    h_aceitadores=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        h_aceitadores.append(rdkit.Chem.rdMolDescriptors.CalcNumHBA(molecula))
    d.insert(6,'Nº H Aceitadores',h_aceitadores, allow_duplicates=True)

descritoresAH(d)



In [55]:
# Cálculo do número de dadores de hidrogénio de cada fármaco:

def descritoresDH(d):
    n_dadores=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_dadores.append(rdkit.Chem.rdMolDescriptors.CalcNumHBD(molecula))
    d.insert(6,'Nº H Dadores',n_dadores, allow_duplicates=True)

descritoresDH(d)



In [56]:
# Cálculo do número de átomos por elemento de cada fármaco:

def descritoresELEM(d):
    lista_dici=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        dic={}
        for atomo in molecula.GetAtoms():
            dic[atomo.GetSymbol()] = dic.get(atomo.GetSymbol(), 0) + 1
        lista_dici.append(dic)
    elementos=[]
    for dici in lista_dici:
        chaves=dici.keys()
        for ele in chaves:
            if ele not in elementos:
                elementos.append(ele)
    dic_mestre={}         
    for n in elementos:
        dic_mestre[n]=[]    
        
    for dici in lista_dici: 
        chaves=dici.keys()
        for elemento in elementos:
            if elemento in chaves:
                dic_mestre[elemento].append(dici[elemento])
            else:
                dic_mestre[elemento].append(0)
    i=8
    for elemento in elementos:
        d.insert(i,'Nº '+ elemento, dic_mestre[elemento],allow_duplicates=True)
        i+=1
descritoresELEM(d)



In [57]:
# Cálculo deo número de tipos de ligações de cada fármaco:

def descritoresCONL(d):
    dic_mestre={'SINGLE':[], 'DOUBLE':[], 'TRIPLE':[], 'AROMATIC':[]}           
    lista_dici=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        dic={}
        for bond in molecula.GetBonds():
            dic[str(bond.GetBondType())] = dic.get(str(bond.GetBondType()), 0) + 1
        lista_dici.append(dic)
    
    for dici in lista_dici: #para cada dicionário com os elementos de cada molécula
        chaves=dici.keys()
        for elemento in dic_mestre.keys():
            if elemento in chaves:
                dic_mestre[elemento].append(dici[elemento])
            else:
                dic_mestre[elemento].append(0)
    i=18
    for elemento in dic_mestre.keys():
        d.insert(i,'Nº de ligações '+ elemento.lower(), dic_mestre[elemento],allow_duplicates=True)
        i+=1

descritoresCONL(d)



In [58]:
# Cálculo do Log(P) de cada fármaco:

def descritoresLogP(d):
    logp=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        logp.append(Chem.Descriptors.MolLogP(molecula))
    d.insert(22,'Log(P)',logp, allow_duplicates=True)
    
descritoresLogP(d)



#### Descritores 1D:

Descrevem e analisam subestruturas da molécula. Nesta secção realizaram-se os seguintes:

- Número de cada grupo funcional.

In [59]:
#  Cálculo do número de cada grupo funcional de cada fármaco:

def descritoresGF(d):
    grupos_funcionais = {
        "Álcoois": Chem.MolFromSmarts("[OX2H]"),
        "Cetonas": Chem.MolFromSmarts("[CX3](=O)[OX2H1]"),
        "Ésteres": Chem.MolFromSmarts("[CX3](=O)[OX2H0][#6]"),
        "Aminas": Chem.MolFromSmarts("[NX3;H2,H1;!$(NC=O)]"),
        "Ácidos Carboxílicos": Chem.MolFromSmarts("[CX3](=O)[OX1H0-,OX2H1]"),
        "Éteres": Chem.MolFromSmarts("[OX2H0;R0][#6][OX2H0;R0]"),
    }
    dic={'Álcoois': [], 'Cetonas':[], 'Ésteres':[], 'Aminas':[],"Ácidos Carboxílicos":[],"Éteres":[]}  
    
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        for key in grupos_funcionais.keys():
            count_valores = len(molecula.GetSubstructMatches(grupos_funcionais[key]))
            dic[key].append(count_valores)
    i=23
    for elemento in dic.keys():
        d.insert(i,'Nº de '+ elemento, dic[elemento],allow_duplicates=True)
        i+=1

            
descritoresGF(d)




#### Descritores 2D:

Descrevem e analisam a topologia molecular baseada na sua representação gráfica. Nesta secção realizaram-se os seguintes descritores:

- Índice de Balaban's J;
- Número de aneis.

In [60]:
# Cálculo do índice de Balaban's J de cada fármaco:

def descritoresBJ(d):
    n_bal=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_bal.append(rdkit.Chem.GraphDescriptors.BalabanJ(molecula))
    d.insert(31,"Índice de Balaban's J", n_bal,allow_duplicates=True) 

descritoresBJ(d)



In [61]:
# Cálculo do número de anéis presente em cada fármaco:

def descritoresCA(d):
    n_aneis=[]
    for molecula in smiles:
        molecula=Chem.MolFromSmiles(molecula)
        n_aneis.append(len(Chem.GetSSSR(molecula)))
    d.insert(29,'Nº de Anéis', n_aneis,allow_duplicates=True)

descritoresCA(d)





#### Descritores 3D:

Parâmetros geométricos que descrevem a estrutura 3D da molécula. O seu cálculo é baseado nas coordenada 3D dos átomos da respetiva molécula. Nesta secção realizaram-se os seguintes descritores:

- Fator de forma inercial;
- Excentricidade;
- Asfericidade;
- Índice de esfericidade;
- Raio de Giro.

In [64]:
# Função que cria uma coluna no dataset com o fator de forma inercial de cada fármaco:

def descritoresFFI(d):
    fat = []

    for smiles in d['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            fat.append(Descriptors3D.InertialShapeFactor(molecula))
        except Exception as e:
            fat.append(None)
    d.insert(33, "Fator de Forma Inercial", fat, allow_duplicates=True)

descritoresFFI(d)

[17:13:56] UFFTYPER: Unrecognized atom type: Ca+2 (0)


In [65]:
# Função que calcula a excentricidade de cada fármaco:

def descritoresEX(d):
    exc= []

    for smiles in d['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            exc.append(Descriptors3D.Eccentricity(molecula))
        except Exception as e:
            exc.append(None)
    d.insert(34, "Excentricidade", exc, allow_duplicates=True)

descritoresEV(d)



In [66]:
# Função que calcula a asfericidade de cada fármaco:

def descritorASF(d):
    esf= []

    for smiles in d['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            esf.append(Descriptors3D.Asphericity(molecula))
        except Exception as e:
            esf.append(None)
    d.insert(35, "Asfericidade", esf, allow_duplicates=True)

descritorASF(d)

[17:23:37] UFFTYPER: Unrecognized atom type: Ca+2 (0)


In [67]:
# calculo do índice de esfericidade de cada fármaco:

def descritoresIE(d):
    ind_esf= []

    for smiles in d['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            ind_esf.append(Descriptors3D.SpherocityIndex(molecula))
        except Exception as e:
            ind_esf.append(None)
    d.insert(36, "Índice de Esfericidade", ind_esf, allow_duplicates=True)

descritoresIE(d)

[17:45:58] UFFTYPER: Unrecognized atom type: Ca+2 (0)


In [68]:
# Calculo do raio de giro de cada fármaco:

def descritoresRG(d):
    raio= []

    for smiles in d['Drug']:
        try:
            molecula = Chem.AddHs(Chem.MolFromSmiles(smiles))
            AllChem.EmbedMolecule(molecula, randomSeed=42)
            AllChem.MMFFOptimizeMolecule(molecula)
            raio.append(Descriptors3D.RadiusOfGyration(molecula))
        except Exception as e:
            raio.append(None)
    d.insert(37, "Raio de Giro", raio, allow_duplicates=True)

descritoresRG(d)


[17:52:41] UFFTYPER: Unrecognized atom type: Ca+2 (0)


#### Dataset após a inserção dos descritores:

In [72]:
pd.set_option('display.max_row', None)
d


Unnamed: 0,Drug_ID,Drug,MW,Nº Atomos,Nº Ligações,Nº Eletrões Valência,Nº Eletrões Valência.1,Nº H Dadores,Nº H Aceitadores,Nº C,Nº N,Nº O,Nº Cl,Nº F,Nº S,Nº Br,Nº I,Nº H,Nº Na,Nº de ligações single,Nº de ligações double,Nº de ligações triple,Nº de ligações aromatic,Log(P),Nº de Álcoois,Nº de Cetonas,Nº de Ésteres,Nº de Aminas,Nº de Ácidos Carboxílicos,Nº de Éteres,Nº de Anéis,Nº P,Nº Ca,Índice de Balaban's J,Fator de Forma Inercial,Asfericidade,Índice de Esfericidade,Raio de Giro,Y
0,Propanolol,CC(C)NCC(O)COc1cccc2ccccc12.[Cl],294.126082,41,41,92,92,2,3,16,1,2,1,0,0,0,0,0,0,9,0,0,11,3.267,1,0,0,1,0,0,2,0,0,1.999999e-06,0.001483,0.59716,0.1258672,3.640061,1
1,Terbutylchlorambucil,CC(C)(C)OC(=O)CCCc1ccc(N(CCCl)CCCl)cc1,359.141884,50,50,108,108,0,3,18,1,2,2,0,0,0,0,0,0,16,1,0,6,4.635,0,0,1,0,0,0,1,0,0,2.458834,0.000928,0.701658,0.1481999,5.154108,1
2,40730,CC1COc2c(N3CCN(C)CC3)c(F)cc3c(=O)c(C(=O)O)cn1c23,361.143784,46,49,110,110,1,6,18,3,4,0,1,0,0,0,0,0,16,2,0,11,1.544,1,1,0,0,1,0,4,0,0,2.004089,0.000778,0.516226,0.1617397,3.932438,1
3,24,CC(=O)NCCCOc1cccc(CN2CCCCC2)c1,290.199428,47,48,104,104,1,3,17,2,2,0,0,0,0,0,0,0,15,1,0,6,2.5775,0,0,0,0,0,0,2,0,0,1.731351,0.00137,0.665454,0.1514012,4.363455,1
4,cloxacillin,Cc1onc(-c2ccccc2Cl)c1C(=O)N[C@@H]1C(=O)N2[C@@H...,435.065569,47,50,116,116,2,6,19,3,5,1,0,1,0,0,0,0,18,3,0,11,2.54872,1,1,0,0,1,0,4,0,0,1.597975,0.000557,0.446304,0.2314373,4.193329,1
5,cefoperazone,CCN1CCN(C(=O)N[C@@H](C(=O)N[C@@H]2C(=O)N3C(C(=...,645.142401,71,75,174,174,4,13,25,9,8,0,0,2,0,0,0,0,30,7,0,11,-1.112,2,1,0,0,1,0,5,0,0,1.314989,0.00025,0.558193,0.184299,5.902959,1
6,rolitetracycline,CN(C)[C@@H]1C(=O)/C(=C(/O)NCN2CCCC2)C(=O)[C@@]...,527.226765,71,75,166,166,6,11,27,3,8,0,0,0,0,0,0,0,31,5,0,6,0.3132,5,0,0,1,0,0,5,0,0,1.648478,0.000269,0.359358,0.2552251,4.814096,1
7,ondansetron,Cc1nccn1CC1CCc2c(c3ccccc3n2C)C1=O,293.152812,41,44,102,102,0,4,18,3,1,0,0,0,0,0,0,0,9,1,0,15,3.12852,0,0,0,0,0,0,4,0,0,1.767961,0.000894,0.370803,0.2249986,3.435767,1
8,diltiazem,COc1ccc([C@@H]2Sc3ccccc3N(CCN(C)C)C(=O)[C@@H]2...,414.161328,55,57,130,130,0,6,22,2,4,0,0,1,0,0,0,0,17,2,0,12,3.3685,0,0,1,0,0,0,3,0,0,2.055852,0.000512,0.346905,0.275221,4.044705,1
9,Amiloride,NC(N)=NC(=O)c1nc(Cl)c(N)nc1N,229.047886,23,23,56,56,4,5,6,7,1,1,0,0,0,0,0,0,7,2,0,6,-1.292,0,0,0,4,0,0,1,0,0,3.211073,0.001307,0.40874,0.03964066,3.045091,1


#### Carregamento do Dataset para CSV:

Devido ao tamanho do dataset, o cálculo de alguns descritores exije algum tempo, pelo que, para a continuação do trabalho, o dataset foi guardado num ficheiro csv de modo a facilitar o manuseamento do mesmo.

In [70]:
d.to_csv('dados_bio.csv', index=False)