In [13]:
import pandas as pd
import numpy as np

In [4]:
train = pd.read_csv('data/train.csv')

In [6]:
train.head()

Unnamed: 0,id,SMILES,MLM,HLM,AlogP,Molecular_Weight,Num_H_Acceptors,Num_H_Donors,Num_RotatableBonds,LogD,Molecular_PolarSurfaceArea
0,TRAIN_0000,CCOc1ccc(CNC(=O)c2cc(-c3sc(C)nc3C)n[nH]2)cc1OCC,26.01,50.68,3.259,400.495,5,2,8,3.259,117.37
1,TRAIN_0001,Cc1nc(C)c(CN2CC(C)C(=O)Nc3ccccc32)s1,29.27,50.59,2.169,301.407,2,1,2,2.172,73.47
2,TRAIN_0002,CCCN1CCN(c2nn3nnnc3c3ccccc23)CC1,5.586,80.892,1.593,297.358,5,0,3,1.585,62.45
3,TRAIN_0003,Cc1ccc(-c2ccc(-n3nc(C)c(S(=O)(=O)N4CCN(C5CCCCC...,5.71,2.0,4.771,494.652,6,0,5,3.475,92.6
4,TRAIN_0004,Cc1ccc2c(c1)N(C(=O)c1ccncc1)CC(C)O2,93.27,99.99,2.335,268.31,3,0,1,2.337,42.43


# LogP와 LogD란?

LogP
LogP는 용질과 유기화합물 간의 분배 계수로, 용매에서의 분배 형태를 나타내는 물성입니다. LogP는 간단하게 말해 유기화합물의 수분해성을 예측하는 데 사용됩니다. 이 값이 높을수록 수분해성이 낮아지고, 낮을수록 수분해성이 높습니다.
약물 개발에서는 약물의 용해도, 흡수, 분포, 대사, 배설 등 다양한 생리학적 과정에 영향을 미치기 때문에 LogP 값이 높고 낮은 것보다 적절한 값을 가지는 것이 중요합니다.


LogD
LogD는 LogP와 유사한 개념으로, 분자가 어떤 pH에서 어떤 형태로 존재하는지를 나타내는 지표입니다. 이 값은 약물의 약력학적 특성 예측에 매우 중요한 역할을 합니다.

 

LogP와 LogD의 차이
 

계산 방법의 차이
LogP와 LogD의 계산 방법은 서로 다릅니다. LogP는 octanol-water partition coefficient를 이용하여 계산되며, LogD는 pH와 분자의 상태를 고려하여 계산됩니다.

 

의미의 차이
LogP는 용매에서의 분배 형태를 나타내는 지표이지만, LogD는 분자가 어떤 pH에서 어떤 형태로 존재하는지를 나타내는 지표입니다. LogP와 LogD는 서로 다른 화학적 물성을 나타내기 때문에, 예측 결과에 차이가 있을 수 있습니다.

 

LogP와 LogD의 의의
화학적 물성의 예측
LogP와 LogD는 화학적 물성 예측에서 매우 중요한 역할을 합니다. 화학물질 등록, 평가, 허가 등의 분야에서는 이 값들을 이용하여 화학적 물성 예측을 수행합니다.

 

약물 개발에서의 활용
LogP와 LogD는 약물 개발에서도 매우 중요한 역할을 합니다. 특히, 약물의 용해도, 흡수, 분포, 대사, 배설 등 다양한 생리학적 과정을 예측하는 데에 이용됩니다.

 

화학물질 등록, 평가, 허가에서의 역할
LogP와 LogD 값은 화학물질 등록, 평가, 허가 등의 과정에서 매우 중요한 역할을 합니다. 이 값들을 이용하여 화학물질의 안전성, 독성 등을 예측할 수 있습니다.

 

LogP와 LogD의 중요성
LogP와 LogD는 약물 개발에서 매우 중요한 역할을 합니다. 두 값들 모두 약물의 용해도, 흡수, 분포, 대사, 배설 등 다양한 생리학적 과정을 예측하는 데에 이용됩니다. LogP와 LogD 값이 높을수록 약물의 수분해성이 낮아지기 때문에, 이 값들을 이용하여 효과적인 약물 개발이 가능합니다.
화학물질 등록, 평가, 허가 등의 분야에서는 LogP와 LogD 값이 안전성, 독성 등의 예측에 매우 중요한 역할을 합니다. 이 값들을 이용하여 화학물질의 위해성을 예측하고, 적절한 조치를 취함으로써 인간 건강과 환경을 보호할 수 있습니다.

In [8]:
from rdkit import DataStructs
from rdkit.Chem import PandasTools, AllChem

In [10]:
PandasTools.AddMoleculeColumnToFrame(train,'SMILES','Molecule')

In [27]:
def mol2fp(mol):
    fp = AllChem.GetHashedMorganFingerprint(mol, 6, nBits=1024)
    ar = np.zeros((1,), dtype=np.int8)
    DataStructs.ConvertToNumpyArray(fp, ar)
    return ar

In [28]:
train["FPs"] = train.Molecule.apply(mol2fp)

In [30]:
len(train["FPs"][0])

1024

In [26]:
np.array([x==0 for x in train["FPs"].sum()]).sum()

0