# 클러스터링

- 화합물에 대한 클러스터링 수행 예
- Fingerprint를 이용한 Scaffold 기반 클러스터링 수행
- 데이터 처리 모듈 [datamol](https://datamol.io/)에서 다양한 데이터 전처리 함수와 클러스터링 함수 제공

# Import

In [3]:
!pip install rdkit datamol tqdm mols2grid





In [2]:
import pandas as pd
import datamol as dm
from tqdm import tqdm
import mols2grid

%config InlineBackend.figure_format = 'retina'
pd.options.display.float_format = '{:,.3f}'.format # 소수점 표시 지정

# 데이터

- hERG 저해제 데이터
- The human ether-a-go-go-related gene (hERG)
 - 심장에서 칼륨(K+)이온의 흐름을 조절해 심장박동을 조정하는 유전자
 - 심장 독성 발생과 관련된 유전자

In [3]:
df = pd.read_csv('./data/HERG.smi',sep=" ",names=["SMILES","Name","pIC50"])
print(df.shape)
df[:3]

(4042, 3)


Unnamed: 0,SMILES,Name,pIC50
0,c1cc(ccc1n2cc(c3c2ccc(c3)Cl)C4CCN(CC4)CCN5CCNC...,CHEMBL12713,8.025
1,c1ccc2c(c1)[nH]c(=O)n2C3=CCN(CC3)CCCC(=O)c4ccc...,CHEMBL1108,7.328
2,c1ccc2c(c1)c(c[nH]2)C(=O)OC3CC4CC5CC(C3)N4CC5=O,CHEMBL2368925,5.072


### mol 객체 얻기

- from_df 함수 사용


In [4]:
df['mol'] = dm.from_df(df, smiles_column="SMILES")
df.head()

Unnamed: 0,SMILES,Name,pIC50,mol
0,c1cc(ccc1n2cc(c3c2ccc(c3)Cl)C4CCN(CC4)CCN5CCNC...,CHEMBL12713,8.025,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972f80>
1,c1ccc2c(c1)[nH]c(=O)n2C3=CCN(CC3)CCCC(=O)c4ccc...,CHEMBL1108,7.328,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972ff0>
2,c1ccc2c(c1)c(c[nH]2)C(=O)OC3CC4CC5CC(C3)N4CC5=O,CHEMBL2368925,5.072,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f973060>
3,CC(C)C(CCCN(C)CCc1ccc(c(c1)OC)OC)(C#N)c2ccc(c(...,CHEMBL6966,6.831,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f9730d0>
4,CCOC(=O)N1CCC(=C2c3ccc(cc3CCc4c2nccc4)Cl)CC1,CHEMBL998,6.429,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f973140>


### 데이터 처리 함수 정의

- 분자의 가장 큰 링의 크기를 얻는 함수를 정의

In [5]:
def max_ring_size(mol):
    ri = mol.GetRingInfo()
    atom_rings = ri.AtomRings()
    if len(atom_rings) == 0:
        return 0
    else:
        return max([len(x) for x in ri.AtomRings()])

## 분자의 특성 추가

- 추가할 특성을 얻는 함수를 딕셔너리로 만든다
- 위에서 정의한 max_ring_size 함수도 추가

In [6]:
my_prop_dict = {
    "mw" : dm.descriptors.mw,
    "logp" : dm.descriptors.clogp,
    "hbd" : dm.descriptors.n_lipinski_hbd,
    "hba" : dm.descriptors.n_lipinski_hba,
    "max_ring_size" : max_ring_size
}

- datamol이 제공하는 **batch_compute_many_descriptors**를 사용하면 해당 특성들을 한번에 추가한다
 - add_properties를 True로 설정하면 모든 지원되는 descriptors를 계산한다
 - progress=True 진행 프로그레스를 보여준다

In [7]:
prop_df = dm.descriptors.batch_compute_many_descriptors(df.mol,properties_fn=my_prop_dict,
                add_properties=False, progress=True)

  0%|          | 0/4042 [00:00<?, ?it/s]

In [8]:
prop_df[:3]

Unnamed: 0,mw,logp,hbd,hba,max_ring_size
0,440.178,4.628,1,5,6
1,379.17,3.678,1,5,6
2,324.147,2.519,1,5,6


- 원본 데이터프레임과 합친다 (컬럼 방향으로)

In [9]:
df = pd.concat([df,prop_df],axis=1)
print(df.shape)
df[:3]

(4042, 9)


Unnamed: 0,SMILES,Name,pIC50,mol,mw,logp,hbd,hba,max_ring_size
0,c1cc(ccc1n2cc(c3c2ccc(c3)Cl)C4CCN(CC4)CCN5CCNC...,CHEMBL12713,8.025,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972f80>,440.178,4.628,1,5,6
1,c1ccc2c(c1)[nH]c(=O)n2C3=CCN(CC3)CCCC(=O)c4ccc...,CHEMBL1108,7.328,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972ff0>,379.17,3.678,1,5,6
2,c1ccc2c(c1)c(c[nH]2)C(=O)OC3CC4CC5CC(C3)N4CC5=O,CHEMBL2368925,5.072,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f973060>,324.147,2.519,1,5,6


# Lipinski Rule of 5 (Ro5)

- 통상 아래과 같이 처리한다
```python
df = df[df['mw'] <= 500]
df = df[df['logp'] <= 5]
df = df[df['hbd'] <= 5]
df = df[df['hba'] <= 10]
```

- 여기서는 위와 같은 조건을 모두 만족하는 불리언 리스트를 만들어 적용하겠다

In [10]:
ro5_ok = (df.mw <= 500) & (df.logp <=5) & (df.hbd <= 5) & (df.hba <= 10)
print(ro5_ok.sum())
ro5_ok[:10]

3476


0     True
1     True
2     True
3    False
4     True
5     True
6     True
7     True
8    False
9     True
dtype: bool

## 데이터 필터링

In [11]:
print(df.shape)
df = df[ro5_ok] # Ro5 조건을 만족하는 분자만 선택한 결과
print(df.shape)
df[:3]

(4042, 9)
(3476, 9)


Unnamed: 0,SMILES,Name,pIC50,mol,mw,logp,hbd,hba,max_ring_size
0,c1cc(ccc1n2cc(c3c2ccc(c3)Cl)C4CCN(CC4)CCN5CCNC...,CHEMBL12713,8.025,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972f80>,440.178,4.628,1,5,6
1,c1ccc2c(c1)[nH]c(=O)n2C3=CCN(CC3)CCCC(=O)c4ccc...,CHEMBL1108,7.328,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f972ff0>,379.17,3.678,1,5,6
2,c1ccc2c(c1)c(c[nH]2)C(=O)OC3CC4CC5CC(C3)N4CC5=O,CHEMBL2368925,5.072,<rdkit.Chem.rdchem.Mol object at 0x7f4c0f973060>,324.147,2.519,1,5,6
