# 학습 목표
1. 가상 스크리닝의 개념과 원리를 이해한다
2. 주요 화합물 데이터베이스들의 특징과 활용법을 학습한다
3. 가상 스크리닝을 위한 데이터베이스 선택 기준을 파악한다
4. 데이터베이스 다운로드 및 전처리 방법을 습득한다

# 1. 가상 스크리닝
- 가상 스크리닝(Virtual Screening, VS)은 컴퓨터를 이용하여 대규모 화합물 라이브러리에서 특정 타겟에 활성을 가질 가능성이 높은 화합물을 효율적으로 선별하는 계산 기법
-  실험실에서의 고비용, 저효율 스크리닝 과정을 보완하여 신약 개발 초기 단계에서 시간과 비용을 크게 절감할 수 있게 해줌

# 2. 가상 스크리닝의 유형
- 구조 기반 가상 스크리닝(Structure-Based Virtual Screening, SBVS):
    - 타겟 단백질의 3D 구조 정보를 활용
    - 도킹(Docking) 시뮬레이션을 통해 화합물과 단백질 간의 결합 친화도 예측
    - AutoDock, DOCK, Glide, Gold
- 리간드 기반 가상 스크리닝(Ligand-Based Virtual Screening, LBVS):
    - 알려진 활성 화합물의 구조적 특징을 활용
    - 유사성 검색, 약력학적 모델, QSAR 등을 활용
    - ROCS, Phase, MOE
- 인공지능 기반 가상 스크리닝(AI-Based Virtual Screening):
    - 기계학습, 딥러닝 모델을 사용하여 활성 화합물 예측
    - 대규모 데이터셋에서 패턴을 학습하여 예측 성능 향상
    - DeepChem, TensorFlow, PyTorch 기반 커스텀 모델

# 3. 주요 스크리닝용 화합물 데이터베이스
- ZINC: https://zinc.docking.org/
- ChEMBL: https://www.ebi.ac.uk/chembl/
- COCONUT (COlleCtion of Open Natural prodUcTs): https://coconut.naturalproducts.net/
- UNPD (Universal Natural Products Database)
- ZINC Fragments: 약물 개발 초기 단계에서 활용할 수 있는 저분자량 프래그먼트 제공

# 4. ZINC 3D tranch 코딩 체계 이해
- ZINC 트랜치 코드는 6자리로 구성되며, 각 위치는 특정 물리화학적 속성을 나타냄.
- 첫 번째 문자: 분자량 구간 (A-H)
    - A: 분자량 150-250
    - B: 분자량 250-350
    - C: 분자량 350-450
- 두 번째 문자: logP 구간 (A-H)
    - A: logP 0-1
    - B: logP 1-2
    - C: logP 2-3
- 세 번째 문자: 반응성 (A-I)
    - A: 안전(anodyne)
    - B: Bother (예: 발색단)
    - C: 클린(PAINS 화합물 허용)
    - E: 약한 반응성 허용
    - G: 반응성 허용
    - I: 고반응성 허용
- 네 번째 문자: 구매 가능성 (A-F)
    - A/B: 재고 있음
    - C: 대리점 통해 구매 가능
    - D: 주문 생산
    - E: 부티크(고가)
    - F: 주석 처리됨(판매 불가)
- 다섯 번째 문자: pH 범위 (R, M, L, H)
    - R: 참조 pH(7.4)
    - M: 중간 pH(7.4 근처)
    - L: 낮은 pH(6.4 근처)
    - H: 높은 pH(8.4 근처)
- 여섯 번째 문자: 분자 전하 (N, M, L, O, P)
    - N: 중성
    - M: 음전하 1
    - L: 음전하 2 이상
    - O: 양전하 1
    - P: 양전하 2 이상

In [None]:
# http://files.docking.org/3D/

!wget http://files.docking.org/3D/AA/AARO/AAAARO.smi

--2025-03-29 13:27:57--  http://files.docking.org/2D/AA/AARO/AAAARO.smi
Resolving files.docking.org (files.docking.org)... 169.230.75.4
Connecting to files.docking.org (files.docking.org)|169.230.75.4|:80... connected.
HTTP request sent, awaiting response... 404 Not Found
2025-03-29 13:27:58 ERROR 404: Not Found.



In [None]:
!head AAAARO.smi

smiles zinc_id
[NH3+][C@@H]1CCn2nnnc2C1 18558689
[NH3+][C@H]1CCn2nnnc2C1 18558690
O=S1(=O)C[C@@H](O)[C@@H]([NH2+]CCO)C1 1771809
CN1OC[C@H]([NH3+])C1=O 3641268
CN1OC[C@@H]([NH3+])C1=O 3641269
[NH3+][C@H]1CCc2nnnn2C1 18554994
C[C@@]1(C(N)=O)C[C@@H](O)C[NH2+]1 104595945
[NH3+][C@H]1CO[C@@H]2[C@@H](O)CO[C@H]12 104600679
C[C@]1(CO)C[NH2+]CCN1 104710023


In [None]:
import pandas as pd

pd.read_csv("AAAARO.smi", sep=' ')

Unnamed: 0,smiles,zinc_id
0,[NH3+][C@@H]1CCn2nnnc2C1,18558689
1,[NH3+][C@H]1CCn2nnnc2C1,18558690
2,O=S1(=O)C[C@@H](O)[C@@H]([NH2+]CCO)C1,1771809
3,CN1OC[C@H]([NH3+])C1=O,3641268
4,CN1OC[C@@H]([NH3+])C1=O,3641269
...,...,...
1062,OCc1cn(C[C@H]2C[NH2+]CCO2)nn1,1246058268
1063,OCc1cn(C[C@@H]2C[NH2+]CCO2)nn1,1246058276
1064,CNC(=O)CNC(=O)CN(C)C,98205533
1065,OC[C@]12C[NH2+]C[C@@]1(CO)C2,708235823


# 5. ZINC 2D tranch 코딩 체계 이해
물리화학적 속성 공간은 2D로 121개의 1차 트랜치와 4차원 공간을 위한 2개의 추가 차원으로 구성
- 첫 번째 글자는 분자량
- 두 번째 글자는 logP
- 세 번째 글자는 반응성
- 네 번째 문자는 구매 가능성

In [None]:
!wget http://files.docking.org/2D/AA/AAAA.smi
pd.read_csv('AAAA.smi', sep=' ')

--2025-03-29 13:30:44--  http://files.docking.org/2D/AA/AAAA.smi
Resolving files.docking.org (files.docking.org)... 169.230.75.4
Connecting to files.docking.org (files.docking.org)|169.230.75.4|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 86110 (84K) [application/smil+xml]
Saving to: ‘AAAA.smi’


2025-03-29 13:30:44 (282 KB/s) - ‘AAAA.smi’ saved [86110/86110]



Unnamed: 0,smiles,zinc_id
0,CO[C@H]1OC[C@@H](O)[C@H](O)[C@H]1O,4371221
1,NC(=O)N[C@@H]1NC(=O)NC1=O,1843030
2,NC(=O)CN1CCC(N)CC1,9256947
3,CNC(=O)c1n[nH]c(N)n1,19844301
4,NC(=O)[C@H]1[C@H]2C=C[C@@H](O2)[C@@H]1N,242677143
...,...,...
2400,O=C1C[C@H](C(=O)O)NC(=O)N1,895194
2401,O=C1CC(=C2CNC2)C(=O)N1,1772715943
2402,N=C(N)NCCC[C@H](N)C(N)=O,1737947
2403,Nc1n[nH]c(N)n1,4118774


In [None]:
for s in 'ABCDEFG':
    print(s + 'AAA.smi')

AAAA.smi
BAAA.smi
CAAA.smi
DAAA.smi
EAAA.smi
FAAA.smi
GAAA.smi


In [None]:
for s in 'ABCDEFG':
    name = s + 'AAA'
    !wget http://files.docking.org/2D/{name[:2]}/{name}.smi

--2025-03-29 13:32:39--  http://files.docking.org/2D/AA/AAAA.smi
Resolving files.docking.org (files.docking.org)... 169.230.75.4
Connecting to files.docking.org (files.docking.org)|169.230.75.4|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 86110 (84K) [application/smil+xml]
Saving to: ‘AAAA.smi.2’


2025-03-29 13:32:39 (280 KB/s) - ‘AAAA.smi.2’ saved [86110/86110]

--2025-03-29 13:32:39--  http://files.docking.org/2D/BA/BAAA.smi
Resolving files.docking.org (files.docking.org)... 169.230.75.4
Connecting to files.docking.org (files.docking.org)|169.230.75.4|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 70945 (69K) [application/smil+xml]
Saving to: ‘BAAA.smi’


2025-03-29 13:32:40 (232 KB/s) - ‘BAAA.smi’ saved [70945/70945]

--2025-03-29 13:32:40--  http://files.docking.org/2D/CA/CAAA.smi
Resolving files.docking.org (files.docking.org)... 169.230.75.4
Connecting to files.docking.org (files.docking.org)|169.230.75.4|:80... connected.
HT