In [1]:
import pubchempy as pcp
from pubchempy import Compound, get_compounds 
import pandas as pd

In [2]:
lig_7msb_smi = "C1C2=C(C=CC(=C2)C(F)(F)F)C3=CN=C(N4C3=C(C(=O)N1)N=C4)NCC5=C(C=CC6=C5C=CO6)F"
lig_7msb = pcp.get_compounds(lig_7msb_smi, 'smiles')

lig_7MSD_smi = "O=C1N(CC(F)(F)C)CC2=CC(C(F)(F)F)=NC=C2C3=CN=C(NCC4=C5CCOC5=CC=C4F)N6C=NC1=C36"
lig_7MSD = pcp.get_compounds(lig_7MSD_smi, 'smiles')

In [3]:
lig_7msb

[Compound(156621369)]

# pcp.get_compounds(identifier, namespace)
## identifier는 namespace에 해당하는 값이고, namespace에는 cid, name, SMILES, SDF, InCHI, InCHI Key, 그리고 분자식 등을 적용할 수 있다. 

In [4]:
chem1 = pcp.get_compounds('fumaric acid', 'name') # TCA cycle에서 발견되는 fumaric acid를 name으로 검색하여 chem1에 저장하고
print(chem1) # 출력한다.

[Compound(444972)]


In [7]:
chem2 = pcp.get_compounds('limonene', 'name') # 레몬향을 내는 화합물인 limonene을 동일한 방식으로 확인해본다.
chem3 = pcp.get_compounds('d-limonene', 'name') # limonene 의 이성질체
chem4 = pcp.get_compounds('l-limonene', 'name') # limonene 의 이성질체
chem5 = pcp.get_compounds('dl-limonene', 'name') # (=limonene) 
print(chem2, chem3, chem4, chem5)

[Compound(22311)] [Compound(440917)] [Compound(439250)] [Compound(22311)]


## 동일한 CAS(Chemical Abstract Service) 등록 번호라 하더라도 부분 입체 이성질체 등과 같은 경우에는 CID가 다를 수 있다.

In [10]:
chem6 = pcp.get_compounds('NECA', 'name') # NECA
chem7 = pcp.get_compounds('35920-39-9', 'name') # NECA의 CAS 등록번호
print(chem7)

[Compound(448222)]


## 단일 화합물에 대한 정보를 획득하는 방법을 알아보고자 할 때에는 from_cid()를 사용한다.

In [14]:
print(pcp.Compound.from_cid('448222').synonyms, pcp.Compound.from_cid('6541320').synonyms) # 35920-39-9 이 공통으로 들어가 있음.

['NECA', "5'-N-Ethylcarboxamidoadenosine", '35920-39-9', "Adenosine-5'-(N-ethylcarboxamide)", "5'-Ethylcarboxamido Adenosine", '[3H]NECA', "N-ethyl-5'-carboxamidoadenosine", '1-(6-Amino-9H-purin-9-yl)-1-deoxy-N-ethyl-beta-D-ribofuranuronamide', 'MLS000069759', 'CHEMBL464859', 'CHEBI:73284', 'MFCD00069195', "5'-N-ETHYLCARBOXAMIDO-ADENOSINE", 'SMR000058759', 'b-D-Ribofuranuronamide, 1-(6-amino-9H-purin-9-yl)-1-deoxy-N-ethyl-', '(2S,3S,4R,5R)-5-(6-aminopurin-9-yl)-N-ethyl-3,4-dihydroxyoxolane-2-carboxamide', '(2S,3S,4R,5R)-5-(6-Amino-9H-purin-9-yl)-N-ethyl-3,4-dihydroxytetrahydrofuran-2-carboxamide', 'NEC', "5'-ethylcarboxamidoadenosine", 'N-Ethylcarboxamidoadenosine', 'Adenosine, N6-Ethyl-carboxamido', "5'-n-ethylcarboxamidoadenosine (neca)", '2ydv', 'Adenosine analog, 3', "5'-N(Sup 6)-Ethylcarboxamidoadenosine", "[3H]adenosine-5'-(N-ethylcarboxamide)", '1qy5', 'Opera_ID_470', 'GTPL377', 'GTPL425', "5'-Ethylcarboxamido-adenosine", 'MLS002153347', 'REGID_for_CID_448222', 'SCHEMBL16585523'

## 다음과 같이 검색한 단일 화합물을 변수(cmpnd)에 대입하여 필요한 정보를 구할 수 있다. 

In [15]:
cmpnd = pcp.Compound.from_cid('448222') # 위에 출력한 것과 다르게 리스트 구조가 아닌 것을 확인할 수 있다.
print(cmpnd) # 이는 검색 결과를 출력한 것(get_compound())이 아니고 단일 화합물의 CID를 

Compound(448222)
