# (Colab only) 구글 드라이브 DATA 확인
- 구글 드라이브에 업로드된 데이터 확인

In [None]:
from google.colab import drive
drive.mount('/content/drive/', force_remount=True)

In [None]:
# 데이터 목록 확인
!ls /content/drive/My\ Drive/Colab\ Notebooks/retrosynthesis/data

In [None]:
import os

# 작업 디렉터리를 원하는 경로로 변경
current_dir = "/content/drive/My Drive/Colab Notebooks/retrosynthesis/"
os.chdir(current_dir)

# 변경된 현재 작업 디렉터리 확인
print("Current working directory:", os.getcwd())

# RDkit
- 화학 및 분자 과학 연구에서 매우 널리 쓰이는 오픈소스 화학 정보 라이브러리
- 분자 구조 처리, 화학 반응 시뮬레이션, 분자 특징 계산, 시각화 등 기능 제공


### Installation

In [None]:
!pip install rdkit

## Example

In [None]:
from rdkit import Chem
from rdkit.Chem import Descriptors, Draw

smiles = 'CC(=O)Oc1ccccc1C(=O)O' # aspirin

# SMILES 문자열로부터 분자 객체 생성
mol = Chem.MolFromSmiles(smiles)

# 분자 무게 계산
mol_weight = Descriptors.MolWt(mol)
print(f'Molecular Weight: {mol_weight}')

# 분자 시각화
Draw.MolToImage(mol)

In [None]:
smiles2 = 'c1(ccccc1OC(=O)C)C(=O)O' # another representation of aspirin
mol2 = Chem.MolFromSmiles(smiles2)
Draw.MolToImage(mol2)

In [None]:
# canonicalized smiles of aspirin
smiles3 = Chem.MolToSmiles(mol2, canonical=True)
smiles3

## Working with Pandas

In [None]:
import pandas as pd

In [None]:
df_src = pd.read_csv('./data/src-train.txt', header=None, names=['source'])
df_tgt = pd.read_csv('./data/tgt-train.txt', header=None, names=['target'])
df = pd.concat([df_src, df_tgt], axis=1)
df

In [None]:
df['SMILES_src'] = df['source'].str.replace(' ', '')
df['SMILES_tgt'] = df['target'].str.replace(' ', '')
df

In [None]:
df = df.iloc[:10, :]
df

In [None]:
from rdkit.Chem import PandasTools

PandasTools.AddMoleculeColumnToFrame(df, smilesCol='SMILES_src', molCol='ROMol_src')
PandasTools.AddMoleculeColumnToFrame(df, smilesCol='SMILES_tgt', molCol='ROMol_tgt')

In [None]:
df