### DataBase에서 train_df 가져오기

In [84]:
import pandas as pd
import sqlalchemy

# MySQL 데이터베이스 연결
engine = sqlalchemy.create_engine('mysql+pymysql://root:123@127.0.0.1:3307/my_database')

In [85]:
query = """
SELECT * FROM train;
"""
train_df = pd.read_sql(query, engine)

In [86]:
query = """
SELECT * FROM test;
"""
test_df = pd.read_sql(query, engine)

### SMILES 수치형으로 변환

In [87]:
from rdkit import Chem
from rdkit.Chem import AllChem
from sklearn.linear_model import LinearRegression
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

# SMILES 문자열을 Morgan Fingerprint로 변환하는 함수
def smiles_to_fingerprint(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol:
        # Morgan Fingerprint 계산 (반지름 2, 2048 비트 길이)
        fingerprint = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=2048)
        return np.array(fingerprint)
    else:
        return np.zeros(2048)

In [88]:
import numpy as np

# train_df에서 SMILES 열을 Morgan Fingerprint로 변환
fingerprints = np.array([smiles_to_fingerprint(smiles) for smiles in train_df['Smiles']])

### Atom_Info, Bond_Info, 3D_Conformer 리스트 형으로 변환

In [89]:
# 리스트 데이터를 수치형 피처로 변환하는 함수
def list_to_features(list_data):
    # 문자열 형태의 리스트를 실제 리스트로 변환
    if isinstance(list_data, str):
        list_data = ast.literal_eval(list_data)  # 문자열을 실제 리스트로 변환
    
    # 리스트를 수치형으로 변환
    list_data = np.array(list_data, dtype=float)
    
    # 리스트의 평균, 최대, 최소값, 길이 계산
    return [np.mean(list_data), np.max(list_data), np.min(list_data), len(list_data)]

In [90]:
import ast

# Atom_Info, Bond_Info, 3D_Conformer 열을 수치형 피처로 변환
train_df['Atom_Info_Features'] = train_df['Atom_Info'].apply(list_to_features)
train_df['Bond_Info_Features'] = train_df['Bond_Info'].apply(list_to_features)
train_df['3D_Conformer_Features'] = train_df['3D_Conformer'].apply(list_to_features)

In [91]:
# 수치형 피처들을 다시 분리해서 사용할 수 있도록 벡터화
atom_info_features = np.array(train_df['Atom_Info_Features'].tolist(), dtype=float)
bond_info_features = np.array(train_df['Bond_Info_Features'].tolist(), dtype=float)
conformer_features = np.array(train_df['3D_Conformer_Features'].tolist(), dtype=float)


### 데이터 분할

In [92]:
# SMILES 변환 후의 fingerprints와 다른 수치형 피처들 결합
X = np.concatenate([
    fingerprints, 
    atom_info_features, 
    bond_info_features, 
    conformer_features
], axis=1)

y = train_df['IC50_nM']

In [93]:
# 훈련-검증 데이터 분할 (80% 훈련, 20% 검증)
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

### 선형 회귀 모델

In [94]:
# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [95]:
# 검증 데이터에 대한 예측
y_pred = model.predict(X_val)

In [96]:
# RMSE와 R² 계산
from sklearn.metrics import mean_squared_error, r2_score
rmse = np.sqrt(mean_squared_error(y_val, y_pred))
r2 = r2_score(y_val, y_pred)

print(f"RMSE: {rmse}")
print(f"R²: {r2}")

RMSE: 275308993287.42285
R²: -1.7685388772271012e+16


### 교차검증

In [97]:
from sklearn.model_selection import cross_val_score

# 선형 회귀 모델 초기화
model = LinearRegression()

In [98]:
# 교차 검증 (5-폴드 교차 검증 사용)
cv_scores = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')

In [99]:
# 교차 검증 RMSE 계산
rmse_cv = np.sqrt(-cv_scores)

print(f"교차 검증 RMSE: {rmse_cv.mean()} ± {rmse_cv.std()}")

교차 검증 RMSE: 14466063909904.809 ± 12057759377205.695


### test.csv 로 예측

test_df 도 train_df 와 마찬가지로 전처리 진행

In [100]:
print(test_df.columns)

Index(['ID', 'Smiles', 'Atom_Info', 'Bond_Info', '3D_Conformer'], dtype='object')


In [101]:
# SMILES 문자열을 Morgan Fingerprint로 변환하는 함수 (이미 정의됨)
def smiles_to_fingerprint(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol:
        # Morgan Fingerprint 계산 (반지름 2, 2048 비트 길이)
        fingerprint = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=2048)
        return np.array(fingerprint)
    else:
        return np.zeros(2048)

# 테스트 데이터에서 SMILES 열을 Morgan Fingerprint로 변환
test_fingerprints = np.array([smiles_to_fingerprint(smiles) for smiles in test_df['Smiles']])

In [102]:
# 테스트 데이터에서 Atom_Info, Bond_Info, 3D_Conformer 열을 수치형 피처로 변환
test_df['Atom_Info_Features'] = test_df['Atom_Info'].apply(list_to_features)
test_df['Bond_Info_Features'] = test_df['Bond_Info'].apply(list_to_features)
test_df['3D_Conformer_Features'] = test_df['3D_Conformer'].apply(list_to_features)

# 수치형 피처들을 벡터화
test_atom_info_features = np.array(test_df['Atom_Info_Features'].tolist(), dtype=float)
test_bond_info_features = np.array(test_df['Bond_Info_Features'].tolist(), dtype=float)
test_conformer_features = np.array(test_df['3D_Conformer_Features'].tolist(), dtype=float)

In [103]:
# 모든 피처 결합
X_test = np.concatenate([
    test_fingerprints,              # SMILES에서 변환된 Morgan Fingerprint
    test_atom_info_features,        # Atom_Info에서 변환된 피처
    test_bond_info_features,        # Bond_Info에서 변환된 피처
    test_conformer_features         # 3D_Conformer에서 변환된 피처
], axis=1)

print(f"테스트 데이터 피처 모양: {X_test.shape}")

테스트 데이터 피처 모양: (113, 2060)


In [104]:
# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [105]:
print('test_df.columns:',test_df.columns)
print('train_df.columns:',train_df.columns)

test_df.columns: Index(['ID', 'Smiles', 'Atom_Info', 'Bond_Info', '3D_Conformer',
       'Atom_Info_Features', 'Bond_Info_Features', '3D_Conformer_Features'],
      dtype='object')
train_df.columns: Index(['癤풫olecule_ChEMBL_ID', 'Standard_Type', 'Standard_Relation',
       'Standard_Value', 'Standard_Units', 'pChEMBL_Value', 'Assay_ChEMBL_ID',
       'Target_ChEMBL_ID', 'Target_Name', 'Target_Organism', 'Target_Type',
       'Document_ChEMBL_ID', 'IC50_nM', 'pIC50', 'Smiles', 'Atom_Info',
       'Bond_Info', '3D_Conformer', 'Atom_Info_Features', 'Bond_Info_Features',
       '3D_Conformer_Features'],
      dtype='object')


In [106]:
# 예측 수행
y_test_pred = model.predict(X_test)

# 예측 결과 확인
print(y_test_pred[:5])

[-7.39253468e+10  4.50843079e+10 -7.78862910e+10 -8.81396237e+10
 -7.71048135e+10]


### Sample_Submission 형식에따라 제출

In [107]:
# 예측값을 DataFrame으로 변환하여 ID와 함께 저장
submission = pd.DataFrame({
    'ID': test_df['ID'],          # test.csv에서 ID 열 가져오기
    'IC50_nM': y_test_pred        # 모델이 예측한 IC50 값
})

In [108]:
# 제출 파일을 CSV로 저장
submission.to_csv('C:/Users/82106/Desktop/데이콘/제 2회 신약개발/데이터/open/submission.csv', index=False)

# 제출 파일의 상위 5개 확인
print(submission.head())

         ID       IC50_nM
0  TEST_000 -7.392535e+10
1  TEST_001  4.508431e+10
2  TEST_002 -7.788629e+10
3  TEST_003 -8.813962e+10
4  TEST_004 -7.710481e+10


### 성능이 좋지않으므로 smiles를 다른 형태로 변환해보기

### RDKit Descriptors (분자 서술자)

In [109]:
from rdkit.Chem import Descriptors

# SMILES 문자열을 분자 서술자로 변환하는 함수
def smiles_to_descriptors(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol:
        # RDKit의 주요 서술자 계산 (대표적인 서술자 몇 가지 예시)
        descriptors = [
            Descriptors.MolWt(mol),               # 분자량
            Descriptors.MolLogP(mol),             # 로그P
            Descriptors.NumHDonors(mol),          # 수소 결합 공여자 수
            Descriptors.NumHAcceptors(mol),       # 수소 결합 수용자 수
            Descriptors.TPSA(mol)                 # 극성 표면적
        ]
        return np.array(descriptors)
    else:
        return np.zeros(5)  # 서술자 개수에 맞춰 0으로 채운 벡터 반환

#### 예시

In [110]:
# 주어진 SMILES 문자열
smiles = "CN[C@@H](C)C(=O)N[C@H](C(=O)N1C[C@@H](NC(=O)CCOCCOCCOCC#Cc2cnc(OC[C@@H]3CCC(=O)N3)c3cc(OC)c(C(N)=O)cc23)C[C@H]1C(=O)N[C@@H]1CCCc2ccccc21)C1CCCCC1"

# SMILES 문자열을 분자 서술자로 변환
descriptors = smiles_to_descriptors(smiles)

print(f"분자 서술자: {descriptors}")

분자 서술자: [995.188    2.7436   6.      13.     250.87  ]


In [111]:
# 모든 SMILES에 대해 smiles_to_descriptors 적용
descriptors = np.array([smiles_to_descriptors(smiles) for smiles in train_df['Smiles']])

# 결과를 새로운 열로 추가 (각 서술자마다 열 추가)
train_df['MolWt'] = descriptors[:, 0]        # 분자량
train_df['MolLogP'] = descriptors[:, 1]      # 로그P
train_df['NumHDonors'] = descriptors[:, 2]   # 수소 결합 공여자 수
train_df['NumHAcceptors'] = descriptors[:, 3]  # 수소 결합 수용자 수
train_df['TPSA'] = descriptors[:, 4]         # 극성 표면적

train_df['TPSA'].head()

0    250.87
1    106.31
2    115.54
3    106.31
4    215.17
Name: TPSA, dtype: float64

### 데이터 분할부터 다시

In [112]:
# 기존 atom_info_features, bond_info_features, conformer_features와 결합
X = np.concatenate([
    descriptors,            # SMILES를 서술자로 변환한 결과 (분자량, 로그P, 등)
    atom_info_features,     
    bond_info_features,     
    conformer_features      
], axis=1)

# 타겟 변수 y 설정
y = train_df['IC50_nM']

In [113]:
# 훈련-검증 데이터 분할 (80% 훈련, 20% 검증)
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

In [114]:
# 선형 회귀 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [115]:
# 검증 데이터에 대한 예측
y_pred = model.predict(X_val)

In [116]:
# RMSE와 R² 계산
from sklearn.metrics import mean_squared_error, r2_score
rmse = np.sqrt(mean_squared_error(y_val, y_pred))
r2 = r2_score(y_val, y_pred)

print(f"RMSE: {rmse}")
print(f"R²: {r2}")

RMSE: 1995.1880806429133
R²: 0.07115874243994003


### test에도 분자서술자 적용

In [117]:
# 모든 SMILES에 대해 smiles_to_descriptors 적용
descriptors = np.array([smiles_to_descriptors(smiles) for smiles in test_df['Smiles']])

# 결과를 새로운 열로 추가 (각 서술자마다 열 추가)
test_df['MolWt'] = descriptors[:, 0]        # 분자량
test_df['MolLogP'] = descriptors[:, 1]      # 로그P
test_df['NumHDonors'] = descriptors[:, 2]   # 수소 결합 공여자 수
test_df['NumHAcceptors'] = descriptors[:, 3]  # 수소 결합 수용자 수
test_df['TPSA'] = descriptors[:, 4]         # 극성 표면적

test_df['TPSA'].head()

0     79.38
1     96.38
2    115.51
3    129.78
4    126.70
Name: TPSA, dtype: float64

In [118]:
# 모든 피처 결합
X_test = np.concatenate([
    descriptors,              # SMILES에서 변환된 Morgan Fingerprint
    test_atom_info_features,        # Atom_Info에서 변환된 피처
    test_bond_info_features,        # Bond_Info에서 변환된 피처
    test_conformer_features         # 3D_Conformer에서 변환된 피처
], axis=1)

In [119]:
# 예측 수행
y_test_pred = model.predict(X_test)

# 예측 결과 확인
print(y_test_pred[:5])

[ -38.90030998  404.37611938 -227.926232    -93.55257436   22.16461422]


In [120]:
# 예측값을 DataFrame으로 변환하여 ID와 함께 저장
submission = pd.DataFrame({
    'ID': test_df['ID'],          # test.csv에서 ID 열 가져오기
    'IC50_nM': y_test_pred        # 모델이 예측한 IC50 값
})

In [121]:
# 제출 파일을 CSV로 저장
submission.to_csv('C:/Users/82106/Desktop/데이콘/제 2회 신약개발/데이터/open/submission.csv', index=False)

# 제출 파일의 상위 5개 확인
print(submission.head())

         ID     IC50_nM
0  TEST_000  -38.900310
1  TEST_001  404.376119
2  TEST_002 -227.926232
3  TEST_003  -93.552574
4  TEST_004   22.164614


### 데이콘 점수 : 0.3094961401

개선할점 : Smiles을 다른방식으로 수치화 하는 방법들 사용

### 랜덤 포레스트 모델링

In [133]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

In [134]:
# 랜덤 포레스트 회귀 모델 초기화
rf_model = RandomForestRegressor(
    n_estimators=100,       # 트리의 개수
    random_state=42,        # 재현성을 위한 시드 설정
    n_jobs=-1,              # 모든 CPU 코어 사용
    max_depth=None,         # 트리의 최대 깊이 (None이면 완전히 확장)
    min_samples_split=2     # 내부 노드를 분할하는 데 필요한 최소 샘플 수
)

In [135]:
# 모델 훈련
rf_model.fit(X_train, y_train)

In [136]:
# 검증 데이터에 대한 예측
y_pred = rf_model.predict(X_val)

In [137]:
# 모델 평가
rmse = mean_squared_error(y_val, y_pred, squared=False)  # RMSE 계산
r2 = r2_score(y_val, y_pred)                             # R² 계산

# 평가 결과 출력
print(f"Random Forest Validation RMSE: {rmse:.4f}")
print(f"Random Forest Validation R²: {r2:.4f}")

Random Forest Validation RMSE: 1999.3817
Random Forest Validation R²: 0.0673




In [139]:
# 예측 수행
y_test_pred = rf_model.predict(X_test)

# 예측 결과 확인
print(y_test_pred[:5])

[426.75531 188.90802  98.894     5.891    88.96   ]


In [140]:
# 예측값을 DataFrame으로 변환하여 ID와 함께 저장
submission = pd.DataFrame({
    'ID': test_df['ID'],          # test.csv에서 ID 열 가져오기
    'IC50_nM': y_test_pred        # 모델이 예측한 IC50 값
})

In [141]:
# 제출 파일을 CSV로 저장
submission.to_csv('C:/Users/82106/Desktop/데이콘/제 2회 신약개발/데이터/open/submission.csv', index=False)

# 제출 파일의 상위 5개 확인
print(submission.head())

         ID    IC50_nM
0  TEST_000  426.75531
1  TEST_001  188.90802
2  TEST_002   98.89400
3  TEST_003    5.89100
4  TEST_004   88.96000


### 데이콘 점수 : 0.3564187321

### 전처리한 데이터를 SQL 데이터베이스에 업데이트

In [122]:
# MySQL 데이터베이스 연결
engine = sqlalchemy.create_engine('mysql+pymysql://root:123@127.0.0.1:3307/my_database')

In [123]:
import json
train_df['Atom_Info'] = train_df['Atom_Info'].apply(lambda x: json.dumps(x))
train_df['Bond_Info'] = train_df['Bond_Info'].apply(lambda x: json.dumps(x))
train_df['3D_Conformer'] = train_df['3D_Conformer'].apply(lambda x: json.dumps(x))

In [126]:
# Atom_Info_Features, Bond_Info_Features, 3D_Conformer_Features 열들을 별도의 열로 분리
train_df[['Atom_Mean', 'Atom_Max', 'Atom_Min', 'Atom_Len']] = pd.DataFrame(train_df['Atom_Info_Features'].tolist(), index=train_df.index)
train_df[['Bond_Mean', 'Bond_Max', 'Bond_Min', 'Bond_Len']] = pd.DataFrame(train_df['Bond_Info_Features'].tolist(), index=train_df.index)
train_df[['Conformer_Mean', 'Conformer_Max', 'Conformer_Min', 'Conformer_Len']] = pd.DataFrame(train_df['3D_Conformer_Features'].tolist(), index=train_df.index)

# 기존 리스트 열 제거 (선택사항)
train_df = train_df.drop(['Atom_Info_Features', 'Bond_Info_Features', '3D_Conformer_Features'], axis=1)

In [127]:
# 전처리된 데이터베이스에 저장
train_df.to_sql(name='train_processed', con=engine, if_exists='replace', index=False)

1952

In [128]:
import json
test_df['Atom_Info'] = test_df['Atom_Info'].apply(lambda x: json.dumps(x))
test_df['Bond_Info'] = test_df['Bond_Info'].apply(lambda x: json.dumps(x))
test_df['3D_Conformer'] = test_df['3D_Conformer'].apply(lambda x: json.dumps(x))

In [130]:
# Atom_Info_Features, Bond_Info_Features, 3D_Conformer_Features 열들을 별도의 열로 분리
test_df[['Atom_Mean', 'Atom_Max', 'Atom_Min', 'Atom_Len']] = pd.DataFrame(test_df['Atom_Info_Features'].tolist(), index=test_df.index)
test_df[['Bond_Mean', 'Bond_Max', 'Bond_Min', 'Bond_Len']] = pd.DataFrame(test_df['Bond_Info_Features'].tolist(), index=test_df.index)
test_df[['Conformer_Mean', 'Conformer_Max', 'Conformer_Min', 'Conformer_Len']] = pd.DataFrame(test_df['3D_Conformer_Features'].tolist(), index=test_df.index)

# 기존 리스트 열 제거 (선택사항)
test_df = test_df.drop(['Atom_Info_Features', 'Bond_Info_Features', '3D_Conformer_Features'], axis=1)

In [131]:
# 전처리된 데이터베이스에 저장
test_df.to_sql(name='test_processed', con=engine, if_exists='replace', index=False)

113