In [2]:
# In[2]: Cell 2 - 5단계 실행: GNN 데이터셋 준비
# imputed_final_data.csv 파일을 읽어 GNN이 사용할 수 있는 그래프 데이터셋으로 변환하고 저장합니다.
# 이 셀은 한 번만 실행하면 됩니다.
step5.main()

--- 5단계 시작: GNN 데이터셋 준비 ---
대상 물성: ['Tg', 'FFV', 'Tc', 'Density', 'Rg']
물성 데이터를 정규화했습니다.
SMILES를 그래프 데이터로 변환 중... (시간이 걸릴 수 있습니다)
그래프 변환 완료. 총 10343개의 유효한 분자 데이터 생성.
처리된 데이터셋과 스케일러가 'E:/SSL-polyGNN/data/processed/'에 저장되었습니다.

--- 5단계 완료 ---
처리된 데이터셋이 'E:/SSL-polyGNN/data/processed/gnn_dataset.pt'에 저장되었습니다.


In [3]:
# In[3]: Cell 3 - 6단계 실행: GNN 모델 학습
# 위에서 생성한 데이터셋을 불러와 K-fold 교차 검증으로 모델을 학습합니다.
# 학습 과정(Epoch별 Loss)이 이 셀의 출력 창에 표시됩니다.
# 학습이 완료되면 최종 성능과 함께 모델 파일이 'root/model/' 폴더에 저장됩니다.
step6.main()

--- 6단계 시작: GNN 모델 학습 ---
사용 장치: cuda

===== Fold 1/5 =====
Epoch 001 | Train Loss: 0.7365 | Val Loss: 0.5976
Epoch 010 | Train Loss: 0.5007 | Val Loss: 0.3972
Epoch 020 | Train Loss: 0.4508 | Val Loss: 0.3454
Epoch 030 | Train Loss: 0.4410 | Val Loss: 0.3287
Epoch 040 | Train Loss: 0.4191 | Val Loss: 0.3159
Epoch 050 | Train Loss: 0.4091 | Val Loss: 0.3181
Epoch 060 | Train Loss: 0.4013 | Val Loss: 0.3285
Epoch 070 | Train Loss: 0.3975 | Val Loss: 0.3049
Epoch 080 | Train Loss: 0.3891 | Val Loss: 0.2997
Epoch 090 | Train Loss: 0.3798 | Val Loss: 0.2946
Epoch 100 | Train Loss: 0.3825 | Val Loss: 0.2905
Fold 1 최적 Val Loss: 0.2905

===== Fold 2/5 =====
Epoch 001 | Train Loss: 0.7423 | Val Loss: 0.6420
Epoch 010 | Train Loss: 0.4835 | Val Loss: 0.4185
Epoch 020 | Train Loss: 0.4423 | Val Loss: 0.3783
Epoch 030 | Train Loss: 0.4227 | Val Loss: 0.3471
Epoch 040 | Train Loss: 0.4066 | Val Loss: 0.3397
Epoch 050 | Train Loss: 0.3929 | Val Loss: 0.3219
Epoch 060 | Train Loss: 0.3841 | Val Loss

In [4]:
# In[4]: Cell 4 - (선택 사항) 학습된 모델로 예측해보기
import torch
import pandas as pd

# myutility 폴더 경로 추가
myutility_path = os.path.abspath(os.path.join(os.getcwd(), '..', 'myutility'))
if myutility_path not in sys.path:
    sys.path.append(myutility_path)

import gnn_utils as gu

# --- 설정 ---
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# 5가지 물성 예측
NUM_TARGETS = 5
# 1번 Fold에서 가장 성능이 좋았던 모델을 불러옵니다.
MODEL_PATH = '../model/best_model_fold_1.pth'
# 테스트해볼 SMILES
TEST_SMILES = "CCO" # Ethanol

# --- 모델 로드 ---
model = gu.GCNNet(in_channels=36, hidden_channels=128, out_channels=NUM_TARGETS)
model.load_state_dict(torch.load(MODEL_PATH, map_location=device))
model.to(device)
model.eval()

# --- 예측 ---
# 예측을 위해서는 y값이 필요 없으므로 임의의 값을 넣어줌
graph_data = gu.smiles_to_graph(TEST_SMILES, torch.zeros(NUM_TARGETS)).to(device)

with torch.no_grad():
    prediction = model(graph_data)

print(f"SMILES '{TEST_SMILES}'의 예측 물성값:")
# 원본 데이터의 물성 순서대로 출력 (예시)
properties = ['Density', 'FFV', 'Rg', 'Tc', 'Tg']
for name, val in zip(properties, prediction.squeeze().cpu().numpy()):
    print(f"  - {name}: {val:.4f}")

SMILES 'CCO'의 예측 물성값:
  - Density: -0.8016
  - FFV: 0.6726
  - Rg: -0.3730
  - Tc: -0.4515
  - Tg: -0.9240


In [2]:
# In[1]: Cell 1 - 필요한 모듈 및 경로 설정
import sys
import os

# BaseLine 폴더의 경로를 추가하여 스텝별 스크립트를 import 할 수 있도록 함
# 이 노트북 파일이 'root/notebooks/'에 있다고 가정
workframe_path = os.path.abspath(os.path.join(os.getcwd(), '..', 'BaseLine'))
if workframe_path not in sys.path:
    sys.path.append(workframe_path)

import run_step7_create_submission as step7
step7.main()

--- 7단계 시작: 최종 제출 파일 생성 ---
사용 장치: cuda
성공적으로 5개의 모델을 불러왔습니다.


Predicting: 100%|██████████| 3/3 [00:00<00:00, 25.93it/s]

예측값을 원래 스케일로 복원했습니다.

--- 7단계 완료 ---
최종 제출 파일이 'submission.csv'에 성공적으로 저장되었습니다.
Kaggle에 제출하여 성능을 확인해보세요!





In [1]:
# In[1]: Cell 1 - 필요한 모듈 및 경로 설정
import sys
import os

# BaseLine 폴더의 경로를 추가하여 스텝별 스크립트를 import 할 수 있도록 함
# 이 노트북 파일이 'root/notebooks/'에 있다고 가정
workframe_path = os.path.abspath(os.path.join(os.getcwd(), '..', 'BaseLine'))
if workframe_path not in sys.path:
    sys.path.append(workframe_path)

import run_step5_prepare_gnn_data as step5
import run_step6_train_gnn_model as step6

