์ํ ๋ณํฉ(galaxy merger)์ ์ฐ์ฃผ ๋๊ท๋ชจ ๊ตฌ์กฐ ํ์ฑ๊ณผ ๊ฐ๋ณ ์ํ ์งํ์ ํต์ฌ์ ์ธ ์ญํ ์ ํ๋ฉฐ,
๋ณํฉ ๊ณผ์ ์์ ์ํ๋ ํํํ์ ๋ณํ๋ฟ ์๋๋ผ ๋ณ ์์ฑ๋ฅ (SFR), ์์ง์, ๊ธ์ํจ๋, AGN ํ์ฑํ ๋ฑ
๋ค์ํ ๋ฌผ๋ฆฌ์ ํน์ฑ ๋ณํ๋ฅผ ๊ฒช๋๋ค.
๋ณธ ํ๋ก์ ํธ์์๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์ํ ๋ณํฉ์ 3๋จ๊ณ๋ก ์ธ๋ถํํ์ฌ ๋ถ๋ฅํ๋ฉฐ, ์ํ์ ๋ฌผ๋ฆฌ๋(photometric / spectroscopic quantities)๋ง์ ํ์ฉํ๋ Image-Exclusive ๋ชจ๋ธ์ ์ ์ํ๋ค.
๋ฐ์ดํฐ๋ ํ์คํ(StandardScaler) ๋ฐ KNN ๊ธฐ๋ฐ ๊ฒฐ์ธก์น ๋ณด์ ์ด ์ ์ฉ๋ ํ ์ฌ์ฉ๋๋ค.
๐ Illustris / TNG ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ํ ๋ฐ์ดํฐ
: ํ์ต์ฉ ์๋ฎฌ๋ ์ด์
์์ฑ ๋ฐ์ดํฐ
์ด 6261๊ฐ
๋ผ๋ฒจ ๊ตฌ์ฑ:
- pre : 1900๊ฐ
- non : 2400๊ฐ
- post : 2000๊ฐ
๐ Illustris / TNG ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ํ ๋ฐ์ดํฐ
: ์ถ๋ก ์ฉ ์ค์ ๊ด์ธก ๋ฐ์ดํฐ
์ด 10๋ง ๊ฐ ๊ฐ๋
| Feature Name | ์ค๋ช |
|---|---|
| StellarMass | ๋ณ ์ง๋ |
| AbsMag_g | g ๋ฐด๋ ์ ๋๋ฑ๊ธ |
| AbsMag_r | r ๋ฐด๋ ์ ๋๋ฑ๊ธ |
| AbsMag_i | i ๋ฐด๋ ์ ๋๋ฑ๊ธ |
| AbsMag_z | z ๋ฐด๋ ์ ๋๋ฑ๊ธ |
| color_gr | ์ ์ง์ (g โ r) |
| color_gi | ์ ์ง์ (g โ i) |
| SFR | ๋ณ ํ์ฑ๋ฅ |
| BulgeMass | ํฝ๋๋ถ ์ง๋ |
| EffectiveRadius | ์ ํจ ๋ฐ๊ฒฝ |
| VelocityDispersion | ์๋ ๋ถ์ฐ |
| Metallicity | ๊ธ์๋ |
- Train / Validation / Test = 7 : 2 : 1
- 5-Fold Cross Validation ์ ์ฉ
- ๋ชจ๋ ์คํ์์ random seed = 42 ๊ณ ์
| SubHaloID | Snapshot | Phase | StellarMass | AbsMag_g | AbsMag_r | AbsMag_i | AbsMag_z | color_gr | color_gi | SFR | BulgeMass | EffectiveRadius | VelocityDispersion | Metallicity |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ์ํ ๊ณ ์ ID | ์๋ฎฌ๋ ์ด์ ์ค๋ ์ท ๋ฒํธ | ๋ณํฉ ๋จ๊ณ ๋ผ๋ฒจ (Non/Pre/Post) | ๋ณ ์ง๋ | g ๋ฐด๋ ์ ๋๋ฑ๊ธ | r ๋ฐด๋ ์ ๋๋ฑ๊ธ | i ๋ฐด๋ ์ ๋๋ฑ๊ธ | z ๋ฐด๋ ์ ๋๋ฑ๊ธ | ์ ์ง์ (gโr) | ์ ์ง์ (gโi) | ๋ณ ํ์ฑ๋ฅ | ํฝ๋๋ถ ์ง๋ | ์ ํจ ๋ฐ๊ฒฝ | ์๋ ๋ถ์ฐ | ๊ธ์๋ |
๋ค์ํ ๋ชจ๋ธ์ ๋์ผํ ๋ฐ์ดํฐ์ ๊ณผ Stratified K-Fold ๊ต์ฐจ๊ฒ์ฆ ํ๊ฒฝ์์ ์คํํ์๋ค.
- Stratified K-Fold๋ฅผ ์ด์ฉํ ์์ ์ ์ธ ํ์ต/ํ๊ฐ
- Classical ML โ Deep Learning ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ๋น๊ต
- Accuracy ๋ฐ Macro-F1 ๊ธฐ์ค์ผ๋ก ์ต์ ๋ชจ๋ธ ์ ์
SYNERGI/
โโโ data/ ๐๋ฐ์ดํฐ
โ โโโ DESI/ ์ถ๋ก ์ฉ ์ค์ ๋ฐ์ดํฐ
โ โโโ illustris/ ํ์ต์ฉ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ
โ
โโโ evaluation/๐ํ์ต ๊ฒฐ๊ณผ
โ โโโ classicalMachineLearning/
โ โโโ deepLearning/
โ
โโโ inference/๐์ถ๋ก ๊ฒฐ๊ณผ
โ โโโ randomforest_final12_inference.csv
โ
โโโ model/๐๋ชจ๋ธ (์ฉ๋ ๋ฌธ์ ๋ก gitignore)
โ โโโ classicalMachineLearning/
โ โโโ deepLearning/
โ
โโโ src/๐์์ค ์ฝ๋
โ โโโ data_preprocess/ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ์ฝ๋
โ โโโ inference/ ์ถ๋ก ์ฝ๋
โ โโโ SHAP/ XAI ์ฝ๋
โ โโโ train/ ๋ชจ๋ธ ํ์ต ์ฝ๋
โ โโโ classicalMachineLearning/
โ โโโ deepLearning/
โ
โโโ README.md
classicalMachineLearning, deepLearning ๋ด๋ถ
โโโ SFR_inf_-1/ SFR ์ด์์น๋ฅผ -1๋ก ๋์ฒดํ ๋ฐ์ดํฐ ์ฌ์ฉ
โโโ SFR_inf_remove/ SFR ์ด์์น๋ฅผ ์ ์ธํ ๋ฐ์ดํฐ ์ฌ์ฉ
โโโ final_12_datasetPhase_complete/ SFR๊ณผ BulgeMass์ ๊ณ์ฐ ๋ฐฉ์์ ๋ค๋ฅด๊ฒ ์ ์ฉํ ๋ฐ์ดํฐ ์ฌ์ฉ
SFR_inf_-1, SFR_inf_remove, final_12_datasetPhase_complete ๋ด๋ถ
๊ฐ ์นดํ
๊ณ ๋ฆฌ์ ํด๋นํ๋ ๋ชจ๋ธ ํ์ผ / ๋ชจ๋ธ ๊ฒฐ๊ณผ ํ์ผ
git clone https://github.com/Earth-Conquest-Research-Project/Image-Exclusive-Model_for_Galaxy_Merger_Classification.git
๋ณธ ํ๋ก์ ํธ๋ ๊ฐ๋ณ Python ์คํฌ๋ฆฝํธ ์คํ ๋ฐฉ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ๋จ๊ณ๋ ๋ ๋ฆฝ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ๋ค.
conda create -n test-env python=3.9 -y
conda activate test-env
cd Image-Exclusive-Model_for_Galaxy_Merger_Classification
pip install -r requirements.txt
conda ์๋ ๊ฒฝ์ฐ
python3 -m venv test-env
source test-env/bin/activate
cd Image-Exclusive-Model_for_Galaxy_Merger_Classification
pip install -r requirements.txt
"SFR_inf_-1" ๋ฐ์ดํฐ์ ๊ธฐ์ค ์ค๋ช
cd SYNERGI
python src/train/classicalMachineLearning/SFR_inf_-1/RandomForest.py
python src/train/deepLearning/SFR_inf_-1/FT-Transformer.py
python src/inference/randomForest_final12_inference.py
- numpy
- pandas
- scikit-learn
- xgboost
- lightgbm
- catboost
- PyTorch
- shap
- rtdl-revisiting-models
๋ชจ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ๊ฐ ๋ผ์ด์ ์ค๋ฅผ ์ค์ํ์ฌ ์ฌ์ฉํ์๋ค.
- Classical ML ๋ชจ๋ธ๋ค์ด ์ ๋ฐ์ ์ผ๋ก Deep Learning ๋ชจ๋ธ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์
- ํนํ Random Forest ๋ชจ๋ธ์ด
- Accuracy 0.8276
- Macro-F1 0.8238 ๋ก ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ๋ก
- CatBoost, GradientBoost, LightGBM ์ญ์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ
๋ฌผ๋ฆฌ๋ ๊ธฐ๋ฐ ๋ฌธ์ ์์ Boosting ๊ณ์ด ๋ชจ๋ธ์ ๊ฐ์ ์ ํ์ธ - Deep Learning ๋ชจ๋ธ(MLP, FT-Transformer, TabTransformer)์
ํํ๋ ฅ์ ๋์ผ๋, ๋ณธ ๋ฐ์ดํฐ ๊ท๋ชจ ๋ฐ ํน์ฑ์์๋ ์ฑ๋ฅ ์ฐ์๊ฐ ์ ํ์ ์ด์์
โก๏ธ ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก Random Forest๋ฅผ ์ต์ข ๋ชจ๋ธ๋ก ์ ์
์ ์ ๋ Random Forest ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ
์ค์ ๊ด์ธก ์ํ ๋ฐ์ดํฐ์ ๋ํ ๋ณํฉ ๋จ๊ณ ์ถ๋ก (Inference)์ ์ํ
P_NOMERGER ๊ฐ ๊ตฌ๊ฐ๋ณ๋ก ๊ฐ ๋ณํฉ ๋จ๊ณ(non / pre / post-merger)์ ๋น์จ์ ๋น๊ต
- non-merger ์ํ์ ๊ฒฝ์ฐ
- P_NOMERGER ๊ฐ์ด ๋์์๋ก non-merger ๋น์จ์ด ๋๋ ทํ๊ฒ ์ฆ๊ฐ
- pre-merger / post-merger ์ํ์ ๊ฒฝ์ฐ
- P_NOMERGER ๊ฐ์ด ๋์์ง์๋ก ํด๋น ๋น์จ์ด ๊ฐ์
- ์ด๋ ๋ชจ๋ธ์ด non-merger ํ๋ฅ ์ ์ผ๊ด์ฑ ์๊ฒ ํ์ตํ๊ณ ์์ผ๋ฉฐ,
๋ณํฉ ๋จ๊ณ ๊ฐ ๋ฌผ๋ฆฌ์ ์ฐจ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์ ๋ฐ์ํ๊ณ ์์์ ์๋ฏธ
๋ฌผ๋ฆฌ๋ ๊ธฐ๋ฐ(Image-Excluded) ์ํ ๋ณํฉ ๋ถ๋ฅ ๋ชจ๋ธ ์ ์
- ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ถ๊ด ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ๋๋ง์ ์ฌ์ฉํ ๋ถ๋ฅ ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ถ
- ๋ํ ๋ง์๊ฒฝ ๊ด์ธก์ด๋ ์ด๋ฏธ์ง ์์ฑ ์์ด๋ ์คํ ๋ฐ์ดํฐ๋ง์ผ๋ก ๋ชจ๋ธ ๊ตฌ์ฑ ๊ฐ๋ฅ
์๋์ ์ธ ํ์ต ํจ์จ์ฑ ํฅ์
- ๊ธฐ์กด ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ชจ๋ธ: ํ์ต ์๊ฐ ์ฝ 5โ6์๊ฐ
- ์ ์ ๋ชจ๋ธ: ํ๊ท 1โ2๋ถ ๋ด ํ์ต ์๋ฃ
- ์ฝ 1800๋ฐฐ ์ด์์ ํ์ต ์๋ ๊ฐ์ , ๋น ๋ฅธ ์คํ ๋ฐ๋ณต ๋ฐ ๋ชจ๋ธ ํ์ ๊ฐ๋ฅ
์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ํํ๋ ๋ถ๋ฅ ์ฑ๋ฅ
- ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ต์ ์ฐ๊ตฌ(Pearson et al., 2024): Accuracy โ 0.81
- ๋ณธ ์ฐ๊ตฌ(๋ฌผ๋ฆฌ๋๋ง ์ฌ์ฉ): Accuracy โ 0.83
- ์ด๋ฏธ์ง ์์ด๋ ๋ณํฉ ๋จ๊ณ ๋ถ๋ฅ์ ์ถฉ๋ถํ ์ ๋ณด๊ฐ ๋ฌผ๋ฆฌ๋์ ๋ด์ฌํจ์ ์ค์ฆ
๋์ ํด์ ๊ฐ๋ฅ์ฑ ํ๋ณด
- SHAP ๋ถ์์ ํตํด ๋ชจ๋ธ์ด ํ์ฉํ๋ ํต์ฌ ๋ฌผ๋ฆฌ๋์ ์ ๋์ ์ผ๋ก ๋ถ์
- Metallicity, StellarMass, ์ ๋๋ฑ๊ธ ๊ณ์ด ๋ฌผ๋ฆฌ๋์ด ์ฃผ์ ํ๋ณ ์์ธ์ผ๋ก ์๋
- ๊ธฐ์กด ์ด๋ฏธ์ง ๋ชจ๋ธ์ด ์ด๋ ค์ํ๋ Pre-merger / Post-merger ๊ตฌ๋ถ์ด ๋ฌผ๋ฆฌ๋ ๊ธฐ๋ฐ์์๋ ๋ช ํํ ๋ถ๋ฆฌ๋จ
์ฒ์ฒด๋ฌผ๋ฆฌํ์ ์๋ฏธ์์ ์ฐ๊ฒฐ ๊ฐ๋ฅ์ฑ
- ๋ชจ๋ธ์ด ํฌ์ฐฉํ ๋ฌผ๋ฆฌ์ ์ ํธ๊ฐ ์ค์ ๋ณํฉ ๊ณผ์ ์ ๋ฌผ๋ฆฌ์ ๋ณํ์ ์ผ๊ด๋จ์ ํ์ธ
- ํํ ์ค์ฌ ์ ๊ทผ์ด ๋์น ์์ญ์ ๋ฌผ๋ฆฌ๋ ๊ธฐ๋ฐ ์ ๋ณด๊ฐ ํจ๊ณผ์ ์ผ๋ก ๋ณด์ํจ์ ์ ์ฆ
ํฅํ ์ฐ๊ตฌ ๋ฐ ํ์ฅ์ฑ
- ํฅํ ์ด๋ฏธ์ง + ๋ฌผ๋ฆฌ๋์ ๊ฒฐํฉํ ๋ฉํฐ๋ชจ๋ฌ ๋ณํฉ ๋จ๊ณ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ํ์ฅ ๊ณํ



