ํ๊ตญ๊ณ ์ฉ์ ๋ณด์์์ ์ ๊ณตํ๋ ๊ตฌ์ธ๊ตฌ์ง ๋น
๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ปค๋ฆฌ์ด ๊ด๋ฆฌ ์๋น์ค์ธ
์ก์ผ์ด ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ฐ์ธ๋ณ ๋ง์ถคํ ์ปจํ
์ธ ์ถ์ฒ ๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ํ์ฉ ๋ฐฉ์์ ์ ์ํ ํ๋ก์ ํธ
- ๊ฐ๋ฐ ํ๊ฒฝ ๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฒ์ ํ์ธ
- ๋ฐ์ดํฐ ๊ธฐ์ด ํต๊ณ๋ ํ์ธ
- ๋ฐ์ดํฐ ๊ฒฐ์ธก์น ๋ฐ ๋ถ๊ท ํ ํ์ธ
- ๋ฐ์ดํฐ ์๊ฐํ
- Booleanํ ๋ณ์ label encoding
- ํ์๋ณ์ ์์ฑ
- ์ปจํ ์ธ ์ด๋ ์ผ์ ๋ณ์ โ ์์ผ๊ณผ ์๊ฐ ๊ด๋ จ ๋ณ์ ์์ฑ (contents_open_wd, contents_open_hour, contents_weekday, contents_work_time)
- ์ปจํ ์ธ ๋ฒํธ ๋น๋์ ๋ณ์ ์์ฑ (contents_rn_cnt)
- ์ฌ์ฉ์ ๋ฒํธ ๋น๋์ ๋ณ์ ์์ฑ (person_rn_cnt)
- ์์ฑ D์ ๋๋ถ๋ฅ ๋งค์นญ ์ฌ๋ถ ๋ณ์ ์์ฑ (d_1_l_match_yn, d_2_l_match_yn, d_3_l_match_yn)
- ์์ฑ D์ ์ฝ๋ ๋งค์นญ ์ฌ๋ถ ๋ณ์ ์์ฑ (d_1_s_match_yn, d_2_s_match_yn, d_3_s_match_yn)
- ๋ณ์ ์ญ์ โ label์ด ํ๋๊ฑฐ๋, ํ์๋ณ์๋ฅผ ์์ฑํ๋ ๋ฐ ์ฌ์ฉํ ์ผ๋ถ ๋ณ์ ์ ๊ฑฐ
id, person_prefer_f ,person_prefer_g, person_rn, contents_rn, contents_open_dt, d_l_match_yn, d_m_match_yn, d_s_match_yn, h_m_match_yn, h_s_match_yn, person_prefer_d_1_l, person_prefer_d_2_l,person_prefer_d_3_l, contents_attribute_d_l
- ๋ฐ์ดํฐ์ ๋ฒ์ฃผํ ๋ณ์์ ๋น์ค์ด ๋๊ธฐ ๋๋ฌธ์ Catboost ๋ชจ๋ธ์ ์ฌ์ฉ
- Optuna ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ์ต์ ์ ํ์ดํผ ํ๋ฆฌ๋ฏธํฐ ํ์ (F1 score maximize, Trial 10)
- K-fold ๊ต์ฐจ ๊ฒ์ฆ ์งํ (n_splits = 5)
- CV๋ณ ์์ธก ํ๋ฅ ์ ํ๊ท ๋ด์ด ์ต์ข ์์ธก ํ๋ฅ ๋ก ํ์ฉ
- threshold = 0.4๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ธก ํ๋ฅ ์ label๋ก ๋ณํ
์ ํฌ ํ๋ก์ ํธ์ ๋ํด ์์ธํ๊ฒ ์๊ณ ์ถ์ผ์๋ค๋ฉด, ํ๋ก์ ํธ ์ค๋ช ์๋ฃ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์.
ํ ๊ถ
โโโ README.md
โโโ Final_Code.ipynb
โโโ data
โ โโโโtrain.csv
โ โโโโtest.csv
โ โโโโresult_submission.csv
โ โโโโtrain_data.csv
โ โโโโtest_data.csv
โ
โโโ preprocess
โ โโโโEDA.ipynb
โ โโโโpreprocess.ipynb
โ
โโโ model
โโโโhyper_parameter.ipynb
โโโโmodel.ipynb
โโโโ model
โโโโcatboost_optuna_parameter.pkl
OS Linux-5.4.0-91-generic-x86_64-with-debian-buster-sid
Process information x86_64
Process Architecture x86_64
RAM 252 GB
python 3.7.6
numpy 1.18.1
pandas 1.0.1
scikit-learn 0.22.1
catboost 1.0.4
optuna 2.10.0
์ด์ค์ | ๋ฐ์ง์ | ๋ฐ์งํ | ์์ง์ฐ |