-
👩💻 기여 : 모델링 아이디어 설계 및 모델링 (4명)
-
👩💻 역할 : 팀장
-
👩💻 기간 : 약 3주
- 프로포절부터 최종발표까지 (2021.05.12 ~ 2021.06.09)
- 프로포절부터 최종발표까지 (2021.05.12 ~ 2021.06.09)
-
반도체 생산 공정 과정에서 발생한 센서 데이터 (UCI Machine Learning Repository, SECOM Data set)
- Time : 센서 정보가 기록된 시간
- 0 ~ 589 : 센서 번호
- Pass/Fail : 이상 여부
정확도 : 0.89, 정밀도 : 0.11, 재현율 : 0.10, f1-score : 0.11, auc : 0.52
- 정확도를 제외한 모든 지표가 매우 낮아, 예측 모델로 사용하기에 부적합
- 정오 행렬과 히트맵을 출력해본 결과, 1을 1로 예측하는 비율이 매우 낮음
- 성능 약간 상승 : 비록 정확도는 떨어졌을지라도, 재현율, F1-score, AUC가 이전에 비해 향상됨
- 하지만 여전히 낮은 정밀도와 재현율의 개선을 위 다양한 데이터마이닝 기법을 탐색함
- SMOTE 적용 전 : KNN, RF, SVM, XGB, LGBM의 성능이 동일하게 93.63%
- SMOTE 적용 후 : RF, XGB, LGBM의 성능이 동일하게 93.31% (KNN의 경우, 정확도가 떨어지는 모습도 보임)
- SMOTE 기법이 유의미하지 않음
- RF, XGB, LGBM 세 모델의 성능이 탁월함
- SMOTE 기법을 적용하지 않은 랜덤 포레스트를 잠정적인 최종 모델로 선택함
- 하이퍼 파라미터 조정 전과 후의 모델의 성능이 동일한 93.63%임
- 하이퍼 파라미터 조정이 유의미하지 않음
- 조정 전 랜덤 포레스트 모델 계속 선택함
-
중요도 top 30의 변수만 포함한 데이터 파일을 생성하여 분석
- tgan_data: 열 번호는 랜덤 포레스트에서 중요도가 높다고 나온 변수의 오름차순
- Fail_data: tgan_data에서 Pass/Fail 열이 1에 해당하는 행만 저장한 데이터
-
GAN을 적용한 로지스틱 회귀 모델의 성능이 탁월하게 개선됨
💡 단순히 변수의 개수가 줄어서 모델의 성능이 좋아진 것은 아닐까?
‘uci-secom3’에 대해서도 로지스틱 회귀 분석을 실행한 결과, ‘uci-secom3’에 적용한 것은 원본 데이터인 ‘uci-secom’에 적용한 것보다 더 낮은 점수가 나온 것을 확인
- 혼합 적용은 오히려 모델의 성능을 감소시켰음
- 따라서 GAN 데이터에 대해서 가장 성능이 높은 모델은 랜덤 포레스트와 Light GBM (93.63%)
- 기존 데이터에 적용한 로지스틱 회귀의 성능이 매우 낮음에 따라, 다양한 모델 성능 향상 기법을 적용하여 SMOTE 적용 전인 랜덤 포레스트 모델을 최종 선택하였음
- 해당 모델에서 중요 변수 상위 30개를 추출하여, 중요 변수로 구성된 데이터에 GAN을 적용, 모든 모델에 적합
- 최종 모델 : 랜덤 포레스트, Light GBM (93.63%)