Oversampling for Imbalanced Data with SMOTE & GAN

불균형 데이터 처리
센서 데이터를 활용한 공정 이상 예측 모델링

Summary

👩‍💻 기여 : 모델링 아이디어 설계 및 모델링 (4명)
👩‍💻 역할 : 팀장
👩‍💻 기간 : 약 3주
- 프로포절부터 최종발표까지 (2021.05.12 ~ 2021.06.09)

작업환경

💻 학습 : Jupyter Notbook
💻 코드 : 모델링
💻 발표자료 : 프로포절 발표, 중간 발표, 최종 발표

데이터

반도체 생산 공정 과정에서 발생한 센서 데이터 (UCI Machine Learning Repository, SECOM Data set)
- Time : 센서 정보가 기록된 시간
- 0 ~ 589 : 센서 번호
- Pass/Fail : 이상 여부

EDA - Imbalanced Data

라벨이 약 10:1의 비중으로 불균형하게 분포
먼저 기존 데이터의 모델 성능을 확인하고, 후에 성능 향상을 위한 다양한 방법론을 적용함

AS-IS (로지스틱 회귀)

정확도 : 0.89, 정밀도 : 0.11, 재현율 : 0.10, f1-score : 0.11, auc : 0.52

정확도를 제외한 모든 지표가 매우 낮아, 예측 모델로 사용하기에 부적합
정오 행렬과 히트맵을 출력해본 결과, 1을 1로 예측하는 비율이 매우 낮음

TO-BE (모델 성능 향상)

1. 불균형 데이터 처리를 위한 SMOTE 기법의 적용

성능 약간 상승 : 비록 정확도는 떨어졌을지라도, 재현율, F1-score, AUC가 이전에 비해 향상됨
하지만 여전히 낮은 정밀도와 재현율의 개선을 위 다양한 데이터마이닝 기법을 탐색함

2. 다양한 데이터마이닝 기법의 적용

SMOTE 적용 전 : KNN, RF, SVM, XGB, LGBM의 성능이 동일하게 93.63%
SMOTE 적용 후 : RF, XGB, LGBM의 성능이 동일하게 93.31% (KNN의 경우, 정확도가 떨어지는 모습도 보임)
SMOTE 기법이 유의미하지 않음
RF, XGB, LGBM 세 모델의 성능이 탁월함
SMOTE 기법을 적용하지 않은 랜덤 포레스트를 잠정적인 최종 모델로 선택함

3. GridSearch를 통한 최종 모델의 하이퍼 파라미터 수정

하이퍼 파라미터 조정 전과 후의 모델의 성능이 동일한 93.63%임
하이퍼 파라미터 조정이 유의미하지 않음
조정 전 랜덤 포레스트 모델 계속 선택함

4. 불균형 데이터 처리를 위한 GAN 기법의 적용

중요도 top 30의 변수만 포함한 데이터 파일을 생성하여 분석
- tgan_data: 열 번호는 랜덤 포레스트에서 중요도가 높다고 나온 변수의 오름차순
- Fail_data: tgan_data에서 Pass/Fail 열이 1에 해당하는 행만 저장한 데이터
GAN을 적용한 로지스틱 회귀 모델의 성능이 탁월하게 개선됨

💡 단순히 변수의 개수가 줄어서 모델의 성능이 좋아진 것은 아닐까?
‘uci-secom3’에 대해서도 로지스틱 회귀 분석을 실행한 결과, ‘uci-secom3’에 적용한 것은 원본 데이터인 ‘uci-secom’에 적용한 것보다 더 낮은 점수가 나온 것을 확인

5. GAN 기법과 SMOTE 기법의 혼합 적용

혼합 적용은 오히려 모델의 성능을 감소시켰음
따라서 GAN 데이터에 대해서 가장 성능이 높은 모델은 랜덤 포레스트와 Light GBM (93.63%)

결론 및 요약

기존 데이터에 적용한 로지스틱 회귀의 성능이 매우 낮음에 따라, 다양한 모델 성능 향상 기법을 적용하여 SMOTE 적용 전인 랜덤 포레스트 모델을 최종 선택하였음
해당 모델에서 중요 변수 상위 30개를 추출하여, 중요 변수로 구성된 데이터에 GAN을 적용, 모든 모델에 적합
최종 모델 : 랜덤 포레스트, Light GBM (93.63%)

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
DS2팀_중간발표.pdf		DS2팀_중간발표.pdf
DS2팀_최종발표.pdf		DS2팀_최종발표.pdf
DS2팀_프로포절발표.pdf		DS2팀_프로포절발표.pdf
Fail_data.csv		Fail_data.csv
README.md		README.md
tgan_data.csv		tgan_data.csv
uci-secom.csv		uci-secom.csv
uci-secom2.csv		uci-secom2.csv
uci-secom3.csv		uci-secom3.csv
uci-secom4.csv		uci-secom4.csv
uni-secom_final.ipynb		uni-secom_final.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Oversampling for Imbalanced Data with SMOTE & GAN

Summary

작업환경

데이터

EDA - Imbalanced Data

AS-IS (로지스틱 회귀)

TO-BE (모델 성능 향상)

1. 불균형 데이터 처리를 위한 SMOTE 기법의 적용

2. 다양한 데이터마이닝 기법의 적용

3. GridSearch를 통한 최종 모델의 하이퍼 파라미터 수정

4. 불균형 데이터 처리를 위한 GAN 기법의 적용

5. GAN 기법과 SMOTE 기법의 혼합 적용

결론 및 요약

About

Releases

Packages

Languages

Seohee-Kim/GAN-Oversampling

Folders and files

Latest commit

History

Repository files navigation

Oversampling for Imbalanced Data with SMOTE & GAN

Summary

작업환경

데이터

EDA - Imbalanced Data

AS-IS (로지스틱 회귀)

TO-BE (모델 성능 향상)

1. 불균형 데이터 처리를 위한 SMOTE 기법의 적용

2. 다양한 데이터마이닝 기법의 적용

3. GridSearch를 통한 최종 모델의 하이퍼 파라미터 수정

4. 불균형 데이터 처리를 위한 GAN 기법의 적용

5. GAN 기법과 SMOTE 기법의 혼합 적용

결론 및 요약

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages