GitHub - sodayeong/Boruta

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Boruta ver.R		Boruta ver.R
README.md		README.md
tutorial.ipynb		tutorial.ipynb

Repository files navigation

Boruta

https://sodayeong.tistory.com/219

모든 변수를 복사 ➔ shadow features or permuted copies.

원본 데이터의 독립 변수가 5개 미만인 경우 기존 변수를 복사본으로 만들어 5개 이상 만듦.

복사한 변수를 타겟 변수에 uncorrelated 하게 만들기 위해 랜덤하게 섞고 원 자료와 결합.
결합된 데이터와 원 데이터에 대해 랜덤포레스트 모형을 생성하고, Z-score를 계산.

[(각 트리에 대한 정확도 손실값 - 전체 트리의 정확도 손실의 평균) / 정확도 손실 표준편차]

shadow 변수들 중 가장 높은 Z-score를 찾는다. (MSZA, Max Z-score among shadow attributes)
원 자료에 대한 Z-score > MSZA인 경우 Hit +1 (이는 MZSA보다 클 때 중요한 변수를 표시하는 수단)

통계적으로 유의수준에서 Z-score < MSZA인 경우, 해당 피쳐를 중요하지 않은 피쳐로 드랍한다.
통계적으로 유의수준에서 Z-score > MSZA인 경우, 해당 피쳐를 중요한 변수로 둔다.

위의 과정을 랜덤포레스트가 수행되는 횟수만큼 또는 모든 변수들이 중요한 변수와 중요하지 않은 변수로 tagged 될 때까지 반복.

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages