Skip to content

(최*연)(강의노트 7장) PCA와 트리기반 모델 질문 #175

@choigiyeon

Description

@choigiyeon

PCA는 데이터의 분산을 최대한 보존하는 방향으로 차원을 축소하고 여러 특성들을 조합한 새로운 주성분으로 데이터를 표현한다고 알고있습니다. 또한 PCA를 활용하면 모델 훈련 비용을 줄이고 고차원 데이터의 문제를 완화할 수 있다고 이해했습니다.

그런데 랜덤 포레스트 같은 트리 기반 모델은 원래 특성값 자체를 기준으로 분할하면서 중요한 특성을 선택하는 방식으로 학습하는데 PCA를 적용해 원래 특성들이 여러 특성을 조합한 주성분 데이터로 변환되면 트리 모델 입장에서 원래 특성 기준의 분할 정보가 약해지거나 해석이 어려워져 오히려 성능이 감소할 수도 있을 것 같다는 생각이 들었습니다.

트리 기반 모델에서는 PCA 방식을 사용하는 것이 항상 도움이 되는지 아니면 모델 특성에 따라 성능이 오히려 감소하는 경우도 있는지 궁금합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions